안녕하세요. 고수님들께 문의 사항이 있어 글 올립니다.
1.서버 : DL380a GEN11 (2CPU)
2.환경 : 우분투 22.04
3.GPU : H100 * 2EA
4.내용
H100 2장을 각각의 슬롯에 맞게 장착하였고
테스트 프로그램 1장, 1장씩 돌리면 처리 속도가 빠른데
2장을 동시 돌리면 처리 속도가 늦어 지고 있습니다.
장착된 서버에 PCIe 슬롯의 속도는 x16인데 한개는 정상적으로 x16으로 나타나는데
LnkCap : port #0. speed 32GT/s, Width x16 나오는데
LnkSta : speed 32GT/s (ok), Width x8 (downgraded) 나오는데 변경 방법이 있는지요?
ㅣ
다른 장비는 정상적으로 작동하고 있습니다.
ㅇ처리 방법 부탁 드립니다.
8개의 답변이 있습니다.
두개 장치가 동일한 IRQ ( Interrupt Request ) 사용으로 인터럽트 충돌이 있는 상태이네요.
인터럽트 충돌로 충분한 대역폭을 확보하지 못해서 x8로 다운그레이드 된 걸로 보이고요.
인트럽트 번호를 수정해서 인터럽트 충돌 문제를 해결해야 할 것 같네요.
BIOS 설정에서 해당 PCIe 장치에 대한 IRQ를 수정해주거나 Linux 장치 설정 변경 처리로 충돌나는 장치에 대한 IRQ 값을 수정해 주면 될 것 같네요.
해당 서버 F9 클릭 하고 들어가면 바이오스 모드 진입인데
IRQ 설정을 어디서 해주면 되는지요?
아래 링크 자료들을 참조하면 도움이 될 수 있을 것 같네요.
https://m.cafe.daum.net/sccid/ETSO/36
https://m.blog.naver.com/sixman911/140031279050
https://kbench.com/?q=node/3269
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입설정 문제 일수도 있으나, 확인하는데 소요되는 시간을 감안한다면 더 전문적인 서버제조사인 HP에 문의 해보시는게 제일 빠를듯 합니다.
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입설정 문제 일수도 있으니 확인 해보시기 바랍니다.
NVIDIA 같은 경우는 nvidia-smi 란 명령어로 설정값을 확인할 수 있고요.
compute mode 또는 Compute M 이 exclusive 모드로 되어 있어야 합니다.
compute mode를 exclusive 모드로 하면 한개 이상의 JOB이 하나의 GPU에서 설정되어 실행되지 않도록 하는 것 입니다.
즉, 2개 이상의 JOB을 돌려도 exclusive 모드가 설정이 안되어 있으면 하나의 GPU에서 돌아가므로 결과적으론 빠르지 않게 느낄 수 밖에 없는 것입니다.
이외에도 num-jobs-initial, num-jobs-final 등의 설정을 확인 해보시기 바랍니다.
NVIDIA 설정에 대한 설명은 아래 URL을 참고해 보시기 바랍니다.
https://hukeke.tistory.com/entry/ubuntu-NVIDIA-GPU-%EC%83%81%ED%83%9C-%ED%99%95%EC%9D%B8
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입서버제조사인 HP에 문의 해보시는게 제일 빠를듯 합니다.
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입위와 같은 문제가 HPE쪽에 문의된게 있는데,
슬롯때문인거 같은데, 한번 참고해보시면 되겠습니다.
아니면 장비 구매한 총판이나 파트너사에 문의하면 해결될 것 같습니다.
https://community.hpe.com/t5/proliant-servers-ml-dl-sl/dl380-g5-pci-e-8x-device-in-a-16x-slot/td-p/5166354
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입1.메뉴얼을 찾아보니 NVIDIA H100 Interface : PCIExpress Gen5 X16 , Gen5 X8 , Gen6 X16 이렇게 나와 있습니다. 각 슬롯에 위치에 따라 속도가 다를것 같고 로그를 보니 LinkCap , LinkSta에 각각 연결이 되어있으니 LinSta를 LinkCap2 Slot에 연결 해보세요
2.PICExpress X16 라이저카드가 있더라구요 해당 사항은 HPE사나 구입 총판쪽에 문의를 해보셔서 장착이 가능한 라이저 카드 요청을 해보세요
3. Bios나 iLO에서 설정이 가능한지 체크해서 downgrade를 upgrade가 가능한지 체크해 보시구요
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입