안녕하세요. A100 40G에서 첨부된 파일의 메시지와 같이 나타나는 현상이 무엇인지 문의 드립니다.
사용중인 서버에서 A100 40G
●로그 기록 중 마지막 라인에 ECC error 발생
●Gpu 사용량 확인을 위해 `nvidia-smi` 명령어를 사용해서 확인
●ECC 값이 0에서 1로 증가
●ECC 관련 기록은 `nvidia-smi -q` 명령어를 사용해서 확인
●ECC 쪽 SRAM부분에서 Error Count 증가
●드라이버 문제인 것 같아 재설치 및 재부팅 후에 테스트 시도
●같은 Error 발생
●ECC를 비활성화 후 테스트 시도
●같은 Error 발생
ERROR 발생전에는
nvidia-smi -q를 입력 하면
Error 발생 후
nvidia-smi -q를 입력 하면
ECC Errors
SRAM Correctable 1 / SRAM Uncorrectable SEC-DED에서 1
그리고 SRAM Uncorrectable SEC-DEC 12
SRAM SM 12가 표시되는데 무엇을 의미 하는것인지요?
혹시 몰라서 장비 바꿔서 에서 테스트 했을때는 nvidia-smi -q를 입력 하면
에레 메시지는 없고
SRAM Uncorrectable SEC-DEC 12 / SRAM SM 12표기만되고 있습니다.
해당 메시지가 의미 하는것
고수님들 해당 내용 부탁 드립니다.
8개의 답변이 있습니다.
아래 발췌한 부분은 동일한 모델에서 나온 메시지에 대한 내용 입니다.
ECC
: Error Correcting Code○메모리의 기능 중 하나를 나타내는 것인데, ECC는 데이터 저장 장치나 메모리 시스템에서 발생하는 에러를 검출하고 수정하는 기술
●즉, Uncorrectable ECC 에러는 ECC 기능이 오류를 검출하고 수정하지 못한 경우를 의미함.
●따라서 메모리에서 발생한 오류가 ECC로는 복구할 수 없는 상태라는 것을 의미.
●Uncorrectable ECC 에러가 발생하는 경우, 일반적으로 해당 GPU 카드를 교체하거나 기술 지원을 받아서 처리해야함
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입다변 참고 하겠습니다.
저희도 도입 진행 중이어서
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입보통 correctable error 는 내부적으로 오류를 수정이 가능한 논리적인 error 의 가능성이 크고,
uncorrectable error 는 오류 수정이 불가능 한 error 이기 때문에 이럴 경우에는
H/W 장애로 특정 error count (vendor / 부품 마다 다름) 를 넘어설 경우
A/S 가 필요합니다.
답변 감사드립니다.
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입ECC 오류는 하드웨어, 물리적인 원인으로 인해 발생하는 오류가 아닐까 싶네요.
강한 노이즈 신호나 하드웨어 고장 등등으로 인한 원인일 것으로 추정되네요.
부품 교체나 A/S를 받아 보는게 좋을 걸로 보이네요.
답변 감사드립니다.
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입하드웨어 구매한 워런티 끝나셨나요?? 안끝나셨으면 벤더사에 로그 전달 하시면서 문의해보셔요
ilo 접속하셔서 im(integrated mamg log)과 ahs(active health sys log) 로그파일 추출하시면 됩니다.
아마 gpu 하드웨어 문제라 교체 또는 A/S 진행 될 확률이 높습니다.
워런티 남아있으면 교체 진행해줄거고 안남아있으면 벤더사와 논의 해보시는 게 좋을 듯 합니다.
답변 감사드립니다.
댓글 남기기
답변을 작성 하시려면 로그인이 필요합니다.
로그인 회원가입