하드웨어 #gpu

A100 40G 나타난 메시지가 무엇을 의미 하는지요?

안녕하세요. A100 40G에서 첨부된 파일의 메시지와 같이 나타나는 현상이 무엇인지 문의 드립니다. 


사용중인 서버에서 A100 40G

  • 로그 기록 중 마지막 라인에 ECC error 발생

  • Gpu 사용량 확인을 위해 `nvidia-smi` 명령어를 사용해서 확인

  • ECC 값이 0에서 1로 증가

  • ECC 관련 기록은 `nvidia-smi -q` 명령어를 사용해서 확인

  • ECC 쪽 SRAM부분에서 Error Count 증가


  • 드라이버 문제인 것 같아 재설치 및 재부팅 후에 테스트 시도

  • 같은 Error 발생

  • ECC를 비활성화 후 테스트 시도

  • 같은 Error 발생

ERROR 발생전에는



nvidia-smi -q를 입력 하면



Error 발생 후



nvidia-smi -q를 입력 하면




ECC Errors 

SRAM Correctable 1 / SRAM Uncorrectable SEC-DED에서 1


그리고 SRAM Uncorrectable SEC-DEC 12

SRAM SM 12가 표시되는데 무엇을 의미 하는것인지요?


혹시 몰라서  장비 바꿔서 에서 테스트 했을때는 nvidia-smi -q를 입력 하면





에레 메시지는 없고 

SRAM Uncorrectable SEC-DEC 12 / SRAM SM 12표기만되고 있습니다. 


해당 메시지가 의미 하는것


고수님들 해당 내용 부탁 드립니다.

서버벨은 거의 모든 브랜드의 서버, 네트워크장비, 파트 및 옵션을 운영하고 있습니다.

Sponsored http://www.serverbells.com

서버벨은 HP, DELLEMC, IBM, LENOVO, CISCO, FUJITSU, ARISTA, ARUBA 등 전반적인 IT브랜드 신품/리퍼 재고를 유지 및 서버/스토리지/네트워크/옵션/파트 등을 전문적으로 운영하는 기업입니다.

자세히 보기

8개의 답변이 있습니다.

0 추천 | 8달 전

아래 발췌한 부분은 동일한 모델에서 나온 메시지에 대한 내용 입니다. 

  • ECC : Error Correcting Code
  • 메모리의 기능 중 하나를 나타내는 것인데, ECC는 데이터 저장 장치나 메모리 시스템에서 발생하는 에러를 검출하고 수정하는 기술

  • 즉, Uncorrectable ECC 에러는 ECC 기능이 오류를 검출하고 수정하지 못한 경우를 의미함.

  • 따라서 메모리에서 발생한 오류가 ECC로는 복구할 수 없는 상태라는 것을 의미.

  • Uncorrectable ECC 에러가 발생하는 경우, 일반적으로 해당 GPU 카드를 교체하거나 기술 지원을 받아서 처리해야함

Reply

댓글 남기기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

0 추천 | 8달 전

다변 참고 하겠습니다.

저희도 도입 진행 중이어서

Reply

댓글 남기기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

0 추천 | 8달 전

보통 correctable error 는 내부적으로 오류를 수정이 가능한 논리적인 error 의 가능성이 크고,

uncorrectable error 는 오류 수정이 불가능 한 error 이기 때문에 이럴 경우에는

H/W 장애로 특정 error count (vendor / 부품 마다 다름) 를 넘어설 경우

A/S 가 필요합니다. 

Reply

게시글 작성자 | 8달 전

답변 감사드립니다. 

Reply

댓글 남기기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

1st 5stars

0 추천 | 8달 전

ECC 오류는 하드웨어, 물리적인 원인으로 인해 발생하는 오류가 아닐까 싶네요.

강한 노이즈 신호나 하드웨어 고장 등등으로 인한 원인일 것으로 추정되네요.

부품 교체나 A/S를 받아 보는게 좋을 걸로 보이네요.

Reply

게시글 작성자 | 8달 전

답변 감사드립니다. 

Reply

댓글 남기기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

0 추천 | 8달 전

하드웨어 구매한 워런티 끝나셨나요?? 안끝나셨으면 벤더사에 로그 전달 하시면서 문의해보셔요

ilo 접속하셔서 im(integrated mamg log)과 ahs(active health sys log) 로그파일 추출하시면 됩니다.


아마 gpu 하드웨어 문제라 교체 또는 A/S 진행 될 확률이 높습니다. 

워런티 남아있으면 교체 진행해줄거고 안남아있으면 벤더사와 논의 해보시는 게 좋을 듯 합니다.

Reply

게시글 작성자 | 8달 전

답변 감사드립니다. 

Reply

댓글 남기기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

답변 달기

답변을 작성 하시려면 로그인이 필요합니다.

로그인 회원가입

IT 솔루션 또는 하드웨어 도입을 검토 중 이신가요?

쉐어드IT 솔루션 상담실에서 믿을 수 있는 제품과 업체를 추천 받으실 수 있습니다.

솔루션 상담실 IT 컨시어지 서비스

하드웨어 카테고리의 다른 질문들...

  • 4일 전
  • 댓글 : 3일 전
  • 2달 전
  • 댓글 : 약 한 달 전
  • 2달 전
  • 댓글 : 2달 전
  • 3달 전
  • 댓글 : 3달 전
  • 4달 전
  • 댓글 : 4달 전
  • 4달 전
  • 댓글 : 4달 전