SharedIT | 묻고 답하기(AMP)

HP DL380a GEN11 에서 A100 80G 설치 하기

안녕하세요. 


HP DL380a GEN11 에서 A100 80G 설치 하기 하려고 합니다. 


운영체제 : 우분트 20.04

서버 : HP DL380a GEN11 에서 A100 80G 설치하면 

A100 80G 드라이브가 계속해서 실패가 뜨는 왜 그런것인가요?


계속해서 실패가 뜨고 


설치 프로그램을 돌리면 


ERROR: Unable to load the kernel module 'nvidia.ko'.  This happens most frequently when this

         kernel module was built against the wrong or improperly configured kernel sources, with a

         version of gcc that differs from the one used to build the target kernel, or if another

         driver, such as nouveau, is present and prevents the NVIDIA kernel module from obtaining

         ownership of the NVIDIA device(s), or no NVIDIA device installed in this system is

         supported by this NVIDIA Linux graphics driver release.


         Please see the log entries 'Kernel module load error' and 'Kernel messages' at the end of

         the file '/var/log/nvidia-installer.log' for more information.


이런 메시지까 뜨는데 어떻게 해야 하는지요. 


고수님들 부탁 드립니다. 


Tags : 태그가 없습니다.

4개의 답변이 있습니다.

Genghis Khan
  0 추천 | 약 한 달 전

아래 내용에 보면 Not support 라고 되어 있는데요 HPE 사에 다시한번 확인해 보시는게 좋을것 같습니다

deerokgo
  0 추천 | 약 한 달 전

드라이버 충돌로 보입니다.

설치 또는 사용하는 드라이버가 맞지 않아서 나오는 현상으로 판단이 되고요.

해당 드라이버를 blacklist 처리 해야 합니다.

과정을 Step으로 설명 드리면,

  • 1.드라이버 충돌 여부 확인 : lspci -k. .

  • 2.파일 생성해서 blacklist 정보 생성

  • 3.생성된 파일 적용

  • 4.리부팅

위 순서로 하시면 될거 같습니다.

아래는 관련된 명령어 입니다.

  • 1. lspci -k

  • 2. /etc/modprobe.d/nvidia.conf 파일 생성 

  • 3.해당 파일에 내용 추가 : blacklist <driver you found> 여기서 드라이버는 1번에서 나온 것 입니다

  • 4.initramfs 를 빌드 : update-initramfs -u

  • 5.리부팅

위 순서 따라서 해보시기 바랍니다.

성공 하시길요~

앵그리파파
  0 추천 | 약 한 달 전

이 문제는 NVIDIA 그래픽 드라이버 설치 중 발생한 것으로 보입니다. 아래 방법과 같이 확인해보세요.

1.먼저 시스템에 필요한 커널 헤더 및 개발 도구가 설치되어 있는지 확인하세요. NVIDIA 드라이버는 커널 모듈을 빌드하기 위해 이러한 도구를 필요로 합니다. 


  • NVIDIA 드라이버가 올바르게 빌드되었는지 확인하세요. 때때로 GCC 버전과 호환되지 않을 수 있습니다.

2.Nouveau는 오픈 소스 NVIDIA 그래픽 드라이버입니다. 그러나 때때로 NVIDIA의 공식 드라이버와 충돌할 수 있습니다. 다음과 같이 Nouveau를 비활성화하고 NVIDIA 드라이버를 설치하세요.

  • 먼저 etc 아래 modprobe.d 아래 blacklist.conf 파일을 열고 다음 줄을 추가하세요.

  • 그런 다음 initramfs를 업데이트 하세요.


  • 시스템을 다시 부팅한 후 NVIDIA 드라이버를 설치합니다.

마지막으로 var 아래 log 아래 nvidia-installer.log 파일을 확인하여 자세한 오류 메시지를 찾아보세요. 이 파일은 NVIDIA 설치 과정 중에 생성되는데 무엇이 잘못되었는지에 대한 추가 정보를 제공합니다.

wansoo
  0 추천 | 약 한 달 전

NVIDIA 장치 드라이버와 우분투 커널 모듈간에 충돌이 있는 걸로 보이네요.

커널 설정의 문제인지, 호환성의 문제인지 등을 더 확인해서 설정 값을 조정해 주거나 아니면 커널의 버전을 업그레이드나 다운그레이드 등을 검토해 보아야 하지 않을까 싶네요.


좀 더 자세한 내용은

cat '/ var/log/nvidia-installer.log'

명령을 이용해서 설치중 발생한 로그 정보를 참고해 보는게 좋겠고요.

NVIDIA나 A100을 판매한 곳의 엔지니어를 통해서 기술 지원을 받아 보는게 좋지 않을까 싶어 보이네요.

wansoo | 약 한 달 전

위 답글에서 shareIT 게시판 글쓰기 오류가 생겨서...


cat '/ var/log/nvidia-installer.log'


명령에서 /와 var 사이에 빈칸을 넣어서 글 등록 오류를 피했는데...


로그 확인을 위한  명령을 실행할때는 cat /var ... 처럼 /다음에 빈칸을 제거하고 명령을 입력해야 합니다.