SharedIT | 묻고 답하기(AMP)

AI 학습 데이터 파일 저장 및 공유할 수 있는 서버 문의

안녕하세요. 

AI 학습 데이터 서버를 알아보고 있는데 아는게 부족하여 도움을 구하고자 문의드립니다.


기능은 다음과 같습니다.

  • 1.AI 학습을 위한 수십만장의 이미지 데이터를 서버에서 보관

  • 2.재택 근무중인 라벨러(라벨 작업)들에게 이미지 데이터 파일을 공유(다운로드)

  • 3.라벨러들은 작업이 끝나면 다시 서버로 파일 업로드

  • 4.라벨러들이 업로드한 파일의 개수를 웹페이지로 모니터링(작업 진행사항 확인용)

  • 5.대량의 파일 보관필요 (약 50테라)

  • 6.리눅스로 운영


구체적인 컨셉은 고민중입니다. 생소한 일을 맡게 되어 쉽지 않네요.

금액은 약 1500만원까지 생각중인데 상용화된 서버가 있을까요?

조립 서버도 생각중인데 모니터링 프로그램이 있는지 찾아보고 있는데 잘나오지 않네요.



Tags : 태그가 없습니다.

4개의 답변이 있습니다.

Genghis Khan
  0 추천 | 약 2년 전

재택 근무자들 인원이 몇 명이고

하루 파일 업/다운로드 용량이 어떻게 되는지

체크 해보시구요

저 비용으로 한다면 Qnap,시놀로지로 50TB이상은

충분히 구축 가능합니다

단 내부 서버보다 DMZ구간에 두거나 외부망에

구축해서 최소한 트래픽을 감소할 수 있게 해줘야 합니다

업무시간 외에 파일 업/다운 해야하는 거죠

그리도 다른 방법은 클라우드로 구축인데요

파일서버 형태로 월 계산 비용 비교 (aws,azure)

해서도 고려해 보세요

 

쿨가이
  0 추천 | 약 2년 전

50TB정도 되고 추가 확장계획이 있다면 서버탑재보다는 SAN을 통한 서버-SAN-스토리지 방식이 더 안정적이지 않을까 추천드립니다.

서버스펙이 고민이시면. 서버에 탑재되는 솔루션 판매나 개발사측에  적정한 스펙 요청해서

해당 스펙으로 견적받아 보시는게 좋을 듯 합니다.

ejcha
  0 추천 | 약 2년 전 | 벨로스크 | 010-7441-8654
  • 1.50TB 하드 디스크가 달린 저렴한 리눅스 서버를 구매 또는 호스팅합니다. (이 사이트의 솔루션 상담실에 견적요청을 하면 금방 견적댓글이 달리지 않을까 싶습니다.)

  • 2.라벨러들이 SFTP 로 접속할 수 있도록 서버와 네트웍 환경을 구성합니다.
     

  • 3.각 라벨러에게 Linux 의 OS 계정을 하나씩 만들어 줍니다.

  • 4.각 계정의 홈디렉토리 아래에 download 와 upload 폴더를 만들어줍니다. (보안을 위해서 라벨러들이 서로의 폴더를 접근하지 못하게 폴더 권한을 설정하십시요)

  • 5.관리자 : 각 작업자의 download 폴더에 당일 날짜 폴더를 만들고 작업할 파일을 업로드합니다.

  • 6.라벨러 : 자기 download 폴더에서 다운을 받고, 라벨링 upload 폴더 아래에 작업날짜 폴더를 만들어 결과물을 업로드합니다. 이 때, upload 완료된 파일은 download 폴더에서 삭제를 합니다. (그래야 어느 파일이 라벨링 완료 되었는 지를 정확히 알 수 있기 때문입니다)

  • 7.하루 또는 한 시간에 한 번 배치를 돌려서 각 디렉토리의 파일 갯수를 DB 에 기록합니다. (데이터량이나 부하량 모두 많지 않으므로 기존 보유하고 있는 DB를 활용해도 될 것입니다.)

  • 8.파일 갯수가 기록된 DB 를 조회하는 간단한 웹 프로그램을 만들어서 진행상황을 조회합니다.


topkslee | 약 2년 전

자세한 설명 도움되었습니다

wansoo
  0 추천 | 약 2년 전

재택 근무중인 사람들과 공유할 수 있는 저장 장치라면...

웹 하드나 클라우드 같은 웹으로 접근 가능한 저장 장치를 이용해야 할 것 같아 보이네요.

작고 많은 수의 이미지 파일에 고용량 저장 장치라면...

오브젝트 스토리지가 맞지 않을까 싶어 보이고...

비용을 1500 정도로 생각한다면...

구축형으로 초기 투자 비용으로 1500 정도일것 같은데...

월 또는 년간 사용료를 지불하는 서브스크립션 형태와는 맞지 않을 것 같고...

50T 용량에 웹 서비스까지 되는 스토리지로 1500이면 상용 솔루션으로 하기에는 낮은 금액이 아닐까 싶어 보이고요.


오픈 소스 오브젝트 스토리지를 사용해 보면 어떨까 싶어 보이네요.


오브젝트 스토리지를 직접 사용해 본게 아니다 보니, 구체적으로 어떻다 말하기는 어렵지만...


다수의 작은 파일들을 저장하는 고용량에, 여러곳의 분산된 위치에서 접근해서 사용하는 형태의 작업을 기존 방식의 저장 장치로는 여러가지 문제점이 생길걸로 보여지네요.


모니터링은...

어떤 방식으로 하기를 원하는지 모르겠지만..

자동으로 이미지 파일을 체크해서 라벨 작업이 되어 있는지 없는지까지 확인해서,

세세하게 전체 파일 몇개, 라벨된 파일 몇개, 안된 파일 몇개 라든지, 작업자별로 상태를 자동으로 표시하려면 전용 관리 시스템을 별도로 만들어야 가능할 걸로 보이고요.


저장 공간을 사용자 별로 만든다 거나, 작업 전후 공간을 분리해서 완료된 파일을 작업 후 파일에 옮겨 저장하는 형태로 작업을 진행하게 한다면, 저장 공간별로 모니터링해서 작업 현황을 체크할 수 있을 걸로 보여지고요.


인터넷으로 오픈 소스 오브젝트 스토리지 검색해 보니 많이 나오는 것 같네요.

참고로 검색해 본 결과 한개만 링크 걸어 봅니다.

4 Open Source Object Storage Platforms for 2021 : https://betterprogramming.pub/4-open-source-object-storage-platforms-for-2021-ceeaceb7e273


hyjung | 약 2년 전

아래 링크에 나와있는 것처럼 대시보드 형태에서 관리하고 싶습니다.

말씀해주신 오브젝트 스토리지 방식으로 구현해 보는게 맞을까요?

https://www.datamaker.io/services/data_visualization/