시크 R1에서 가장 큰 모델인

test 25-02-27 13:18 25 0

이미 H20이나 4090을 여러 대 묶어 사용할 경우 딥시크 R1에서 가장 큰 모델인671B모델을 사용할 수 있다는 사실이 중국 내로 퍼져나갔다.

8장의 H20이 있다면 딥시크 R1을 활용할 수 있다고 알려졌지만.

칭화대 연구진은 4090 GPU 한 대로 딥시크 R1의 최고 모델인 671B를 사용할 수 있다고 발표해 이목을.

이 센터는 베이징 인근 지역에서 딥시크모델을 전면 도입한 첫 시설이 된다.

센터에는 화웨이가 국내에서 구축한 300-PFlop 인프라가 설치돼 있어 초당 300조 번의 연산이 가능하다.

딥시크는 최대671B파라미터 시스템과 6개의 간소화 버전을 제공해, 기업들이 고가의 자체 서버 없이도 즉시 활용할 수 있게.

경쟁모델의 컴퓨팅 사용량을 훨씬 능가한다.

참고로, GPT‑3(175B 매개변수)는 엔비디아 V100s에서 약 300만 GPU-시간, 메타의 라마(Llama) 3.

1(405B 매개변수)은 고성능 엔비디아 H100‑80GB GPUs를 사용해 약 3100만 GPU-시간, 그리고 딥시크 V3(671B매개변수)는 엔비디아 H800 GPUs에서 약 280만 GPU-시간을.

671B(6710억 파라미터) 규모의 '말 알바트로스(MAAL-Albatross)' 출시에 이어 최근 잇달아 대형 기대작 출시에 나섰다.

장기적인 성장 가능성을 입증하는.

특히, 마음AI의 세 종류 파운데이션모델'SUDA', 'MAAL', 'WoRV'를 탑재해 사람처럼 대화하고, 생각하며, 움직이는 로봇 '에이든'을 상용화해 국내 및 해외에.

마음AI는 최근671B규모의 '말 알바트로스(MAAL-Albatross)' 출시와 더불어 전문적인 안내가 가능한 자율주행 로봇 '에이든'을 선보였다.

https://www.raind.co.kr/

마음AI는 해당 기술을 실용화하며 농업 분야의 디지털 전환을 가속화하고, 이를 통해 새로운 수익모델창출 가능성을 높이고 있다.

딥시크는 작년 12월 말 매개변수(parameter) 6710억개(671B) 규모의 대형모델'딥시크 V3'를 공개했고, 저번달 20일 V3를 기반으로 하는 2가지메인모델'딥시크 R1', '딥시크 R1-제로' 및 자체 미세조정(Fine-tunning)모델을 공개한 바 있다.

딥시크 V3는 공개 당시 테크니컬 리포트에서 2048개에 불과한 엔비디아.

671B 모델은 수백 기가바이트의 메모리가 필요해 PC 수준에서 사용해 보기 어렵지만 경량화된 모델들은 일반적인 PC용 그래픽카드나 신경망처리장치(NPU)를 사용해 구동할 수도 있다.

경량화된 '딥시크 R1 디스틸' 모델을 사용하는 데 가장 편리한 방법으로는 'LM 스튜디오(LM Studio)' 등의 툴을 사용하는.

업스테이지 관계자는 "R1의 경우671B(약 6710억개) 파라미터 규모의모델이지만 솔라 프로는 거의 30배 적은 22B(약 220억개) 파라미터만으로 이런 성능을 냈다.

딥시크 방식을 벤치마킹하면 더욱 폭발적인 고도화가 가능하다는 것"이라고 했다.

이어 "AI 개발 기술력은 있지만 GPU는 부족했던 기업들에게.

다만 일각에서는 딥시크의 보안문제를 우려하는 목소리도 나온다.

장동인 카이스트(KAIST) AI대학원 책임교수는 “딥시크의 대형모델(671B)은 용량이 커서 자사 서버에 접속해야만 사용할 수 있는데, 이 과정에서 모든 데이터를 중국 측에 넘겨주게 된다”며 “이는 굉장히 위험한 일”이라고 경고했다.

장동인 KAIST AI대학원 책임교수는 31일 "기업들이 주로 쓰게 될 딥시크의 대형모델(671B)은 용량이 커서 자사 서버에 접속해야만 사용할 수 있는데, 이 과정에서 모든 데이터를 중국 측에 넘겨주게 된다"며 "이는 굉장히 위험한 일"이라고 경고했다.

개인들이 사용하는 70B 이하 소형모델은 PC에 직접 내려받아.

댓글목록

등록된 댓글이 없습니다.

수정 삭제 이전 목록 다음 답변 글쓰기