DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 이 회사는 강력한 Deepseek V3 Neural Network를 2048 GPU 만 사용하여 6 백만 달러에 불과한 경쟁 업체를 크게 약화 시켰다고 주장합니다. 그러나이 수치는 오해의 소지가 있습니다.
이미지 : ensigame.com
DeepSeek V3는 혁신적인 기술을 활용합니다. 정확도와 효율성을 높이기 위해 MTP (Multi-Token Prediction) ; 256 개의 신경망을 활용하여 교육을 가속화하고 성능을 향상시키는 전문가 (MOE) ; 그리고 MLA (Multi-Head Sentent Arection) 중요한 문장 요소에 중점을 두어 정보 손실을 최소화합니다.
이미지 : ensigame.com
Semianalysion은 초기 청구와는 달리 Deepseek의 광범위한 인프라를 밝혀 냈으며, 여러 데이터 센터에서 약 50,000 개의 NVIDIA HOPPER GPU를 포함하여 약 16 억 달러의 총 투자와 9 억 9,400 만 달러의 운영 비용을 나타냅니다. 여기에는 직원에 대한 상당한 투자가 포함되며 일부 연구자들은 매년 130 만 달러 이상을 벌고 있습니다.
이미지 : ensigame.com
중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 데이터 센터를 소유하여 더 큰 통제력과 더 빠른 혁신 구현을 제공합니다. 이 자체 지원 접근법은 민첩성에 기여합니다. 6 백만 달러는 연구, 개선, 데이터 처리 및 인프라를 제외한 사전 훈련 GPU 비용 만 반영합니다. AI 개발에 대한 DeepSeek의 실제 투자는 5 억 달러를 초과합니다.
이미지 : ensigame.com
DeepSeek의 성공은 상당한 투자, 기술 발전 및 숙련 된 팀에서 비롯되지만 "예산 친화적 인"이야기는 지나치게 단순화됩니다. 그러나 수정 된 수치에도 불구하고 DeepSeek의 비용은 경쟁 업체와 비교할 때 여전히 창백합니다. 예를 들어, DeepSeek의 R1 모델은 훈련하는 데 5 백만 달러, ChatGpt-4는 1 억 달러가 들었습니다. 그러나 회사의 효율성과 집중 구조는 상당한 투자에도 불구하고 업계 거인과 효과적으로 경쟁 할 수있게 해줍니다.