DeepSeek의 놀랍도록 저렴한 AI 모델은 업계 거인에게 도전합니다. 중국의 신생 기업은 강력한 Deepseek V3 Neural Network를 2048 GPU 만 사용하여 경쟁 업체를 크게 약화 시켰다고 주장했다. 그러나이 저렴한 비용은 훨씬 더 많은 투자에 달려 있습니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 효율성에 기여합니다. 주요 기술에는 동시 단어 예측을위한 다중 점화 예측 (MTP), 가속화 된 훈련을 위해 256 개의 신경망을 사용하는 전문가 혼합 (MOE) 및 정보 추출 개선을위한 다중 헤드 잠재주의 (MLA)가 포함됩니다.
이미지 : ensigame.com
그러나 Semianalysis 보고서에 따르면 훨씬 더 큰 인프라가 나타납니다. 약 50,000 NVIDIA GPU, 약 16 억 달러의 비용이 1,440 만 달러에 이르렀습니다. 이는 연구, 개선, 데이터 처리 및 전반적인 인프라를 제외한 사전 훈련 GPU 사용 만 반영하는 공개 6 백만 달러의 교육 비용과 크게 대조됩니다.
Deepseek의 독립성과 효율적인 구조 인 High-Flyer Hedge Fund의 자회사는 성공의 열쇠입니다. 데이터 센터를 소유하면 최적화 된 모델 개발과 빠른 혁신이 가능합니다. 회사의 셀프 펀딩 및 린 구조는 또한 민첩성에 기여합니다. 일부 연구자들에게 매년 130 만 달러를 초과하는 높은 급여는 중국 대학의 최고의 인재를 유치합니다.
이미지 : ensigame.com
DeepSeek의 6 백만 달러의 청구는 오도의 소지가 있지만, 실제 투자는 5 억 달러를 초과하는 실제 투자는 여전히 경쟁 업체에 비해 상당한 비용의 이점을 나타냅니다. 이 회사의 R1 모델은 훈련하는 데 5 백만 달러의 비용이 들었고 ChatGpt-4는 1 억 달러가 들었다고합니다. Deepseek의 성공은 "예산 친화적 인"이야기 자격이 필요하지만 잘 자금을 지원하고 독립적 인 AI 회사의 경쟁 잠재력을 강조합니다.
이미지 : ensigame.com
결론적으로, DeepSeek의 경쟁 우위는 상당한 투자, 기술 혁신 및 고도로 숙련 된 팀의 조합에서 비롯됩니다. 그러나 수정 된 수치에도 불구하고 비용은 경쟁 업체의 비용보다 훨씬 저렴합니다.