DeepSeek令人驚訝的廉價AI模型挑戰了行業巨頭。這家中國初創公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,大大削弱了競爭對手,僅需600萬美元。然而,這似乎很低的成本掩蓋了更多的投資。
圖像:ensigame.com
DeepSeek V3的創新架構有助於其效率。關鍵技術包括用於同時單詞預測的多態預測(MTP),使用256個神經網絡的專家(MOE)進行加速訓練的混合物(MOE)以及多頭潛在注意(MLA)(MLA),以改善信息提取。
圖像:ensigame.com
但是,一份半分析報告顯示,基礎設施大得多:約有50,000名NVIDIA GPU,耗資約16億美元,運營費用接近9.44億美元。這與公開的600萬美元培訓成本形成鮮明對比,這僅反映了培訓前的GPU使用情況,不包括研究,改進,數據處理和整體基礎設施。
DeepSeek的獨立性和高效結構是高級對衝基金的子公司,是其成功的關鍵。擁有其數據中心可以優化模型開發和快速創新。公司的自籌資金和精益結構也有助於其敏捷性。對於一些研究人員來說,高薪高薪,每年超過130萬美元,吸引了中國大學的頂尖人才。
圖像:ensigame.com
盡管DeepSeek的600萬美元索賠具有誤導性,但與競爭對手相比,其實際投資超過5億美元仍然代表了巨大的成本優勢。該公司的R1型號的培訓花費了500萬美元,而Chatgpt-4據說耗資1億美元。 DeepSeek的成功強調了一家資金充足,獨立的AI公司的競爭潛力,盡管其“預算友好”的敘述需要資格。
圖像:ensigame.com
總之,DeepSeek的競爭優勢源於大量投資,技術創新和高技能的團隊的結合,而不僅僅是培訓預算非常低。但是,即使有了校正的數字,其成本仍然大大低於其競爭對手的成本。