O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A startup chinesa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, subcotando significativamente os concorrentes. Esse custo aparentemente baixo, no entanto, esconde um investimento muito mais substancial.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 contribui para sua eficiência. As principais tecnologias incluem previsão de vários toques (MTP) para previsão simultânea de palavras, mistura de especialistas (MOE) empregando 256 redes neurais para treinamento acelerado e atenção latente de várias cabeças (MLA) para melhorar a extração de informações.
imagem: ensigame.com
No entanto, um relatório de semiânica revela uma infraestrutura muito maior: aproximadamente 50.000 GPUs da NVIDIA, custando cerca de US $ 1,6 bilhão, com despesas operacionais quase 944 milhões. Isso contrasta acentuadamente com o custo de treinamento divulgado de US $ 6 milhões, que apenas reflete o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura geral.
A independência e a estrutura eficiente da Deepseek, uma subsidiária do High-Flyer Hedge Fund, são essenciais para o seu sucesso. A propriedade de seus data centers permite o desenvolvimento otimizado de modelos e a inovação rápida. O autofinanciamento e a estrutura enxuta da empresa também contribuem para sua agilidade. Altos salários, excedendo US $ 1,3 milhão anualmente para alguns pesquisadores, atraem os melhores talentos das universidades chinesas.
imagem: ensigame.com
Embora a reivindicação de US $ 6 milhões da Deepseek seja enganosa, seu investimento real superior a US $ 500 milhões ainda representa uma vantagem de custo significativa em comparação aos concorrentes. O modelo R1 da empresa custou US $ 5 milhões para treinar, enquanto o ChatGPT-4 custou US $ 100 milhões. O sucesso da DeepSeek destaca o potencial competitivo de uma empresa de IA independente e bem financiada, embora sua narrativa "fácil de econômica" precise de qualificação.
imagem: ensigame.com
Em conclusão, a vantagem competitiva de Deepseek decorre de uma combinação de investimento substancial, inovação tecnológica e uma equipe altamente qualificada, em vez de apenas de um orçamento de treinamento notavelmente baixo. No entanto, mesmo com os números corrigidos, seus custos permanecem significativamente menores do que os de seus concorrentes.