Удивительно дешевые модели ИИ Deepseek бросают вызов гигантам отрасли. Китайский стартап утверждает, что обучил свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя только 2048 графических процессоров, что значительно подорвало конкурентов. Это, казалось бы, низкая стоимость, однако, противоречит гораздо более существенным инвестициям.
Изображение: Ensigame.com
Инновационная архитектура DeepSeek V3 способствует его эффективности. Ключевые технологии включают многократный прогноз (MTP) для одновременного прогнозирования слов, смеси экспертов (MOE), использующих 256 нейронных сетей для ускоренного обучения и многопользовательского скрытого внимания (MLA) для улучшения извлечения информации.
Изображение: Ensigame.com
Тем не менее, отчет о семианализе выявляет гораздо большую инфраструктуру: приблизительно 50 000 графических процессоров NVIDIA, стоимостью около 1,6 млрд. Долл. США, при этом эксплуатационные расходы приведут к 944 млн. Долл. США. Это резко контрастирует с опубликованными затратами на обучение в размере 6 миллионов долларов, что отражает только предварительное использование графического процессора, исключая исследования, уточнение, обработку данных и общую инфраструктуру.
Независимость и эффективная структура Deepseek, дочерняя компания Хедж-фонда с высоким содержанием флайта, являются ключом к его успеху. Владение его центрами обработки данных позволяет обеспечивать оптимизированную разработку модели и быстрые инновации. Самофинансирование и бережливая структура компании также способствуют его ловкости. Высокая заработная плата, превышающая 1,3 миллиона долларов в год для некоторых исследователей, привлекает лучших талантов из китайских университетов.
Изображение: Ensigame.com
Хотя требование Deepseek в 6 миллионов долларов вводит в заблуждение, его фактические инвестиции в 500 миллионов долларов по -прежнему представляют собой значительное преимущество в затрат по сравнению с конкурентами. Модель компании R1 стоила 5 миллионов долларов на обучение, в то время как CHATGPT-4, как сообщается, стоит 100 миллионов долларов. Успех DeepSeek подчеркивает конкурентный потенциал хорошо финансируемой независимой компании по искусственному искусству, хотя ее «удобная» повествовательная квалификация нуждается в квалификации.
Изображение: Ensigame.com
В заключение, конкурентное преимущество Deepseek проистекает из сочетания существенных инвестиций, технологических инноваций и высококвалифицированной команды, а не исключительно удивительно низкого обучения. Однако даже при скорректированных цифрах его затраты остаются значительно ниже, чем у его конкурентов.