De diepe goedkope AI -model van Deepseek daagt de industriële reuzen uit. De Chinese startup beweert zijn krachtige Deepseek V3 -neurale netwerk te hebben getraind voor slechts $ 6 miljoen, met slechts 2048 GPU's, die concurrenten aanzienlijk ondermijnt. Deze schijnbaar lage kosten schuilt echter een veel meer substantiële investering.
afbeelding: ensigame.com
De innovatieve architectuur van Deepseek V3 draagt bij aan de efficiëntie ervan. Belangrijkste technologieën omvatten multi-token voorspelling (MTP) voor gelijktijdige woordvoorspelling, mengsel van experts (MOE) met 256 neurale netwerken voor versnelde training en multi-head latente aandacht (MLA) voor verbeterde informatie-extractie.
afbeelding: ensigame.com
Een Semianysis -rapport onthult echter een veel grotere infrastructuur: ongeveer 50.000 NVIDIA GPU's, die ongeveer $ 1,6 miljard kosten, met operationele kosten van $ 944 miljoen. Dit contrasteert scherp met de gepubliceerde trainingskosten van $ 6 miljoen, die alleen een weerspiegeling zijn van het gebruik van GPU pre-training, exclusief onderzoek, verfijning, gegevensverwerking en algemene infrastructuur.
De onafhankelijkheid en efficiënte structuur van Deepseek, een dochteronderneming van hoogvlieger hedgefonds, zijn de sleutel tot het succes ervan. Het bezitten van zijn datacenters maakt geoptimaliseerde modelontwikkeling en snelle innovatie mogelijk. De zelffinanciering en de magere structuur van het bedrijf dragen ook bij aan zijn behendigheid. Hoge salarissen, meer dan $ 1,3 miljoen per jaar voor sommige onderzoekers, trekken toptalent van Chinese universiteiten aan.
afbeelding: ensigame.com
Hoewel de claim van $ 6 miljoen van Deepseek misleidend is, is de werkelijke investering van meer dan $ 500 miljoen nog steeds een aanzienlijk kostenvoordeel in vergelijking met concurrenten. Het R1-model van het bedrijf kost $ 5 miljoen om te trainen, terwijl Chatgpt-4 naar verluidt $ 100 miljoen kostte. Het succes van DeepSeek benadrukt het concurrentiepotentieel van een goed gefinancierd, onafhankelijk AI-bedrijf, hoewel de "budgetvriendelijke" verhalende behoeften aan kwalificatie nodig zijn.
afbeelding: ensigame.com
Concluderend, de concurrentievoordeel van Deepseek komt voort uit een combinatie van substantiële investeringen, technologische innovatie en een zeer bekwaam team, in plaats van alleen uit een opmerkelijk lage trainingsbudget. Zelfs met de gecorrigeerde cijfers blijven de kosten echter aanzienlijk lager dan die van zijn concurrenten.