Een nieuwe speler zet de AI-wereld op zijn kop
Gisteren was een historische dag op de beurs: techbedrijven wereldwijd kregen flinke klappen. Vooral NVIDIA, de maker van AI-chips die de afgelopen jaren sterk groeide door de AI-hype, verloor maar liefst 600 miljard dollar aan beurswaarde – een daling van 17%, de slechtste beursdag in de geschiedenis van het bedrijf. Toch blijft NVIDIA een gigant met een waarde van 2,9 biljoen dollar.
Deze forse dalingen werden veroorzaakt door de presentatie van een Chinees alternatief voor ChatGPT: DeepSeek. De app en het onderliggende model bleken op veel benchmarks beter te presteren dan de huidige topmodellen, waaronder GPT-o1, en dat heeft het vertrouwen in de dominantie van Westerse AI-spelers aan het wankelen gebracht. Wat maakt DeepSeek zo bijzonder, en waarom laat het de technologie-industrie op zijn grondvesten schudden?
Wat is DeepSeek?
DeepSeek is geen simpel experiment van een kleine startup, maar een krachtige nieuwe speler in de AI-wereld. Het wordt gesteund door High-Flyer, een Chinees hedgefonds met $7 miljard aan beheerd vermogen. Daarnaast beschikt DeepSeek over een indrukwekkende infrastructuur van 50.000 GPU’s en een team dat toptalent uit disciplines zoals wiskunde en natuurkunde samenbrengt.
Hun vlaggenschipmodel, DeepSeek R1, is een baanbrekend 671B Mixture of Experts (MoE)-model dat uitzonderlijke prestaties levert. Dit model heeft minimaal 16 krachtige H100 GPU’s nodig om het model te gebruiken en vertegenwoordigt een nieuwe standaard in AI-ontwikkeling.

De belangrijkste punten van DeepSeek
Kosten en infrastructuur
Hoewel vaak wordt genoemd dat de training ~$6 miljoen heeft gekost, omvat dit enkel de GPU-uren voor het basismodel. Deze kosten sluiten cruciale aspecten zoals data-generatie, extra runs en fine-tuning uit. Dit benadrukt dat DeepSeek geen "klein experiment" is, maar een complex project is dat de nodige kennis en resources vergt.
Innovatie in redeneervermogen
DeepSeek’s meest opvallende innovatie is het gebruik van reinforcement learning (RL) voor het ontwikkelen van een “chain of thought”-benadering. In plaats van afhankelijk te zijn van standaard next token prediction, leert het model zelfstandig te redeneren door problemen op te lossen in een stap-voor-stap proces.
Denk aan hoe mensen complexe berekeningen aanpakken, zoals 132 × 538. In plaats van het antwoord te raden, breken we het probleem op in beheersbare stappen. DeepSeek’s RL-aanpak bootst dit gedrag na en versterkt de nauwkeurigheid en betrouwbaarheid van het model, waardoor het vertrouwen in zijn redeneervermogen vergroot.
Modeldiversiteit
Naast het krachtige R1-model biedt DeepSeek zes gedistilleerde modellen, variërend van 1.5B-parameters die lokaal kunnen draaien, tot grotere modellen voor specifieke toepassingen. Deze gedistilleerde versies missen echter de volledige kracht van het R1-model.
Openheid en samenwerking
DeepSeek combineert wetenschappelijke vooruitgang met een open-sourcebenadering. Hun werk maakt het mogelijk voor partijen zoals Hugging Face om een volledig open reproductiepijplijn te ontwikkelen. Wel belangrijk om te weten: gegevens ingevoerd via hun gehoste versie kunnen worden gebruikt voor verdere training, zoals vermeld in hun gebruiksvoorwaarden.
Technische beperkingen en uitdagingen
Hoewel DeepSeek indrukwekkend is, zijn er ook nadelen en technische beperkingen die niet over het hoofd mogen worden gezien:
Hoge hardware-eisen: Het vlaggenschipmodel, R1, vereist minimaal 16 H100 GPU’s met elk 80 GB geheugen. Dit maakt het onpraktisch voor veel organisaties zonder toegang tot deze geavanceerde hardware.
Beperkte toegankelijkheid: Hoewel er kleinere gedistilleerde modellen beschikbaar zijn, missen deze de kracht en veelzijdigheid van het volledige R1-model.
Data-ethiek: Het gebruik van gegevens uit de gehoste versie voor modeltraining roept vragen op over privacy en transparantie.
Specifieke toepassing: Ondanks de enorme vooruitgang is DeepSeek nog niet breed toepasbaar in alle domeinen en richt het zich momenteel op specifieke taken.
Conclusie: Wat betekent dit voor de toekomst?
DeepSeek heeft bewezen dat AI-modellen niet alleen groter, maar ook slimmer en gerichter kunnen worden. Hun focus op efficiëntie, redeneervermogen en open source laat zien dat er alternatieven zijn voor de brute kracht van Westerse AI-spelers.
Toch is het belangrijk om de beperkingen te erkennen. De hardware-eisen en ethische vraagstukken benadrukken dat we kritisch moeten blijven kijken naar hoe dergelijke technologie wordt ontwikkeld en toegepast.
Comments