Zo bouw je je droomapp zonder programmeerkennis
PLUS: zeven vibe-codingtools vergeleken voor elk niveau, DeepSeek brengt topklasse AI naar je Mac, en waarom ARC’s nieuwe test AI-ontwikkelaars terug naar de tekentafel stuurt
De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.
🗞️ Het belangrijkste nieuws
DeepSeeks nieuwe model: de eerste high-end AI die razendsnel op je Mac draait
En dan is ineens je dure Mac een supercomputer. DeepSeek bracht gisteren zonder tromgeroffel een nieuwe versie van zijn AI-model uit die de techwereld opnieuw op zijn kop zet. Het Chinese model draait met twintig woorden per seconde op een Mac Studio – een snelheid die tot voor kort alleen in dure datacenters haalbaar was. We zijn benieuwd of ze bij OpenAI vannacht hebben kunnen slapen.
Wat is dit eigenlijk?
DeepSeek heeft een nieuw model gelanceerd met de prozaïsche naam V3-0324. Zonder persbericht of marketingcampagne plaatste het bedrijf eenvoudigweg het complete model (641 gigabyte) op het platform Hugging Face. De opvallendste kenmerken: het draait met twintig tokens per seconde op een high-end Mac, biedt commercieel gebruik via de MIT-licentie en presteert beter dan topmodellen als Claude 3.5 Sonnet.
Hoe presteert het?
‘Ik heb het nieuwe DeepSeek-V3 getest op mijn interne benchmark en het maakt een enorme sprong in alle statistieken. Het is nu het beste niet-redeneermodel en onttroont daarmee Claude Sonnet 3.5,’ schrijft AI-onderzoeker Xeophon op X.
Paul Gauthier, ontwikkelaar van AI-codeerassistent Aider, bevestigt dit met harde cijfers: ‘DeepSeeks nieuwe V3 scoorde 55 procent op Aiders meertalige benchmark, een aanzienlijke verbetering ten opzichte van de vorige versie. Het is het op een na beste standaardmodel; alleen Claude 3.7 Sonnet doet het beter.’
Het belangrijkste verschil met concurrenten? DeepSeek-V3 is volledig open source en gratis te gebruiken – zelfs voor commerciële toepassingen.
Waarom dit zo bijzonder is
De ware innovatie zit hem wederom in de efficiëntie. DeepSeeks model gebruikt een mixture-of-experts architectuur, die per taak slechts 37 miljard van de in totaal 685 miljard parameters activeert. Vergelijk het met een orkest waarbij alleen de instrumenten spelen die voor een specifiek muziekstuk nodig zijn.
AI-onderzoeker Awni Hannun was een van de eersten die opmerkten: ‘De nieuwe DeepSeek-V3-0324 draait in 4-bit met meer dan 20 tokens per seconde op een 512GB M3 Ultra met mlx-lm!’ Dat is ongeveer de snelheid die je nodig hebt voor een vlot gesprek, maar dan op je eigen computer.
Simon Willison, een gerespecteerde ontwikkelaar, legt uit waarom dit zo’n grote stap vooruit is: ‘Een in 4-bit gekwantiseerde versie reduceert de opslagvoetafdruk tot 352GB, waardoor het haalbaar wordt om het op high-end consumentenhardware, zoals de Mac Studio, te draaien.’
Dit is mogelijk dankzij twee baanbrekende technieken: Multi-head Latent Attention (MLA) en Multi-Token Prediction (MTP). MLA verbetert het vermogen om context te behouden over lange teksten, terwijl MTP meerdere woorden tegelijk genereert in plaats van een voor een. Samen verhogen deze innovaties de snelheid met bijna 80 procent.
Het resultaat? In plaats van een verzameling stroom slurpende NVIDIA-GPU’s die samen enkele kilowatts verbruiken, kan een Mac Studio met een verbruik van minder dan 200 watt het model al draaien.
DeepSeek versus OpenAI: David tegen Goliath?
De timing van DeepSeeks release is pikant. Terwijl DeepSeek een extreem efficiënt model uitbrengt dat op consumentenhardware draait, heeft OpenAI onlangs GPT-4.5 gelanceerd – een monsterlijk groot en kostbaar model.
OpenAI is nog nauwelijks bekomen van de schok die DeepSeek-R1 enkele maanden geleden veroorzaakte. Hun nieuwe vlaggenschip GPT-4.5 laat de kwetsbaarheden van hun strategie duidelijk zien: het kost ongeveer dertig keer meer energie dan GPT-4o om te draaien, het reageert traag en toch presteert het op veel technische meetlatten niet beter dan concurrenten.
Hier zien we twee tegenovergestelde visies: OpenAI bouwt steeds duurdere modellen die alleen in enorme datacenters kunnen draaien, terwijl DeepSeek inzet op efficiëntie en toegankelijkheid. De ene benadering maakt AI exclusiever, de andere democratiseert het.
Wat betekent dit voor de toekomst van AI?
Alles wijst erop dat DeepSeek-V3-0324 de basis zal vormen voor DeepSeek-R2, een verbeterd redeneermodel dat naar verwachting binnen twee maanden verschijnt. Als we het patroon volgen van de vorige release – waarbij V3 rond Kerstmis werd uitgebracht, gevolgd door R1 enkele weken later – zou R2 in april kunnen verschijnen.
Door geavanceerde AI-technologie vrij beschikbaar te maken onder een soepele licentie, zet DeepSeek de deur open voor een explosie aan innovatie die bij gesloten modellen onmogelijk is.
Het doet denken aan wat Linux deed voor besturingssystemen. Wat begon als een hobbyproject van Linus Torvalds draait nu op alles – van supercomputers tot koelkasten – en vormt het fundament van het internet. Niet omdat Linux technisch superieur was, maar omdat het vrij beschikbaar was en door iedereen verbeterd kon worden.
Het voelt als een moderne versie van het verhaal van David en Goliath. De techgiganten bouwen alsmaar hogere muren om hun AI-tuinen, terwijl DeepSeek gewoon ladders uitdeelt aan iedereen die wil langskomen. De competitie draait niet langer om wie de krachtigste AI bouwt, maar om wie de meeste mensen in staat stelt er iets moois mee te maken.
ARC daagt AI opnieuw uit met ‘onmogelijke’ test
Toen OpenAI’s o3-model drie maanden geleden indrukwekkende scores behaalde op de beruchte ARC-test en experts overal hardop riepen dat AGI was ‘gevallen’, zat François Chollet al stilletjes te broeden op een nieuwe, nog veel moeilijkere test. Die is er nu: ARC-AGI-2, en de resultaten zetten de AI-wereld weer met beide benen op de grond.
Wat is er aan de hand?
De ARC Prize-stichting heeft een nieuwe versie van haar intelligentietest gelanceerd, specifiek ontworpen om de zwakke plekken van moderne redeneermodellen bloot te leggen. Waar het oorspronkelijke model zich richtte op basale intelligentie, test ARC-AGI-2 nu ook efficiëntie: niet alleen óf een AI een probleem kan oplossen, maar ook hoe snel en met welke middelen.
Even een opfrisser
Drie maanden geleden schreven we over de historische doorbraak van OpenAI’s o3, dat als eerste AI-systeem ooit indrukwekkende resultaten boekte op de ARC-test, met een score van 75,7 procent in de zuinige modus en zelfs 85 procent met meer rekenkracht. De test gold lange tijd als de lakmoesproef voor AGI (kunstmatige algemene intelligentie), dus de opwinding was begrijpelijk.
De cijfers liegen er niet om
De resultaten van ARC-AGI-2 vertellen een heel ander verhaal:
Menselijk panel – score: 100 procent; kosten: 17 dollar per taak.
Menselijk gemiddelde – score: 60 procent; kosten: 17 dollar per taak.
O3-low (met redeneren + zoeken) – score: slechts 4 procent; kosten: 200 dollar per taak.
O1-pro (met redeneren + zoeken) – score: 1 procent; kosten: 200 dollar per taak.
Pure taalmodellen zoals GPT-4.5 – score: 0 procent; kosten: 0,29 dollar per taak.
Waar mensen deze puzzels nog steeds gemakkelijk oplossen, komt zelfs het indrukwekkende o3 niet verder dan een schamele 4 procent.
Waarom kunnen mensen dit wel en AI niet?
De nieuwe test legt drie fundamentele zwaktes van de huidige AI-systemen bloot:
Symbolische interpretatie: AI’s zien vormen en patronen, maar begrijpen niet de onderliggende betekenis. Waar een mens direct snapt dat een symbool iets representeert, blijft AI steken in oppervlakkige patronen zonder de symbolische waarde te vatten.
Samengesteld redeneren: AI’s kunnen afzonderlijke regels toepassen, maar worstelen met het combineren of laten interacteren van meerdere regels tegelijk. Het ontbreekt ze aan het vermogen om de wisselwerking tussen verschillende principes te doorgronden.
Contextuele toepassing: Mensen passen regels flexibel toe, afhankelijk van de situatie. AI’s blijven echter vaak vastzitten in één interpretatie van een regel, ongeacht de context waarin deze moet worden toegepast.
Komen ze ons AGI nu afpakken?
Mike Knoop, financier van de ARC-test, reageert op de kritiek dat ze de doelpalen verplaatsen: ‘De doelpaal is AGI. Dat is waar we het voor doen. De maatstaf die wij hanteren voor AGI gaat over het dichten van de kloof tussen taken die gemakkelijk zijn voor mensen en moeilijk voor computers. Als die kloof nul is, als we geen taken meer kunnen vinden die mensen gemakkelijk oplossen maar computers niet, dan hebben we AGI bereikt.’
Hij voegt hieraan toe: ‘Je kunt moeilijk beweren dat we AGI hebben als je om je heen kijkt en nog steeds veel taken ziet die heel eenvoudig, simpel en gemakkelijk zijn voor mensen, maar ongelooflijk moeilijk voor AI.’
Efficiëntie als nieuwe maatstaf
Misschien wel de belangrijkste vernieuwing: naast prestaties meet ARC-AGI-2 nu ook de efficiëntie waarmee AI problemen oplost. ‘Echte intelligentie draait niet alleen om het oplossen van problemen, maar om het efficiënt oplossen met minimale middelen,’ legt de stichting uit.
Dit gaat rechtstreeks in tegen het idee dat je elke benchmark kunt kraken door er maar genoeg rekenkracht tegenaan te gooien. Zoals Knoop het verwoordt: ‘De systemen waarmee we eind 2024 te maken hadden, kun je karakteriseren als “van 0 tot 1” op het spectrum van vloeiende intelligentie. Maar deze systemen zijn zeer inefficiënt en vereisen aanzienlijke menselijke begeleiding.’
De houdbaarheidsdatum van benchmarks
De vraag wanneer we iets AGI kunnen noemen, wordt steeds genuanceerder. Volgens Chollet is zijn definitie helder: ‘We hebben AGI bereikt wanneer we geen tests meer kunnen maken die makkelijk zijn voor mensen maar onmogelijk voor AI.’
‘Dit is een van de redenen waarom ik voorzichtig ben met verwachtingen over tijdlijnen in AI,’ zegt Knoop. ‘Het is heel gemakkelijk om prognoses te doen langs geleidelijke schaalcurves. Maar innovatie verloopt in sprongen, en die zijn enorm moeilijk te voorspellen.’
Er ontstaat een duidelijke cyclus: menselijke experts ontwerpen tests die AI niet kan oplossen, waarna AI-labs betere systemen ontwikkelen die die tests wél kraken, waarna de experts weer moeilijkere tests maken.
Knoop werkt zelfs al aan versie 3, ‘omdat versie 2 niet lang zal standhouden tegen de nieuwste generatie AI-modellen’. Het is dus niet zozeer de vraag óf, maar wannéér de volgende generatie modellen deze nieuwe horde zal nemen.
🛠️ AI Toolkit XL
AI-vibe-codingtools: de democratisering van programmeren (deel 1)
Deze week duiken we in een van de meest onderbelichte maar potentieel verstrekkende revoluties in AI: vibe coding.
Als je de laatste tijd een beetje hebt rondgeneusd, heb je het vast gemerkt: de AI-codingtools vliegen je om de oren. Maar welke tool is nu écht goed? En belangrijker: welke past bij jouw niveau en behoeften?
We snappen de verwarring. Daarom hebben we grondig onderzoek gedaan naar alle populaire vibe-codingtools, we hebben ze getest en leggen ze nu naast elkaar, zodat jij precies weet met welke je aan de slag moet.
Vanwege het belang en de omvang van dit onderwerp brengen we een speciale XL-editie in twee delen. Vandaag behandelen we het concept en de eerste drie populaire tools; donderdag volgen de overige platforms en concrete stappen om zelf aan de slag te gaan. Door ons vergelijkend warenonderzoek besparen we jou uren aan zoekwerk en frustratie.
De vibe-codingrevolutie: programmeren zonder code
Stel je voor: je hebt een briljant idee voor een app, maar geen idee hoe je moet programmeren. Tot voor kort stond je voor een hoge muur – je moest óf jarenlang leren coderen, óf een dure ontwikkelaar inhuren. Die tijd is voorbij. Met AI-aangedreven ‘vibe-codingtools’ beschrijf je gewoon wat je wilt maken, en de AI doet de rest.
Het bewijs? Onze
bouwde in vijf minuten een educatief spelletje voor zijn dochter, zonder enige code te schrijven. En hij is niet de enige. De Nederlandse ondernemer Pieter Levels bouwde zonder gameontwikkelervaring een flight simulator die nu maandelijks 80.000 euro oplevert. Zoals Alexander in onze podcast opmerkte:‘Decennia lang was het bouwen van software toch een soort van mystieke kunst. Alleen weggelegd voor mensen die jaren hadden besteed aan leren programmeren. Er was altijd een soort onzichtbare muur tussen gewone mensen met ideeën, zoals ik… en de technische wereld die die ideeën tot leven kon brengen. Maar nu staat die muur op instorten.’
Wat is vibe coding?
De term ‘vibe coding’ werd begin dit jaar bedacht door Andrej Karpathy, een prominente AI-onderzoeker. Hij beschreef het als ‘een nieuwe manier van programmeren, waarbij je je volledig overgeeft aan de vibes, exponentiële groei omarmt en vergeet dat de code überhaupt bestaat’.
In essentie betekent dit: je vertelt AI wat je wilt bouwen in gewone taal, en de AI zet dit om in werkende code. Je hoeft niet te programmeren, je beschrijft gewoon je idee, itereert een beetje, en voilà – je hebt een werkende app. Vergelijk het met componeren zonder noten te kunnen lezen, of een huis bouwen zonder ooit een hamer te hebben vastgehouden.
De drie soorten vibe-codingtools
Uit onze analyse blijkt dat je de huidige generatie vibe-codingtools in drie categorieën kunt onderverdelen:
instapniveau-tools: gericht op niet-technische gebruikers die snel iets willen bouwen zonder zich te verdiepen in code;
middenklasse-tools: hybride oplossingen voor zowel beginners als gevorderden, met een goede balans tussen gebruiksgemak en controle;
expertniveau-tools: ontwikkelomgevingen voor technische gebruikers die de volledige controle willen behouden over de gegenereerde code.
Voor ons vergelijkend warenonderzoek hebben we zeven populaire platforms uitgebreid getest. Vandaag behandelen we de eerste drie, donderdag de rest. Hieronder vind je een vergelijkingstabel met alle tools die we bespreken:
Keep reading with a 7-day free trial
Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.