Heeft OpenAI net stiekem menselijke intelligentie geëvenaard?
PLUS: waarom wetenschappers hun AI-voorspellingen drastisch bijstellen, en zo integreer je AI naadloos in je workflow
👋 Allereerst: een gelukkig 2025! We kijken ernaar uit om jullie ook dit jaar weer bij te praten over alle fascinerende ontwikkelingen in AI. En als de eerste week een voorbode is, wordt het een nóg spannender jaar dan 2024. Er ligt al groot nieuws op ons te wachten, dus laten we erin duiken!
🗞️ Het belangrijkste nieuws
DOORBRAAK: OpenAI’s o3 verpulvert alle AI-records – hebben we net AGI bereikt?
Een aardverschuiving in de wereld van kunstmatige intelligentie: OpenAI’s nieuwste model o3 verplettert alle bestaande records op een manier die zelfs de grootste sceptici de adem beneemt. Wat tot voor kort onmogelijk leek, is nu werkelijkheid. Dit zou weleens de dag kunnen zijn waarop we voor het eerst échte kunstmatige intelligentie hebben gezien – al heeft de buitenwereld nog geen idee van wat er zich onder zijn neus afspeelt.
Een historische doorbraak
Net voor het einde van het jaar komt OpenAI met een ontwikkeling die zo revolutionair is dat experts hun tijdlijnen voor AGI (AI zo slim als een mens) drastisch bijstellen. O3, de opvolger van het drie maanden geleden gelanceerde redeneermodel o1, presteert op een niveau dat tot voor kort ondenkbaar was. Op social media gonst het van de berichten dat dit de dag is die de geschiedenisboeken ingaat als het moment waarop we AGI hebben bereikt. Sinds de start van AI Report hebben we niet eerder zo’n significante sprong voorwaarts gezien.
Waarom dit zo revolutionair is
De prestaties van o3 zijn ronduit verbijsterend. Het model is het eerste AI-systeem ooit dat een menselijk niveau haalt op de beruchte ARC-test, algemeen beschouwd als de lakmoesproef voor AGI.
Francois Chollet, bedenker van de test en voorheen een van OpenAI’s felste critici, is compleet van gedachten veranderd: ‘O3 heeft een verrassende en belangrijke sprong voorwaarts laten zien in AI-mogelijkheden, met een aanpassingsvermogen voor nieuwe taken dat we nog nooit eerder hebben gezien in GPT-modellen. We moeten al onze aannames over AI-capaciteiten bijstellen voor o3.’
Onze Wietse benadrukt het belang: ‘Dit is een mijlpaal. 85 procent is menselijk niveau. Ik vertel tijdens mijn lezingen altijd dat je deze test in de gaten moet houden – grote sprongen in ARC betekenen dat we nog lang niet aan het plafond zitten. GPT-4o scoorde 5 procent, o1 20 procent – en nu 75+ procent. Het lijkt erop dat OpenAI niet blufte. We zitten daadwerkelijk in de buurt van algemene menselijke intelligentie.’
De doorbraak in detail
Wat maakt de ARC-test zo speciaal? Elke opgave is een nieuwe uitdaging die met opzet niet in bestaande trainingsdata voorkomt. Om deze test te kraken moet een AI-systeem echt kunnen redeneren. O3 slaagt daar met vlag en wimpel in, al zijn er kanttekeningen: het kostte het model 16 uur en flink wat rekenkracht om tot een score van 87,5 procent te komen, al zal die tijd snel drastisch omlaaggaan.
Maar er is meer. Op de FrontierMath-test, volgens wiskundige Terence Tao ‘de moeilijkste wiskundige benchmark ooit’, haalde o3 een score van 25,2 procent – waar andere modellen niet verder komen dan 2 procent. Tao, die algemeen wordt gezien als een van de scherpste denkers ter wereld, had voorspeld dat AI-systemen hier ‘zeker enkele jaren’ mee zouden worstelen.
Ook bij programmeren zet o3 nieuwe standaarden. Het model behoort nu tot de beste 0,1 procent programmeurs wereldwijd en overtreft zelfs OpenAI’s eigen hoofdwetenschapper. Venture capitalist Deedy Das tweet hierover: ‘OpenAI’s o3 scoort 2727 op Codeforces, vergelijkbaar met de 175e beste menselijke programmeur ter wereld. Dit is een regelrechte bovenmenselijke prestatie.’
De tweede schaalwet bevestigd
Toen o1 werd gelanceerd, schreven we over wat hoogleraar en auteur van ons boek Co-intelligentie Ethan Mollick de ‘nieuwe schaalwet’ noemde: AI-systemen kunnen niet alleen slimmer worden door grotere modellen te maken, maar ook door bestaande modellen meer tijd te geven om na te denken. O3 bewijst dat deze hypothese klopt – en hoe.
Het geheim achter o3’s succes
De kracht van o3 schuilt in een slimme aanpak: het model produceert honderden, soms zelfs duizenden mogelijke oplossingen voor een probleem. Bij elke poging volgt het een uitgebreide redenering, stap voor stap. Een speciaal verificatiemodel, getraind op duizenden correcte redeneringen, controleert vervolgens al deze antwoorden op mogelijke fouten in berekeningen of logica.
Het systeem is vooral slim bij wiskundige en programmeerproblemen, omdat je daar zeker weet dat een antwoord al dan niet correct is. Wanneer o3 de juiste denkstappen vindt die tot een correct antwoord leiden, kan het systeem hiervan leren. Zo verschuift de focus van ‘het voorspellen van het volgende woord’ naar ‘het vinden van de juiste denkstappen die tot een bewezen correct antwoord leiden’.
Oftewel: de doorbraak zit hem niet in een revolutionaire nieuwe techniek – o3 is in essentie een opgeschaalde versie van o1. Geen geheime saus toegevoegd, gewoon meer van hetzelfde. Het klinkt eenvoudig, maar de resultaten zijn verbluffend.
Een nieuwe economie van intelligentie
Francois Chollet voorspelt dat dit pas het begin is: ‘De economie van AI staat op het punt compleet te veranderen. We gaan naar een wereld waarin je rekenkracht direct kunt omzetten in competentie – voor het eerst in de geschiedenis van software wordt de marginale kostprijs kritiek. Hoeveel ben je bereid te betalen om probleem X op te lossen? De wereld gaat opnieuw zonder GPU’s komen te zitten.’
De definitiekwestie: wanneer is iets AGI?
De vraag wordt steeds prangender: wanneer noemen we iets AGI? Chollet stelt dat we er nog niet zijn: ‘Er zijn nog steeds vrij eenvoudige opgaven die o3 niet kan oplossen. We hebben AGI bereikt wanneer het onmogelijk wordt om tests te maken die makkelijk zijn voor mensen maar onmogelijk voor AI.’
Maar is dat een eerlijke definitie? Hoeveel mensen halen zelf deze lat? Futurist Anders Sandberg voorspelt cynisch: ‘Mensen zullen zeggen dat 25,2 procent op FrontierMath niets voorstelt, het is immers “niet perfect”. Ze vergeten daarbij gemakshalve dat deze opgaven belachelijk moeilijk zijn. En sommigen blijven maar doorpraten over “stochastische papegaaien”… als papegaaien.’ Met die laatste opmerking verwijst hij met een knipoog naar critici die AI-modellen afdoen als systemen die alleen maar woorden napraten zonder echt begrip.
De vraag wordt steeds relevanter: moet het onmogelijk zijn om zelfs maar één benchmark te maken die mensen makkelijker oplossen dan AI? Of is het eerlijker om te kijken of het maken van zulke tests moeilijker wordt dan het oplossen ervan? Chollet werkt al aan ARC-AGI-2, een nieuwe test die o3’s score mogelijk terugbrengt naar onder de 30 procent. Maar wat als o4 of o5 die test ook weer kraakt? Zoals Mike Knoop, financier van de ARC-test, opmerkt: ‘We willen AGI-benchmarks die jarenlang meegaan. Ik verwacht niet dat versie 2 dat zal halen.’ Veelzeggend genoeg werkt hij al aan versie 3, ‘die heel anders wordt’.
Misschien zit de grootste doorbraak wel in iets anders: o3 laat zien dat het concept ‘benchmark’ zelf aan het wankelen wordt gebracht. Met voldoende rekenkracht en tijd lijkt het model vrijwel elke test te kunnen kraken. Het is niet zozeer een kwestie van óf o3 een benchmark kan halen, maar hoeveel rekenkracht en tijd het ervoor nodig heeft. En met de razendsnelle vooruitgang in hardware en de steeds efficiëntere modellen wordt die benodigde tijd steeds korter.
De toekomst is nu
AI-onderzoeker David Shapiro ziet een duidelijk pad: ‘Er bestaat een vuistregel in AI dat wanneer je zo’n doorbraak hebt – van 30 naar 80 procent – het probleem als “opgelost” wordt beschouwd. We zien nu in real time hoe redeneren en probleemoplossing worden gekraakt. 2025 wordt het jaar van de AI-agents. De discussies over AGI worden dan overbodig.’
OpenAI-topman Sam Altman spreekt klare taal in een recent essay: ‘We zijn er nu van overtuigd dat we weten hoe we AGI kunnen bouwen. We denken dat we in 2025 de eerste AI-agents zien die “aan het werk gaan” en bedrijfsresultaten wezenlijk veranderen. We beginnen onze blik al te richten op wat daarna komt: superintelligentie in de ware zin van het woord.’
Een halfjaar geleden hadden we zulke uitspraken nog weggewuifd als hype. Nu zijn we daar minder zeker van.
Het bizarre contrast
Het verbazingwekkendste aan deze ontwikkeling? De oorverdovende stilte in de reguliere media. Terwijl de AI-wereld in rep en roer is over wat mogelijk een van de belangrijkste technologische doorbraken van onze tijd is, haalt het nieuws niet bepaald de voorpagina’s.
Benjamin Todd, oprichter van adviesorganisatie 80,000 Hours, vat het contrast treffend samen: ‘OpenAI: we hebben een nieuwe AI-architectuur ontwikkeld die op expertniveau antwoorden kan geven op het gebied van wetenschap, wiskunde en programmeren, mogelijk de voorbode van een intelligentie-explosie. De media: obligatiefondsen!’
Dit contrast tussen de AI-wereld en de ‘gewone’ wereld wordt steeds surrealistischer. Terwijl experts hun tijdlijnen voor AGI drastisch omgooien en spreken van een keerpunt in de menselijke geschiedenis, heeft het grote publiek geen idee van wat er zich onder zijn neus afspeelt.
Wietse vat het gevoel treffend samen: ‘Het lijkt erop dat de sleutel tot synthetische intelligentie nu daadwerkelijk is gevonden. Dat wij dit tijdens ons leven meemaken, is te bizar.’
O3 is op dit moment nog niet publiekelijk beschikbaar. OpenAI plant de release voor dit voorjaar. Veiligheidsonderzoekers kunnen zich nu aanmelden om de technologie te testen.
Voor wie zich afvraagt waarom we van o1 naar o3 zijn gesprongen: o2 is overgeslagen vanwege een handelsmerkconflict met de Britse telefoonprovider O2. Soms zit revolutionaire vooruitgang in een verrassend alledaags jasje.
Ontgrendel de kracht van AI in je werk en je leven:
Upgrade naar ons betaalde abonnement en ontvang 2x per week game-changing AI-tools en tips.
Vandaag:
Zo maak je AI een natuurlijk onderdeel van je werkdag.
De browserextensie die meetings samenvat terwijl jij luistert.
Laat verschillende AI’s je teksten perfectioneren.
Een AI-geheugen dat jouw context begrijpt.
Minimale set-up, maximale productiviteit.
🛠️ AI Toolkit+
Back to basics: minimalistisch en effectief werken met AI in je browser
Het nieuwe jaar is aangebroken – hét moment om met een schone lei te beginnen en kritisch te kijken naar je digitale workflow. Want laten we eerlijk zijn: in de huidige AI-explosie vliegen de tools je om de oren. Voor elke denkbare taak bestaat wel een speciale AI-oplossing. Maar heeft al dat geswitch tussen apps en tabbladen je écht productiever gemaakt?
Tijd om terug te gaan naar de essentie. We doken diep in de wereld van AI-sidebar tools: slimme browserextensies die zich bescheiden in de zijkant van je scherm nestelen, maar wél al je online activiteiten ondersteunen. Na uitgebreid testen vonden we twee verrassend complete assistenten die je digitale werkplek weer overzichtelijk maken. Een grondige analyse van deze minimalistische krachtpatsers.
Keep reading with a 7-day free trial
Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.