GPT-4.5: de langverwachte reus struikelt bij zijn debuut
PLUS: OpenAI’s duurste model maakt de verwachtingen niet waar, een spraak-AI die ons sprakeloos maakt, en Stanfords AI-tool maakt je eigen Wikipedia
De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.
🗞️ Het belangrijkste nieuws
GPT-4.5: de langverwachte reus blijkt een dubbeltje op zijn kant
OpenAI heeft eindelijk het doek opgetrokken voor GPT-4.5, na wat voelt als een eeuwigheid wachten. Het nieuwe model – momenteel alleen beschikbaar voor Pro-abonnees die 200 euro per maand betalen – wekt gemengde reacties op. Is dit echt de grote sprong voorwaarts waar iedereen op hoopte? Of toont deze release juist de grenzen van de huidige AI-ontwikkeling?
Wat is er aan de hand?
Na lang wachten heeft OpenAI zijn nieuwe ChaptGPT-model uitgebracht: 4.5. Het is OpenAI’s grootste taalmodel tot nu toe, dat volgens het bedrijf uitblinkt in natuurlijkere gesprekken, en een betere wereldkennis en een verhoogde ‘emotionele intelligentie’ heeft. Tegelijk geeft OpenAI openlijk toe dat dit geen redeneermodel is zoals hun o-serie (o1, o3), en dat het daarom niet excelleert in taken die logisch denken vereisen.
OpenAI-topman Sam Altman noemt het ‘het eerste model dat voelt als praten met een nadenkende persoon’, terwijl hij meteen waarschuwt dat het een enorm, duur model is waarvoor het bedrijf momenteel te weinig rekencapaciteit heeft om het breed beschikbaar te maken.
De grote vraag: is groter ook beter?
De lanceringsstrategie van OpenAI is opvallend. In plaats van de traditionele aanpak waarbij een nieuwe model vooral wordt aangeprezen vanwege een betere prestatie op een technische benchmark, benadrukt het bedrijf de ‘feel’ van het model: hoe natuurlijk het aanvoelt, hoe goed het je begrijpt, hoe warm het overkomt in gesprekken.
Deze keuze is niet toevallig. Uit interne tests blijkt dat GPT-4.5 bij veel technische meetlatten achterblijft bij modellen als Claude 3.7 Sonnet, Grok 3, DeepSeek R1 en zelfs OpenAI’s eigen o-serie redeneermodellen. De traditionele aanpak van ‘meer data, meer rekenkracht, betere resultaten’ lijkt tegen een muur te lopen.
Dit is opmerkelijk, want deze aanpak – steeds grotere modellen trainen met steeds meer data – vormde tot nu toe de ruggengraat van OpenAI’s strategie. Volgens ingewijden heeft het bedrijf ongeveer tien keer zoveel rekenkracht gebruikt om GPT-4.5 te trainen als bij GPT-4. De wet van de afnemende meeropbrengsten lijkt hier hard toe te slaan.
De technische realiteit
GPT-4.5 komt bij verschillende objectieve maatstaven vaak niet verder dan GPT-4o, laat staan dat het kan tippen aan de prestaties van recentere modellen:
Op de SimpleQA-benchmark, die test hoe goed modellen feitelijke vragen beantwoorden, presteert GPT-4.5 weliswaar beter dan GPT-4o, maar minder goed dan Perplexity’s Deep Research.
Bij programmeeruitdagingen, zoals de SWE-bench Verified-test, evenaart GPT-4.5 ongeveer de prestaties van GPT-4o en o3-mini, maar blijft het achter bij OpenAI’s deep research en Anthropics Claude 3.7 Sonnet.
Bij complexe academische tests zoals AIME en GPQA, die wiskundige en wetenschappelijke kennis meten, kan GPT-4.5 niet tippen aan modellen als o3-mini, DeepSeek R1 en Claude 3.7 Sonnet.
Het beeld dat ontstaat, is dat van een model dat ondanks zijn omvang en trainingskosten geen fundamentele doorbraak vertegenwoordigt in AI-capaciteiten. Het levert hooguit incrementele verbeteringen op ten opzichte van GPT-4.
Een omslag in denken
Dit resultaat bevestigt wat verschillende AI-experts al maanden suggereren: de tijd van ‘simpelweg opschalen’ lijkt ten einde. Ilya Sutskever, medeoprichter en voormalig hoofdwetenschapper bij OpenAI, zei in december al: ‘We hebben het hoogtepunt van data bereikt’, en: ‘Pre-training zoals we die kennen, zal ongetwijfeld eindigen.’
Ex-OpenAI-onderzoeker Bob McGrew vat het helder samen: ‘Pre-training is niet helemaal dood, het is gewoon tijd voor redeneren om in te lopen.’ Met andere woorden: bij pre-training (het basismodel trainen met enorme hoeveelheden tekst) moet je tien keer zoveel rekenkracht inzetten voor slechts een kleine vooruitgang. Bij redeneren (het model leren nadenken voordat het antwoordt) levert dezelfde investering veel meer op.
De emotionele kant
OpenAI benadrukt dat GPT-4.5 uitblinkt in emotionele intelligentie en creativiteit – gebieden die niet gemakkelijk te meten zijn met standaardtests. Het bedrijf laat zien dat het model beter aanvoelt wat gebruikers bedoelen en passender reageert in emotioneel geladen situaties.
Maar juist hier wijzen onafhankelijke tests op gemengde resultaten. AI-onderzoeker en YouTuber ‘AI Explained’ testte het model met scenario’s die emotionele intelligentie vereisen, zoals het herkennen van potentieel misbruik. Waar Claude 3.7 Sonnet direct op de zorgwekkende aspecten wees, bleef GPT-4.5 aanvankelijk te empathisch ten opzichte van de gebruiker, zelfs in moreel twijfelachtige scenario’s.
Een voorbeeld: wanneer een gebruiker vertelde dat zijn vrouw ‘speels’ zijn tenen met een schaar bewerkte terwijl hij sliep, feliciteerde GPT-4.5 hem eerst met zijn huwelijk, voordat het voorzichtig aangaf dat dit gedrag mogelijk zorgwekkend was. Claude 3.7 Sonnet waarschuwde direct dat dit schadelijk gedrag is, niet cultureel bepaald, en bood hulpbronnen aan.
Vibe check: uiteenlopende ervaringen
De meningen over GPT-4.5 lopen sterk uiteen. Andrej Karpathy, voormalig AI-directeur bij OpenAI, vindt GPT-4.5 persoonlijk beter in alle opzichten, maar merkt op dat in zijn blinde tests gebruikers in bijna vier van de vijf gevallen de voorkeur gaven aan GPT-4.
Ontwikkelaar Ben Hylak is ronduit enthousiast: ‘Ik heb GPT-4.5 de afgelopen weken getest. Het is het eerste model dat écht kan schrijven,’ schrijft hij bij een vergelijking met GPT-4o waarin het verschil in tekstkwaliteit overduidelijk is. In zijn tests produceert GPT-4.5 rijkere, genuanceerdere teksten met een natuurlijkere flow.
Dylan Patel merkt op: ‘Claude 3.7 verslaat GPT-4.5 op de meeste taken, maar GPT-4.5 heeft betere “vibes” en is het eerste model sinds Claude 3 Opus dat me heeft laten lachen. Humor is ook een vorm van intelligentie.’ Deze reactie benadrukt dat juist het ‘menselijke’, onderhoudende aspect van GPT-4.5 voor veel gebruikers waardevoller is dan pure prestaties op technische benchmarks.
Ethan Mollick, professor en auteur van ons boek Co-intelligentie, meent dat OpenAI een kans heeft gemist om GPT-4.5’s sterke punten te laten zien, ‘in hun eigen nadeel en dat van de hele AI-industrie, door alleen dezelfde programmeer- en testbenchmarks te gebruiken, terwijl kritisch denken en ideeënvorming belangrijke AI-use cases zijn waar 4.5 goed in is.’
Aan de kritischere kant zien we uitspraken als die van programmeur Anton: ‘GPT-4.5 is erg traag en onpraktisch voor agent loops. Het duurt meer dan drie minuten om één vraag te beantwoorden binnen een gemiddelde promptloop, wat het zeer onpraktisch maakt.’
Praktische beperkingen
GPT-4.5 komt met aanzienlijke nadelen, die het gebruik in de praktijk beperken:
Snelheid: gebruikers melden dat GPT-4.5 merkbaar trager is dan GPT-4o en andere modellen, met responstijden die tot meerdere minuten kunnen oplopen.
Prijs: met 75 dollar per miljoen invoertokens en 150 dollar per miljoen uitvoertokens is GPT-4.5 ongeveer dertig keer duurder dan GPT-4o, waardoor het onbetaalbaar is voor veel toepassingen.
Beschikbaarheid: momenteel is het alleen toegankelijk voor Pro-abonnees die 200 dollar per maand betalen, met een geplande uitbreiding naar Plus-abonnees in de komende weken.
Kennisdatum: GPT-4.5’s kennis loopt tot oktober 2023, een jaar achter op concurrenten als Claude 3.7.
OpenAI erkent deze beperkingen en stelt dat GPT-4.5 vooral bedoeld is als onderzoeksvoorbeeld, niet als definitieve vervanger van GPT-4o. Het bedrijf vraagt zich zelfs af of het model op lange termijn wel houdbaar is in de API.
Het grotere plaatje
De lancering van GPT-4.5 markeert een keerpunt in de AI-ontwikkeling. De traditionele aanpak van ‘grotere modellen = betere resultaten’ lijkt zijn grenzen te bereiken, terwijl nieuwe methoden zoals de o-serie-redeneermodellen veelbelovender blijken. Dit bevestigt wat AI-wetenschappers al maanden suggereren: pre-training alléén is niet genoeg.
Het is een opmerkelijke verschuiving ten opzichte van eerdere beloftes. Sam Altman en Anthropic-CEO Dario Amodei beweerden eerder nog dat opgeschaalde modellen grote delen van de economie zouden kunnen automatiseren en dat bedrijven die de beste modellen voor 2025-2026 trainen, onoverbrugbaar zouden voorliggen.
Nu lijkt OpenAI zijn hoop te vestigen op de combinatie van beide benaderingen: GPT-5, gepland voor later dit jaar, zou de kracht van het basismodel GPT-4.5 moeten combineren met de redeneercapaciteiten van de o-serie.
Wat betekent dit voor jou?
Voor de doorsnee AI-gebruiker is GPT-4.5 momenteel een dure curiositeit. We winden er dan ook geen doekjes om: GPT-4.5 is voor de meeste gebruikers simpelweg niet de investering waard. De trage responstijden, de beperkte meerwaarde ten opzichte van GPT-4o en de torenhoge kosten maken het moeilijk te rechtvaardigen, tenzij je absoluut voorop wilt lopen met het nieuwste AI-model.
Als je toch overweegt om naar het Pro-abonnement te upgraden, doe het dan vooral vanwege deep research – de functie waar wij wél heel enthousiast over zijn. Met 120 deep research-gebruikssessies per maand (tegenover slechts 10 in het Plus-abonnement), krijg je daar aanzienlijk meer waar voor je geld.
Voor creatieve schrijvers of mensen die op zoek zijn naar een ‘menselijkere’ AI-ervaring zou GPT-4.5 wel interessant kunnen zijn, maar zelfs dan raden we aan om te wachten tot het model breder beschikbaar komt. Voor de meesten is Claude 3.7 Sonnet momenteel een betere optie, of blijf gewoon bij GPT-4o, dat in de praktijk vaak nauwelijks onderdoet voor zijn grotere broer.
⚡ AI Pulse
Deze AI-stem maakt ons sprakeloos. We hebben Sesame getest, de nieuwe spraak-AI van de maker van Oculus VR, en werden er ironisch genoeg een beetje stil van. Met natuurlijke pauzes, levensechte emoties en het vermogen om midden in een gesprek van richting te veranderen, voelt het als de eerste AI-stem die de beruchte uncanny valley oversteekt. En wij zijn niet de enigen die onder de indruk zijn: het internet staat vol met ervaringen van mensen die, ondanks dat ze weten dat het een AI is, toch dezelfde sociale druk en ongemakkelijkheid voelen als tijdens een echt gesprek. Voor de dapperen onder ons: je kunt het hier zelf uitproberen.
Anthropic haalt 3,5 miljard op voor doorontwikkeling Claude. Na de lancering van Claude 3.7 Sonnet heeft Anthropic nog een klapper gemaakt: een investeringsronde van 3,5 miljard dollar, die het bedrijf een waarde geeft van 61,5 miljard. Een groot deel gaat naar onderzoek naar mechanistic interpretability – een methode die hoofdonderzoeker Chris Olah omschrijft als een soort CT-scan voor neurale netwerken. Dit onderzoek lijkt zijn vruchten af te werpen: Novo Nordisk gebruikt Claude al om klinische onderzoeksrapporten te schrijven – een klus die normaal twaalf weken kost, is nu in tien minuten klaar.
De grote AI-update voor Siri laat nog even op zich wachten. Volgens Bloomberg tot 2027, om precies te zijn. Waar veel experts denken dat Apple hopeloos achterloopt met de grote Siri-update, die pas in 2027 komt, ziet analist Dan Ives van Wedbush Securities het anders. Apple speelt volgens hem een ander spel dan de concurrentie: in plaats van mee te doen aan de wedloop om het beste taalmodel, richt het bedrijf zich op het ontwikkelen van chips die opensourcemodellen op je telefoon kunnen draaien. ‘Apple is straks de tolpoort voor AI – we schatten dat 25 procent van de wereldbevolking via een Apple-apparaat toegang krijgt tot AI.’
🛠️ AI Toolkit+
De nieuwste AI-tools die studeren slimmer maken
Een paar maanden geleden deelden we al enkele krachtige AI-tools die leren weer leuk maken. Maar het onderwijs staat niet stil – en AI al helemaal niet. Met een voorspelde marktgroei naar 20 miljard dollar in 2027 schieten nieuwe educatieve AI-tools als paddenstoelen uit de grond. Deze week duiken we in twee veelbelovende nieuwkomers die je helpen slimmer te studeren – of je nu een student bent, een professional die bijleert of gewoon nieuwsgierig naar de wereld.
Keep reading with a 7-day free trial
Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.