ChatGPT krijgt onderzoeker in de familie: wat kun je ermee?

PLUS: OpenAI’s nieuwe data-analist onder de loep, Europa’s AI-verboden vanaf nu, en marketingtools voor mensen die marketing haten

, and

Feb 04, 2025

∙ Paid

De AI-wereld ontwikkelt zich razendsnel, en wij, de makers van de podcast Poki, houden je op de hoogte. Twee keer per week de nieuwste AI-ontwikkelingen, tools, use cases en onderzoek.

🗞️ Het belangrijkste nieuws

OpenAI lanceert onderzoeksanalist: wat kun je ermee?

Je wilt de perfecte markt vinden voor je nieuwe app: je analyseert demografische data, concurrentieposities en adoptiecijfers in tien ontwikkelde en opkomende markten. Normaal gesproken betekent dat weken onderzoek of een duur consultancybureau inhuren. OpenAI introduceert nu een tool die dit soort complexe analyses voor jou uitvoert: deep research, een autonome AI-assistent die data verzamelt, bronnen valideert en rapporteert op het niveau van een onderzoeksanalist.

Hoe werkt het?

Anders dan eerdere AI-tools, zoals ChatGPT Search of Perplexity, die simpelweg zoekresultaten samenvatten, gaat deep research te werk als een gedegen onderzoeker. Je stelt je vraag en de tool begint met vervolgvragen om je opdracht scherp te krijgen. ‘Dit is een betekenisvolle stap richting de toekomst van mens-AI-interactie,’ schrijft ondernemer Dan Shipper. ‘De AI springt niet meteen op je verzoek, maar besteedt eerst tijd aan het verduidelijken van je doelen voordat hij aan de slag gaat.’

Daarna duikt de assistent het internet in. Je kunt live volgen hoe hij denkt, bronnen analyseert en nieuwe zoekrichtingen verkent. Het systeem – gebouwd op een speciale versie van OpenAI’s aankomende o3-model – kan tekst, afbeeldingen en pdf’s verwerken en past zijn strategie aan op basis van wat het vindt.

Het eindresultaat? Een uitgebreid rapport dat kan variëren van enkele duizenden tot wel 16.000 woorden, compleet met bronvermeldingen en een uitleg van het denkproces. En dat alles in vijf tot dertig minuten.

De praktijk: van literatuuranalyse tot garderobeadvies

Onderzoekers die het systeem hebben getest, zijn onder de indruk. Professor en auteur van ons boek Co-intelligentie Ethan Mollick vroeg de AI om te analyseren wanneer start-ups moeten stoppen met verkennen en beginnen met opschalen. ‘Het resultaat was dertien pagina’s, met zes citaten en extra referenties. Ik zou tevreden zijn als een beginnende PhD-student dit had geschreven,’ vertelt hij. ‘Voor het eerst engageert een AI zich echt met academische literatuur op een niveau dat menselijk wetenschappelijk werk benadert.’

Dan Shipper testte de tool met een analyse van Oorlog en vrede. ‘Deep research ontleedde Tolstojs subtiele karakteropbouw, zoals hoe Prins Vasíli complimenten geeft “als een opgewonden klok” en Anna Pavlovna een “permanente glimlach” draagt als onderdeel van haar bewuste optreden als enthousiaste gastvrouw. Het leverde het soort inzicht op dat je van een literatuurprofessor zou verwachten.’

Wetenschapper Derya Unutmaz ging nog verder en liet de AI los op zijn specialisme. ‘In mijn complexe domein van biomedische wetenschap scoort OpenAI’s deep research gemakkelijk boven de 90 procent,’ deelt hij op X. ‘Het bijzondere is dat het bijna mijn gedachten leest en de juiste vragen stelt om het onderzoek te focussen.’

Voor wie is het bedoeld?

Het toepassingsgebied is breed. Professionals in finance, wetenschap, beleid en techniek kunnen diepgaand onderzoek laten uitvoeren. Maar ook voor persoonlijke beslissingen biedt het uitkomst. Shipper: ‘Het is vooral spannend voor persoonlijke taken zoals: “Hier zijn foto’s van mijn favoriete outfits, dit zijn de merken die ik leuk vind, dit zijn mijn lichaamsproporties – ontwerp een capsulegarderobe en adviseer winkels die bij mijn stijl passen.” Dat soort vragen verdienen een grondig, gepersonaliseerd antwoord, niet een generieke top 10 van een zoekmachine.’

De benchmarks: indrukwekkend, maar mensen blijven voorop

Op Humanity’s Last Exam, een nieuwe benchmark die AI test op meer dan drieduizend expertniveauvragen op ruim honderd vakgebieden, scoort het model 26,6 procent. De grootste vooruitgang is te zien in chemie, sociale wetenschappen en wiskunde.

Maar interessanter is de prestatie op de GAIA-benchmark, die test hoe goed AI-assistenten echte onderzoeksvragen kunnen beantwoorden. Deze test is relevanter omdat hij praktijkgerichte opdrachten bevat, zoals het analyseren van specifieke conferenties.

Waar GPT-4 met zijn zoekfunctie negen maanden geleden nog 15 procent scoorde, haalt deep research nu 67 procent bij eerste pogingen en 72 procent na meerdere pogingen. Een enorme sprong voorwaarts, al blijven mensen met 92 procent nog steeds aan kop.

Kanttekeningen

De tool is niet onfeilbaar. ‘Het is over het algemeen betrouwbaar, maar niet immuun voor hallucinaties,’ waarschuwt Shipper. ‘Er is een afweging: deep research kan veel meer dan een typisch GPT-4-verzoek, maar het vereist meer tijd, meer vertrouwen van de gebruiker, en een waakzaam oog voor wanneer het mogelijk ontspoort.’

OpenAI erkent deze beperkingen. Het systeem kan soms feiten verzinnen of verkeerde conclusies trekken, al gebeurt dit minder vaak dan bij eerdere modellen. Ook heeft het moeite met het onderscheiden van gezaghebbende informatie van geruchten.

Een praktisch voorbeeld van deze beperkingen zag Shipper toen hij vroeg naar ‘de beste tv onder de 1000 dollar’. ‘We kregen een meanderend verhaal van 15.000 woorden waarin steeds dezelfde punten over prijssegmenten, features en koopadvies herhaald werden,’ vertelt hij. ‘Maar het probleem lag niet bij de tool – het lag bij de vaagheid van onze vraag. Na het specificeren van onze behoeften waren de resultaten veel gerichter en bruikbaarder.’

Hoe verhoudt het zich tot Google?

Google lanceerde onlangs een onderzoeksassistent met – opvallend genoeg – dezelfde naam. Hier zullen ze vast blij mee zijn. Mollick testte beide systemen en ziet duidelijke verschillen. ‘Googles tool vindt meer bronnen, maar vaak een mix van websites van wisselende kwaliteit,’ legt hij uit.

Waar Googles systeem alle documenten in één keer verzamelt, werkt OpenAI’s versie meer zoals een nieuwsgierige onderzoeker die steeds dieper graaft als iets interessant lijkt. Het resultaat? ‘Googles output is als een goed undergraduate-werkstuk,’ zegt Mollick. ‘OpenAI’s systeem levert analyses op PhD-niveau op. Al verwacht ik dat Google deze voorsprong niet lang zal laten bestaan – we gaan de komende maanden snelle verbeteringen zien in onderzoeksagenten.’

Wat betekent dit voor de toekomst?

‘Een voorproefje van de toekomst arriveerde stilletjes dit weekend,’ schrijft Mollick. Hij ziet deep research als de convergentie van twee belangrijke ontwikkelingen in AI: het vermogen om te redeneren en het vermogen om zelfstandig taken uit te voeren.

Wat we nu zien is geen vervanging van menselijke expertise, maar een verschuiving in hoe we onderzoek doen. Experts en consultants verdwijnen volgens Mollick niet – hun oordeel wordt juist crucialer, maar hun rol verandert van uitvoerend naar aansturend. Ze worden de dirigenten die AI-systemen aanvoeren en valideren.

Eén ding is duidelijk: de drempel voor het uitvoeren van diepgaand onderzoek is drastisch verlaagd. Wat eerst dagen of weken kostte, gebeurt nu in enkele minuten.

Voor Nederlandse gebruikers is er wel een domper: de tool is voorlopig alleen beschikbaar voor Amerikaanse Pro-gebruikers, tegen 200 dollar per maand. Een bredere uitrol volgt later dit jaar.

EU trapt op de rem: deze AI-toepassingen zijn vanaf nu verboden

Het moment van de waarheid is aangebroken. Sinds zondag kunnen Europese toezichthouders AI-toepassingen verbieden die ze als te riskant beschouwen. Dit is de eerste concrete stap in de handhaving van de langverwachte EU AI Act.

Wat is er aan de hand?

De EU neemt als eerste ter wereld harde maatregelen tegen riskante AI-toepassingen. Onder de nieuwe regels zijn bepaalde AI-systemen simpelweg niet meer toegestaan.

Het gaat om toepassingen die volgens de EU een ‘onaanvaardbaar risico’ vormen. Wie de regels aan zijn laars lapt, riskeert een boete van 35 miljoen euro of 7 procent van de wereldwijde jaaromzet – wat maar het hoogst uitvalt.

Vier niveaus van risico

De EU deelt AI-toepassingen op in vier risiconiveaus. ‘Je kunt het vergelijken met hoe we omgaan met medicijnen,’ legt advocaat Rob Sumroy uit. ‘Paracetamol is vrij verkrijgbaar, maar voor zwaardere middelen heb je een recept nodig. Sommige stoffen zijn gewoon verboden.’

Minimaal risico (zoals spamfilters): geen toezicht
Beperkt risico (zoals klantenservicebots): licht toezicht
Hoog risico (zoals AI in de zorg): streng toezicht
Onaanvaardbaar risico: verboden

Wat mag niet meer?

De lijst met verboden toepassingen is behoorlijk uitgebreid. AI mag niet meer:

mensen beoordelen op hun gedrag (social scoring);
mensen onbewust manipuleren;
kwetsbare groepen uitbuiten;
misdaden voorspellen op basis van uiterlijk;
privékenmerken afleiden uit biometrische gegevens;
emoties meten op werk of school;
zonder toestemming gezichtsdatabases aanleggen.

Kanttekeningen

Zoals je zou verwachten, klinkt er luid protest uit Silicon Valley. Grote techbedrijven waarschuwen – niet geheel verrassend – voor innovatieremming. Apple heeft zelfs de Europese lancering van Apple Intelligence uitgesteld, ogenschijnlijk vanwege onduidelijkheden over de regels. De techgiganten vrezen dat Europa achteropraakt bij de VS, waar ze vrijer kunnen experimenteren.

Voor het midden- en kleinbedrijf ligt er wel degelijk een reëel probleem. De kosten om aan alle regels te voldoen, zijn voor hen relatief hoog. Waar grote techbedrijven hele juridische afdelingen kunnen inzetten voor de naleving van de wet, moeten kleine start-ups deze expertise extern inhuren – als ze dat al kunnen betalen. Ironisch genoeg klagen grote bedrijven over innovatieremming, terwijl juist het mkb hier het hardst door wordt getroffen.

Ook de handhaving roept vragen op. Bedrijven mogen zelf bepalen of hun AI-systeem een ‘hoog risico’ vormt – wat ongeveer net zo verstandig klinkt als een kroegbaas zelf laten beslissen of zijn café brandveilig is. Bovendien verschillen de sancties per EU-land, wat kan leiden tot een lappendeken aan regels.

Mensenrechtenorganisatie Amnesty International is kritisch over de uitzonderingen voor politiegebruik van biometrische systemen. Deze kunnen volgens hen alsnog leiden tot ongewenste surveillance. Ook waarschuwen ze voor discriminerende AI-systemen in het migratiebeleid, die door mazen in de wet mogelijk blijven.

Bovendien start de handhaving pas later dit jaar. ‘Organisaties moeten nu wel voldoen aan de regels,’ zegt Sumroy, ‘maar de boetes gaan pas in augustus in. Dan weten we ook welke instanties gaan handhaven.’

Wat betekent dit voor de toekomst?

Met deze regels zet Europa een belangrijke eerste stap in het reguleren van AI, maar het succes hangt af van de uitvoering. De wet moet laveren tussen verschillende belangen: innovatie mogelijk maken én burgers beschermen, grote techbedrijven reguleren én kleine spelers een kans geven.

Veel grote techbedrijven bereiden zich al voor – meer dan honderd ondertekenden het vrijwillige EU AI Pact, waaronder Amazon, Google en OpenAI. Maar het zijn juist de kleinere bedrijven die de wet zullen maken of breken. Als de regelgeving te complex of te duur blijkt voor start-ups, dreigt innovatie alsnog het domein van techreuzen te worden.

Voor burgers is de wet in theorie goed nieuws: meer bescherming tegen AI-misbruik, zonder dat nuttige toepassingen zoals medische AI worden geblokkeerd. Maar de praktijk moet uitwijzen of de handhaving sterk genoeg is om die bescherming ook echt te bieden. De verschillen in sancties tussen EU-landen en de mogelijkheid tot zelfregulering door bedrijven zijn daarbij punten van zorg.

De EU belooft begin 2025 met extra richtlijnen te komen. Tot die tijd blijft het een balanceeract: streng genoeg zijn om burgers te beschermen, maar flexibel genoeg om innovatie niet te smoren.

Ontgrendel de kracht van AI in je werk en je leven:

Upgrade naar ons betaalde abonnement en ontvang 2x per week game-changing AI-tools en tips.

Vandaag:

Krijg binnen vijf minuten een complete doelgroepanalyse van jouw start-up.
Deze AI-tool maakt razendsnel klantpersona’s die kloppen.
Van vaag idee naar concreet marketingplan, stap voor stap uitgewerkt.
Laat AI je contentkalender vullen met relevante onderwerpen.
Een complete marketingafdeling in een dashboard – voor de prijs van een kopje koffie per dag.

🛠️ AI Toolkit+

Marketing voor mensen die marketing haten (en zij die er hun werk van maken)

‘Je moet aan je marketing denken!’ Het is de zin die ondernemers en makers het meest vrezen. Want waar begin je? Hoe weet je wat werkt? En vooral: hoe vind je de tijd ervoor tussen al je andere taken door?

Er verschijnen steeds meer AI-tools die beloven deze marketingkopzorgen op te lossen. Maar werken ze echt? En belangrijker: maken ze het niet juist nóg ingewikkelder? Deze week testen we twee AI-marketingtools die veel buzz genereren in start-upland. De ene belooft een complete marketingafdeling in een dashboard, de andere zegt marketing zo simpel te maken dat zelfs de meest marketingallergische ondernemer ermee uit de voeten kan.

We doken er diep in, testten alle functies en vroegen gebruikers naar hun ervaringen. Dit is wat we ontdekten.

Keep reading with a 7-day free trial

Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.