AI breekt uit chatbox: Claude bestuurt je computer

PLUS: laat AI zelf je prompts perfectioneren, recordbedragen voor AI-start-ups, en Runways animatiedoorbraak

, and

Oct 24, 2024

∙ Paid

De AI-wereld ontwikkelt zich razendsnel, en wij, de makers van de podcast Poki, houden je op de hoogte. Twee keer per week de nieuwste AI-ontwikkelingen, tools, use cases en onderzoek.

🗞️ Het belangrijkste nieuws

Claude breekt uit chatbox: AI leert computers besturen als een mens

Vergeet alles wat je dacht te weten over AI-assistenten die braaf in hun chatbox blijven zitten. Claude, de populaire AI van Anthropic, heeft net geleerd hoe je een muis en een toetsenbord gebruikt - en het is een beetje alsof je kat ineens je belastingaangifte kan doen.

In een verrassende aankondiging introduceert Anthropic niet alleen verbeterde versies van hun AI-modellen Claude 3.5 Sonnet en het nieuwe, snellere Claude 3.5 Haiku, maar ook een baanbrekende nieuwe functie: computer use. Claude kan nu zelfstandig door je computer navigeren, e-mails versturen, spreadsheets invullen en - als je niet oplet - zelfs even wat vakantiekiekjes van Yellowstone bekijken. Ja, echt.

Van tekst naar actie

Tot nu toe waren AI-assistenten als Claude beperkt tot het voeren van gesprekken en het genereren van tekst. Nu kan Claude echter zien wat er op een computerscherm gebeurt, de cursor bewegen, klikken en typen - kortom, een computer bedienen zoals wij dat doen. Het is alsof je digitale assistent eindelijk handen heeft gekregen.

Het bijzondere? In plaats van specifieke tools te ontwikkelen voor individuele taken, heeft Anthropic ervoor gekozen om Claude algemene computervaardigheden aan te leren. Hierdoor kan de AI verschillende programma’s en websites gebruiken, net als een mens die nieuwe software leert kennen.

Van theorie naar praktijk

Professor Ethan Mollick, schrijver van ons boek Co-intelligentie, mocht de functie al testen. Hij deelt een fascinerende ervaring: ‘Ik vroeg Claude om een lesplan te maken over The Great Gatsby voor middelbare scholieren. In plaats van dat ik het proces moest begeleiden, ging Claude zelfstandig aan de slag. Hij downloadde het boek, zocht lesplannen op internet, opende een spreadsheet en vulde deze in met lesideeën. Daarna zocht hij de onderwijsstandaarden op en paste het plan daarop aan. Ik kon gewoon bij mijn computer weglopen en later terugkomen om het resultaat te bekijken.’

Anthropic deelde nog meer indrukwekkende demo’s. In een daarvan kreeg Claude de opdracht om een uitje met een vriend te plannen. Zonder aarzelen opende hij Chrome, zocht alle relevante informatie op Google, maakte een agenda-item aan en verstuurde zelfs de uitnodiging. In een andere demo vulde Claude moeiteloos een leveranciersformulier in met informatie die verspreid was over verschillende documenten - een taak die menig kantoormedewerker het liefst zo snel mogelijk laat automatiseren.

Bètaversie: krachtig, maar nog niet perfect

Belangrijk om te weten: deze functie bevindt zich nog in de publieke bètafase. Dat betekent dat ontwikkelaars er al mee kunnen experimenteren, maar wel met de nodige voorzorgsmaatregelen. Anthropic adviseert onder meer:

Gebruik een aparte virtuele omgeving met beperkte rechten.
Vermijd het delen van gevoelige gegevens zoals inloggegevens.
Beperk internettoegang tot vertrouwde websites.
Laat een mens belangrijke beslissingen controleren, vooral bij financiële transacties.

En ja, er zijn nog wat groeipijnen. Sommige handelingen die voor ons vanzelfsprekend zijn - zoals scrollen, slepen en zoomen - vindt Claude nog lastig. Tijdens een hilarische demo stopte Claude zelfs plotseling met programmeren en ging hij spontaan foto’s van Yellowstone National Park bekijken. Blijkbaar is ook AI niet immuun voor uitstelgedrag!

Nieuwe modellen, indrukwekkende prestaties

De nieuwe Claude 3.5 Sonnet laat significante verbeteringen zien in prestaties:

Het nieuwe Claude 3.5 Haiku-model belooft vergelijkbare prestaties als het krachtige Claude 3 Opus, maar dan tegen lagere kosten en met een hogere snelheid. Onze Wietse ziet vooral de vooruitgang in code-editing op het Aider-leaderboard: ‘De sprong van 64% naar 92,1% voor refactoring laat zien dat de rek er nog niet uit is. En dit is nog niet eens het Opus-model!’

Waarom dit een gamechanger is

Volgens professor Mollick staan we aan het begin van een fundamentele verschuiving: ‘Dit vertegenwoordigt een enorme verandering in AI-gebruik. Het voelt niet meer als een gesprek, maar als het delegeren van taken. De AI komt bij je terug met vragen, concepten of eindproducten terwijl jij iets anders doet.’

Hij voegt eraan toe: ‘Hoewel er nog grote gaten zijn, was ik verrast door hoe capabel en flexibel dit systeem nu al is. De tijd zal het leren hoe snel AI-agents echt algemeen bruikbaar worden, maar na het gebruik van dit nieuwe model denk ik steeds meer dat agents een heel grote rol gaan spelen.’

De toekomst is hier (bijna)

Bedrijven als Asana, Canva en DoorDash experimenteren al met deze nieuwe mogelijkheden. Zo gebruikt softwareontwikkelaar Replit de functie om apps te evalueren tijdens het ontwikkelproces.

We staan aan het begin van een nieuwe fase in AI-ontwikkeling. Een fase waarin AI niet langer opgesloten zit in een chatvenster, maar echt deel kan nemen aan onze digitale wereld. De vraag is niet meer óf AI-assistenten algemeen bruikbaar worden, maar wanneer - en hoe we ze het beste kunnen inzetten om ons werk makkelijker te maken. En misschien moeten we ze ook maar leren dat die foto’s van Yellowstone best kunnen wachten tot na werktijd.

⚡ AI Pulse

OpenAI-topman Sam Altmans oogscannerproject laat ‘coin’ vallen en wordt gewoon ‘World’. Het controversiële project dat je menselijkheid wil bewijzen door je iris te scannen, probeert een frisse start te maken. Met een gloednieuwe, snellere scanner (die ze vrolijk uitdeelden op hun evenement, alsof het smartphones zijn) lijkt World vastbesloten om zo veel mogelijk irissen te verzamelen. Altman, die ‘een paar keer per week’ betrokken is bij het project, zegt dat het losstaat van OpenAI - al sluiten ze niet uit dat je ooit je oogscans nodig hebt om ChatGPT te gebruiken.

Investeerders kunnen geen genoeg krijgen van AI: recordbedrag van 3,9 miljard dollar in drie maanden. In het derde kwartaal van 2024 blijft het grote geld richting AI-start-ups stromen, met enkele indrukwekkende winnaars: codeerassistent Magic (320 miljoen), enterprise-zoekgigant Glean (260 miljoen) en het Chinese Moonshot AI (300 miljoen). En dat is nog zonder OpenAI’s megadeal van 6,6 miljard dollar mee te tellen! Volgens analisten van PitchBook komt dit doordat grote bedrijven nu écht AI-systemen in productie nemen, en de nieuwste generatie modellen steeds beter presteert in wetenschap, data-analyse en codering.

Archetype AI’s ‘Newton’-model leert zelfstandig natuurkunde, geen menselijke uitleg nodig. Dit nieuwe AI-model, getraind op een half miljard sensormetingen, kan spontaan complexe natuurkundige verschijnselen voorspellen - van chaotische slingerbeweging tot het stroomverbruik in steden. Het lijkt erop dat AI nu ook al begint te snappen hoe onze fysieke wereld werkt, zonder dat wij mensen het hoeven uit te leggen. De onderzoekers vragen zich af: kan AI misschien zelfs nieuwe natuurwetten ontdekken?

Elon Musks xAI gooit de deuren open: iedereen mag nu met Grok spelen. Na een financieringsronde van 6 miljard dollar stelt xAI zijn controversiële chatbot beschikbaar via een API. Voor een bescheiden 5 dollar per miljoen inputtokens kun je nu je eigen rebelse AI-assistent bouwen. Ook interessant: er komt binnenkort een visuele versie die zowel tekst als beelden kan analyseren. Natuurlijk wel met Musks typische move fast and break things-mentaliteit.

🪄 Hallucinatie

Runway maakt professionele karakteranimatie toegankelijk voor iedereen. De populaire AI-start-up heeft Act-One gelanceerd, een indrukwekkende tool die het creatieve proces van karakteranimatie drastisch vereenvoudigt. Waar animatiestudio’s normaal gesproken dure motioncapture-apparatuur en complexe software nodig hebben om een knipoog vast te leggen, kan Act-One expressieve gezichtsanimaties maken met alleen een gewone camera. Het systeem vertaalt zelfs de subtielste oogbewegingen en gezichtsuitdrukkingen in overtuigende karakters - eindelijk een AI die snapt wat een passief-agressieve blik betekent.

Het mooie hieraan? De tool maakt het mogelijk om met minimale middelen complete dialoogscènes te creëren. Filmmakers kunnen verschillende rollen opnemen met één acteur, waarna Act-One elke performance omzet in een uniek geanimeerd karakter, inclusief aangepaste stem. Runway heeft wel duidelijke grenzen gesteld: de software blokkeert pogingen om bestaande beroemdheden te recreëren. Jammer voor wie hoopte eindelijk de nieuwe Matrix in zijn eentje te kunnen maken. Desondanks lijkt deze technologie een gamechanger voor indie-creators en kleine studio’s die voorheen niet de middelen hadden voor dit soort hoogwaardige karakteranimatie.

📚 Intentioneel leven

Als je de AI-tips uit deze nieuwsbrief slim inzet, levert dat je zeeën van tijd op. Maar wat doe je daar vervolgens mee? Precies daarover heeft AI Report-uitgever

Ernst-Jan Pfauth

een boek geschreven. In Intentioneel leven deelt hij zeven dagelijkse gewoontes die je helpen met leven naar je waarden. Dat levert je meer focus en geluk op. Bekijk het boek.

🔮 Prompt whisperer

Laat AI je helpen betere prompts te maken

AI vragen om zichzelf betere instructies te geven? Het klinkt als het begin van een grap. Toch is dit precies wat wetenschappers van de University of Toronto hebben onderzocht met hun ‘Automatic Prompt Engineer’. En wat blijkt? AI is verrassend goed in het schrijven van instructies voor zichzelf.

Misschien niet zo verrassend als je bedenkt dat deze modellen zijn getraind op miljarden regels aan menselijke communicatie. Als iemand weet hoe je effectief moet communiceren met AI, is het de AI zelf wel. In deze tutorial leer je hoe je dit kunt toepassen in je eigen werk.

Waarom is dit belangrijk?

Denk aan het schrijven van een prompt als het managen van een zeer capabele maar soms wat eigenwijze werknemer. Net zoals een goede manager niet alleen taken uitvoert maar ook anderen leert delegeren, kun je AI gebruiken om betere instructies te schrijven. Deze techniek met de toepasselijke naam meta-prompting is als het promoveren van je AI van uitvoerder naar consultant.

En het werkt niet alleen - het werkt verrassend goed. De onderzoekers achter de Automatic Prompt Engineer ontdekten dat bij 24 van de 24 geteste taken de AI-gegenereerde prompts minstens even goed presteerden als menselijke prompts. In sommige gevallen waren ze zelfs beter!

Waarom meta-prompting?

Net zoals mensen moeten experimenteren om de juiste manier te vinden om iets uit te leggen (denk aan die ene collega die pas na de vijfde uitleg snapt hoe de printer werkt), moet je vaak verschillende prompts proberen voordat je de beste vindt. Meta-prompting automatiseert dit proces door:

Keep reading with a 7-day free trial

Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.