Marketeers opgelet: dit verandert alles
Vannacht lanceerde OpenAI wat nieuws wat niet kon wachten tot morgen: nog veel betere plaatjes maken. In deze extra editie lees je er alles over!
Woensdag? Ja, woensdag. Er is vannacht zoiets gaafs gelanceerd wat niet kon wachten op morgen en we je moeten laten zien: OpenAI heeft plaatjes maken in ChatGPT tot een nieuw niveau getild. Écht een nieuw niveau.
In deze spoednieuwsbrief laten we je de highlights zien én hoe je er zelf mee aan de gang kan gaan. Stuur ‘m door naar je collega’s die dit moeten zien!
🚨 OpenAI brengt beeldgeneratie direct naar ChatGPT: GPT-4o neemt de fakkel over van DALL-E
OpenAI heeft gisteren tijdens deze livestream een grote update aangekondigd voor ChatGPT: gebruikers kunnen nu direct binnen de chat plaatjes maken met GPT-4o.
Deze integratie is de eerste grote upgrade van de beeldgeneratie-capaciteiten in meer dan een jaar en vervangt effectief DALL-E 3. De functionaliteit is onmiddellijk beschikbaar voor gebruikers met een Pro- en Plus-abonnement en wordt binnenkort ook uitgerold naar gratis gebruikers.
Bekijk hieronder hun eigen aankondiging:
In tegenstelling tot eerst waar plaatjes maken altijd een aparte functie was, is deze nieuwe mogelijkheid direct geïntegreerd in het GPT-4o model. Volgens onderzoeksleider Gabriel Goh biedt dit model "een stapsgewijze verbetering ten opzichte van eerdere modellen," waarbij het gebruik maakt van de 'omnimodale' basis van GPT-4o – een model dat elk soort data kan genereren, zoals tekst, beeld, audio en video.
Wat is er dan zo goed?
OpenAI benadrukt dat deze update substantiële verbeteringen biedt op twee belangrijke gebieden waar AI-beeldgeneratie traditioneel moeite mee had:
Betere 'binding' van attributen
Een van de opvallendste verbeteringen is wat OpenAI 'binding' noemt: het correct koppelen van eigenschappen aan objecten. Waar de meeste plaatjesmakers in de war raken bij ongeveer 5 tot 8 objecten (bijvoorbeeld door een blauwe ster en rode driehoek te verwisselen), kan GPT-4o nu naar verluidt 15 tot 20 objecten consistent weergeven zonder verwarring.
Superieure tekstweergave
Een tweede grote ontwikkeling is de verbeterde tekstweergave. AI-gegenereerde beelden bevatten vaak van die vreemde, onleesbare tekst of typefouten, wat ze onbruikbaar maakt voor bijvoorbeeld informatieve posters of menu's. "Dit was een proces van iteratie dat vele, vele maanden kostte om goed te krijgen," legt Goh uit. Het resultaat is een model dat consistent bruikbare tekst produceert – hoewel het nog steeds moeite heeft met zeer kleine tekst.
De technische benadering verschilt ook fundamenteel: in plaats van het diffusiemodel dat de meeste beeldgeneratoren (inclusief DALL-E) gebruiken, waarbij het hele beeld tegelijk wordt gecreëerd, gebruikt GPT-4o een ‘autoregressieve’ aanpak.
Het genereert beelden sequentieel van links naar rechts en van boven naar beneden, vergelijkbaar met hoe tekst wordt geschreven. Goh speculeert dat dit technische verschil verantwoordelijk zou kunnen zijn voor de betere tekstweergave en de eerder genoemde bindingscapaciteiten.
Maar onze favoriet: character consistency
Een van de meest indrukwekkende vernieuwingen is de aanzienlijke verbetering in character consistency - het vermogen om personages consequent weer te geven over meerdere afbeeldingen.
Waar het eerst altijd gedoe gaf om dezelfde persoon, dier of fictief karakter herkenbaar te houden in opeenvolgende beelden, houdt GPT-4o nu gezichtskenmerken, kledingstijl en andere visuele eigenschappen een stuk beter gelijk. Dit maakt het mogelijk om coherente visuele assets te maken zonder de verwarrende "identiteitswissel" die voorheen zo kenmerkend was voor AI-beelden.
Maar waar het internet vooral los op ging is het vermogen om bestaande afbeeldingen naar compleet nieuwe stijlen te transformeren, terwijl de essentiële compositie en karaktereigenschappen hetzelfde blijven.
Upload bijvoorbeeld een vakantiekiekje van je gezin, vraag om een "Studio Ghibli-versie" of "cyberpunk-interpretatie", en het model creëert een volledig getransformeerde versie waarin gezichtskenmerken, posities en verhoudingen gelijk blijven. Dit maakt het echt waardevol voor marketeers, ontwerpers en contentmakers als je een consistente visuele identiteit wil behouden in alles wat je naar buiten brengt.
Op X gingen mensen los en er verschenen talloze voorbeelden en wij gingen er zelf ook mee aan de slag. Onderaan deze nieuwsbrief vind je daar nog veel meer voorbeelden van!
Het nieuwe systeem doet er wel langer over om beelden te genereren, maar volgens Jackie Shannon, productleider voor ChatGPT multimodaal, is dit een waardevolle afweging: "De kwaliteit van deze beelden, de mogelijkheden, de wereldkennis, maakt de extra seconden die ze zullen wachten meer dan goed."
De menselijke factor
Wat deze update ook onderscheidt is de uitgebreide inzet van menselijke trainers. Het team heeft ruim 100 menselijke medewerkers ingezet die trainingsdata hebben gelabeld voor het model – waarbij ze wezen op typfouten, afwijkende handen en gezichten in AI-gegenereerde beelden.
Door deze techniek, bekend als reinforcement learning from human feedback (RLHF), werd het AI-model getraind om menselijke aanwijzingen nauwkeuriger te volgen, waardoor het nauwkeuriger en bruikbaardere beelden genereert. "Het basismodel is al op zijn eigen manier intelligent," legt Goh uit, "en dan haalt het RLHF-proces die intelligentie naar boven en verfijnt het."
Controverse over trainingdata
OpenAI zegt dat GPT-4o is getraind op "publiek beschikbare data," evenals eigen data uit partnerschappen met bedrijven zoals Shutterstock. Dit blijft een gevoelig punt in de AI-wereld, aangezien sommige kunstenaars stellen dat AI-beeldgeneratoren hun werk plagiëren en hun bestaansmiddelen bedreigen.
Brad Lightcap, Chief Operating Officer van OpenAI, benadrukt: "We respecteren de rechten van kunstenaars in termen van hoe we de output doen, en we hebben beleid om te voorkomen dat we beelden genereren die het werk van levende kunstenaars direct nabootsen." OpenAI biedt ook een opt-out formulier waarmee makers kunnen verzoeken dat hun werken worden verwijderd uit de trainingsdatasets.
Bij Lightcaps uitspraak over het "respecteren van kunstenaarsrechten" fronsen we wel onze wenkbrauwen. Want eerlijk is eerlijk: terwijl OpenAI dit beweert, promoten ze tegelijkertijd het genereren van beelden in de stijl van kunstenaars die nog gewoon leven en werken.
Neem Studio Ghibli-oprichter Hayao Miyazaki, die nog springlevend is en vorig jaar nog een Oscar won. Hij staat niet bepaald bekend als AI-enthousiasteling, maar toch kun je met één simpele prompt prachtige Ghibli-imitaties maken. Die tegenstelling is op z'n minst opmerkelijk te noemen.
Waar ligt de grens tussen inspiratie en imitatie? En wanneer verschuift bewondering naar toe-eigening? Deze vragen beantwoordt de AI niet voor je. Dat blijft mensenwerk. Als gebruiker blijft het belangrijk je eigen ethische afwegingen te maken. ChatGPT zelf zal je niet vertellen wanneer je een grens overschrijdt. Misschien is het daarom goed om, wanneer je een Ghibli-transformatie of de stijl van een specifieke kunstenaar nabootst, die maker altijd te blijven benoemen en refereren in je werk. Een kleine erkenning voor de creatieve geesten die de stijlen ontwikkelden die we nu met één prompt kunnen reproduceren.
🖼️ En dan nu de voorbeelden!
Open het internet en je kunt er niet omheen, alle voorbeelden die mensen zelf al hebben gemaakt hiermee. Wij hebben hier in ieder geval gebundeld wat we zelf tegen kwam en we graag met jullie delen!
Nick St. Pierre plaatste op X dit prompt:
a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
Context: a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
Characters: one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
Composition from background to foreground: streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
Wat in one shot resulteerde in dit plaatje:
Of de manier waarop het de Pixar-stijl weet te vatten, in dit geval van Cars:
Een bekend tafereel, maar dan in South Park-stijl van deze Reddit-gebruiker:
Of deze infographic met een heel simpel prompt en weinig tot geen context:
Hier een voorbeeld van die verbeterde binding waar OpenAI het over had én de tekst-capaciteit. Veel componenten die toch allemaal goed terug komen in het plaatje en een samenhangend geheel vormen.
Dit was het prompt (waarbij ik me echt afvraag: hoe kom je erop?!):
a security cam still from a 1990s grocery store showing a man in full medieval armor stealing rotisserie chickens, frozen in mid-sprint past the dairy section, armor reflecting overhead fluorescent lights, baby blue tiled floors, timestamp reads "08/13/96 04:44 AM", posters on wall say “NEW! TOASTER STRUDELS!”, motion blur adds chaotic energy, absurd yet intense, low-fidelity with VHS color bleed.
En dit de output:

Onze eigen cover als Cyberpunk illustratie voor de mensen met heimwee naar Poki. Het behoudt de letters perfect en weet de compositie tussen Alexander en Wietse ook goed te pakken.
Wij zijn enorm enthousiast. Nu al zo veel voorbeelden binnen 24 uur! Laat staan wat er de komende weken nog meer verschijnt op het web. We houden het voor je in de gaten.
🎨 Eindeloos veel assets met 1 klik
Maar, hoe kun je dit nou inzetten voor je eigen merk of bedrijf?
We gingen zelf aan de slag met om te laten zien wat er in een paar minuten op basis van een aantal simpele prompts mogelijk is om te maken.
Als voorbeeld namen we het razend populaire drankje van Upfront. Een vrij simpel flesje met een kleurtje en een smaakje. Genoeg als basis om advertenties mee te gaan maken.
Keep reading with a 7-day free trial
Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.