OpenAI onthult krachtig nieuw ‘01’-model: een grote sprong voorbij ChatGPT-4o

1145

Gepubliceerd op: 13 september 2024 Bijgewerkt op: 13 september 2024

OpenAI lanceert een nieuw model met de naam 01. Volgens de AI-ontwikkelaar is het nodig om “de teller opnieuw in te stellen” voor zijn productnamen. Sinds donderdag zijn de nieuwe modellen beschukbaar via zijn betaalde ChatGPT Plus-abonnement. Volgens OpenAI zijn er een groot aantal verbeteringen doorgevoerd.

OpenAI lanceert 01 model

“We introduceren OpenAI 01, een nieuw groot taalmodel dat is getraind met reinforcement learning om complexe redeneringen uit te voeren,” zo zegt OpenAI in een officiële blogpost, “01 denkt voordat het antwoordt.” OpenAI beschrijft deze nieuwe reeks modellen als een grote sprong voorwaarts. Zo groot dat ze hun gebruikelijke naamgevingsschema hebben veranderd en afwijken van de ChatGPT-3, ChatGPT-3.5 en ChatGPT-4o series.

“Voor complexe redeneertaken is dit een aanzienlijke vooruitgang en vertegenwoordigt het een nieuw niveau van AI-capaciteiten,” aldus OpenAI. “Daarom zetten we de teller terug naar één en noemen we deze serie OpenAI 01.”

Een belangrijk kenmerk van deze nieuwe modellen is dat ze “de tijd nemen” om na te denken voordat ze handelen. Ze maken gebruikmak van zogenaamde “chain-of-thought” redeneringen om ze extreem effectief te maken bij complexe taken.

Opvallend is dat zelfs het kleinste model in deze nieuwe serie beter presteert dan de GPT-4o in verschillende belangrijke gebieden, vooral in uitdagingen die als PhD-niveau complexiteit is te beschouwen.

01 versus GPT-4o

De nieuw uitgebrachte modellen benadrukken wat OpenAI “deliberative reasoning” noemt. Het systeem neemt extra tijd om intern na te denken over zijn antwoorden. Dit proces is bedoeld om meer doordachte, samenhangende antwoorden te geven, vooral bij taken die veel redenering vereisen.

OpenAI publiceerde ook interne testresultaten die verbeteringen lieten zien ten opzichte van GPT-4o bij taken zoals programmeren, calculus en data-analyse. Er zijn echter minder drastische verbeteringen te zien bij creatieve taken zoals creatief schrijven. Desondanks is het nieuwe model over het algemeen goed beoordeeld door menselijke evaluators.

Chain of thought proces

De capaciteiten van het nieuwe model implementeren, zoals vermeld, het chain-of-thought AI-proces tijdens de inferentie. Kort gezegd betekent dit dat het model een gesegmenteerde aanpak gebruikt om stap voor stap door een probleem te redeneren voordat het een definitief resultaat geeft.

“De 01-modelserie is getraind met grootschalige reinforcement learning om te redeneren met een chain of thought. Het trainen van modellen om een chain of thought te integreren voordat ze antwoorden, heeft voordelen. Maar het verhoogt ook de potentiële risico’s die voortvloeien uit verhoogde intelligentie.”

Dat laatste leidt ook tot discussie. OpenAI heeft niet verduidelijkt hoe het proces afwijkt van op tokens gebaseerde generatie.

Een eerder open-source AI-model genaamd Reflection had geëxperimenteerd met een soortgelijke aanpak die veel nadruk legde op redenering, maar kreeg kritiek vanwege het gebrek aan transparantie. Dat model gebruikte tags om de stappen van zijn redenering te scheiden, wat volgens zijn ontwikkelaars leidde tot een verbetering van de outputs ten opzichte van conventionele modellen.

I'm excited to announce Reflection 70B, the world’s top open-source model.

Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.

405B coming next week – we expect it to be the best model in the world.

Built w/ @GlaiveAI.

Read on ⬇️: pic.twitter.com/kZPW1plJuo

— Matt Shumer (@mattshumer_) September 5, 2024

Het inbouwen van meer richtlijnen in het chain-of-thought proces maakt het model niet alleen nauwkeuriger, maar ook minder vatbaar voor jailbreaking technieken, omdat het meer tijd—en stappen—heeft om te herkennen wanneer er een mogelijk schadelijk resultaat is geproduceerd.

Jailbreaking

De jailbreaking-gemeenschap lijkt echter net zo efficiënt als altijd in het vinden van manieren om de AI-veiligheidscontroles te omzeilen, aangezien de eerste succesvolle jailbreaks van OpenAI 01 enkele minuten na de release al zijn gemeld, aldus Decrypt.

Het blijft onduidelijk of deze benadering van deliberative reasoning effectief is op te schalen voor realtime toepassingen die snelle reacties vereisen. OpenAI zegt de mogelijkheden van de modellen uit te willen breiden, inclusief webzoekfunctionaliteit en verbeterde multimodale interacties. Het model zal ook in de loop van de tijd worden aangepast om te voldoen aan de minimumnormen van OpenAI op het gebied van veiligheid, jailbreakpreventie en autonomie.

De kleinste versie zal uiteindelijk gratis beschikbaar zijn, en toegang tot de API zal 80% goedkoper zijn dan OpenAI o1-preview. Wel is er een weeklimiet van slechts 30 berichten per week om dit nieuwe model te testen voor 01-preview en 50 voor o1-mini, dus kies je prompts zorgvuldig.

Waarom je kunt vertrouwen op

Wij hanteren een strikt redactioneel beleid dat gericht is op feitelijke nauwkeurigheid, relevantie en onpartijdigheid. Onze content, gecreëerd door vooraanstaande experts uit de industrie, wordt nauwgezet beoordeeld door een team van ervaren redacteuren om te zorgen voor naleving van de hoogste normen in rapportage en publicatie.

2M+

Maandelijkse lezers

20K+

Deskundige artikelen

200+

Onderzoeksuren

20+

Experts

Door: Wessel Simons

Wessel is een doorgewinterde expert in de Nederlandse en internationale bitcoin- en cryptowereld, met meer dan acht jaar ervaring. Hij heeft een brede expertise opgebouwd in alle facetten van de cryptomarkt, met een bijzondere focus op industrienieuws en on-chainanalyse. Wessel heeft een grote passi...

Bekijk alle berichten van Wessel Simons

Lees meer over chatgpt OpenAI

OpenAI lanceert 01 model

01 versus GPT-4o

Chain of thought proces

Jailbreaking

Door: Wessel Simons

Laatste Nieuws

Populaire artikelen