AI överträffade 30 av världens bästa matematiker vid Secret Meeting i Kalifornien

På en helg i mitten av maj sammankallades en hemlig matematisk konklav. Trettio av världens mest kända matematiker reste till Berkeley, Kalifornien, med några som kommer från så långt borta som Storbritanniens medlemmar mötte i en showdown med en ”resonemang” chatbot Det fick i uppdrag att lösa problem som de hade utformat för att testa dess matematiska mettle. Efter att ha kastat frågor på professor på botten i två dagar var forskarna bedövade att upptäcka att det kunde svara på några av Världens svåraste lösbara problem. ”Jag har kollegor som bokstavligen sa att dessa modeller närmar sig matematiskt geni,” säger Ken Ono, matematiker vid University of Virginia och en ledare och domare vid mötet.
Chatboten i fråga drivs av o4-minien så kallad resonemang Large Language Model (LLM). Det utbildades av OpenAI för att kunna göra mycket komplicerade avdrag. Googles motsvarande, Gemini 2.5 Flashhar liknande förmågor. Liksom LLMS som drev tidigare versioner av chatgpt, lär sig O4-Mini att förutsäga nästa ord i en sekvens. Jämfört med de tidigare LLM: erna är emellertid O4-Mini och dess ekvivalenter lättare, mer smidiga modeller som tränar på specialiserade datasätt med starkare förstärkning från människor. Tillvägagångssättet leder till en chatbot som kan dyka mycket djupare i komplexa problem i matematik än Traditionella LLMS.
För att spåra framstegen med O4-mini, OpenAI tidigare Uppgifter Epoch AI, en ideell som riktmärken LLMS, kommer att komma med 300 matematiska frågor vars lösningar ännu inte hade publicerats. Även traditionella LLM: er kan korrekt svara på många komplicerade matematiska frågor. Men när Epoch Ai ställde flera sådana modeller dessa frågor, som var olika för dem de hade utbildats på, kunde de mest framgångsrika lösa Mindre än 2 procentatt visa dessa LLM: er saknade förmågan att resonera. Men O4-mini skulle visa sig vara mycket annorlunda.
Epoch Ai anlitade Elliot Glazer, som nyligen hade avslutat sin matematik Ph.D., för att gå med i det nya samarbetet för riktmärket, kallad Frontiermati september 2024. Projektet samlade nya frågor om olika svårighetsnivåer, med de tre första nivåerna som täcker underutbildningar-, forskar- och forskningsnivåutmaningar. I april 2025 fann Glazer att O4-Mini kunde lösa cirka 20 procent av frågorna. Han fortsatte sedan till en fjärde nivå: en uppsättning frågor som skulle vara utmanande även för en akademisk matematiker. Endast en liten grupp människor i världen skulle kunna utveckla sådana frågor, än mindre att svara på dem. Matematikerna som deltog var tvungna att underteckna ett avtal om avslöjande av avslöjande som krävde att de enbart kommunicerar via meddelandesignalen. Andra kontaktformer, till exempel traditionellt e-postmeddelande, kan potentiellt skannas av en LLM och oavsiktligt utbilda det och därigenom förorena datasättet.
Varje problem O4-Mini kunde inte lösa skulle få matematikern som kom med det en belöning på 7 500 dollar. Gruppen gjorde långsamma, stadiga framsteg när det gäller att hitta frågor. Men Glazer ville påskynda saker, så Epoch AI var värd för personmötet på lördagen den 17 maj och söndag 18 maj. Där skulle deltagarna slutföra det sista partiet med utmaningsfrågor. De 30 deltagarna delades upp i grupper om sex. Under två dagar tävlade akademikerna mot sig själva för att utforma problem som de kunde lösa men skulle resa upp AI -resonemangsboten.
I slutet av den lördagskvällen var Ono frustrerad över botten, vars oväntade matematiska förmåga folierade gruppens framsteg. ”Jag kom med ett problem som experter inom mitt område skulle erkänna som en öppen fråga i antaleteorin-ett bra doktorsexamen-problem,” säger han. Han bad O4-Mini att lösa frågan. Under de kommande tio minuterna såg Ono i bedövad tystnad när boten släppte ut en lösning i realtid och visade sin resonemang på vägen. Boten tillbringade de första två minuterna på att hitta och behärska den relaterade litteraturen i fältet. Sedan skrev den på skärmen att den ville försöka lösa en enklare ”Toy” -version av frågan först för att lära sig. Några minuter senare skrev den att den äntligen var beredd att lösa det svårare problemet. Fem minuter efter det presenterade O4-Mini en korrekt men sassy lösning. ”Det började bli riktigt fräckt,” säger Ono, som också är frilans matematisk konsult för Epoch AI. ”Och i slutet säger det: ’Ingen citering är nödvändig eftersom mysteriumnumret beräknades av mig!'”
Släkt: AI Benchmarking Platform hjälper toppföretag att rigga sina modellprestationer, studera påståenden
Besegrade, Ono hoppade på signal tidigt på söndagsmorgonen och varnade resten av deltagarna. ”Jag var inte beredd att tävla med en LLM som den här,” säger han, ”Jag har aldrig sett den typen av resonemang tidigare i modeller. Det är vad en forskare gör. Det är skrämmande.”
Även om gruppen så småningom lyckades hitta 10 frågor som stymrade botten, blev forskarna förvånade över hur långt AI hade gått vidare inom ett år. Ono liknade det med att arbeta med en ”stark samarbetspartner.” Yang Hui He, en matematiker vid London Institute for Mathematical Sciences och en tidig pionjär för att använda AI i matematik, säger: ”Detta är vad en mycket, mycket bra doktorand skulle göra – faktiskt mer.”
Boten var också mycket snabbare än en professionell matematiker och tog bara några minuter att göra vad det skulle ta en sådan mänsklig expert veckor eller månader att slutföra.
Medan sparring med O4-Mini var spännande, var dess framsteg också oroande. Ono och han uttrycker oro över att O4-Minis resultat kan lita för mycket. ”Det finns bevis genom induktion, bevis i motsägelse och sedan bevis genom hot,” säger han. ”Om du säger något med tillräckligt med auktoritet blir människor bara rädda. Jag tror att O4-Mini har behärskat bevis genom hot; det säger allt med så mycket förtroende.”
I slutet av mötet började gruppen överväga hur framtiden kan se ut för matematiker. Diskussioner vände sig till det oundvikliga ”Tier Five” – frågor som även de bästa matematikerna inte kunde lösa. Om AI når den nivån skulle matematikernas roll genomgå en kraftig förändring. Till exempel kan matematiker växla till att helt enkelt ställa frågor och interagera med resonemangsbor för att hjälpa dem att upptäcka nya matematiska sanningar, ungefär samma som en professor gör med doktorander. Som sådan förutspår ONO att vårdande kreativitet i högre utbildning kommer att vara en nyckel för att hålla matematik som går för kommande generationer.
”Jag har sagt till mina kollegor att det är ett allvarligt misstag att säga det generaliserade konstgjorda intelligens kommer aldrig att komma, [that] Det är bara en dator, ”säger Ono.” Jag vill inte lägga till hysteriet, men på vissa sätt överträffar dessa stora språkmodeller redan de flesta av våra bästa doktorander i världen. ”
Denna artikel publicerades först på Vetenskaplig amerikan. © ScientificArican.com. Alla rättigheter reserverade. Följa Tiktok och Instagram, X och Facebook.