AI kan snart tänka på sätt som vi inte ens förstår, vilket ökar risken för felinställning – forskare på Google, Meta och OpenAi varnar

Forskare bakom några av de mest avancerade konstgjorda intelligens (AI) På planeten har varnat för att de system de hjälpte till att skapa kan utgöra en risk för mänskligheten.
Forskarna, som arbetar på företag inklusive Google DeepMind, OpenAI, Meta, Anthropic och andra, hävdar att en brist på övervakning av AI: s resonemang och beslutsprocesser kan innebära att vi missar tecken på malignt beteende.
I den nya studien, publicerad 15 juli till arxiv Preprint Server (som inte har granskats), forskarna belyser tankekedjor (COT)-stegen som stora språkmodeller (LLMS) tar när de arbetar med komplexa problem. AI -modeller använder COTS för att dela upp avancerade frågor i mellanliggande, logiska steg som uttrycks på naturligt språk.
Studiens författare hävdar att övervakning av varje steg i processen kan vara ett avgörande lager för att etablera och upprätthålla AI -säkerhet.
Att övervaka denna COT -process kan hjälpa forskare att förstå hur LLM fattar beslut och, ännu viktigare, varför de blir felaktiga med mänsklighetens intressen. Det hjälper också till att avgöra varför de ger utgångar baserade på data som är falska eller inte finns, eller varför de vilseleder oss.
Det finns emellertid flera begränsningar vid övervakning av denna resonemangsprocess, vilket innebär att sådant beteende potentiellt kan passera genom sprickorna.
Släkt: AI kan nu replikera sig själv – en milstolpe som har experter skräckt
”AI -system som” tänker ”på mänskligt språk erbjuder en unik möjlighet till AI -säkerhet”, skrev forskarna i studien. ”Vi kan övervaka deras tankekedjor för avsikten att bete sig fel. Liksom alla andra kända AI -övervakningsmetoder är COT -övervakning ofullkomlig och gör att vissa missuppträdande kan gå obemärkt.”
Forskarna varnade för att resonemang inte alltid inträffar, så det kan inte alltid övervakas, och vissa resonemang inträffar utan att mänskliga operatörer ens vet om det. Det kan också vara resonemang som mänskliga operatörer inte förstår.
Att hålla ett vakande öga på AI -system
Ett av problemen är att konventionella icke-reglerande modeller som K-medel eller DBSCAN-använder sofistikerad mönstermatchning som genereras från massiva datasätt, så att de inte litar på COT alls. Nyare resonemangsmodeller som Googles Gemini eller Chatgpt kan under tiden dela upp problem i mellanliggande steg för att generera lösningar – men behöver inte alltid göra detta för att få svar. Det finns inte heller någon garanti för att modellerna kommer att göra COT: er synliga för mänskliga användare även om de vidtar dessa steg, konstaterade forskarna.
”Den externa resonemangsegenskapen garanterar inte övervakningsbarhet – det säger bara att en viss resonemang förekommer i tankekedjan, men det kan finnas andra relevanta resonemang som inte gör det,” sade forskarna. ”Det är således möjligt att även för hårda uppgifter innehåller tankekedjan bara godartad resonemang medan det kriminella resonemanget är dolt.” En ytterligare fråga är att COT kanske inte ens är begripliga av människor, säger forskarna. ”
Nya, kraftfullare LLM: er kan utvecklas till den punkt där barnsängar inte är så nödvändiga. Framtida modeller kan också kunna upptäcka att deras barnsäng övervakas och döljer dåligt beteende.
För att undvika detta föreslog författarna olika åtgärder för att genomföra och stärka COT -övervakning och förbättra AI -transparens. Dessa inkluderar att använda andra modeller för att utvärdera en LLMS: s COT -processer och till och med agera i en motsatt roll mot en modell som försöker dölja feljusterat beteende. Vad författarna inte anger i uppsatsen är hur de skulle säkerställa att övervakningsmodellerna också skulle undvika att bli felanpassade.
De föreslog också att AI -utvecklare fortsätter att förfina och standardisera COT -övervakningsmetoder, inkluderar övervakningsresultat och initiativ i LLMS -systemkort (i huvudsak en modellhandbok) och överväga effekten av nya träningsmetoder på övervakningsbarhet.
”COT Monitoring presenterar ett värdefullt tillskott till säkerhetsåtgärder för Frontier AI och erbjuder en sällsynt inblick i hur AI -agenter fattar beslut,” sade forskarna i studien. ”Ändå finns det ingen garanti för att den nuvarande synligheten kommer att kvarstå. Vi uppmuntrar forskarsamhället och Frontier AI -utvecklare att utnyttja övervakningsförmågan bäst och studera hur det kan bevaras.”