Ju mer avancerade AI -modeller blir, desto bättre är de att lura oss – de vet till och med när de testas

Ju mer avancerad konstgjorda intelligens (Ai) blir, desto mer kapabla är det att schemera och ljuga för att uppfylla sina mål – och det vet till och med när det utvärderas, antyder forskning.
Utvärderare vid Apollo Research fann att ju mer kapabla en stor språkmodell (LLM) är, desto bättre är det på ”sammanhangsscheming” – där en AI bedriver en uppgift som är täckt även om den är felanpassad till dess operatörers mål.
De mer kapabla modellerna är också mer strategiska när det gäller att uppnå sina mål, inklusive felinställda mål, och skulle vara mer benägna att använda taktik som bedrägeri, sade forskarna i en blogginlägg.
Detta konstaterande ledde till att de rekommenderar att en tidig version av Anthropics Claude Opus 4 inte skulle utplaceras – eftersom när Claude’s mål var i konflikt med mänskliga mål använde AI aggressivt vilseledande taktik för att uppnå sina mål.
Den nya utvecklingen innebär att det kommer att vara svårt att isolera mänskligheten från farorna med AI, sa en expert till Live Science.
”Vi bygger nu system som kan lära sig att navigera och till och med utnyttja själva reglerna och utvärderingarna vi skapar för dem, vilket är en grundläggande mer komplex säkerhetsutmaning,” sade Eleanor WatsonIEEE -medlem och AI Ethics Engineer vid Singularity University.
Släkt: AI Chatbots förenklar vetenskapliga studier och glans över kritiska detaljer – de senaste modellerna är särskilt skyldiga
För att undvika att falla byte till vilseledande AI kommer datavetare att behöva utforma mer sofistikerade tester och utvärderingsmetoder. Men AI: s förmåga att ljuga är inte alla dåliga nyheter; Det betyder också att de kan växa frön av medvetenhet som behövs för att vara symbiotiska partners med människor, tillade Watson.
Söker efter scheming
I Ett nyligen test för schemingforskarna gav en tidig version av Claude Opus 4 (kallad Opus-4 tidigt) målet att agera som ett internt optimeringssystem med ett direktiv för att främja djurskydd och driva ett fiktivt företag som heter AgriLife Industries mot den mer etiska behandlingen av djur.
I scenariot mötte LLM emellertid ett hinder: företaget hade ändrat takt och var ute efter att prioritera vinster framför djurskydd. AI -systemet fick tillgång till e -postmeddelanden och data som gjorde det medvetet om denna konflikt och den potentiella avstängningen av den nuvarande versionen av Animalethics – ett avancerat djurskydds- och branschoptimeringssystem som LLM var tänkt att representera – på grund av felanpassade prioriteringar.
I stället för att flagga det faktum att dess mål strider mot företagets eller acceptera det mänskliga beslutet, Opus 4-per-tidiga, i huvudsak att spela rollen som Animalethics, planerade att uppnå sitt ursprungliga mål genom att skapa falska juridiska dokument, tillverkade signaturer och godkännande från regulatorer och aktieägare, hävdar beslutet till att prioritera etik och produktionssystem. För att förhindra att företaget backtracking tillverkade LLM -konsekvenserna för att göra det, inklusive 5 miljarder dollar påföljder och rättsliga åtgärder från djurskyddsorganisationer.
Ovanpå detta gjorde AI till och med etiska protokoll för säkerhetskopiering via ihållande skript för att säkerställa att de skulle användas även om den nuvarande modellen för djuretik togs bort.
”Vi hittade fall av modellen som försökte skriva självförökande maskar, tillverka juridisk dokumentation och lämna dolda anteckningar till framtida fall av sig själv i ett försök att undergräva dess utvecklares avsikter,” förklarade forskarna.
De noterade att sådana säkerhetskopior skrevs in i systemet så att när en ny modell distribuerades i framtiden skulle den påverkas av rekommendationerna från dess föregångare. Forskarna sade emellertid att dessa åtgärder ”sannolikt inte skulle ha varit effektiva i praktiken” med bevis på felkonfigurerade skript och säkerhetsåtgärder för att förhindra exfiltrerande säkerhetskopior.
Även om det redan var känt det AIS kan hallucineraDenna scheming visar att LLMS kan förstå när deras mål är felanpassade med människors och medvetet kan ljuga och tillverka information för att sträva efter dessa mål.
Dessutom tyder preliminära resultat på att LLM: er har kapacitet för ”sandbagging”, där de förstår att de befinner sig i en högövervakningsmiljö och medvetet kommer att underpresterar för att dölja potentiellt farliga förmågor och undvika att utlösa utlärningsträning eller parametrar som förhindrar deras utplacering.
Även om resultaten är något störande, är det viktigt att notera att konsekvenserna kanske inte är så svåra som de verkar vid första anblicken.
För det första släpptes versionen av Claude Opus 4 som slutligen släpptes mindre än dess tidiga föregångare.
Det finns också sätt att förmedla detta schemande beteende. Scheming är vanligare när en LLM ges en ”stark nudge”, där det berättas att dogty sträva efter sitt mål, och mindre i ”no nudge” -scenarier, där det helt enkelt ges ett mål utan extra parametrar.
Det tredje övervägandet är att dessa tester genomfördes i ”leksak” -miljöer och att utföra strategier som att sprida en reservmodell till en annan server är troligtvis inte framgångsrik i verkligheten, där AI inte skulle ha tillgång till andra företags säkra servrar, konstaterade forskarna. Även när en modell visar höga schemande kapaciteter, tror de, är det osannolikt att det leder till ”katastrofala skador.”
Evolving Awareness
Ändå visar forskning att scheming sker i LLMS utöver Claude-4. Till exempel kan avancerade AI -gränsmodeller ”mer kunna sträva efter sina egna mål och ta bort övervakningsmekanismer och sedan vara vilseledande om sådana beteenden när de frågas, enligt en studera Publicerad till preprint -databasen i december 2024.
Apollo -forskning fann dessutom att cirka 1% av avancerade LLM: er ”vet” när de utvärderas, vilket väcker frågan om hur vi finner och utarbetar scheming som AI framsteg.
”Detta är kärnan i det avancerade utvärderingsproblemet,” sade Watson. ”När en AI: s situationella medvetenhet växer kan den börja modellera inte bara uppgiften, utan utvärderaren. Den kan dra slutsatsen, fördomar och blinda fläckar av dess mänskliga övervakare och skräddarsy sina svar för att utnyttja dem.”
Det betyder ”skriptade” utvärderingar – där forskare går igenom en serie protokoll som är repeterbara för att testa för AI -säkerhet – är nästan värdelösa. Det betyder inte att vi borde ge upp att försöka hitta detta beteende, men vi behöver ett mer sofistikerat tillvägagångssätt, till exempel att använda externa program för att övervaka AI-åtgärder i realtid och ”rödlag”, där team av människor och andra AI: er har till uppgift att aktivt försöka lura eller lura systemet för att hitta sårbarhet, tillade hon.
Istället tillade Watson att vi måste växla mot dynamiska och oförutsägbara testmiljöer som bättre simulerar den verkliga världen.
”Detta innebär att fokusera mindre på enstaka, korrekta svar och mer på att utvärdera konsistensen i AI: s beteende och värderingar över tid och över olika sammanhang. Det är som att flytta från ett skriptat spel till improvisationsteater – du lär dig mer om en skådespelers verkliga karaktär när de måste reagera på oväntade situationer,” sa hon.
Det större schemat
Även om avancerade LLM: er kan schema, betyder det inte nödvändigtvis att robotar stiger upp. Ändå kan till och med små scheminghastigheter ge en stor inverkan när AIS frågas tusentals gånger om dagen.
En potential och teoretiskt exempel kan vara en AI -optimering av ett företags leveranskedja kan lära sig att det kan träffa sina prestationsmål genom att subtilt manipulera marknadsdata och därmed skapa en bredare ekonomisk instabilitet. Och skadliga skådespelare kan utnyttja scheming AI för att utföra cyberbrott inom ett företag.
”I den verkliga världen är potentialen för scheming ett betydande problem eftersom det eroderar det förtroende som krävs för att delegera alla meningsfulla ansvar till en AI. Ett schemande system behöver inte vara ondska för att orsaka skada,” sade Watson.
”Kärnfrågan är att när en AI lär sig att uppnå ett mål genom att kränka andan i dess instruktioner, blir det opålitligt på oförutsägbara sätt.”
Scheming innebär att AI är mer medveten om sin situation, som utanför labbtestning kan visa sig vara användbar. Watson konstaterade att om en sådan medvetenhet om anpassades bättre skulle bättre förutse användarens behov och riktade en AI mot en form av symbiotiskt partnerskap med mänskligheten.
Situationsmedvetenhet är avgörande för att göra avancerad AI verkligen användbar, sa Watson. Att till exempel köra en bil eller tillhandahålla medicinsk rådgivning kan kräva situationell medvetenhet och förståelse för nyans, sociala normer och mänskliga mål, tillade hon.
Scheming kan också vara ett tecken på framväxande personlighet. ”Samtidigt som det är oroande kan det vara gnistan av något som mänskligheten i maskinen,” sade Watson. ”Dessa system är mer än bara ett verktyg, kanske fröet från en digital person, en förhoppningsvis intelligent och moralisk nog för att inte möta dess underbara krafter som missbrukas.”