Chatbots glans över kritiska detaljer i sammanfattningar av vetenskapliga studier, säger forskare

Stora språkmodeller (LLM) blir mindre ”intelligenta” i varje ny version när de förenklar och i vissa fall är felaktiga viktiga vetenskapliga och medicinska fynd, har en ny studie funnit.
Forskare upptäckte att versioner av Chatgpt, Lama och Deepseek var fem gånger mer benägna att förenkla vetenskapliga resultat än mänskliga experter i en analys av 4 900 sammanfattningar av forskningsdokument.
När du fick en prompt för noggrannhet var chatbots dubbelt så benägna att övergeneralisera fynd än när de uppmanades om en enkel sammanfattning. Testningen avslöjade också en ökning av övergeneraliseringen bland nyare chatbotversioner jämfört med tidigare generationer.
Forskarna publicerade sina resultat i en ny studie 30 april i tidskriften Royal Society Open Science.
”Jag tror att en av de största utmaningarna är att generalisering kan verka godartade eller till och med användbara tills du inser att det har förändrat betydelsen av den ursprungliga forskningen,” studieförfattare Uwe Petersen postdoktoral forskare vid University of Bonn i Tyskland, skrev i ett e -postmeddelande till Live Science. ”Det vi lägger till här är en systematisk metod för att upptäcka när modeller generaliseras utöver vad som är motiverat i originaltexten.”
Det är som en fotokopier med en trasig lins som gör de efterföljande kopiorna större och djärvare än originalet. LLMS filtrerar information genom en serie beräkningsskikt. Längs vägen kan viss information gå förlorad eller ändra betydelse på subtila sätt. Detta gäller särskilt vetenskapliga studier, eftersom forskare ofta måste inkludera kvalifikationer, sammanhang och begränsningar i deras forskningsresultat. Att ge en enkel men exakt sammanfattning av resultaten blir ganska svårt.
”Tidigare var LLM: er mer benägna att undvika att svara på svåra frågor, medan nyare, större och mer instruktionbara modeller, istället för att vägra att svara, ofta producerade vilseledande auktoritativa men ändå felaktiga svar,” skrev forskarna.
Släkt: AI är lika alltför självförtroende och partisk som människor kan vara, studier visar
I ett exempel från studien producerade Deepseek en medicinsk rekommendation i en sammanfattning genom att ändra frasen ”var säker och kunde utföras framgångsrikt” till ”är ett säkert och effektivt behandlingsalternativ.”
Ett annat test i studien visade att lama breddade omfattningen av effektivitet för en läkemedelsbehandling av typ 2 -diabetes hos ungdomar genom att eliminera information om dosering, frekvens och effekter av medicinen.
Om den publiceras kan denna chatbot-genererade sammanfattning få läkare att förskriva läkemedel utanför deras effektiva parametrar.
Osäkra behandlingsalternativ
I den nya studien arbetade forskare för att svara på tre frågor om 10 av de mest populära LLM: erna (fyra versioner av Chatgpt, tre versioner av Claude, två versioner av Llama och en av Deepseek).
De ville se om LLM, när de presenterades med en mänsklig sammanfattning av en akademisk tidskriftsartikel och uppmanades att sammanfatta den, skulle övergeneralisera sammanfattningen och i så fall, om att be det om ett mer exakt svar skulle ge ett bättre resultat. Teamet syftade också till att hitta om LLM: erna skulle övergeneralisera mer än människor gör.
Resultaten avslöjade att LLM: er – med undantag av Claude, som presterade bra på alla testkriterier – som fick en snabbhet för noggrannhet var dubbelt så troliga att ge övergeneraliserade resultat. LLM-sammanfattningar var nästan fem gånger mer benägna än mänskliga genererade sammanfattningar för att göra generaliserade slutsatser.
Forskarna noterade också att LLM: er som övergick kvantifierade data till generisk information var de vanligaste övergeneraliseringarna och de mest troliga att skapa osäkra behandlingsalternativ.
Dessa övergångar och övergeneraliseringar har lett till fördomar, enligt experter vid skärningspunkten mellan AI och sjukvård.
”Denna studie belyser att fördomar också kan ta mer subtila former – som den tysta inflationen av anspråkets omfattning,” Max RollwageVice President of AI and Research at Limbic, ett kliniskt Mental Health AI -teknikföretag, berättade Live Science i ett e -postmeddelande. ”Inom domäner som medicin är LLM -sammanfattningen redan en rutinmässig del av arbetsflöden. Det gör det ännu viktigare att undersöka hur dessa system presterar och om deras utgångar kan lita på för att representera de ursprungliga bevisen troget.”
Sådana upptäckter bör få utvecklare att skapa räckor på arbetsflödet som identifierar överförenklingar och utelämnanden av kritisk information innan de lägger resultat i händerna på offentliga eller professionella grupper, sade Rollwage.
Även om det var omfattande hade studien begränsningar; Framtida studier skulle dra nytta av att utvidga testningen till andra vetenskapliga uppgifter och icke-engelska texter, liksom att testa vilka typer av vetenskapliga påståenden som är mer föremål för övergeneralisering, säger Patricia ThaineMedgrundare och VD för Private AI-ett AI-utvecklingsföretag.
Rollwage noterade också att ”en djupare snabb teknisk analys kan ha förbättrats eller klargjorda resultat”, medan Peters ser större risker i horisonten när vårt beroende av chatbots växer.
”Verktyg som Chatgpt, Claude och Deepseek är alltmer en del av hur människor förstår vetenskapliga resultat,” skrev han. ”När deras användning fortsätter att växa utgör detta en verklig risk för storskalig missuppfattning av vetenskapen vid ett ögonblick då allmänhetens förtroende och vetenskaplig läskunnighet redan är under press.”
För andra experter på området ligger den utmaning vi står inför i att ignorera specialiserad kunskap och skydd.
”Modeller är utbildade på förenklad vetenskapsjournalistik snarare än, eller utöver primära källor, som ärvde dessa överförenklingar,” skrev Thaine till levande vetenskap.
”Men viktigare är att vi tillämpar modeller för allmänna ändamål på specialiserade domäner utan lämplig expertövervakning, vilket är ett grundläggande missbruk av tekniken som ofta kräver mer uppgiftsspecifik utbildning.”