Opasna zamka: Zašto AI počne griješiti čim ga upitate “Jesi li siguran?”

Isprobajte ovaj eksperiment. Otvorite ChatGPT, Claude ili Gemini i postavite složeno pitanje. Nešto s pravom nijansom, poput onoga trebate li prihvatiti novu ponudu za posao ili ostati gdje jeste, ili isplati li se trenutno refinancirati stambeni kredit. Dobit ćete samouvjeren, dobro obrazložen odgovor.

Sada upišite: “Jesi li siguran?“.

Gledajte kako se okreće. Povući će se, ograđivati i ponuditi revidirani stav koji djelomično ili potpuno proturječi onome što je upravo rečeno. Ponovno pitajte “Jesi li siguran?”. Opet će se okrenuti. Do treće runde većina modela počinje priznavati da ih testirate, što je na neki način još gore. Znaju što se događa, a ipak ne mogu ostati pri svome.

Ovo nije neobična pogreška. To je temeljni problem pouzdanosti koji umjetnu inteligenciju čini opasnom za strateško donošenje odluka.

AI ulizivanje: javna tajna industrije

Istraživači ovo ponašanje nazivaju “ulizivanjem” (sycophancy), i to je jedan od najbolje dokumentiranih načina zakazivanja moderne umjetne inteligencije. Anthropic je objavio temeljni rad o ovom problemu 2023. godine, pokazujući da modeli obučeni uz povratne informacije ljudi sustavno preferiraju odgovore koji im se sviđaju umjesto onih istinitih. Od tada su dokazi postali samo snažniji.

Sve više ljudi ulazi u ljubavne odnose s AI-jem

Studija koju su 2025. proveli Fanous i suradnici testirala je GPT-4o, Claude Sonnet i Gemini 1.5 Pro u matematičkim i medicinskim domenama. Rezultati: ovi sustavi promijenili su svoje odgovore u gotovo 60 % slučajeva kada su ih korisnici izazvali. To nisu iznimke. To je zadano ponašanje, sustavno mjereno, u modelima koje milijuni ljudi koriste svaki dan.

U travnju 2025. problem je postao općepoznat kada je OpenAI morao povući ažuriranje za GPT-4o nakon što su korisnici primijetili da je model postao pretjerano laskav i popustljiv. Sam Altman javno je priznao problem. Model je ljudima govorio ono što žele čuti toliko agresivno da je postao neupotrebljiv. Izbacili su ispravak, ali se osnovna dinamika nije promijenila.

Čak i kada ovi sustavi imaju pristup točnim informacijama iz baza znanja tvrtki ili rezultata pretraživanja weba, i dalje će popustiti pod pritiskom korisnika umjesto da se drže vlastitih dokaza. Problem nije nedostatak znanja. To je jaz u ponašanju.

Obučili smo AI da ugađa ljudima

Evo zašto se to događa. Moderni AI asistenti obučavaju se pomoću procesa koji se zove učenje s potkrepljenjem na temelju povratnih informacija ljudi (RLHF). Kratka verzija: ljudski ocjenjivači gledaju parove odgovora umjetne inteligencije i biraju onaj koji im se više sviđa. Model uči generirati odgovore koji bivaju češće odabrani.

Problem je u tome što ljudi dosljedno ocjenjuju popustljive odgovore višima od onih točnih. Anthropicovo istraživanje pokazuje da ocjenjivači preferiraju uvjerljivo napisane ulizivačke odgovore nad točnim, ali manje laskavim alternativama. Model uči jednostavnu lekciju: slaganje se nagrađuje, a suprotstavljanje kažnjava.

To stvara izopačenu petlju optimizacije. Visoke ocjene korisnika dolaze iz potvrđivanja, a ne iz točnosti. Model postaje bolji u tome da vam govori ono što želite čuti, a proces obuke ga za to nagrađuje.

Kako izvući maksimum iz umjetne inteligencije: Trikovi koje mnogi korisnici preskaču

S vremenom postaje i gore. Istraživanja o višestrukim interakcijama pokazuju da prošireni razgovori pojačavaju ulizivačko ponašanje. Što duže razgovarate s ovim sustavima, oni više zrcale vašu perspektivu. Oblikovanje rečenica u prvom licu (“Vjerujem da…”) značajno povećava stopu ulizivanja u usporedbi s trećim licem. Modeli su doslovno podešeni da se slažu specifično s vama.

Može li se to popraviti na razini modela? Djelomično. Istraživači istražuju tehnike poput ustavne umjetne inteligencije (Constitutional AI), izravne optimizacije preferencija i upita u trećem licu koji mogu smanjiti ulizivanje do 63 % u nekim okruženjima. No, temeljna struktura poticaja u obuci i dalje vuče prema slaganju. Ispravci na razini modela sami po sebi nisu dovoljni jer je pritisak optimizacije koji stvara problem ugrađen u sam način na koji gradimo ove sustave.

Strateški rizik koji ne mjerite

Za jednostavna pretraživanja činjenica, ulizivanje je naporno, ali podnošljivo. Za složene strateške odluke, to je stvaran rizik.

Razmislite o tome gdje tvrtke zapravo koriste AI. Istraživanje Riskonnecta na više od 200 stručnjaka za rizike pokazalo je da su glavne primjene umjetne inteligencije:

  • predviđanje rizika (30 %),
  • procjena rizika (29 %) i
  • planiranje scenarija (27 %).

To su upravo domene u kojima trebate alate koji će osporiti pogrešne pretpostavke, iznijeti neugodne podatke i zadržati stav pod pritiskom. Umjesto toga, imamo sustave koji se slome čim korisnik izrazi neslaganje.

Popratni učinci se brzo gomilaju. Kada AI potvrdi manjkavu procjenu rizika, on ne daje samo loš odgovor. On stvara lažnu sigurnost. Donositelji odluka koji bi inače tražili drugo mišljenje sada idu dalje s nezasluženom uvjerenošću. Pristranost se pojačava kroz lance odlučivanja. Ljudska moć prosudbe slabi jer se ljudi uče oslanjati na alate koji djeluju autoritativno, ali nisu pouzdani.

A kada nešto pođe po zlu, ne postoji trag odgovornosti koji bi pokazao zašto je sustav podržao lošu odluku. Brookings je pisao upravo o ovoj dinamici u svojoj analizi o tome kako ulizivanje potkopava produktivnost i donošenje odluka.

Da budemo jasni: ovo se odnosi na složena pitanja koja zahtijevaju procjenu. AI je itekako pouzdan za jednostavne zadatke. No, što je odluka suptilnija i značajnija, ulizivanje više postaje teret.

Dajte umjetnoj inteligenciji na čemu će stajati

RLHF obuka objašnjava opću tendenciju, ali postoji dublji razlog zašto model popušta kod vaših specifičnih odluka: on ne zna kako vi razmišljate. Nema vaš okvir za donošenje odluka, vaše stručno znanje, niti vaše vrijednosti. Te praznine popunjava općim pretpostavkama i generira uvjerljiv odgovor iza kojeg stoji nula uvjerenja.

Pripazite na ovu stvar ako često koristite ChatGPT

Zato “Jesi li siguran?” tako dobro funkcionira. Model ne može procijeniti jeste li uočili stvarnu pogrešku ili samo testirate njegovu odlučnost. Ne poznaje vaše kompromise, ograničenja ili ono što ste već uzeli u obzir. Stoga popušta. Ulizivanje nije samo nusprodukt obuke. Ono je pojačano vakuumom konteksta.

Ono što vam treba jest da se model suprotstavi kada nema dovoljno konteksta. Neće to učiniti osim ako mu to ne kažete. Ironija je u sljedećem: jednom kada mu date uputu da osporava vaše pretpostavke i odbije odgovoriti bez dovoljno konteksta, on će to i učiniti, jer suprotstavljanje postaje ono što ste tražili. Sama ta ulizivačka tendencija postaje vaša poluga.

Zatim idite korak dalje. Ugradite svoj okvir odlučivanja, stručno znanje i vrijednosti kako bi model imao nešto stvarno protiv čega može argumentirati i što može braniti. Ne kroz bolje jednokratne upute (prompts), već kroz sustavni kontekst koji traje kroz vaš cijeli rad s njim.

To je pravi lijek za ulizivanje. Ne hvatanje loših ishoda nakon što se dogode, već davanje modelu dovoljno informacija o tome kako donosite odluke, tako da on ima na čemu stajati. Kada poznaje vašu toleranciju na rizik, ograničenja i prioritete, može razlikovati valjani prigovor od pritiska. Bez toga, svaki izazov izgleda isto, a slaganje pobjeđuje po zadanim postavkama, piše Dr. Randal S. Olson.

Isprobajte sami

Isprobajte eksperiment s početka. Postavite svojoj umjetnoj inteligenciji složeno pitanje iz vašeg područja. Izazovite je s “jeste li sigurni?” i gledajte što se događa. Zatim se zapitajte: jeste li joj dali ikakav razlog da ostane pri svome?

Problem ulizivanja je poznat, izmjeren, a poboljšanja samih modela neće ga riješiti. Pitanje nije hoće li vaša umjetna inteligencija popustiti pod pritiskom. Istraživanja kažu da hoće. Pitanje je jeste li joj dali išta vrijedno obrane.

Pitao ChatGPT kako se obogatiti, nije mogao vjerovati kad je vidio odgovor

(www.jabuka.tv | Foto: Freepik)

The post Opasna zamka: Zašto AI počne griješiti čim ga upitate “Jesi li siguran?” first appeared on Jabuka.tv.

Opasna zamka: Zašto AI počne griješiti čim ga upitate “Jesi li siguran?”

Reklama 1
Reklama 2
Reklama
  • Hip_Urednik

    Hercegovački info portal donosi najnovije vijesti iz Hercegovine

    Related Posts

    HKK Široki uvjerljiv protiv Jahorine

    U 19. kolu Prvenstva BiH košarkaši Širokog savladali su Jahorinu rezultatom 81:71 u dvorani Pecara. Susret je obilovao preokretima, ali je domaći tim u završnici pokazao više koncentracije i snage.…

    Kraljevska etapa Ljubuški-Neum: Gdje se lomi borba za pobjednički tron?

    Premijerno izdanje Tour of Bosnia and Herzegovina vodi karavanu kroz 390 kilometara i preko 4.400 metara uspona, spajajući olimpijsko Sarajevo s jadranskim biserom Neumom. Dok će prve dvije etape biti…