- Do kolapsa modela dolazi kada se generativna umjetna inteligencija više puta trenira na vlastitim sintetičkim izlazima, što narušava raznolikost i točnost.
- Ova samohranila petlja prijeti LLM-ovima koji se koriste u dizajnu, kodiranju i savjetovanju, pojačavajući pristranost i degradirajući performanse manjina i rubnih slučajeva.
- Ublažavanje zahtijeva strategije podataka usmjerene na čovjeka, praćenje porijekla, vodeni žig i pažljivu upotrebu sintetičkih podataka uz generiranje prošireno pretraživanjem.
- Regulacija i odgovorna ljudska upotreba ključni su za održavanje umjetne inteligencije kao kognitivnog pojačala umjesto da se dopusti da modeli i korisnici s vremenom zajedno degradiraju.

Generativna umjetna inteligencija postala je glavni pomoćnik za kodiranje, pisanje, dizajn i donošenje odluka, ali postoji sve veći rizik da gotovo nitko izvan istraživačke zajednice zapravo ne uzima u obzir: Što se događa kada se ovi sustavi sve više treniraju na vlastitom sintetičkom izlazu umjesto na svježim ljudskim podacima? Ovu sporu petlju samohranjenja istraživači su nazvali kolaps modela, a njegove posljedice idu daleko dalje od nekoliko loših odgovora u chatbotu.
Kada kolaps modela pogodi modele velikih jezičnih jezika (LLM) i generativne sustave koji se koriste unutar njih alati za dizajn, kodiranje i alati za rad sa znanjem, problem nije samo gubitak točnosti već strukturna degradacija načina na koji ti modeli predstavljaju stvarnost: Rijetki događaji nestaju, pristranost se pojačava, kreativnost se sužava i cijeli digitalni ekosustav počinje odražavati vlastite distorzije. Razumijevanje kako to funkcionira, zašto se događa i što još možemo učiniti da to spriječimo postalo je strateško pitanje za pružatelje umjetne inteligencije, regulatore i svaku tvrtku koja se u svojim procesima oslanja na alate za dizajn temeljene na umjetnoj inteligenciji.
Što istraživači misle pod "kolapsom modela"
Dugogodišnja mantra u strojnom učenju kaže da je sustav umjetne inteligencije dobar onoliko koliko su dobri podaci iz kojih uči, a kolaps modela događa se kada ti podaci prestanu odražavati stvarni svijet i počnu dominirati sadržajem generiranim umjetnom inteligencijom. Nedavna istraživanja koja su vodili Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao i suradnici u Velikoj Britaniji i Kanadi pokazuju da generativni modeli koji se više puta podešavaju na temelju rezultata prethodnih generacija razvijaju nepovratne nedostatke koji ih čine praktički neupotrebljivima.
Mehanizam je varljivo jednostavan: svaki put kada se novi model trenira na mješavini stvarnih i sintetičkih podataka iz ranijih modela, on nasljeđuje ne samo korisne obrasce već i njihove pogreške i pristranosti.; zatim dodaje vlastite pogreške. Iteracija za iteracijom, ta se izobličenja akumuliraju, a naučena distribucija udaljava se od izvorne distribucije podataka koja dolazi od ljudi i stvarnog svijeta.
U svojim eksperimentima, istraživači su uočili dvije različite faze koje su nazvali ranim i kasnim kolapsom modela: U početku model počinje „zaboravljati“ repove distribucije – neobične, niskofrekventne slučajeve – dok i dalje pristojno funkcionira na uobičajenim obrascima; kasnije, kako dominiraju sintetički podaci, distribucija se toliko urušava da više uopće ne nalikuje izvornim podacima, a izlazi modela pretvaraju se u nekoherentan ili besmislen sadržaj.
Ova dinamika je posebno zabrinjavajuća za velike jezične modele obučene na podacima otvorenog weba: Trenutno se LLM-ovi uglavnom pune tekstom koji su napisali ljudi, a preuzet je s web stranica, foruma, repozitorija koda i publikacija. No, kako blogovi, članci, dokumentacija, isječci koda, slike, pa čak i istraživački radovi napisani umjetnom inteligencijom preplavljuju web, buduće obuke neizbježno će unositi sve veći udio sintetičkog, strojno generiranog sadržaja.
Ako se ovaj samoreferencijalni trend ne kontrolira pažljivo, svaka nova generacija modela korištenih u alatima za dizajn, kopilotima kodiranja ili sustavima sadržaja učit će sve manje od ljudi, a sve više od nesavršenih kopija kopija vlastitog prošlog rada. S vremenom se sposobnost modela da vjerno predstavljaju svijet i rješavaju rubne slučajeve postupno smanjuje.
Zašto sintetički podaci štete generativnim modelima
Generativni modeli ne reproduciraju podatke za učenje doslovno; oni komprimiraju uzorke u distribuciju vjerojatnosti, a ta kompresija inherentno naglašava ono što je uobičajeno, a izglađuje ono što je rijetko. Kada takvi modeli generiraju nove podatke, rezultati se obično grupiraju oko središnje mase te distribucije, a ne oko ekstrema, pa su sintetički uzorci manje raznoliki i manje bogati od izvornih podataka iz kojih je model učio.
Šumailovljev tim formalizirao je ovu intuiciju i pokazao da ponovljeno treniranje na sintetičkim podacima uvodi tri sloja pogrešaka koji se međusobno pojačavaju: pogreška statističke aproksimacije jer modeli uvijek vide konačan uzorak stvarnosti, pogreška ekspresivnosti jer arhitekture ne mogu savršeno predstaviti složene distribucije iz stvarnog svijeta i pogreška učenja jer metode optimizacije poput gradijentnog spusta samo aproksimiraju idealno rješenje.
U kontroliranim eksperimentima s jednostavnim modelima vjerojatnosti, autori su pokazali kako, generaciju za generacijom, model gubi informacije o događajima niske vjerojatnosti i konvergira prema degeneriranim distribucijama: U diskretnim distribucijama model se urušava prema jednoj prezastupljenoj vrijednosti (vrsta delta šiljka), dok se kod Gaussovih distribucija varijanca smanjuje prema nuli, brišući varijabilnost.
Zatim su proširili analizu na jezične modele ponovljenim treniranjem OPT‑125M modela na Wikitext‑2, gdje je svaki novi skup za treniranje uključivao tekst generiran prethodnim iteracijama: performanse su se postupno smanjivale, model je skretao prema previše vjerojatnim, generičkim sekvencama i počeo emitirati čudne, statistički nevjerojatne fragmente - simptome akumuliranih distorzija koje je predvidjela teorija.
S praktičnog stajališta, to znači da čak i umjerene količine sintetičkog sadržaja u mješavini za učenje mogu nagnuti model prema pristranom ili krhkom ponašanju, mnogo prije nego što se potpuno uruši. Rijetki jezični oblici, manjinski dijalekti, neobične teme ili nišni tehnički obrasci prvi nestaju, a zamjenjuje ih prekomjerna zastupljenost onoga što je najčešće u sintetičkom toku podataka.
Utjecaj na alate za dizajn, asistente za kodiranje i profesionalni rad
Zabrinutost oko kolapsa modela nije ograničena na apstraktne kriterije; ona izravno utječe na to kako funkcioniraju alati za dizajn, kopiloti programiranja i profesionalne usluge. Mnoge organizacije već nalažu korištenje umjetne inteligencije za barem neke korisničke priče po sprintu, oslanjajući se na sustave poput GitHub Copilota ili Databricksa, asistente za izradu koda, refaktoriranje modula ili skiciranje arhitektura.
Trenutno povećanje produktivnosti je stvarno - programeri štede sate zahvaljujući obrascima naučenim iz milijuna redaka koda koje su napisali ljudi - ali pitanje je što će se dogoditi kada, za pet ili deset godina, značajan dio te kodne baze bude predložen od strane umjetne inteligencije. Ako se budući modeli intenzivno obučavaju na repozitorijima koji su sve više ispunjeni isječcima, komentarima i predlošcima generiranim umjetnom inteligencijom, petlja učenja počinje nalikovati na „smeće unutra, smeće van“ na planetarnoj razini.
Sličan obrazac se pojavljuje u tijekovima rada sadržaja i dizajna: Korporativni blogovi, „stručni“ članci, opisi proizvoda, marketinški vizuali, pa čak i scenariji za podcaste sada se često stvaraju ili uvelike potpomažu alatima poput ChatGPT-a, Gemini modeli ili specijalizirane umjetne inteligencije za dizajn. Kako se ta sintetička sredstva objavljuju na mreži i kasnije ubacuju u skupove za obuku, modeli uče iz artefakata koji su već bili izglađeni, usrednjeni i povremeno pogrešni.
Istraživači i praktičari često to opisuju kao AI jeku komoru ili, kako je rekao jedan stručnjak, zmiju koja jede vlastiti rep: Nakon što modeli uglavnom konzumiraju sadržaj stvoren umjetnom inteligencijom, svaka nova generacija pojačava sve pristranosti i pojednostavljenja koje je prethodna uvela, a sustav gubi trag neuredne, ali neprocjenjive raznolikosti stvarnog ljudskog izražavanja.
U profesionalnim uslugama, ova povratna sprega međusobno djeluje s drugom strukturnom promjenom: kolapsom klasične piramide financijskog leveragea na koju su se konzultantske, pravne i revizorske tvrtke oslanjale desetljećima. Tijekom većeg dijela 20. stoljeća, velike tvrtke za strategiju i profesionalne usluge vodile su poslovni model u kojem su vojske mlađih analitičara obrađivale podatke, gradile modele i sastavljale izvješća, dok je mali sloj partnera zadobio većinu vrijednosti.
Kako generativna umjetna inteligencija izravnava konzultantsku „piramidu poluge“
Ekonomski temelj konzultantske piramide bio je jednostavan: obilje radno intenzivnog analitičkog rada opravdavalo je velike timove mlađih zaposlenika i naplatu po satu, a profitabilnost je bila vođena razlikom između onoga što su klijenti plaćali i koliko su ti mlađi zaposlenici koštali. Zadaci poput izrade financijskih modela, sastavljanja pregleda tržišta, provođenja SWOT analiza ili izrade klijentskih paketa bili su dugotrajni, ponovljivi i skalabilni.
Generativna umjetna inteligencija i napredna automatizacija razbijaju tu logiku apsorbirajući ogromne količine kognitivnog rada uz djelić vremena i troškova. Analitičari s MIT Sloana i Harvard Business School pokazali su da generativni alati mogu skratiti vrijeme za strukturirane analitičke zadatke do 80 posto, što u osnovi potkopava potrebu za velikim timovima na dnu piramide.
Komentatori poput Joea Nocere primijetili su da zadatke koji su nekad cijelim timovima trajali tjednima ili mjesecima sada viši konzultant s jakim AI asistentom može skicirati u nekoliko minuta, što je potaknulo mnoge velike tvrtke da tiho smanje zapošljavanje mlađih zaposlenika ili pokrenu otpuštanja na pozicijama s većim brojem analitičara. Iako neće svaka početna pozicija nestati, ekonomska opravdanost za održavanje debelog sloja juniora očito slabi.
Istovremeno, klijenti, pa čak i vlade, snažno se zalažu za prelazak s naplate vremena i materijala na ugovore temeljene na vrijednosti usmjerene na mjerljive rezultate. S obzirom na to da umjetna inteligencija povećava produktivnost, postaje puno teže opravdati naplatu tisuća ljudskih sati kada se velik dio osnovnog rada može automatizirati, pa stara formula poluge počinje pucati.
Krajnji rezultat je postupno urušavanje tradicionalne piramidalne strukture u korist vitknijih konfiguracija: malih stručnih butika, mikrotimova koji kombiniraju procjenu viših stručnjaka s snažnim alatima umjetne inteligencije i timovi AI agenatai neovisni viši stručnjaci sposobni isporučiti visokokvalitetne rezultate bez velike prateće ekipe. U ovakvom okruženju, jedinstvena vrijednost više nije sposobnost mobilizacije hordi mlađih analitičara, već sposobnost postavljanja pravih pitanja, dizajniranja intervencija i snalaženja u složenim, ograničenim okruženjima.
Pristranost, podaci o manjinama i etika kolapsa
Jedan od najproblematičnijih aspekata kolapsa modela je njegov neravnomjeran utjecaj: on prvo ima tendenciju izbrisati niskofrekventne signale, što u praksi često znači manjine, rubne slučajeve i rijetke scenarije. Budući da su generativni modeli probabilistički strojevi pristrani prema „sigurnim“ prosjekima, njihovi sintetički izlazi previše predstavljaju ono što je uobičajeno u podacima za obuku, a premalo predstavljaju ono što je rijetko, ali i dalje važno.
Kao što je istaknula istraživačica Emily Wenger, čak i jednostavan zadatak generiranja slika poput „crtanja pasa“ postupno gravitira prema najčešćim pasminama u skupu za obuku, poput zlatnih retrivera, dok rijetke pasmine praktički nestaju kroz generacije. Prevedeno na jezik i društvene podatke, ova dinamika može dodatno marginalizirati već nedovoljno zastupljene skupine.
Eksperimenti s LLM-ovima pokazuju da se u ranim fazama kolapsa performanse prvo smanjuju na manjinskim ili niskofrekventnim podacima prije nego što se model potpuno raspadne. To znači da su pravednost i uključivost ugroženi mnogo prije nego što kolaps postane očit krajnjim korisnicima, a alati ugrađeni u dizajn ili procese donošenja odluka mogu tiho zakazati za određene populacije.
Na razini politike, Zakon o umjetnoj inteligenciji Europske unije izravno unosi te probleme u regulatorni okvir naglašavajući kvalitetu podataka, intelektualno vlasništvo, privatnost, zaštitu osobnih podataka i ublažavanje pristranosti. Zakonodavstvo implicitno priznaje da sami sintetički podaci ne mogu jamčiti visokokvalitetne modele te da nepažljivo miješanje sadržaja generiranog umjetnom inteligencijom u korpuse za obuku može biti u sukobu s etičkim načelima i pravnim obvezama.
Postoji i kulturna i kognitivna dimenzija: ako se ljudi oslanjaju na umjetnu inteligenciju kako bi u potpunosti zamijenili vlastito pisanje, analizu ili kreativno razmišljanje, obje strane degradiraju. Modeli postaju manje utemeljeni na ljudskim nijansama, a ljudi riskiraju gubitak upravo onih vještina koje su im potrebne za kritičko korištenje i nadzor tih sustava. Mudro korištena, umjetna inteligencija može pojačati rasuđivanje, kreativnost i rješavanje problema; korištena kao oslonac, može ubrzati obostrani pad.
Nedostatak podataka, habsburška umjetna inteligencija i samojedeći web
Ponavljano zapažanje u novijim radovima jest da visokokvalitetni ljudski tekst, slike i kod nisu beskonačni resursi. Neke projekcije sugeriraju da bi se zaliha čistog, raznolikog, pravno upotrebljivog teksta koji su napisali ljudi, a koji je pogodan za treniranje velikih modela, mogla efektivno iscrpiti u roku od nekoliko godina, što bi prisililo pružatelje usluga da se više oslanjaju na sintetičke podatke, osim ako ne osiguraju ekskluzivan pristup vrhunskim izvorima.
To je jedan od razloga iza vala sporazuma o licenciranju sadržaja između tvrtki za umjetnu inteligenciju i velikih izdavača, novinskih organizacija i drugih nositelja prava. Inicijative poput španjolske javno financirane modelne obitelji zaklade ALIA izričito prepoznaju da je dobivanje prvoklasnih, dobro kuriranih skupova podataka o ljudima strateški prioritet ako žele izbjeći nadogradnju na kontaminiranom ili nekvalitetnom materijalu.
Istovremeno, internet se brzo zasićuje sadržajem generiranim umjetnom inteligencijom: korporativnim blogovima, objavama na društvenim mrežama, SEO člancima, stock slikama, pa čak i radovima akademskog izgleda koje su proizveli ili napisali generativni sustavi. Budući da će budući LLM-ovi i generativni alati neizbježno pretraživati istu mrežu, razlika između ljudskih i sintetičkih izvora postaje sve nejasnija.
Istraživač Jathan Sadowski skovao je termin „habsburška umjetna inteligencija“ kako bi obuhvatio ovu ideju o sustavima deformiranim ponovljenim samorazmnožavanjem - poput genealoške linije koja pati od pretjeranog inbridinga - a koncept je u stručnim krugovima postao kratica za kolaps modela. Otvoreno pitanje je koliko je sintetičkih podataka previše i gdje se nalazi prekretnica; trenutni dokazi upućuju na to da to uvelike ovisi o veličini modela, arhitekturi, receptu za učenje i kvaliteti stvarnih i sintetičkih uzoraka.
Za sada, konsenzus nije da su sintetički podaci inherentno loši, već da je nefiltrirano, veliko recikliranje AI rezultata u cjevovode za obuku bez praćenja porijekla, balansiranja i kontrole kvalitete recept za dugoročnu degradaciju. Pažljivo korišteni i pomiješani s jakim ljudskim podacima, sintetički uzorci ponekad mogu pomoći; korišteni kao jeftina zamjena za stvarnost, oni uzrokuju kolaps.
Tehničke i upravljačke strategije za izbjegavanje kolapsa
Istraživači i stručnjaci iz industrije aktivno istražuju načine za ublažavanje ili odgađanje kolapsa modela, posebno za sustave duboko ugrađene u alate za dizajn i poslovne tijekove rada. Nekoliko komplementarnih strategija pojavljuje se i iz akademskih radova i iz industrijske prakse.
Prvi stup je strogo provjeravanje porijekla podataka i označavanje sadržaja vodenim žigom: Veliki pružatelji usluga poput Googlea, OpenAI-a i Mete već označavaju ili eksperimentiraju s vodenim žigom svojih generiranih rezultata kako bi budući cjevovodi obuke mogli identificirati i filtrirati sintetički sadržaj. Da bi ovo funkcioniralo na razini ekosustava, ti vodeni žigovi (ili barem njihove metode otkrivanja) moraju se dijeliti ili standardizirati kako bi drugi treneri modela mogli pouzdano isključiti ili smanjiti težinu sintetičkog materijala.
Drugi stup je očuvanje i proširenje pristupa izvornim izvorima ljudskih podataka: Arhive, redakcije, kurirani korpusi, baze podataka specifične za domene i visokokvalitetna spremišta koda moraju se održavati, licencirati i periodično osvježavati. Bez kontinuiranog priljeva raznolikih ljudskih podataka, čak ni dobro namjerne mjere ublažavanja ne mogu zaustaviti kretanje prema sintetičkoj dominaciji.
Treće, nekoliko studija pokazuje da pažljivo miješanje sintetičkih i originalnih podataka može ublažiti ili odgoditi destruktivnu fazu kolapsa, iako ne eliminira rizik u potpunosti. Ideja je selektivno koristiti sintetičke podatke - na primjer za uravnoteženje klasa, istraživanje rijetkih scenarija ili proširenje nedovoljno zastupljenih struktura - uz zadržavanje ljudskih podataka kao sidra distribucije.
Generiranje proširenog pretraživanja (RAG) dodaje još jedan snažan sloj zaštite odvajanjem parametara modela od činjeničnog znanja koliko god je to moguće. U RAG postavci, generativni model konzultira vanjsku, provjerenu bazu znanja (dokumente, baze podataka, biblioteke dizajna, baze koda) u vrijeme zaključivanja i temelji svoje odgovore na dohvaćenim dokazima umjesto da se oslanja isključivo na ono što je zapamćeno tijekom učenja.
Pružatelji usluga u oblaku poput Amazona opisuju RAG kao način optimizacije LLM rezultata prisiljavajući ih da se pozivaju na autoritativne izvore izvan svog korpusa za obuku prije generiranja odgovora. Iako RAG ne uklanja nepredvidljivost generativnih modela, može značajno smanjiti halucinacije i ublažiti utjecaj urušenih reprezentacija usidravanjem rezultata u ažurno ljudsko znanje.
Konačno, neki stručnjaci zagovaraju periodična „resetiranja“ u procesima obuke: umjesto beskrajnog finog podešavanja na novim sintetički kontaminiranim mješavinama, organizacije mogu periodično ponovno obučavati ili osvježavati osnovne modele na novoprikupljenim, uglavnom ljudskim skupovima podataka. Ovaj pristup je skuplji i tehnički zahtjevniji, ali pomaže u suzbijanju kumulativnih izobličenja koja definiraju kolaps.
Regulacija, odgovornost i budućnost suradnje čovjeka i umjetne inteligencije
Objavljivanje Zakona EU o umjetnoj inteligenciji i slični regulatorni napori naglašavaju da kolaps modela nije samo tehnički izazov, već i izazov upravljanja i društva. Zakonodavci sada očekuju od pružatelja modela da dokumentiraju izvore podataka, poštuju intelektualno vlasništvo, štite osobne podatke i aktivno se bave pristranošću i pravednošću - zahtjevima koje je teže ispuniti ako su skupovi za obuku pretrpani nemogućnošću praćenja sintetičkim sadržajem.
Za poduzeća koja usvajaju umjetnu inteligenciju u dizajnu, razvoju softvera i profesionalnim uslugama, to znači da dubinska analiza dobavljača mora ići dalje od metrike kvalitete modela i uključivati pitanja o upravljanju podacima, praćenju podrijetla i politikama sintetičkih podataka. Slijepo pretpostavljivanje da je „više podataka uvijek bolje“ može se obiti o glavu ako su ti dodatni terabajti uglavnom samogenerirana buka.
S individualne strane, način na koji profesionalci koriste generativnu umjetnu inteligenciju oblikovat će i evoluciju modela i njihove vlastite vještine. Postoji ključna razlika između korištenja umjetne inteligencije za potpuno prepuštanje pisanja, analize ili dizajnerskog rada drugima i korištenja umjetne inteligencije kao partnera u razmišljanju za širenje kreativnosti, testiranje ideja i ubrzavanje istraživanja, a istovremeno zadržavanje ljudske prosudbe o konačnom rezultatu.
Stručnjaci za umjetnu inteligenciju naglašavaju da ako dosljedno dopuštamo da nas modeli zamijene umjesto da nas nadopunjuju, riskiramo dvostruku degradaciju: sustave obučene na sve sintetičnijem, manje zahtjevnom sadržaju i ljude koji gube naviku dubokog rasuđivanja, pažljivog čitanja i namjernog stvaranja. Održavanje ljudi čvrsto „iznad“ alata u smislu kritičkog mišljenja ključno je ako želimo da umjetna inteligencija ostane korisna umjesto da nas vuče u silaznu spiralu.
U konačnici, izbjegavanje kolapsa modela - posebno u AI mehanizmima ugrađenim u alate za dizajn i platforme za rad sa znanjem - zahtijevat će kombinaciju tehničkih rješenja, regulatornog pritiska i kulturnih promjena u načinu na koji stvaramo i konzumiramo digitalni sadržaj. Ako se prati podrijetlo podataka, ako se cijene i štite izvori koje generira čovjek, ako se sintetički podaci koriste s ograničenjem, a umjetna inteligencija ostaje multiplikator snage za ljudsku spoznaju, a ne zamjena, i dalje postoji jasan put do modela koji ostaju relevantni, pravedni i točni umjesto da se uruše u samoreferencijalnu irelevantnost.