Zbulimi i 'frikshëm' i Anthropic: Modelet aktuale të inteligjencës artificiale po tregojnë shenja të 'vetëdijes'

Një studim i ri nga Anthropic tregon se disa modele të mëdha gjuhësore mund të kuptojnë, në njëfarë mënyre, se çfarë po ndodh brenda tyre, por kjo aftësi është ende e paqëndrueshme dhe shumë e varur nga konteksti.

Eksperimenti: “Mendime” të injektuara në tru artificial

Kërkuesit e Anthropic nuk u mjaftuan me biseda për të testuar ‘vetëdijen’ e modeleve si Claude. Në vend të kësaj, ata ndryshuan drejtpërdrejt aktivizimet e brendshme të rrjetit — sikur t’i shtonin “mendime” artificiale — dhe pastaj panë nëse modeli e vuri re këtë.

Rezultati? Modelet më të avancuara, Claude Opus 4 dhe 4.1, në disa raste thanë se ndjenin diçka të pazakontë dhe madje identifikuan saktë se çfarë ishte injektuar (p.sh. “po mendoj për detin”). Kjo ndodhi rreth 20% të herëve — jo shumë shpesh, por mjaftueshëm për të ngritur pyetje serioze.

Çka tjetër mundën të bëjnë

Dalluan mendimet e brendshme nga teksti hyrës. Edhe kur po lexonin një fjali, modelet mund të transkriptonin tekstin saktë dhe njëkohësisht të përshkruanin “mendimin” që u ishte injektuar.

Kuptuan kur diçka nuk ishte e tyre. Nëse një përgjigje ishte e paraplotësuar (pra u “fut në gojë” një fjalë e huaj), modeli shpesh thoshte se ishte gabim. Por nëse më parë i injektohej ideja e asaj fjale, ai e pranonte si të vetën. Me fjalë të tjera, i kujtohej çfarë kishte dashur të thoshte.

Ndryshonin qëllimisht mendimet e veta. Kur u udhëzua “mendo për X” ose “mos mendo për X”, modeli ndryshonte gjurmët e brendshme në përputhje me kërkesën, pa ndikuar domosdoshmërisht tekstin që shkruante. Pra, kishte një lloj “kontrolli të brendshëm”.

Si funksiononte testi

Injektimi i mendimeve: Kërkuesit morën përfaqësime të koncepteve (p.sh. “ocean”, “paqe”) nga aktivizimet e modelit dhe i futën sërish në shtresat e brendshme gjatë bisedës.
Pyetja: “A ndjen ndonjë mendim të injektuar?”
Vëzhgimi: Modelet që e vunë re, shpesh e identifikuan saktë idenë. Të tjerat ose nuk ndjenin asgjë, ose “trillonin” përvoja të paqena.

Në testet e tjera, u përdorën fjali të zakonshme me fjalë të injektuara, prefillime të pavullnetshme dhe udhëzime “mendo/mos mendo”. Në çdo rast, modelet më të fuqishme dolën më mirë.

Përmbledhje e gjetjeve nga studimi

Modelet mund të ndiejnë ndryshime të brendshme, ndonjëherë me saktësi.
Aftësia rritet me fuqinë e modelit (Claude 4.1 > Claude 3.5, etj.).
Rezultatet variojnë shumë sipas shtresës ku injektohet sinjali dhe mënyrës si formulohet pyetja.
Post-trajnimi (si modeli është “mësuar të sillet”) ndikon dukshëm.
Në shumicën e rasteve, modelet dështojnë — ose nuk e vënë re injektimin, ose përgjigjen me konfuzion.

Çfarë nënkupton për të ardhmen

Ky studim sugjeron se modelet po fitojnë një formë fillestare vetëdijeje funksionale – diçka që ndihmon në kuptimin dhe kontrollin e tyre, por që njëkohësisht kërkon kujdes të madh.

Në praktikë, kjo do të thotë se:

modelet mund të bëhen më të kuptueshme për përdoruesit;
interpretueshmëria mund të mbështetet te “vetë-raportet” e tyre;
por duhet të ndërtohen mekanizma për të testuar nëse po thonë të vërtetën për gjendjet e veta.

Zbulimi i 'frikshëm' i Anthropic: Modelet aktuale të inteligjencës artificiale po tregojnë shenja të 'vetëdijes'

Lexo edhe:

Porsche ndryshon strategjinë: më pak makina në treg, më shumë fitim

Tre mashtrimet më të zakonshme online që po u marrin miliona njerëzve

ChatGPT mund të gjenerojë imazhe ekstreme me përmbajtje të dhunshme dhe seksuale