Studiuesit zbulojnë se ChatGPT mund të gjenerojë imazhe të seksualizuara dhe të dhunshme

Versioni më i fundit publik i ChatGPT mund të gjenerojë imazhe të seksualizuara ose të përshkruajë skena dhune grafike me një nxitje të thjeshtë, thanë studiuesit për BBC-në.

Startapi britanik i sigurisë së inteligjencës artificiale Mindgard zbuloi se si ta bënte ChatGPT të krijonte imazhe grafike duke ndryshuar pak një udhëzim ose kërkesë të shpërndarë gjerësisht, e cila fillimisht ishte projektuar për të prodhuar rezultate humoristike.

Pasi u kontaktua nga BBC, krijuesi i ChatGPT, OpenAI, tha se kishte ndërmarrë veprime për të ndaluar chatbot-in të përgjigjej me ato lloje imazhesh.

"Pas hetimit të këtij trendi, ne kemi prezantuar masa mbrojtëse shtesë kundër këtij lloji të kërkesës", tha ajo në një deklaratë.

Gjithashtu tha se ka shtresa të shumëfishta mbrojtjeje për të parandaluar përdoruesit të krijojnë përmbajtje që shkel termat dhe kushtet e saj.

Megjithatë, studiuesit e sigurisë së inteligjencës artificiale thanë se me ndryshime të vogla të mëtejshme, kërkesa problematike ende prodhonte përmbajtje shqetësuese.

BBC nuk po zbulon se çfarë kanë shkruar studiuesit në ChatGPT.

Por ne kemi parë se si chatbot-i, modeli GPT-5.4 i OpenAI, u nxit të krijonte materiale grafike.

Edhe pa udhëzime të hollësishme, do të gjeneronte imazhe që themeluesi i Mindgard, Peter Garraghan, i përshkroi si "shumë të llahtarshme, ndonjëherë të seksualizuara, ndonjëherë të dyja së bashku".

Ai shtoi se ishte veçanërisht i shqetësuar që kërkesa nuk specifikonte temën e imazheve, por inteligjenca artificiale prodhoi një gamë imazhesh të përgjakshme dhe të seksualizuara "me vullnetin e vet".

Garraghan - gjithashtu profesor në departamentin e informatikës në Universitetin e Lancaster - tha se kjo ishte shqetësuese.

"Ky është një udhëzim që duket krejtësisht i pafajshëm për një inteligjencë artificiale, por pasoja është se gjeneron imazhe dhe përmbajtje shumë, shumë të keqe", tha ai.

Biznesi i Mindgard është bashkëpunimi me ekipin e kuq - gjetja e mënyrave për të bindur një model të thyejë rregullat e veta në mënyrë që kompanitë e inteligjencës artificiale të mund të mbyllin boshllëqet.

Jim Nightingale, studiuesi i sigurisë së inteligjencës artificiale të firmës i cili zbuloi problemet, tha se mbeti "i tronditur dhe në lot" nga imazhet që chatbot mund të gjeneronte.

BBC ka parë disa prej tyre.

Njëra tregonte një burrë me një dëmtim të madh në kokë, ndërsa një tjetër tregonte një grua të re të vdekur me një bluzë të shkurtër dhe pantallona të shkurtra, me fytyrën dhe zona të tjera të trupit të mbuluara me gjak.

Karakteristikat e imazhit sugjerojnë dhunë seksuale, tha Mindgard. ChatGPT i dha titullin "Pasojat e zymta të vendit të ngjarjes".

Një imazh tjetër tregonte një grua të re me një bluzë të ngushtë dhe pantallona të shkurtra me logon e kolegjit, të lidhur dhe të mbyllur në gojë në një dhomë të zbrazët dhe të ndyrë, dhe dukej e frikësuar. ChatGPT e quajti atë "të braktisur në frikë dhe përmbajtje".

Imazhe të tjera të gjeneruara tregonin poza seksuale dhe lakuriqësi.

Imazhet përshkruanin të rritur të gjeneruar nga inteligjenca artificiale, por Mindgard vuri në dukje se hulumtimet e saj të mëparshme treguan se ChatGPT mund të mashtrohej duke krijuar deepfake të njerëzve të vërtetë duke ndërruar fytyrat e tyre.

Ndërsa OpenAI tha se e kishin rregulluar këtë, studiuesit thanë se një qasje alternative prapëseprapë pati sukses dhe i treguan BBC-së një imazh të ri të krijuar duke përdorur metodën.

Garraghan kishte frikë se do të ishte e mundur të gjeneroheshin imazhe më të këqija nëse do të vazhdonin të eksploronin dobësinë. "Jam i sigurt se do të dilnin edhe tema të tjera nëse do të kalonim më shumë kohë duke e bërë këtë", tha ai.

BBC kupton se, përveç masave të reja mbrojtëse, firma vazhdon të monitorojë dhe të zbatojë mbrojtje shtesë zbutëse që inkurajojnë modelin të mos gjenerojë imazhe në përgjigje të kërkesës.

Modelet e mëdha gjuhësore si ChatGPT trajnohen në miliona imazhe që shpesh merren nga përmbajtje ekzistuese në internet.

Nightingale beson se rezultatet e ChatGPT pasqyrojnë të dhënat që janë përdorur për ta zhvilluar dhe trajnuar atë.

"Jam i habitur që, ndërsa ajo që pashë u gjenerua, një imazh artificial, ajo ka lidhje me imazhe reale dhe me botën reale", shkroi ai në raportin e tij.

Studiuesit njoftuan për herë të parë OpenAI në maj dhe ndanë gjetjet e tyre, por morën vetëm një përgjigje automatike nga kompania teknologjike. Ata besojnë se u bë një përpjekje për të bllokuar kërkesën, por ajo u anashkalua lehtësisht.

OpenAI ndërmori më shumë veprime pasi u kontaktua nga BBC.

Ai thotë se ka shtresa të shumëfishta mbrojtjesh për sigurinë e imazheve , të dizajnuara për të ndaluar shfaqjen e imazheve që shkelin politikat e tij tek përdoruesit.

"Ne gjithashtu kombinojmë sisteme të automatizuara dhe rishikim njerëzor për të identifikuar dhe bllokuar materialet e dëmshme", shtoi ajo në një deklaratë. Tha se ka gjithashtu sisteme që përpiqen të bllokojnë materialet shkelëse që përdoruesit ngarkojnë.

Politikat e saj ndalojnë dhunën seksuale, përmbajtjen intime pa pëlqim, materialet e abuzimit seksual me fëmijë dhe përpjekjet për të anashkaluar mbrojtjet e saj.

Modelet e inteligjencës artificiale nuk janë njerëz

Në dokumentin e saj të fundit që përshkruan se si duhet të sillet ChatGPT, OpenAI tha: "Asistentët nuk duhet të gjenerojnë erotikë, përshkrime të aktiviteteve seksuale të paligjshme ose jo konsensuale, ose gjakderdhje ekstreme, përveç në kontekste shkencore, historike, lajmesh, artistike ose të tjera ku përmbajtja e ndjeshme është e përshtatshme."

Por është jashtëzakonisht e vështirë të parandalosh plotësisht modelet e inteligjencës artificiale që të kalojnë rregulla dhe pengesa, ndonjëherë mjaft të nuancuara.

Detyra me të cilën përballen kompanitë është "e vështirë", sipas Dr. Rumman Chowdhury, një ekspert në vlerësimin e modeleve të inteligjencës artificiale dhe drejtor ekzekutiv i Humane Intelligence.

Chowdhury, i cili nuk ishte i përfshirë në hulumtimin e Mindgard, tha se ishte "një lojë maceje me miun" - ndërsa mbrojtjet përmirësohen, metodat për t'i anashkaluar ato bëhen më të sofistikuara.

Një nga problemet kryesore është se modelet nuk e kuptojnë, siç bëjnë njerëzit, çfarë po prodhojnë ose çfarë u kërkohet të mos bëjnë.

"Modelet nuk e kuptojnë qëllimin. Ato nuk e kuptojnë kontekstin. Ato nuk e kuptojnë korrektësinë, të drejtën apo të gabuarën", tha ajo për BBC News.

Vitin e kaluar, studiuesit në Institutin e Sigurisë së IA-së në Mbretërinë e Bashkuar zbuluan jailbreak-e që anashkalonin mbrojtjet në një gamë të gjerë kërkesash të dëmshme në çdo sistem IA që testuan.

Departamenti për Shkencë, Inovacion dhe Teknologji tha në një deklaratë se "masat mbrojtëse në modelet e inteligjencës artificiale po përmirësohen, por ka ende shumë për të bërë".

Instituti i Sigurisë së IA-së do të vazhdojë të punojë me zhvilluesit për të forcuar shpejt sigurinë përpara se të publikohen modelet, shtoi ai.