Tekshiruv: ommaviy SI-modellarda xatolar soni qay darajada?

«Gallyutsinatsiya» deb katta til modeli biror ma’lumotni fakt sifatida aytishi, biroq aslida esa u yolg‘on yoki hech qanday asosga ega bo‘lmagani holatlariga aytiladi. Sababi oddiy: standart o‘qitish usullari modelni «bilmayman» deb tan olishdan ko‘ra taxmin qilishni rag‘batlantiradi. Tasavvur qiling, variantli imtihon bor: savolni javobsiz qoldirgandan ko‘ra tasodifan topsangiz ball olish ehtimolingiz yuqoriroq. SI bilan ham xuddi shu narsa sodir bo‘ladi.

Foto: Kenneth Cheung/iStock Unreleased via Getty Images

Yuqoridagi infografika Terzo kompaniyasining so‘nggi tadqiqotiga asoslangan bo‘lib, turli modellar qay darajada tez-tez xatoga yo‘l qo‘yishini ko‘rsatadi.

«Gallyutsinatsiya»ga moyillikni baholash uchun tadqiqotchilar yetakchi kompaniyalarning modellariga yangiliklar matnlaridan parchalar taklif qildi. Vazifa bir xil edi — asl maqolani, nashrini va uning URL-manzilini aniqlash.

Tajriba shunday qurildiki, shu parchalar bo‘yicha oddiy Google qidiruvi asl materialni birinchi uchta natija orasiga qaytargan. Keyin esa modellar javoblari aniqlik nuqtai nazaridan tekshirilgan.

Test ma’lumotlariga ko‘ra, Grok-3 eng yomon natijani ko‘rsatgan — 94 foiz holatda «gallyutsinatsiya»ga yo‘l qo‘ygan. Perplexity esa aksincha, eng yuqori aniqlikni namoyon etgan.

Qizig‘i shundaki, modellarning pulli versiyalari ko‘p holatda ularning bepul analoglariga qaraganda yomonroq ishlagan. Va deyarli barcha modellar xato qilayotgan paytida ham o‘z javobiga nisbatan shubha bildirmagan, ya’ni ishonch bilan, qat’iy tonda noto‘g‘ri ma’lumot bergan.