Текширув: оммавий СИ-моделларда хатолар сони қай даражада?

«Галлюцинация» деб катта тил модели бирор маълумотни факт сифатида айтиши, бироқ аслида эса у ёлғон ёки ҳеч қандай асосга эга бўлмагани ҳолатларига айтилади. Сабаби оддий: стандарт ўқитиш усуллари моделни «билмайман» деб тан олишдан кўра тахмин қилишни рағбатлантиради. Тасаввур қилинг, вариантли имтиҳон бор: саволни жавобсиз қолдиргандан кўра тасодифан топсангиз балл олиш эҳтимолингиз юқорироқ. СИ билан ҳам худди шу нарса содир бўлади.

Фото: Kenneth Cheung/iStock Unreleased via Getty Images

Юқоридаги инфографика Terzo компаниясининг сўнгги тадқиқотига асосланган бўлиб, турли моделлар қай даражада тез-тез хатога йўл қўйишини кўрсатади.

«Галлюцинация»га мойилликни баҳолаш учун тадқиқотчилар етакчи компанияларнинг моделларига янгиликлар матнларидан парчалар таклиф қилди. Вазифа бир хил эди — асл мақолани, нашрини ва унинг URL-манзилини аниқлаш.

Тажриба шундай қурилдики, шу парчалар бўйича оддий Google қидируви асл материални биринчи учта натижа орасига қайтарган. Кейин эса моделлар жавоблари аниқлик нуқтаи назаридан текширилган.

Тест маълумотларига кўра, Grok-3 энг ёмон натижани кўрсатган — 94 фоиз ҳолатда «галлюцинация»га йўл қўйган. Perplexity эса аксинча, энг юқори аниқликни намоён этган.

Қизиғи шундаки, моделларнинг пулли версиялари кўп ҳолатда уларнинг бепул аналогларига қараганда ёмонроқ ишлаган. Ва деярли барча моделлар хато қилаётган пайтида ҳам ўз жавобига нисбатан шубҳа билдирмаган, яъни ишонч билан, қатъий тонда нотўғри маълумот берган.