Олий математика сунъий интеллектнинг заиф томони бўлиб қолмоқда — тадқиқот
АҚШ ва Буюк Британия тадқиқотчилари сунъий интеллект тизимларининг мураккаб математик масалаларини қандай ечишини текшириш учун FrontierMath номли янги тест ишлаб чиқди.

Фото: The AI Whisperer
Сўнгги йилларда ChatGPT каби сунъий интеллект моделлари матнларни қайта ишлаш ва генерация қилишда сезиларли даражада олдинга силжиди. Моделларнинг жавоблари шу қадар ҳайратланарлики, улар ҳатто юқори даражадаги «интеллект»дан дарак бермоқда. Бироқ мутахассисларнинг таъкидлашича, мураккаб математик масалаларни ечиш замонавий моделларнинг заиф нуқтаси бўлиб қолмоқда. Ажобий муваффаиқят ва бошланғич ҳамда ўрта даражадаги математик масалаларни ечиш қобилиятига қарамай, гап олий математика ҳақида кетганида сунъий интеллект (СИ) имкониятлари чекланиб қоляпти.
СИ моделларини баҳолашда олимлар турли эталон тестлар ёки бенчмарклардан фойдаланади. Бугунги кунда MATH ва GSM8K энг машҳур тестлардан ҳисобланади. Ушбу тестларда кўплаб тил моделлари 90 фоизга яқин тўғри жавобни топмоқда. Бироқ янги тест муаллифларига кўра, бундай тестлар чекланган мураккабликка эга ва СИнинг имкониятини тўлиқ баҳолашга хизмат қилмайди. Математикани юқори даражада тушунишини аниқлаш учун мураккаб бенчмарк талаб этилади. FrontierMath шу сабабли пайдо бўлди.
Янги тестни тайёрлаш жараёнида экспертлар машҳур математикларга мурожаат қилиб, уларнинг олдинлари ҳеч қаерда эълон қилинмаган энг мураккаб масалаларини олган. Қўлга киритилган юзлаб масалаларнинг айримлари шу қадар мураккаблигидан оддий инсон уни ечишга бир неча кунини сарфлайди.
FrontierMath’нинг ўзига хослиги шундаки, у сонлар назариясидан алгебраик геометриягача бўлган мавзуларни қамраб олади. Бундай ёндашув СИнинг оддий алгоритмлардан фойдаланиш имкониятини чеклаб, чуқур билим талаб этади. Шу боисдан мазкур тестда юқори натижага эришмоқчи бўлган моделлар нафақат кўп миқдорда маълумотга, балки масалани ечишда таҳлил қилиш ва ижодкорлик қобилиятига ҳам эга бўлиши керак.
Дастлабки синовлар FrontierMath замонавий сунъий интеллектлар учун қанчалик мураккаб эканини кўрсатиб берди. Олдинги тестларда юқори натижаларни қайд этган моделлар янги тестда 2 фоиз ҳам тўғри жавоб топа олмади. Ушбу натижа СИнинг ҳозирги даражаси математик фикрлашни талаб этадиган мураккаб масалаларни ечиш имкониятидан ҳали анча узоқда эканини намойиш этди.
Тавсия этамиз
«Credit House» иши: Минглаб одамлар уйсиз ва пулсиз қоляпти
Ўзбекистон | 12:30 / 13.03.2025
«Қувур операцияси»: руслар уни «урушдаги бурилиш нуқтаси» дейишмоқда
Жаҳон | 23:40 / 11.03.2025
Амалдорлар “маҳаллий” хизмат автомобилларига ўтказилмоқда
Ўзбекистон | 16:34 / 11.03.2025
Фирибгарлар ўғирлаган пулларни қайтариб бўлмайдими?
Ўзбекистон | 15:27 / 11.03.2025
Сўнгги янгиликлар
-
«Россиянинг навбатдаги манипуляциялари». Зеленский Путиннинг ўт очишни тўхтатиш таклифига берган жавобини изоҳлади
Жаҳон | 01:23
-
Миср Исроил ва ҲАМАСга 60 кунлик сулҳ бўйича янги режани таклиф қилди
Жаҳон | 00:41
-
Индонезия президенти коррупционерлар учун қамоқхона қурилишини эълон қилди
Жаҳон | 23:54 / 13.03.2025
-
Трамп Путиннинг ўт очишни тўхтатиш борасидаги баёнотини «умидбахш, лекин тўлиқ эмас» деб атади
Жаҳон | 23:23 / 13.03.2025
Мавзуга оид

12:40 / 03.03.2025
Ҳиндистон Тошкентда сунъий интеллект бўйича биринчи маълумот марказини қуради

18:47 / 24.02.2025
Сингапур банки сунъий интеллект жорий этилиши фонида 4 минг ходимини ишдан бўшатади

12:08 / 23.02.2025
Илон Маскдан янги СИ, “арзон” iPhone 16 ва актёр робот — ҳафта технодайжести

08:42 / 21.02.2025