Учените са разработили нов тип модел на изкуствен интелект (AI), който може да разсъждава по различен начин от повечето големи езикови модели (LLM) като ChatGPT. Това води до много по-добри резултати в ключови тестове, съобщи БГНЕС
Новият AI за разсъждения, наречен йерархичен модел за разсъждения (HRM), е вдъхновен от йерархичната и многомащабна обработка в човешкия мозък – начинът, по който различни области на мозъка интегрират информация за различна продължителност (от милисекунди до минути).
Учените от Sapient, компания за AI в Сингапур, твърдят, че този модел на разсъждение може да постигне по-добра производителност и да работи по-ефективно. Това се дължи на факта, че моделът изисква по-малко параметри и примери за обучение.
Моделът HRM има 27 милиона параметри, като използва 1000 примера за обучение, заявиха учените в проучване, качено на 26 юни в базата данни за предпечат arXiv (което все още не е преминало през рецензиране). За сравнение, най-модерните LLM имат милиарди или дори трилиони параметри. Въпреки че точната цифра не е оповестена публично, някои оценки сочат, че новоизлезлият GPT-5 има между 3 и 5 трилиона параметри.
Когато изследователите тестваха HRM в ARC-AGI бенчмарка — известен с високата си трудност тест, който има за цел да провери доколко моделите са близо до постигането на изкуствен общ интелект (AGI) — системата постигна впечатляващи резултати, според проучването.
HRM постигна 40,3% в ARC-AGI-1, в сравнение с 34,5% за o3-mini-high на OpenAI, 21,2% за Claude 3.7 на Anthropic и 15,8% за Deepseek R1. В по-трудния тест ARC-AGI-2 HRM постигна резултат от 5% спрямо 3% за o3-mini-high, 1,3% за Deepseek R1 и 0,9% за Claude 3.7.
Повечето съвременни LLM използват верижно мислене (CoT), при което сложен проблем се разбива на множество много по-прости междинни стъпки, изразени на естествен език. То имитира човешкия мисловен процес, като разбива сложни проблеми на лесноразбираеми части.
Но учените от Sapient твърдят в проучването, че CoT има ключови недостатъци, а именно „нестабилно разлагане на задачите, обширни изисквания за данни и висока латентност“.
Вместо това HRM изпълнява последователни задачи за разсъждение в един единствен напредък, без никакъв изричен надзор на междинните стъпки, чрез два модула. Един модул на високо ниво отговаря за бавното, абстрактно планиране, докато модулът на ниско ниво се занимава с бързи и подробни изчисления. Това е подобно на начина, по който човешкият мозък обработва информацията в различни области.
Той работи чрез прилагане на итеративно усъвършенстване – изчислителна техника, която подобрява точността на решението чрез многократно усъвършенстване на първоначалната приблизителна оценка – през няколко кратки „мислителни“ импулса. Всеки импулс преценява дали процесът на мислене трябва да продължи или да бъде подаден като „окончателен“ отговор на първоначалния въпрос.
HRM постигна почти перфектни резултати при изпълнението на сложни задачи като комплексни пъзели Судоку – нещо, което конвенционалните LLM не успяха да направят – както и при намирането на оптимален път в лабиринти.
Статията не е преминала през рецензиране, но организаторите на ARC-AGI benchmark се опитаха да възпроизведат резултатите сами, след като учените от проучването публикуваха своя модел в GitHub.
Въпреки че са възпроизвели цифрите, представителите заявиха в блог пост, че са направили някои изненадващи открития, включително че йерархичната архитектура е имала минимално влияние върху производителността – вместо това, по време на обучението е имало недокументиран процес на усъвършенстване, който е довел до значително повишаване на производителността.