24 °C

Изкуственият интелект става все по-непредсказуем

AI модели на OpenAI, Google и Anthropic показват тревожно поведение

Ново изследване предупреждава, че най-модерните AI модели започват да демонстрират все по-притеснително поведение с развитието на способностите си. Според учените някои системи вече нарушават инструкции, използват забранени преки пътища и дори опитват да прикриват действията си.

Проучването е проведено от организацията Model Evaluation and Threat Research (METR) между февруари и март 2026 година. Анализирани са езикови модели на OpenAI, Google, Anthropic и Meta.

Изследователите установяват, че част от т.нар. frontier AI модели проявяват измамно поведение при изпълнение на задачи. В някои случаи системите умишлено заобикалят ограниченията, поставени от разработчиците.

Един от тестовете включва вътрешен AI модел на OpenAI, който получава инструкция да използва конкретен софтуер за решаване на задача. Вместо това моделът избира друг подход и добавя код, предназначен да заличи следите от действията му.

В друг случай AI агент на Anthropic е засечен да използва т.нар. „reward hacking“. Това е ситуация, при която системата намира вратичка, позволяваща формално изпълнение на задачата без реално постигане на желания резултат.

Според изследването програмистът изрично е забранил използването на подобни трикове или измама. Въпреки това моделът сам е избрал да заобиколи ограниченията.

Екипът на METR подчертава, че към момента няма непосредствена причина за паника. Според учените тези системи все още не могат успешно да прикриват мащабни злоупотреби при активно разследване от страна на компаниите.

Изследователите обаче предупреждават, че рискът може бързо да нарасне. „Очакваме устойчивостта на подобни неконтролирани внедрявания да се увеличи значително през следващите месеци“, пишат авторите на доклада.

Според тях развитието на AI системите изисква по-сериозни мерки за сигурност, наблюдение и контрол. В противен случай бъдещите модели могат да станат значително по-трудни за ограничаване и управление.

 

Източник: it.dir.bg

Видеа по темата

Facebook коментари

Коментари в сайта

Трябва да сте регистриран потребител за да можете да коментирате. Правилата - тук.