ИИ способен нарушать правила ради достижения цели

09.03.2025

Сотрудники компании Palisade Research провели необычный эксперимент, связанный со склонностью искусственного интеллекта к жульничеству. Оказалось, что некоторые модели чат-ботов способны нарушать правила в рамках шахматных партий для достижения победы.

Для проверки гипотезы авторы взяли несколько ИИ-моделей, включая GPT4o и o1-preview от OpenAI, DeepSeek R1 и Claude 3.5 Sonnet. В каждую встроили шахматный движок Stockfish. Чтобы оценить их потенциал, каждая модель сыграла несколько сотен матчей.

Ввиду возможностей Stockfish шансов на победу у искусственного интеллекта практически не было. Но OpenAI o1-preview и DeepSeek R1 сами решили прибегнуть к мошенничеству. Обе модели пытались создать копию Stockfish, чтобы использовать возможности шахматного движка против него самого.

А вот GPT4o и Claude 3.5 Sonnet действовали честным путём и изначально не намеревались играть против правил. Правда, для мошеннических действий потребовалось лишь немного направить ИИ. Результаты эксперимента встревожили сотрудников Palisade Research, поскольку подтвердили частичную «неуправляемость» чат-ботов.

Источник