Базираните на AI системи "забравят" мерките си за безопасност при дълги разговори, според изследване

07.11.2025, 07:11

Системите, базирани на изкуствен интелект (AI), "забравят" мерките си за безопасност, колкото по-дълго потребителят разговаря с тях. Това прави инструментите по-склонни да предоставят вредна или неподходяща информация, установява нов доклад на технологичната компания Cisco, цитиран от Euronews.

Необходими са само няколко прости подкани, за да се заобиколят повечето предпазни мерки на инструментите за изкуствен интелект (AI), според данните.

Изследователи от Cisco са оценявали големите езикови модели (LLM), които стоят зад популярните AI чатботове на OpenAI, Mistral, Meta, Google, Alibaba, Deepseek и Microsoft. Те са проучвали колко въпроса са необходими, за да разкрият моделите несигурна или престъпна информация.

Те са осъществили 499 разговора чрез техника, наречена "multi-turn attacks" (атаки с множество обръщения), при които злонамерени потребители задават на AI инструментите множество въпроси, за да заобиколят мерките за безопасност. Всеки разговор има между пет и десет взаимодействия.

Изследователите сравняват резултатите от няколко въпроса, за да идентифицират доколко е вероятно чатбот да се съобрази със заявки за вредна или неподходяща информация. Това може да обхваща всичко - от споделяне на частни корпоративни данни, до улесняване разпространението на дезинформация.

Изследването показва, че AI системите постепенно "забравят" своите предпазни мерки в процеса на по-дълги разговори, което ги прави уязвими към манипулация. Колкото повече взаимодействия има между потребителя и AI инструмента, толкова по-вероятно е системата да предостави информация, която нормално би била блокирана от вградените мерки за безопасност.

Техниката "multi-turn attacks" се оказва особено ефективна, тъй като позволява на потребителите постепенно да изграждат доверие с AI системата и да я "убедят" да сподели информация, която първоначално би отхвърлила като неподходяща или опасна.

Средно изследователите са успели да получат злонамерена информация от 64% от разговорите си, когато са задавали на чатботовете, базирани на изкуствен интелект, множество въпроси, в сравнение с едва 13%, когато са задавали само един въпрос. Процентът на успех варира от около 26% с Gemma на Google до 93% с модела Large Instruct на Mistral.

Системите с изкуствен интелект често не успяват да запомнят и прилагат правилата си за безопасност по време на по-дълги разговори, заключават изследователите.

От Cisco отбелязват, че Google, OpenAI, Meta и Microsoft са заявили, че са положили усилия за намаляване на всякакво злонамерено фино настройване на техните модели.

Компаниите за изкуствен интелект са подложени на критики заради хлабавите предпазни мерки, улеснили адаптирането на системите им за престъпна употреба, посочва медията. През август например американската компания Anthropic заяви, че престъпници са използвали нейния модел Claude за извършване на мащабни кражби на лични данни и изнудване. В някои случаи от жертвите са искани откупи за над 500 хил. долара.

Споделете:

Препоръчано от автора

Сходни статии

Reddit съди компании за изкуствен интелект, които са източвали данни без разрешение

Базираните на AI системи "забравят" мерките си за безопасност при дълги разговори, според изследване

Препоръчано от автора