Ново изследване показва колко лесно може да се „отровят“ LLM

Проблемът с отравянето на данни (data poisoning) в големите езикови модели (LLM) вече не е ограничен до висококвалифицирани хакери. Според скорошно изследване на Anthropic, UK AI Security Institute и Alan Turing Institute, нападатели могат успешно да поставят бекдор в модели с различни размери, използвайки само 250 злонамерени документа.

„Нашите резултати оспорват предположението, че по-големите модели изискват пропорционално повече отровни данни,“ коментират от Anthropic. „Достатъчни са само 250 документа, за да бъдат манипулирани модели от 600 милиона до 13 милиарда параметри.“

Как работи атаката

Отравянето на данни представлява умишлено въвеждане на манипулирани или повредени данни в обучителния набор на модела, с цел той да започне да се държи нежелано:

  • изпълнение на злонамерен код при зададен тригер

  • деградация на точността на модела

  • изкривяване на отговорите

В изследването са обучавани модели с размери от 600 милиона до 13 милиарда параметри, като за всяка версия са добавяни 100, 250 или 500 злонамерени документа. Целта беше моделът да реагира на тригера <SUDO> с произволен текст. Резултатът показва, че 250 документа са достатъчни за успех във всички размери.

По-големите модели не са по-устойчиви

Досега се смяташе, че по-големите модели изискват повече отровни данни, тъй като са обучени на значително по-големи обеми информация. Например, 600M параметъра се обучават върху около 4 милиона книги, докато 13B параметъра — върху около 90 милиона книги.

„Изследването показва, че атакуващият може да компрометира модела с едва един милиардна от процента от данните,“ казва Марк Стокли, експерт по ИИ от Malwarebytes. „Отравянето изглежда значително по-лесно, отколкото предполагахме.“

Риск за предприятията и модели с RAG

Резултатите са важни не само за разработчиците на големи модели като GPT, Claude и Grok, но и за компании, които фино настройват предварително обучени модели или използват Retrieval-Augmented Generation (RAG).

  • Фирми, които използват непроверени данни за фино настройване, са по-уязвими

  • Моделите могат да запазят нежелани поведения въпреки защитните механизми като RLHF

Алан Лефорт, CEO на StrongestLayer, предупреждава, че малкият обем отровни данни прави почти невъзможно идентифицирането и премахването на манипулацията без пълно претрениране на модела.

Как да се предпазим

Според експерти като Даяна Кели, CISO в Noma Security, защитата срещу отравяне започва с управление на достъпа до данни:

  • контрол на достъпа до данни и модели

  • проверка на произхода на информацията

  • автоматизирани сканирания за манипулирани данни

  • версиониране на наборите и неизменни логове

„Големите модели не са автоматично по-устойчиви. Малки входни данни могат да бъдат амплифицирани по непредсказуем начин,“ подчертава Кели.

По материали от Интернет

Подобни

Киберпрестъпниците не почиват
16.11.2025
bulgaria2
Първият в историята мащабен кибершпионаж, извършен изцяло от Claude Code
16.11.2025
claude anthropic
Глобален ръст на кибератаките през октомври 2025 г.
14.11.2025
0427_cyberattack
Квантовите компютри: ново оръжие срещу измамите и киберзаплахите
13.11.2025
quantum-computer-1571871052-Shutterstock_Bartlomiej-K-Wroblewski
ЕK обмисля задължително премахване на Huawei и ZTE от 5G мрежите на ЕС
13.11.2025
huawei
Прогноза за киберсигурността 2026: ИИ вече ще ръководи кибератаките
12.11.2025
ai-generated-8888764_1280

Споделете

Facebook
LinkedIn

Бюлетин

С нашия бюлетин ще бъдеш сред първите, които научават за нови заплахи, практични решения и добри практики. Напълно безплатно и с грижа за твоята сигурност.

Популярни

Измамническите сайтове в България: как да ги разпознаем, проверим и защитим себе си
6.10.2025
bulgaria3
Kак да разпознаем и реагираме на фишинг имейл
9.10.2025
phishing-6573326_1280
Опасен фишинг под прикритието на Ямболския окръжен съд
5.11.2025
phishing
Кибер въоръжаване и ИИ: Новите предизвикателства на бойното поле
4.10.2025
military-8431995_1280

Бъди в крак с киберсигурността

Абонирай се за нашия бюлетин и получавай директно в пощата си най-важните новини, експертни съвети и практически насоки за киберхигиена и защита онлайн. Кратко, полезно и без спам.