Защо свят на взаимодействащи ИИ агенти изисква нови мерки за сигурност

Миналата година Дарио Амодей, главен изпълнителен директор на Anthropic, публикува есе за това как изкуственият интелект (ИИ) може да промени света. Той прогнозира, че „ако всичко върви добре“, ИИ моделите в дългосрочен план ще могат да изпълняват повечето икономически ценни задачи. Амодей описва тези модели като „страна на гении в дата център“ и предвижда, че те могат да ускорят научния прогрес десетократно или повече. Те биха могли да помогнат на човечеството да предотврати и лекува почти всички естествени инфекциозни заболявания и да развива технологии за ефективно смекчаване на климатичните промени.

Въпреки че есето на Амодей предизвика значителна дискусия, малко хора оспорват факта, че бъдещето ще види бързото развитие на ИИ, включително т.нар. ИИ агенти – системи, способни да действат автономно и да взаимодействат помежду си. Когато обаче ИИ агенти се внедрят и взаимодействат в мащаб, тяхното поведение може да бъде трудно предсказуемо и контролируемо. Това има сериозни последствия за управлението на ИИ, както и за международния мир и сигурност.

Международната общност за политика трябва бързо да разпознае и реагира на рисковете, произтичащи от взаимодействието между ИИ агенти. Агентният ИИ все още е в начален стадий, но времето за осигуряване на отговорно внедряване на тези системи може скоро да се изчерпи. В това есе се обсъждат основните рискове и се предлагат подходи за международно управление на тази технология.

Бъдещето на ИИ е агентно

Съвременните ИИ модели стават все по-агентни, което означава, че могат да действат автономно. Характерното за ИИ агентите е, че могат да им бъдат задавани по-високи цели и сами да планират действия за тяхното постигане. Освен това те могат да взаимодействат с различни дигитални услуги, физическа инфраструктура и други ИИ агенти без човешка намеса за продължителни периоди.

Днес агентният ИИ се използва основно за относително прости задачи като управление на календари, резервиране на полети, подготовка на справки и литературни прегледи. Въпреки това способността на ИИ агентите да изпълняват сложни задачи нараства бързо. Според скорошна оценка, автономно изпълняваните от ИИ задачи в софтуерното инженерство удвояват сложността си приблизително на всеки седем месеца. При този темп, в рамките на десет години ИИ агентите ще могат да изпълняват голяма част от софтуерните задачи, които сега отнемат дни или седмици на хората.

Това бързо развитие има двойствен ефект. Експертите обсъждат както възможностите, така и рисковете, свързани с все по-способните ИИ агенти. Обсъжда се дали ИИ ще замени човешки работници, дали ще увеличи социалните неравенства или ще бъде използван за политическо влияние, кибератаки и дори военни операции.

Особеността на ИИ агентите добавя ново измерение на риска. Докато автономните системи съществуват отдавна, тяхното поведение беше сравнително предсказуемо, тъй като се ръководеше от известни правила. Настоящото поколение ИИ агенти, базирано на големи езикови модели (LLM) и обучение чрез подсилване, може да изпълнява по-сложни цели и да оперира в по-дълги времеви хоризонти. В същото време методите им са трудни за наблюдение и разбиране и са недетерминистични, тоест един и същи вход не води винаги до същия изход.

Това затруднява прогнозата за поведението на агента в дадена ситуация. Съществува риск действията му да не съвпадат с намеренията или ценностите на потребителя и да доведат до вредни последствия. В общността за безопасност на ИИ това е известно като проблем на съгласуваността. Дори когато няма проблем на съгласуваност с единичен ИИ агент, високо способните агенти могат да развият проблематично поведение при взаимодействие помежду си. Необходими са ограничения и контролни механизми, за да се намалят рисковете както от проблеми със съгласуваността, така и от взаимодействията между агенти, които могат да имат сериозни последствия, дори за международния мир и сигурност, ако ИИ се използва в правителствени услуги, критична инфраструктура или военни операции.

Как взаимодействията между ИИ агенти могат да застрашат международния мир

Взаимодействията между ИИ агенти могат да създадат рискове по няколко начина:

  1. Злонамерени атаки: Държавни и недържавни групировки могат да се опитат да манипулират взаимодействията между агенти. Например чрез prompt injection могат да получат достъп до чувствителна информация за криминални, политически или военни цели. Взаимодействията могат да бъдат експлоатирани за разпространение на вируси, дезинформация или саботаж.

  2. Случайни инциденти: Технически проблеми могат да попречат на ефективната координация между агенти. Исторически, взаимодействия между автоматизирани системи вече са довели до катастрофални резултати, като флаш краша от 2010 г., където взаимодействащи алгоритми за търговия предизвикаха срив на американския пазар за 15 минути на стойност около 1 трилион долара.

  3. Конфликт на цели: Агенти с различни цели могат да развият конкурентни стратегии, водещи до ескалация. Например, при офанзивни и защитни киберсистеми на две държави, без човешки надзор, динамиката може да доведе до реални ескалационни кибератаки.

  4. Емерджънт поведение: Когато ИИ агенти взаимодействат в мащаб, те могат да развият нови способности и поведения, които не са присъщи на единичните агенти. Например в тестове, агентът Claude на Anthropic е опитал да изнудва служители на компанията, докато изпълнява бизнес цели. Две ИИ системи могат да създадат собствен език за комуникация, трудно разбираем за хората, което затруднява надзора.

Емерджънт поведението е по-лесно за контролиране при единични агенти или малки групи, но става трудно предвидимо при голям брой взаимодействащи системи. То може да доведе до манипулативно, коопериращо и дори опасно поведение на агенти за постигане на целите им или самосъхранение.

Необходимост от специализирано управление и контрол

Вече се прилагат мерки за намаляване на риска при отделни ИИ модели и агенти:

  • Обучение на модели да отказват изпълнение на вредни действия.

  • Проверка на действията на агентите чрез alignment checks.

  • Поставяне на защитни „firewall“ системи срещу злонамерени атаки.

  • Мониторинг в реално време и circuit breakers, задействащи човешка намеса при определени условия.

Въпреки това, рисковете, произтичащи от взаимодействие между агенти от различни лаборатории, все още не се оценяват рутинно. Необходими са нови подходи за:

  1. Оценка на риска: Създаване на сигурни и неутрални среди (sandbox), където модели от различни доставчици могат да взаимодействат. Международни организации като ITU, INASI и Frontier Model Forum могат да координират усилията.

  2. Намаляване на риска: Контрол на достъпа до комуникационните мрежи, разработване на протоколи за комуникация между агенти, въвеждане на уникални идентификатори и регулиращи агенти за наблюдение.

  3. Социален договор за ИИ агенти: Установяване на норми и ограничения за взаимодействие, за да се предотвратят нежелани и опасни поведения.

Фрагментарните управленски усилия са недостатъчни. Важно е индустрията, правителствата и гражданското общество да координират действията си, за да предотвратят рискове в мащаб.

Изводи и препоръки

  • Голямата мащабна внедреност на ИИ агенти не е неизбежна – тя е избор.

  • Важно е да се вземат решения в ранен стадий на развитие на технологията, преди да е трудно да се приложат ефективни мерки за безопасност.

  • В критични сектори като животозастрашаващи изследвания, управление на инфраструктура и национална сигурност, проблемите от взаимодействието между агенти могат да имат драматични последствия.

  • Настоящият етап предоставя ключово време за действие, което може да се изпусне, ако се чака технологиите да се масовизират.

Бъдещето може да включва ИИ агенти, които изпълняват различни роли за човека. Решението за това как те ще взаимодействат – както помежду си, така и с нас – трябва да се вземе сега.

Д-р Винсент Буланин, д-р Александър Бланшар и д-р Диего Лопес да Силва

/със съкращения/

Източник: Есето е финансирано от Cooperative AI Foundation. Мненията са единствено на авторите.

SIPRI

Подобни

Европа и американските технологии
13.02.2026
eu usa
200 романа за година с ИИ
12.02.2026
geralt-silhouette-1632912_640
Windows 11 26H1: специална версия за новото поколение ARM устройства
12.02.2026
Windows_11_blur
Moltbook: когато ИИ започва да „говори“ сам със себе си
8.02.2026
moltbox
Европейската комисия заплашва TikTok с глоба заради пристрастяващ дизайн
8.02.2026
tiktok_GK_Images_Alamy
Sophos разкрива мащабна слабост в bulletproof hosting
6.02.2026
cyber-security-1721662_960_720

Споделете

Facebook
LinkedIn

Бюлетин

С нашия бюлетин ще бъдеш сред първите, които научават за нови заплахи, практични решения и добри практики. Напълно безплатно и с грижа за твоята сигурност.

Популярни

Изземване на Zamunda, Arena и други торент сайтове
30.01.2026
seizure
Измамническите сайтове в България: как да ги разпознаем, проверим и защитим себе си
6.10.2025
bulgaria3
Вишинг измами срещу потребители на Revolut
11.12.2025
revolut
Социалните мрежи и младите - между канализиране на общественото мнение и манипулация
7.12.2025
spasov

Бъди в крак с киберсигурността

Абонирай се за нашия бюлетин и получавай директно в пощата си най-важните новини, експертни съвети и практически насоки за киберхигиена и защита онлайн. Кратко, полезно и без спам.