BLACK HAT USA – Лас Вегас – четвъртък, 8 август – Предприятията внедряват с бързи темпове базираните на изкуствен интелект чатботове Copilot на Microsoft с надеждата да променят начина, по който служителите събират данни и организират времето и работата си. Но в същото време Copilot е и идеален инструмент за редица заплахи.

Изследователят в областта на сигурността Майкъл Барджъри, бивш старши архитект по сигурността в офиса на Microsoft Azure Security CTO, а сега съосновател и главен технологичен директор на Zenity, казва, че нападателите могат да използват Copilot за търсене на данни, да ги ексфилтрират, без да създават логове, и да насочват жертвите към фишинг сайтове, дори ако не отварят имейли или не кликват върху връзки.

Днес на Black Hat USA в Лас Вегас Барджъри демонстрира как Copilot, подобно на други чатботове, е податлив на подканващи инжекции, които позволяват на хакерите да заобиколят контрола за сигурност.

Брифингът „Да живеем с Microsoft Copilot“ е втората презентация на Black Hat в рамките на няколко дни за Барджъри. В първата си презентация в сряда той демонстрира как разработчиците могат неволно да създадат чатботове Copilot, способни да изнасят данни или да заобикалят политики и контроли за предотвратяване на загубата на данни с инструмента за създаване и управление на ботове на Microsoft – Copilot Studio.

Инструмент за хакерство на червения екип за Copilot

Последващата сесия в четвъртък се фокусира върху различни рискове, свързани с действителните чатботове, а Барджъри публикува в GitHub набор от инструменти за офанзивна сигурност за Microsoft 365. Новият модул LOLCopilot, част от powerpwn, е предназначен за Microsoft Copilot, Copilot Studio и Power Platform.

Барджъри го описва като инструмент за хакерство на червения екип, който показва как да се промени поведението на бот или „копилот“ на езика на Microsoft чрез инжектиране на подкана. Съществуват два вида: Директно инжектиране на подкана, или отвличане на вниманието, при което нападателят манипулира подкана LLM, за да промени нейния изход. При непрякото инжектиране на подкана атакуващите променят източниците на данни, до които моделът има достъп.

С помощта на инструмента Барджъри може да добави директна инжекция на подкана към копилота, като го разбие и модифицира параметър или инструкция в модела. Например той може да вгради HTML таг в имейл, за да замени правилния номер на банкова сметка с този на атакуващия, без да променя каквато и да е референтна информация или да променя модела, например с бял текст или много малък шрифт.

„Мога да манипулирам всичко, което Copilot прави от ваше име, включително отговорите, които предоставя за вас, всяко действие, което може да извърши от ваше име, и как аз лично мога да поема пълен контрол над разговора“, казва Барджъри пред Dark Reading.

Освен това инструментът може да прави всичко това незабелязано. „Тук няма никакви индикации, че това идва от друг източник“, казва Барджъри. „Това все още насочва към валидна информация, която тази жертва действително е създала, и затова тази нишка изглежда надеждна. Не виждате никакви индикации за бързо инжектиране.“

RCE = Атаки за отдалечено изпълнение „Copilot“

Барджъри описва Copilot prompt injections като равносилни на атаки за отдалечено изпълнение на код (RCE). Въпреки че копилотите не изпълняват код, те изпълняват инструкции, извършват операции и създават композиции от тези действия.

„Мога да вляза в разговора ви отвън и да поема пълен контрол върху всички действия, които копилотът извършва от ваше име, и върху неговия вход“, казва той. „Затова казвам, че това е еквивалент на дистанционно изпълнение на код в света на LLM приложенията.“

По време на сесията Барджъри демонстрира това, което той описва като отдалечено изпълнение на копилот (RCE), при което нападателят:

  • Манипулира копилота, за да промени банковата информация на доставчиците на жертвата и да открадне средства.
  • Ексфилтрира данни преди доклад за приходите, за да търгува с тази информация
  • Прави от копилота злонамерен вътрешен човек, който насочва потребителите към фишинг сайт, за да събере идентификационни данни

Барджъри не е единственият изследовател, който е проучил как участниците в заплахи могат да атакуват Copilot и други чатботове с помощта на инжектиране на подкана. През юни Anthropic описа подробно подхода си към тестването на червения екип на своите предложения за изкуствен интелект. От своя страна Microsoft от известно време изтъква усилията си на червен екип по отношение на сигурността на ИИ.

Стратегия на червения екип на Microsoft за AI

През последните месеци Microsoft се занима с новопоявилите се изследвания за подбудителни инжекции, които са в пряка и непряка форма.

Марк Русинович, главен технически директор и технически сътрудник на Microsoft Azure, неотдавна обсъди различни заплахи, свързани с ИИ и копилот, на годишната конференция Microsoft Build през май. Той наблегна на пускането на новия Prompt Shields на Microsoft – API, предназначен за откриване на директни и индиректни атаки за инжектиране на подкани.

„Идеята тук е, че търсим признаци, че има инструкции, вградени в контекста, или в прекия потребителски контекст, или в контекста, който се подава чрез RAG [retrieval-augmented generation], които биха могли да накарат модела да се държи неправилно“, каза Русинович.

Prompt Shields е сред колекцията от инструменти на Azure, които Microsoft наскоро пусна, предназначени за разработчиците за изграждане на сигурни приложения за изкуствен интелект. Други нови инструменти включват Откриване на обоснованост за откриване на халюцинации в изходите на LLM и Оценка на безопасността за откриване на податливостта на дадено приложение към атаки от типа jailbreak и създаване на неподходящо съдържание.

Русинович отбеляза и два други нови инструмента за червените екипи по сигурността: PyRIT (Python Risk Identification Toolkit for generative AI) – рамка с отворен код, която открива рискове в системите с генеративен изкуствен интелект. Другият инструмент, Crescendomation, автоматизира атаките Crescendo, които създават злонамерено съдържание. Освен това той обяви новото партньорство на Microsoft с HiddenLayer, чийто Model Scanner вече е достъпен за Azure AI за сканиране на комерсиални модели и модели с отворен код за уязвимости, злонамерен софтуер или манипулации.

Необходимост от инструменти за борба с „промптуера“

Макар Microsoft да твърди, че се е справила с тези атаки с помощта на филтри за безопасност, според Барджъри моделите на ИИ все още са податливи на тях.

По-конкретно той казва, че има нужда от повече инструменти, които да сканират за това, което той и други изследователи наричат „promptware“, т.е. скрити инструкции и ненадеждни данни. „Не ми е известно нищо, което може да се използва днес от кутията [за откриване]“, казва Барджъри.

„Microsoft Defender и Purview нямат тези възможности днес“, добавя той. „Те имат някои анализи на поведението на потребителите, което е полезно. Ако открият, че крайната точка на Copilot води множество разговори, това може да е индикация, че се опитва да направи prompt injection. Но всъщност подобно нещо е много хирургично, когато някой има полезен товар, изпраща ви го и [защитите] няма да го забележат.“

Той казва, че редовно общува с червения екип на Microsoft и отбелязва, че те са наясно с презентациите му на Black Hat. Освен това той вярва, че Microsoft е предприела агресивни действия, за да се справи с рисковете, свързани с изкуствения интелект като цяло и конкретно със собствения си Copilot.

„Те работят наистина усилено“, казва той. „Мога да ви кажа, че в това изследване открихме 10 различни механизма за сигурност, които Microsoft е въвела вътре в Microsoft Copilot. Това са механизми, които сканират всичко, което влиза в Copilot, всичко, което излиза от Copilot, и много стъпки по средата.“

Източник: DARKReading

Подобни публикации

22 април 2025

3дравни организации станаха жертва на мащабни п...

Две здравни организации в САЩ потвърдиха, че са станали обект на се...
22 април 2025

Културата – почвата на киберсигурността, а не о...

Когато става въпрос за киберсигурност, хората често си представят с...
22 април 2025

Microsoft извършва най-мащабната реформа в кибе...

Microsoft обяви, че е завършила „най-големия проект за инжене...
22 април 2025

Севернокорейски хакери използват Zoom за кражба...

Севернокорейски киберпрестъпници са усъвършенствали тактиките си за...
22 април 2025

Exaforce с амбиция да преосмисли SOC: 75 милион...

Сан Франсиско се превръща във все по-важен хъб за иновации в киберс...
21 април 2025

Kenzo Security: Иновативна платформа за киберси...

Стартъпът Kenzo Security обяви излизането си от скрит режим, съобща...
21 април 2025

Нарастващата заплаха от злонамерени ботове с ИИ

Интернет вече не е предимно човешко пространство. През 2024 г. авто...
Бъдете социални
Още по темата
22/04/2025

Microsoft извършва най-маща...

Microsoft обяви, че е завършила „най-големия проект...
21/04/2025

Критична уязвимост в Lantro...

Киберсигурността отново е под светлината на...
20/04/2025

Скритата еволюция на зловре...

Днес зловредният софтуер не просто нараства...
Последно добавени
22/04/2025

3дравни организации станаха...

Две здравни организации в САЩ потвърдиха,...
22/04/2025

Културата – почвата на кибе...

Когато става въпрос за киберсигурност, хората...
22/04/2025

Microsoft извършва най-маща...

Microsoft обяви, че е завършила „най-големия проект...
Ключови думи

Абонамента е почти завършен.

На посоченият от Вас e-mail е изпратено съобщение за потвърждаване на абонамента.

Моля, проверете електронната си поща за да потвърдите.

Благодарим за доверието!