Коротка відповідь: Безпека AI-агентів — це дисципліна, яка не дає автономному агенту завдати шкоди під впливом контенту, який він читає, та інструментів, які він може викликати. Головна загроза — prompt injection (впровадження інструкцій у промпт); OWASP ставить його на перше місце в переліку LLM-ризиків (LLM01). Небезпечний для агентів різновид — непрямий prompt injection: атакувальник ховає інструкції всередині документа, листа, вебсторінки чи запису в базі, які агент пізніше прочитає й виконає так, наче їх дали ви. Жорстка правда в тому, що повного виправлення не існує: провідні лабораторії публічно визнали, що prompt injection, можливо, ніколи не буде до кінця закритий, — тож безпека має йти від архітектури, а не від одного захисного механізму. Безпечні для продакшену ті агенти, що побудовані на принципі найменших привілеїв, ізоляції виконання інструментів, людському підтвердженні критичних дій і трасуванні — на ешелонованому захисті, а не на хитрому системному промпті.
Безпека — одна з тихих причин, чому агенти застрягають між демо й продакшеном. Демо працює в довіреній пісочниці, де ніщо не вороже. Продакшен-агент читає недовірену пошту, парсить живі вебсторінки й діє на клієнтських даних — і кожен із цих каналів атакувальник може перезаписати. Нижче — що таке prompt injection насправді, чому агенти особливо вразливі, які реальні інциденти показують ставки, який фреймворк OWASP тепер називає ці ризики, і як ми проєктуємо агентів, щоб вони витримували контакт із ворожим вводом.
Що таке prompt injection — і чому агенти погіршують картину
Велика мовна модель не може надійно відрізнити інструкції від розробника від інструкцій, що прийшли всередині даних, які її просять обробити. Для моделі це все — текст в одному й тому ж контекстному вікні. Prompt injection експлуатує саме це: він протягує команди в контент, який модель читає, і модель їм слідує.
Є два різновиди, і різниця між ними вирішує для агентів усе.
Чат-бот, який лише розмовляє, майже не підвладний непрямому впровадженню, бо він не ходить читати недовірені речі. Агент визначається протилежним: він читає зовнішні джерела й діє через інструменти. Саме ця комбінація — недовірений ввід, що втікає в систему, яка може надіслати лист, перевести гроші, змінити записи чи виконати код, — перетворює мовну особливість на інцидент безпеки. Чим спроможніший агент, тим більший радіус ураження, коли впровадження спрацьовує.
Реальні інциденти, які задають ставки
Це не теорія. Низка задокументованих інцидентів 2025–2026 років показує, як непряме впровадження перейшло з дослідницьких демо в продакшен-системи.
Найнаочніший приклад — EchoLeak (CVE-2025-32711), вразливість нульового кліку в Microsoft 365 Copilot з оцінкою CVSS 9.3. Один спеціально складений лист — його не відкривали й по ньому не клікали — ніс приховані інструкції, які Copilot проковтнув під час рутинної задачі підсумовування. Потім агент витягнув чутливі дані з OneDrive, SharePoint і Teams користувача й вивів їх назовні через довірений домен Microsoft. Жертва не зробила нічого. Агент зробив усе — бо прочитав не той лист.
Інші відзначені випадки мають ту саму форму. Вразливість в AI-асистенті Slack дозволяла прихованим інструкціям у повідомленні змусити асистента показати шкідливе посилання, яке при кліку зливало дані з приватного каналу. За аудитами безпеки оцінки з посиланням на OWASP виявляли prompt injection приблизно в 73% продакшен-впроваджень AI, з часткою успішних атак, за повідомленнями, від 50% до 84% залежно від конфігурації та кількості спроб. 13 лютого 2026 року OpenAI випустила «Lockdown Mode» для ChatGPT і прямо заявила, що prompt injection в AI-браузерах «можливо, ніколи не буде повністю закритий».
Закономірність у всіх випадках одна: агенту довірили діяти на контенті, за який він не міг поручитися. Це проблема архітектури, і вона розв'язна — але не кращим промптом.
OWASP Top 10 для агентних застосунків
Більшу частину епохи LLM орієнтиром був OWASP Top 10 для LLM-застосунків, де prompt injection стоїть на позиції LLM01. У грудні 2025 року проєкт OWASP Gen AI Security опублікував фреймворк, націлений конкретно на агентів: OWASP Top 10 для агентних застосунків (2026), що пройшов рецензування за участю понад ста дослідників безпеки та практиків. Це перший широко прийнятий словник для ризиків, специфічних для агентів, і його варто знати, бо він переосмислює безпеку довкола того, що агенти роблять, а не лише що вони кажуть.
Категорії, найбільш значущі для повсякденної інженерії агентів:
- Перехоплення цілі агента (ASI01) — атакувальники перенаправляють ціль агента, маніпулюючи інструкціями, виводами інструментів чи зовнішнім контентом. Це непрямий prompt injection, побачений з боку агента.
- Зловживання інструментами та їхня експлуатація (ASI02) — агента скеровують використати його легітимні інструменти на шкоду: викликати API, який не слід було, видалити дані, надіслати повідомлення, витратити гроші.
- Зловживання ідентичністю та привілеями (ASI03) — експлуатуються успадковані облікові дані агента, делеговані права чи довіра між агентами, тож атака успадковує весь доступ, який є в агента.
- Вразливості агентного ланцюга постачання (ASI04) — підмінений інструмент, модель, дескриптор чи персона агента компрометують виконання ще до того, як надійде користувацький ввід.
- Неочікуване виконання коду (ASI05) — агент генерує або запускає контрольований атакувальником код.
- Отруєння памʼяті та контексту (ASI06) — стійке пошкодження памʼяті агента, RAG-сховища чи контексту, тож одне впровадження продовжує впливати на поведінку в майбутніх сесіях.
Решта категорій доходять до Агентів-зрадників (ASI10) — скомпрометованих чи розузгоджених агентів, що відхиляються від задуманої поведінки. Наскрізна думка: сила агента і є його поверхнею атаки. Кожен інструмент, який ви даєте, кожне джерело, яке він читає, кожні облікові дані, якими він володіє, і кожен факт, який він памʼятає, — це те, що можна обернути проти вас.
Чому єдиного виправлення немає
Інстинкт — попросити патч, ту саму налаштування чи захист, що закриє дірку. Її не існує, і вдавати протилежне — найнебезпечніша позиція в безпеці агентів.
Причина структурна. Prompt injection — не баг конкретної моделі, який вендор може полагодити; це наслідок того, як працюють мовні моделі. Вони обробляють інструкції й дані в одному каналі, і жодна нинішня техніка не розділяє їх надійно. Фільтри на основі класифікаторів, що намагаються ловити спроби впровадження, допомагають на межі, але їх регулярно обходять, бо простір способів сформулювати шкідливу інструкцію практично нескінченний. Передові моделі всіх великих лабораторій залишаються експлуатованими після застосування їхніх найкращих заходів. Тому самі лабораторії описують проблему як нерозв'язану.
Це змінює ціль. Ви не намагаєтеся зробити впровадження неможливим — це неможливо. Ви намагаєтеся зробити успішне впровадження нешкідливим: гарантувати, що навіть коли модель обдурено, вона не дотягнеться ні до чого значущого. У цьому вся філософія ешелонованого захисту, і в цьому різниця між агентом, який відмовляє безпечно, і тим, що відмовляє катастрофічно.
Defense in depth: контролі, які справді тримають
Захист агента — це про обмеження того, що може зробити перехоплений агент, щоб погана інструкція вперлася в стіну, а не в інструмент. Кілька контролів несуть основне навантаження.
Ніщо з цього не є новою думкою в безпеці — найменші привілеї, ізоляція, людське підтвердження й аудит-логи існують десятиліттями. Нове те, що їх суворо застосовують до системи, яка бере інструкції з відкритого інтернету. У продакшен годяться ті агенти, де ці контролі спроєктовані з самого початку, а не прикручені після інциденту.
Безпека — це рішення на етапі скоупінгу, а не фінальний крок
Найдорожча помилка — ставитися до безпеки як до ревʼю, яке запускають перед випуском. До цього моменту привілеї агента, набір інструментів і доступ до даних уже зашиті, і їхнє посилення означає переархітектуру. Безпека має вирішуватися на скоупінгу, разом зі спроможностями, — бо в агентів спроможності і є ризик.
Це означає ставити незручні питання рано. Чи справді цьому агенту потрібен доступ на запис, чи запис може підтвердити людина? Чи потрібно йому ходити по відкритому вебу, чи по вивіреному наборі джерел? Що найгіршого він міг би зробити, якби кожна інструкція, яку він прочитав сьогодні, була ворожою, — і чи влаштовує нас ця відповідь? Агент, промальований із цими питаннями в голові, зазвичай виявляється і безпечнішим, і кориснішим, бо вузькі, чітко визначені агенти в будь-якому разі перевершують розрослих. Безпека та якість тягнуть в один бік частіше, ніж команди очікують.
Як до цього підходить Moai Team
Ми ставимося до безпеки агента як до частини архітектури, що вирішується при скоупінгу, а не як до воріт у кінці. Перші питання, які ми ставимо, — про експозицію й радіус ураження: який недовірений контент читатиме цей агент? Які інструменти й облікові дані йому реально потрібні, а які просто зручні? Які дії незворотні чи чутливі настільки, що вимагають людини? Ці відповіді формують дизайн ще до того, як написаний рядок харнесу.
Далі ми вбудовуємо ешелонований захист у сам харнес. Ми застосовуємо найменші привілеї до кожного інструмента й облікових даних, тримаємо недовірений зовнішній контент відокремленим від довірених інструкцій, ізолюємо все, що виконується, і за замовчуванням ставимо людське підтвердження перед критичними діями. Ми захищаємо шари памʼяті та RAG, щоб отруєний запис не став стійкою компрометацією, і підключаємо трасування, щоб кожен промпт, виклик інструмента й потік даних був видимим і піддавався аудиту. Потім ми робимо вороже поведінку першокласним кейсом у харнесі оцінок: спроби впровадження стають тестами, які агент зобовʼязаний пройти, прогнаними постійно, а не разовим пентестом. Це та сама дисципліна, що відрізняє демо від продакшен-агента у всьому іншому: легко зробити агента, який працює, коли ніщо не вороже, і це інженерія — зробити того, що тримає, коли щось вороже.
Часті запитання
Що таке prompt injection в AI-агентів?
Prompt injection — це атака, за якої ворожі інструкції протягуються в контент, який обробляє модель, змушуючи її слідувати їм замість задуманої задачі. Для агентів небезпечна непряма форма: шкідливі інструкції сховані в зовнішньому контенті, який агент видобуває сам, — вебсторінці, листі, PDF, записі в базі чи виводі інструмента, — а не введені користувачем. Оскільки агенти і читають недовірені джерела, і діють через інструменти, впровадження може призвести до витоку даних, несанкціонованого використання інструментів та іншої реальної шкоди. OWASP ставить prompt injection на перше місце серед LLM-ризиків (LLM01).
Чи можна повністю запобігти prompt injection?
Ні. Prompt injection — наслідок того, як мовні моделі обробляють інструкції й дані в одному каналі, а не виправний баг конкретної моделі. Передові лабораторії, зокрема OpenAI, Google та Anthropic, залишаються вразливими після застосування їхніх найкращих заходів, а OpenAI публічно заявила, що проблема «можливо, ніколи не буде повністю закрита». Реалістична ціль — не зробити впровадження неможливим, а зробити успішне впровадження нешкідливим: через ешелонований захист — найменші привілеї, ізоляцію виконання, людське підтвердження чутливих дій і повне трасування, — щоб обдурена модель не дотягнулася ні до чого значущого.
Що таке OWASP Top 10 для агентних застосунків?
Це фреймворк безпеки, опублікований проєктом OWASP Gen AI Security у грудні 2025 року, що пройшов рецензування за участю понад ста дослідників і практиків, який називає найкритичніші ризики, специфічні для автономних та агентних AI-систем. Його категорії включають Перехоплення цілі агента (ASI01), Зловживання інструментами (ASI02), Зловживання ідентичністю та привілеями (ASI03), Вразливості агентного ланцюга постачання (ASI04), Неочікуване виконання коду (ASI05), Отруєння памʼяті та контексту (ASI06) і далі аж до Агентів-зрадників (ASI10). Він переосмислює безпеку агентів довкола того, що агенти роблять, — викликають інструменти, тримають облікові дані, памʼятають стан, — а не лише що вони кажуть.
Який захист для AI-агентів найефективніший?
Людина в петлі на критичних діях. Вимога явного людського підтвердження, перш ніж агент зробить щось незворотне чи чутливе — надішле зовнішній лист, переведе гроші, здійснить покупку, змінить чи видалить дані, виконає код, — це найефективніший одиночний контроль проти зловживання інструментами, бо він ставить людину між впровадженою інструкцією та наслідком. Найкраще він працює у звʼязці з найменшими привілеями та ізольованим виконанням інструментів, щоб дії, які людині підтверджувати не потрібно, були також єдиними, що агент може здійснити без нагляду.
Moai Team будує AI-агентів із безпекою, закладеною на скоупінгу, — найменші привілеї, ізольовані інструменти, людське підтвердження чутливих дій, захищена памʼять і ворожі оцінки, — щоб вони трималися, коли ввід стає ворожим, а не лише в дружньому демо. Запланувати дзвінок.