Короткий ответ: Безопасность AI-агентов — это дисциплина, которая не даёт автономному агенту совершить вред под влиянием контента, который он читает, и инструментов, которые он может вызывать. Главная угроза — prompt injection (внедрение инструкций в промпт); OWASP ставит его на первое место в списке LLM-рисков (LLM01). Опасная для агентов разновидность — непрямой prompt injection: атакующий прячет инструкции внутри документа, письма, веб-страницы или записи в базе, которые агент позже прочитает и выполнит, как будто их дали вы. Жёсткая правда в том, что полного исправления не существует: ведущие лаборатории публично признали, что prompt injection, возможно, никогда не будет до конца закрыт, — поэтому безопасность должна идти от архитектуры, а не от одного защитного механизма. Безопасны для продакшена те агенты, что построены на принципе наименьших привилегий, изоляции выполнения инструментов, человеческом подтверждении критичных действий и трассировке — на эшелонированной защите, а не на хитром системном промпте.
Безопасность — одна из тихих причин, почему агенты застревают между демо и продакшеном. Демо работает в доверенной песочнице, где ничто не враждебно. Продакшен-агент читает недоверенную почту, парсит живые веб-страницы и действует на клиентских данных — и каждый из этих каналов атакующий может перезаписать. Ниже — что такое prompt injection на самом деле, почему агенты особенно уязвимы, какие реальные инциденты показывают ставки, какой фреймворк OWASP теперь называет эти риски, и как мы проектируем агентов, чтобы они выдерживали контакт с враждебным вводом.
Что такое prompt injection — и почему агенты ухудшают картину
Большая языковая модель не может надёжно отличить инструкции от разработчика от инструкций, пришедших внутри данных, которые её просят обработать. Для модели это всё — текст в одном и том же контекстном окне. Prompt injection эксплуатирует именно это: он протаскивает команды в контент, который модель читает, и модель им следует.
Есть две разновидности, и различие между ними решает для агентов всё.
Чат-бот, который только разговаривает, почти не подвержен непрямому внедрению, потому что он не ходит читать недоверенные вещи. Агент определяется обратным: он читает внешние источники и действует через инструменты. Именно эта комбинация — недоверенный ввод, втекающий в систему, которая может отправить письмо, перевести деньги, изменить записи или выполнить код, — превращает языковую особенность в инцидент безопасности. Чем способнее агент, тем больше радиус поражения, когда внедрение срабатывает.
Реальные инциденты, которые задают ставки
Это не теория. Череда задокументированных инцидентов 2025–2026 годов показывает, как непрямое внедрение перешло из исследовательских демо в продакшен-системы.
Самый наглядный пример — EchoLeak (CVE-2025-32711), уязвимость нулевого клика в Microsoft 365 Copilot с оценкой CVSS 9.3. Одно специально составленное письмо — его не открывали и по нему не кликали — несло скрытые инструкции, которые Copilot проглотил во время рутинной задачи суммаризации. Затем агент вытащил чувствительные данные из OneDrive, SharePoint и Teams пользователя и вывел их наружу через доверенный домен Microsoft. Жертва не сделала ничего. Агент сделал всё — потому что прочитал не то письмо.
Другие отмеченные случаи имеют ту же форму. Уязвимость в AI-ассистенте Slack позволяла скрытым инструкциям в сообщении заставить ассистента показать вредоносную ссылку, которая при клике сливала данные из приватного канала. По аудитам безопасности оценки со ссылкой на OWASP обнаруживали prompt injection примерно в 73% продакшен-внедрений AI, с долей успешных атак, по сообщениям, от 50% до 84% в зависимости от конфигурации и числа попыток. 13 февраля 2026 года OpenAI выпустила «Lockdown Mode» для ChatGPT и прямо заявила, что prompt injection в AI-браузерах «возможно, никогда не будет полностью закрыт».
Закономерность во всех случаях одна: агенту доверили действовать на контенте, за который он не мог поручиться. Это проблема архитектуры, и она решаема — но не лучшим промптом.
OWASP Top 10 для агентных приложений
Большую часть эпохи LLM ориентиром был OWASP Top 10 для LLM-приложений, где prompt injection стоит на позиции LLM01. В декабре 2025 года проект OWASP Gen AI Security опубликовал фреймворк, нацеленный конкретно на агентов: OWASP Top 10 для агентных приложений (2026), прошедший рецензирование с участием более ста исследователей безопасности и практиков. Это первый широко принятый словарь для рисков, специфичных для агентов, и его стоит знать, потому что он переосмысляет безопасность вокруг того, что агенты делают, а не только что они говорят.
Категории, наиболее значимые для повседневной инженерии агентов:
- Перехват цели агента (ASI01) — атакующие перенаправляют цель агента, манипулируя инструкциями, выводами инструментов или внешним контентом. Это непрямой prompt injection, увиденный со стороны агента.
- Злоупотребление инструментами и их эксплуатация (ASI02) — агента направляют использовать его легитимные инструменты во вред: вызвать API, который не следовало, удалить данные, отправить сообщение, потратить деньги.
- Злоупотребление идентичностью и привилегиями (ASI03) — эксплуатируются унаследованные учётные данные агента, делегированные права или доверие между агентами, так что атака наследует весь доступ, который есть у агента.
- Уязвимости агентной цепочки поставок (ASI04) — подменённый инструмент, модель, дескриптор или персона агента компрометируют выполнение ещё до того, как поступит пользовательский ввод.
- Неожиданное выполнение кода (ASI05) — агент генерирует или запускает контролируемый атакующим код.
- Отравление памяти и контекста (ASI06) — устойчивое повреждение памяти агента, RAG-хранилища или контекста, так что одно внедрение продолжает влиять на поведение в будущих сессиях.
Остальные категории доходят до Агентов-изгоев (ASI10) — скомпрометированных или рассогласованных агентов, отклоняющихся от задуманного поведения. Сквозная мысль: сила агента и есть его поверхность атаки. Каждый инструмент, который вы даёте, каждый источник, который он читает, каждые учётные данные, которыми он владеет, и каждый факт, который он помнит, — это то, что можно обратить против вас.
Почему единого исправления нет
Инстинкт — попросить патч, ту самую настройку или защиту, что закроет дыру. Её не существует, и притворяться обратным — самая опасная позиция в безопасности агентов.
Причина структурна. Prompt injection — не баг конкретной модели, который вендор может починить; это следствие того, как работают языковые модели. Они обрабатывают инструкции и данные в одном канале, и ни одна нынешняя техника не разделяет их надёжно. Фильтры на основе классификаторов, пытающиеся ловить попытки внедрения, помогают на грани, но их регулярно обходят, потому что пространство способов сформулировать вредоносную инструкцию практически бесконечно. Передовые модели всех крупных лабораторий остаются эксплуатируемыми после применения их лучших мер. Поэтому сами лаборатории описывают проблему как нерешённую.
Это меняет цель. Вы не пытаетесь сделать внедрение невозможным — это невозможно. Вы пытаетесь сделать успешное внедрение безвредным: гарантировать, что даже когда модель обманута, она не дотянется ни до чего значимого. В этом вся философия эшелонированной защиты, и в этом разница между агентом, который отказывает безопасно, и тем, что отказывает катастрофически.
Defense in depth: контроли, которые реально держат
Защита агента — это про ограничение того, что может сделать перехваченный агент, чтобы плохая инструкция упёрлась в стену, а не в инструмент. Несколько контролей несут основную нагрузку.
Ничто из этого не является новой мыслью в безопасности — наименьшие привилегии, изоляция, человеческое подтверждение и аудит-логи существуют десятилетиями. Ново то, что их строго применяют к системе, которая берёт инструкции из открытого интернета. В продакшен годятся те агенты, где эти контроли спроектированы с самого начала, а не прикручены после инцидента.
Безопасность — это решение на этапе скоупинга, а не финальный шаг
Самая дорогая ошибка — относиться к безопасности как к ревью, которое запускают перед выпуском. К этому моменту привилегии агента, набор инструментов и доступ к данным уже зашиты, и их ужесточение означает переархитектуру. Безопасность должна решаться на скоупинге, вместе с возможностями, — потому что у агентов возможности и есть риск.
Это значит задавать неудобные вопросы рано. Действительно ли этому агенту нужен доступ на запись, или запись может подтвердить человек? Нужно ли ему ходить по открытому вебу, или по выверенному набору источников? Что худшего он мог бы сделать, если бы каждая инструкция, которую он прочитал сегодня, была враждебной, — и устраивает ли нас этот ответ? Агент, прорисованный с этими вопросами в голове, обычно оказывается и безопаснее, и полезнее, потому что узкие, чётко определённые агенты в любом случае превосходят разросшихся. Безопасность и качество тянут в одну сторону чаще, чем команды ожидают.
Как к этому подходит Moai Team
Мы относимся к безопасности агента как к части архитектуры, решаемой при скоупинге, а не как к воротам в конце. Первые вопросы, которые мы задаём, — про экспозицию и радиус поражения: какой недоверенный контент будет читать этот агент? Какие инструменты и учётные данные ему реально нужны, а какие просто удобны? Какие действия необратимы или чувствительны настолько, что требуют человека? Эти ответы формируют дизайн ещё до того, как написана строчка харнесса.
Дальше мы встраиваем эшелонированную защиту в сам харнесс. Мы применяем наименьшие привилегии к каждому инструменту и учётным данным, держим недоверенный внешний контент отделённым от доверенных инструкций, изолируем всё, что выполняется, и по умолчанию ставим человеческое подтверждение перед критичными действиями. Мы защищаем слои памяти и RAG, чтобы отравленная запись не стала устойчивой компрометацией, и подключаем трассировку, чтобы каждый промпт, вызов инструмента и поток данных был виден и поддавался аудиту. Затем мы делаем враждебное поведение первоклассным кейсом в харнессе оценок: попытки внедрения становятся тестами, которые агент обязан пройти, прогоняемыми постоянно, а не разовым пентестом. Это та же дисциплина, что отличает демо от продакшен-агента во всём остальном: легко сделать агента, который работает, когда ничто не враждебно, и это инженерия — сделать того, что держит, когда что-то враждебно.
Часто задаваемые вопросы
Что такое prompt injection у AI-агентов?
Prompt injection — это атака, при которой враждебные инструкции протаскиваются в контент, который обрабатывает модель, заставляя её следовать им вместо задуманной задачи. Для агентов опасна непрямая форма: вредоносные инструкции спрятаны во внешнем контенте, который агент извлекает сам, — веб-странице, письме, PDF, записи в базе или выводе инструмента, — а не введены пользователем. Поскольку агенты и читают недоверенные источники, и действуют через инструменты, внедрение может привести к утечке данных, несанкционированному использованию инструментов и другому реальному вреду. OWASP ставит prompt injection на первое место среди LLM-рисков (LLM01).
Можно ли полностью предотвратить prompt injection?
Нет. Prompt injection — следствие того, как языковые модели обрабатывают инструкции и данные в одном канале, а не исправимый баг конкретной модели. Передовые лаборатории, включая OpenAI, Google и Anthropic, остаются уязвимыми после применения их лучших мер, а OpenAI публично заявила, что проблема «возможно, никогда не будет полностью закрыта». Реалистичная цель — не сделать внедрение невозможным, а сделать успешное внедрение безвредным: через эшелонированную защиту — наименьшие привилегии, изоляцию выполнения, человеческое подтверждение чувствительных действий и полную трассировку, — чтобы обманутая модель не дотянулась ни до чего значимого.
Что такое OWASP Top 10 для агентных приложений?
Это фреймворк безопасности, опубликованный проектом OWASP Gen AI Security в декабре 2025 года, прошедший рецензирование с участием более ста исследователей и практиков, который называет наиболее критичные риски, специфичные для автономных и агентных AI-систем. Его категории включают Перехват цели агента (ASI01), Злоупотребление инструментами (ASI02), Злоупотребление идентичностью и привилегиями (ASI03), Уязвимости агентной цепочки поставок (ASI04), Неожиданное выполнение кода (ASI05), Отравление памяти и контекста (ASI06) и далее вплоть до Агентов-изгоев (ASI10). Он переосмысляет безопасность агентов вокруг того, что агенты делают, — вызывают инструменты, держат учётные данные, помнят состояние, — а не только что они говорят.
Какая защита для AI-агентов самая эффективная?
Человек в петле на критичных действиях. Требование явного человеческого подтверждения, прежде чем агент сделает что-то необратимое или чувствительное — отправит внешнее письмо, переведёт деньги, совершит покупку, изменит или удалит данные, выполнит код, — это самый эффективный одиночный контроль против злоупотребления инструментами, потому что он ставит человека между внедрённой инструкцией и последствием. Лучше всего он работает в связке с наименьшими привилегиями и изолированным выполнением инструментов, чтобы действия, которые человеку подтверждать не нужно, были также единственными, что агент может совершить без надзора.
Moai Team строит AI-агентов с безопасностью, заложенной на скоупинге, — наименьшие привилегии, изолированные инструменты, человеческое подтверждение чувствительных действий, защищённая память и враждебные оценки, — чтобы они держались, когда ввод становится враждебным, а не только в дружелюбном демо. Запланировать звонок.