Lelu — это специализированный слой безопасности для ИИ-агентов, работающих с API OpenAI. Инструмент позволяет устанавливать пороги уверенности для выполнения действий и фильтровать попытки промпт-инъекций в режиме реального времени. Решение встраивается в процесс обработки запросов, предотвращая несанкционированное выполнение команд агентом, если модель демонстрирует низкую степень уверенности в ответе или подвергается атаке.
Система функционирует как прослойка между логикой агента и исполняемыми функциями (tool calls). При получении запроса от модели Lelu анализирует контекст и вероятность выполнения конкретной задачи. Если параметры безопасности нарушены, система блокирует вызов функции, защищая инфраструктуру от непредвиденных действий, которые могут быть инициированы манипуляцией промптами или галлюцинациями модели.
Использование подобных инструментов становится критически важным при масштабировании агентных систем, где LLM получают доступ к внешним API или базам данных. Lelu помогает минимизировать риски, связанные с «непредсказуемым поведением» моделей, предоставляя разработчикам возможность программно ограничивать полномочия агентов на основе оценки рисков и точности генерации.
Ключевые факты
- Lelu предназначен для фильтрации действий агентов, использующих модели OpenAI.
- Основные функции включают проверку на промпт-инъекции и оценку порога уверенности (confidence threshold).
- Инструмент предотвращает выполнение функций, если вероятность корректного исполнения ниже заданного уровня.
- Решение ориентировано на разработчиков, создающих автономных агентов с доступом к критически важным API.
- Проект доступен в виде open-source библиотеки для интеграции в существующие агентные пайплайны.