Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных.

Основная сложность заключается в несовместимости традиционных методов тестирования с недетерминированной природой LLM. В ходе проекта выяснилось, что стандартные проверки не учитывают контекстные искажения, возникающие при обработке данных из разных регионов и при взаимодействии с внешними API. Использование моделей в связке с браузерными интерфейсами создает дополнительные точки отказа, которые невозможно покрыть классическими юнит-тестами или простыми проверками вывода.

Авторы работы подчеркивают, что для сложных агентных систем требуется переход к методам верификации реальных потоков данных. Вместо оценки отдельных ответов модели необходимо внедрять сквозной мониторинг, который учитывает бизнес-логику и специфику пользовательского опыта. Полученные данные указывают на необходимость разработки новых стандартов контроля качества для приложений, где ИИ выступает не просто как вспомогательный инструмент, а как ключевой компонент архитектуры.