Simon Willison, разработчик и блогер, обновил свой инструмент для работы с WebRTC API OpenAI, добавив поддержку документного контекста. Первая версия была создана в декабре 2024 года, чтобы протестировать новый API для работы с аудиомоделями в реальном времени.

В мае 2024 года OpenAI представил новую модель GPT-Realtime-2, которая позиционируется как первая голосовая модель с уровнем рассуждений GPT-5. Эта модель имеет актуальность знаний до 30 сентября 2024 года. Willison интегрировал её в свой инструмент, что позволяет использовать контекст документов при взаимодействии с моделью.

Инструмент позволяет загружать документы и использовать их как контекст для голосовых запросов. Это открывает новые возможности для создания более сложных и контекстуальных диалогов с ИИ. Например, можно загрузить документ и задавать вопросы о его содержании, получая ответы в реальном времени.

Для разработчиков ИИ-агентов это важно, так как демонстрирует, как можно интегрировать голосовые модели с контекстной информацией. Это может быть полезно для создания агентов, которые могут взаимодействовать с пользователями через голосовые интерфейсы, используя при этом актуальную и релевантную информацию из загруженных документов.