OpenAI удалось снизить затраты на вычислительные мощности для обработки запросов пользователей ChatGPT более чем на 50%. Оптимизация инфраструктуры позволила компании существенно сократить потребность в графических процессорах Nvidia, что является критическим фактором для масштабирования сервиса и повышения рентабельности работы моделей в условиях растущего спроса и высокой конкуренции на рынке генеративного ИИ.
Основной фокус оптимизации был направлен на работу с неавторизованными пользователями, которые используют сервис без создания учетной записи. За счет внедрения более эффективных методов инференса и оптимизации архитектуры моделей, компании удалось добиться того, что в пиковые моменты для обслуживания трафика требуется всего несколько сотен GPU. Это значительное достижение, учитывая колоссальные объемы запросов, обрабатываемых платформой ежедневно.
Снижение стоимости инференса напрямую влияет на финансовую устойчивость OpenAI. Уменьшение операционных расходов позволяет компании предлагать более доступные тарифы и расширять доступ к своим технологиям, сохраняя при этом маржинальность бизнеса. Подобные инженерные решения становятся ключевым конкурентным преимуществом, позволяя быстрее внедрять новые функции и поддерживать стабильность работы сервиса при сохранении высокой скорости ответа.
Ключевые факты
- Расходы на инференс для гостевых пользователей ChatGPT снижены более чем в два раза.
- Оптимизация позволила сократить количество используемых GPU Nvidia до нескольких сотен в отдельные периоды времени.
- Основная цель изменений — повышение операционной эффективности и снижение себестоимости каждого запроса к модели.
- Данные об оптимизации инфраструктуры подтверждают тренд на снижение стоимости эксплуатации LLM за счет инженерных доработок.
