Google представила метод оптимизации инференса для моделей Gemini Nano, работающих локально на устройствах Pixel. Технология Multi-Token Prediction (MTP) позволяет модели предсказывать несколько будущих токенов за один проход, что значительно повышает скорость генерации текста без увеличения требований к вычислительным ресурсам. Это решение критически важно для обеспечения плавного пользовательского опыта в мобильных ИИ-приложениях.

Традиционные языковые модели генерируют текст последовательно, предсказывая по одному токену за раз, что создает узкое место в производительности из-за ограничений пропускной способности памяти. Новый подход использует «замороженную» архитектуру, где дополнительные головы предсказания обучаются поверх основной модели. Это позволяет эффективно использовать параллелизм современных мобильных процессоров, сохраняя при этом точность ответов на уровне стандартных моделей.

Внедрение MTP на устройствах Pixel демонстрирует возможность запуска сложных LLM непосредственно на «железе» смартфона. Такой подход снижает задержки при взаимодействии с ИИ-ассистентами и уменьшает зависимость от облачных вычислений, что является ключевым трендом в развитии локального инференса. Оптимизация позволяет достичь прироста скорости генерации до 2–3 раз в зависимости от сценария использования.

Ключевые факты

  • Метод Multi-Token Prediction позволяет предсказывать несколько токенов за один шаг инференса.
  • Технология реализована для моделей Gemini Nano, оптимизированных для работы на чипсетах Google Tensor.
  • Использование «замороженных» весов основной модели упрощает процесс интеграции и дообучения для мобильных устройств.
  • Оптимизация направлена на снижение задержек при генерации текста в локальных приложениях на смартфонах Pixel.
  • Метод эффективно решает проблему ограниченной пропускной способности памяти при выполнении авторегрессионных задач.