The latest research from Google · 26.06.2026 ·Инференс и железо

Ускорение Gemini Nano на смартфонах Pixel через Multi-Token Prediction

Google представила метод оптимизации инференса для моделей Gemini Nano, работающих локально на устройствах Pixel. Технология Multi-Token Prediction (MTP) позволяет модели предсказывать несколько будущих токенов за один проход, что значительно повышает скорость генерации текста без увеличения требований к вычислительным ресурсам. Это решение критически важно для обеспечения плавного пользовательского опыта в мобильных ИИ-приложениях.

Традиционные языковые модели генерируют текст последовательно, предсказывая по одному токену за раз, что создает узкое место в производительности из-за ограничений пропускной способности памяти. Новый подход использует «замороженную» архитектуру, где дополнительные головы предсказания обучаются поверх основной модели. Это позволяет эффективно использовать параллелизм современных мобильных процессоров, сохраняя при этом точность ответов на уровне стандартных моделей.

Внедрение MTP на устройствах Pixel демонстрирует возможность запуска сложных LLM непосредственно на «железе» смартфона. Такой подход снижает задержки при взаимодействии с ИИ-ассистентами и уменьшает зависимость от облачных вычислений, что является ключевым трендом в развитии локального инференса. Оптимизация позволяет достичь прироста скорости генерации до 2–3 раз в зависимости от сценария использования.

Ключевые факты

Метод Multi-Token Prediction позволяет предсказывать несколько токенов за один шаг инференса.
Технология реализована для моделей Gemini Nano, оптимизированных для работы на чипсетах Google Tensor.
Использование «замороженных» весов основной модели упрощает процесс интеграции и дообучения для мобильных устройств.
Оптимизация направлена на снижение задержек при генерации текста в локальных приложениях на смартфонах Pixel.
Метод эффективно решает проблему ограниченной пропускной способности памяти при выполнении авторегрессионных задач.

Источник: The latest research from Google

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Оптимизация производительности обработки промптов в llama.cpp Исследователь проанализировал влияние механизма Multi-Token Prediction (MTP) на скорость обработки промптов (Prompt Processing Tokens Per Second) в библиотеке llama.cpp. В ходе экспериментов удалось выявить причины деградации производительности при использовании MTP и разработать прототип (PoC), который восстанавливает показатели TPS, сохраняя при этом архитектурные преимущества многотокенового предсказания для LLM. NVIDIA Technical Blog · Инференс и железо Оптимизация инференса DiffusionGemma на графических процессорах NVIDIA NVIDIA представила рекомендации по запуску модели DiffusionGemma, направленные на повышение производительности генерации текста в реальном времени. Основной акцент сделан на устранении задержек при посимвольном выводе, что критически важно для работы чат-ботов, копайлотов и сложных агентных систем. Использование специализированных библиотек и методов оптимизации позволяет значительно увеличить пропускную способность инференса на аппаратном обеспечении компании. Hacker News · Модели и релизы Gemini 3.5 Flash демонстрирует высокую скорость и качество Google представила новую версию своей модели Gemini — Gemini 3.5 Flash. Эта модель отличается не только высокой скоростью работы, но и качеством вывода, что делает её конкурентоспособной на рынке ИИ-решений. Gemini 3.5 Flash оптимизирована для работы на устройствах с ограниченными вычислительными ресурсами, что позволяет использовать её в мобильных и встраиваемых системах. Google DeepMind News · Модели и релизы Gemini 3.1 Flash-Lite от DeepMind: скорость и эффективность DeepMind представила новую модель Gemini 3.1 Flash-Lite, которая позиционируется как самая быстрая и экономически выгодная в серии Gemini 3. Эта модель разработана для работы в условиях масштабируемой интеллектуальной обработки, что делает её особенно привлекательной для разработчиков ИИ-агентов и сервисов. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени. Hacker News · ИИ в бизнесе Google переводит работу приложения Pixel Screenshots на облачные вычисления Компания Google внесла изменения в архитектуру приложения Pixel Screenshots, которое ранее полагалось исключительно на локальную обработку данных на устройстве. Теперь часть задач по анализу и поиску по сохраненным изображениям перенесена в облачную инфраструктуру. Это решение позволяет использовать более мощные вычислительные ресурсы для обработки сложных запросов и улучшения качества распознавания контента, который не всегда эффективно поддается анализу силами мобильного процессора. The Decoder · Инфраструктура для агентов Google интегрировала управление компьютером в Gemini 3.5 Flash Google внедрила функцию «Computer Use» непосредственно в модель Gemini 3.5 Flash, наделив её способностью самостоятельно взаимодействовать с интерфейсами ОС, браузерами и мобильными приложениями. Модель демонстрирует высокую эффективность в выполнении сложных задач, достигая 78,4 баллов на бенчмарке OSWorld. Инструмент открывает новые возможности для автоматизации офисных процессов и тестирования программного обеспечения через API. Google DeepMind News · Машинное обучение DiffusionGemma от DeepMind ускоряет генерацию текста в 4 раза DeepMind представила новую модель DiffusionGemma, которая значительно ускоряет процесс генерации текста. Новая модель работает в 4 раза быстрее по сравнению с предыдущими решениями, что делает её одной из самых быстрых в своей категории. Это достижение может иметь значительное влияние на разработку ИИ-агентов, где скорость генерации текста играет ключевую роль в эффективности работы. Hacker News · Инференс и железо Запуск генерации изображений на iPhone 2020 года Разработчики реализовали локальную генерацию изображений с использованием нейросетей на базе iPhone 12, выпущенного в 2020 году. Проект демонстрирует возможности оптимизации современных моделей для работы на мобильном «железе» без обращения к облачным серверам. Использование нейронного движка Apple Neural Engine позволяет выполнять инференс диффузионных моделей непосредственно на устройстве, обеспечивая приватность и автономность обработки данных. Hacker News · Инференс и железо Запуск модели Gemma 2 2B в браузере с высокой скоростью генерации Разработчики представили реализацию модели Gemma 2 2B, оптимизированную для работы непосредственно в браузере через WebGPU. Использование специализированных ядер позволило достичь скорости генерации текста на уровне 255 токенов в секунду. Это решение демонстрирует возможности локального исполнения нейросетей на клиентских устройствах без необходимости обращения к облачным серверам.

← Все материалы