Ars Technica - All content · 24.06.2026 ·Инференс и железо

OpenAI и Broadcom разрабатывают специализированный чип для инференса LLM

OpenAI объединила усилия с Broadcom для создания специализированного чипа, оптимизированного под задачи инференса крупных языковых моделей. Проект направлен на снижение зависимости от сторонних поставщиков графических процессоров и масштабирование вычислительных мощностей для работы с ИИ-сервисами. Новое решение должно обеспечить высокую энергоэффективность и производительность при выполнении сложных запросов в условиях растущего спроса на вычисления.

Разработка собственного «железа» становится стратегическим приоритетом для ведущих ИИ-лабораторий. Использование кастомных чипов позволяет компаниям оптимизировать архитектуру под конкретные нужды своих моделей, сокращая задержки и стоимость обработки токенов. Сотрудничество с Broadcom предоставляет OpenAI доступ к экспертизе в проектировании сложных полупроводниковых систем и налаженным цепочкам поставок.

Переход к специализированным ускорителям — это попытка решить проблему дефицита вычислительных ресурсов, с которой сталкиваются разработчики при масштабировании агентных систем и сложных чат-ботов. Ожидается, что интеграция собственных чипов в инфраструктуру OpenAI позволит компании более эффективно управлять затратами на инференс, которые составляют значительную долю операционных расходов при работе с LLM.

Ключевые факты

OpenAI и Broadcom официально подтвердили совместную разработку чипа для инференса LLM.
Основная цель проекта — оптимизация производительности и снижение стоимости вычислений при масштабировании моделей.
Сотрудничество направлено на создание альтернативы стандартным графическим ускорителям общего назначения.
Проект является частью стратегии OpenAI по обеспечению независимости инфраструктуры для поддержки растущего числа пользователей и агентных сервисов.

Источник: Ars Technica - All content

Обсудить с ИИ

Похожие материалы

The Decoder · Инференс и железо OpenAI и Broadcom разрабатывают специализированный чип Jalapeño для инференса LLM OpenAI в партнерстве с Broadcom разрабатывает специализированный чип под кодовым названием Jalapeño, предназначенный для оптимизации инференса больших языковых моделей. Проект направлен на создание собственной аппаратной инфраструктуры, которая позволит компании масштабировать вычислительные мощности и снизить зависимость от сторонних поставщиков графических процессоров. Ожидается, что чипы будут введены в эксплуатацию к концу 2026 года. OpenAI News · Инференс и железо OpenAI и Broadcom представили специализированный чип для инференса LLM OpenAI в партнерстве с Broadcom разработала специализированный чип Jalapeño, предназначенный для оптимизации инференса больших языковых моделей. Решение направлено на повышение производительности, энергоэффективности и масштабируемости инфраструктуры, необходимой для работы сложных ИИ-систем. Проект знаменует переход компании к созданию собственного аппаратного обеспечения для снижения зависимости от сторонних вычислительных мощностей и оптимизации затрат на генеративный ИИ. AI News & Artificial Intelligence | TechCrunch · Инференс и железо OpenAI представила собственный ИИ-чип Jalapeño для оптимизации инференса OpenAI анонсировала разработку собственного специализированного процессора под кодовым названием Jalapeño. Чип создан в партнерстве с компанией Broadcom и предназначен для оптимизации процессов инференса в масштабных системах компании. Переход на собственное «железо» позволит OpenAI снизить зависимость от сторонних поставщиков графических ускорителей и повысить эффективность работы своих нейросетевых моделей при выполнении запросов пользователей. The Verge · Инференс и железо OpenAI представила собственный ИИ-процессор Jalapeño OpenAI анонсировала разработку собственного специализированного чипа под названием Jalapeño, созданного в партнерстве с Broadcom. Этот ASIC-процессор спроектирован исключительно для задач инференса больших языковых моделей. Решение направлено на оптимизацию серверной инфраструктуры компании и снижение зависимости от сторонних поставщиков оборудования, что является важным шагом в масштабировании вычислительных мощностей для будущих поколений ИИ. Hacker News · Инференс и железо MLX-Optiq: квантование LLM для Apple Silicon Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. Hacker News · Инференс и железо Google масштабирует производство собственных чипов для ИИ Google активно развивает направление по созданию специализированных процессоров для обучения и работы нейросетей, стремясь снизить зависимость от продукции Nvidia. Компания использует стратегию, аналогичную подходу лидера рынка: создание собственной экосистемы, которая объединяет аппаратное обеспечение с программными инструментами для разработчиков. Это позволяет оптимизировать производительность моделей непосредственно на уровне «железа». Hacker News · Инференс и железо Энергоэффективность нейропроцессоров: бенчмарк Memryx MX3 на граничных устройствах Исследование производительности и энергопотребления специализированного ИИ-ускорителя Memryx MX3 демонстрирует возможности запуска глубоких нейронных сетей на периферийных устройствах. Автор тестирует чип в задачах инференса, сравнивая показатели энергоэффективности и задержки с традиционными решениями, что критически важно для развертывания автономных агентных систем вне облачной инфраструктуры и обеспечения работы ИИ в условиях ограниченного питания. NVIDIA Technical Blog · Инференс и железо NVIDIA Blackwell установила рекорд в инференсе LLM для финансов NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса.

← Все материалы