Hugging Face - Blog · 25.06.2026 ·Исследования и наука

Исследование AllenAI: какие токены лучше предсказывают гибридные модели

Исследователи из Allen Institute for AI проанализировали эффективность гибридных моделей, сочетающих предсказание токенов и предсказание скрытых состояний. Анализ показал, что такие архитектуры лучше справляются с редкими словами и сложными синтаксическими конструкциями, где стандартные языковые модели на основе токенов часто допускают ошибки из-за ограничений словаря или особенностей токенизации.

Традиционные LLM полагаются на фиксированные словари, что создает проблемы при обработке редких терминов или специфических данных. Гибридный подход позволяет модели динамически переключаться между предсказанием конкретных токенов и генерацией представлений, что повышает точность на «длинном хвосте» распределения данных. Это делает архитектуру более устойчивой к шуму и вариативности входных последовательностей.

Результаты работы подчеркивают перспективность отхода от чисто токенизированных подходов в пользу гибридных систем. Авторы отмечают, что подобные методы позволяют эффективнее использовать вычислительные ресурсы при обучении на специализированных корпусах текстов, где плотность редких токенов выше, чем в общих наборах данных.

Ключевые факты

Исследование проведено специалистами Allen Institute for AI (AI2).
Гибридные модели показывают преимущество при работе с редкими токенами, которые плохо представлены в обучающей выборке.
Метод снижает зависимость качества генерации от ограничений стандартных токенизаторов.
Архитектура позволяет модели лучше улавливать контекстуальные связи в сложных синтаксических структурах.
Результаты подтверждают эффективность комбинирования предсказания токенов со скрытыми состояниями для улучшения обобщающей способности моделей.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Общие модели превосходят специализированные в клинической диагностике Исследование, опубликованное в журнале Nature Medicine, показало, что общие большие языковые модели (LLM) превосходят специализированные клинические ИИ-системы в диагностике заболеваний. В ходе эксперимента модели, такие как GPT-4, продемонстрировали высокую точность в интерпретации медицинских данных и постановке диагнозов, сопоставимую с экспертными системами, разработанными специально для медицинских задач. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Hacker News · Модели и релизы Как мелкие модели могут конкурировать с крупными Исследователи из DeepClause предложили метод, позволяющий мелким языковым моделям демонстрировать производительность, сопоставимую с крупными аналогами. В статье на Substack они объясняют, что ключевым фактором является не количество параметров, а эффективность архитектуры и стратегии обучения. Hacker News · Исследования и наука Ограничение памяти как способ улучшения обучения ИИ-моделей Исследователи из Института психолингвистики Макса Планка выяснили, что искусственное ограничение объема памяти ИИ-моделей до 3–7 элементов значительно повышает эффективность усвоения языка. Аналогия с кратковременной памятью человека помогает нейросетям лучше обобщать правила грамматики и структуры, предотвращая переобучение на избыточных данных и способствуя более качественному формированию лингвистических навыков в процессе обучения. Hacker News · Оценка и бенчмарки Сравнение частоты галлюцинаций в моделях GPT-5.5 и GLM-5.2 Исследователи представили сравнительный анализ точности генерации ответов для крупных языковых моделей GPT-5.5 и GLM-5.2. Согласно полученным данным, модель GPT-5.5 демонстрирует в три раза более высокий уровень галлюцинаций по сравнению с GLM-5.2, распространяемой под лицензией MIT. Тестирование проводилось на наборах данных, требующих высокой фактологической точности и логической последовательности. arXiv · Исследования и наука Гибридный подход в трейдинге: объединение классического стоимостного инвестирования и ML Исследователи предложили новый метод отбора акций, объединяющий классические принципы стоимостного инвестирования Бенджамина Грэма с современными моделями машинного обучения. Авторы используют фундаментальные финансовые показатели как математический фильтр для нейросетей, что позволяет отсеивать рыночный шум и краткосрочные колебания, фокусируясь на компаниях с устойчивой долгосрочной стоимостью и предсказуемыми показателями эффективности. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. Hacker News · Безопасность и алайнмент Сравнение моделей ИИ по способности к исследованию безопасности Недавно исследователи из ZeroQuarry провели сравнительный анализ различных языковых моделей (LLM) на предмет их способности выполнять задачи в области безопасности. В исследовании участвовали модели от OpenAI, Mistral, Anthropic и других, которые тестировались на различных сценариях, связанных с выявлением уязвимостей, анализом кода и генерацией рекомендаций по защите. arXiv · Исследования и наука Малые языковые модели догнали гигантов в задачах извлечения отношений Исследователи проанализировали возможности компактных языковых моделей (SLM) в задачах извлечения отношений (Relation Extraction) из текстов. В фокусе внимания оказались модели с количеством параметров от 360 миллионов до 3 миллиардов. Результаты показывают, что такие системы способны демонстрировать производительность, сопоставимую с крупными моделями (LLM) уровня frontier, работая при этом в режиме zero-shot. arXiv · Исследования и наука Исследование: как языковые модели теряют логику при замене переменных Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию.

← Все материалы