Together.ai · 05.02.2026 ·Исследования и наука

Как языковые модели генерируют контент без указаний

Как языковые модели генерируют контент без указаний

Новое исследование показало, что языковые модели (LLM) демонстрируют уникальные «предпочтения» в генерации контента, когда им не дают конкретных указаний. Учёные обнаружили, что модели из разных семейств по-разному заполняют пробелы в информации.

GPT-модели склонны генерировать код и математические примеры. Llama, напротив, предпочитает создавать нарративы и истории. DeepSeek часто выводит религиозный контент, а Qwen — экзаменационные вопросы. Эти различия связаны с особенностями обучения и данных, на которых тренировались модели.

Исследование также выявило, что модели могут демонстрировать неожиданные знания, даже если их не обучали на соответствующих данных. Например, некоторые модели способны генерировать технические термины или философские рассуждения без явного обучения в этих областях.

Результаты подчёркивают важность понимания внутренних механизмов языковых моделей и их потенциальных применений. Разработчики могут использовать эти знания для улучшения качества генерации и снижения рисков нежелательного контента.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Artificial intelligence – MIT Technology Review · Исследования и наука Проблема «группового мышления» в LLM и методы борьбы с предсказуемостью ответов Современные большие языковые модели демонстрируют склонность к предсказуемым паттернам и «групповому мышлению», выдавая схожие ответы на однотипные запросы. Исследователи и стартапы ищут способы преодолеть эту статистическую ограниченность, внедряя механизмы, которые заставляют модели выходить за рамки наиболее вероятных токенов, повышая вариативность и креативность генерации без потери логической связности ответов. Hacker News · Исследования и наука Почему LLM склонны к галлюцинациям вместо признания незнания Языковые модели часто генерируют неверные ответы из-за особенностей обучения на предсказание следующего токена. Вместо оценки достоверности информации, архитектура трансформеров стремится минимизировать ошибку предсказания, заполняя пробелы в знаниях статистически вероятными, но фактически ложными данными. Это фундаментальное различие между поиском истины и имитацией правдоподобного текста создает проблему галлюцинаций в агентных системах. arXiv · Исследования и наука Языковые модели как базы знаний: анализ согласованности фактов Исследователи проанализировали, насколько языковые модели способны выступать в роли надежных баз знаний. Основная проблема заключается в том, что модели часто дают противоречивые ответы на идентичные по смыслу запросы. Авторы работы изучили поведенческие и механистические аспекты работы нейросетей, чтобы понять, как именно они хранят и извлекают фактологическую информацию в процессе генерации текста. arXiv · Исследования и наука Асимметрия восприятия и генерации в LLM: анализ вероятностей токенов Исследователи изучили, существует ли в больших языковых моделях функциональное различие между процессами восприятия и генерации текста, аналогичное психолингвистическим моделям человека. Несмотря на то что LLM используют единый механизм предсказания следующего токена для обеих задач, анализ вероятностей показывает наличие специфических паттернов, которые позволяют разграничить «входящую» обработку информации и «исходящую» генерацию контента внутри архитектуры трансформера. Hacker News · Исследования и наука Исследование: как LLM защищают свои ложные воспоминания Исследователи обнаружили, что большие языковые модели склонны упорно защищать сгенерированную ими ложную информацию, если она звучит лингвистически убедительно. В ходе экспериментов выяснилось, что модели с большей вероятностью настаивают на неверных фактах, если те сформулированы грамматически безупречно и логично, демонстрируя своего рода «когнитивное искажение» в пользу собственной беглости речи, а не фактической точности. Hacker News · Машинное обучение Проблема «отравления» данных: обучаются ли новые модели на ИИ-контенте Исследователи и инженеры обсуждают критическую проблему «модельного коллапса», при котором новые поколения языковых моделей обучаются на данных, сгенерированных их предшественниками. Этот процесс приводит к деградации качества ответов, потере разнообразия и накоплению ошибок. Вопрос о том, как фильтровать синтетический контент в обучающих выборках, становится ключевым вызовом для разработчиков современных LLM. arXiv · Память и RAG Co-LMLM: новый подход к обучению моделей с внешней базой знаний Исследователи представили архитектуру Co-LMLM (Continuous-Query Limited Memory Language Models), которая переносит хранение фактологических знаний из весов нейросети во внешнюю базу данных. В отличие от стандартных LLM, такая модель в процессе генерации текста динамически обращается к внешним источникам, что позволяет обновлять знания без необходимости дорогостоящего дообучения и обеспечивает лучший контроль над достоверностью информации. arXiv · Исследования и наука Исследование: как языковые модели теряют логику при замене переменных Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию. Hacker News · Оценка и бенчмарки Сравнение частоты галлюцинаций в моделях GPT-5.5 и GLM-5.2 Исследователи представили сравнительный анализ точности генерации ответов для крупных языковых моделей GPT-5.5 и GLM-5.2. Согласно полученным данным, модель GPT-5.5 демонстрирует в три раза более высокий уровень галлюцинаций по сравнению с GLM-5.2, распространяемой под лицензией MIT. Тестирование проводилось на наборах данных, требующих высокой фактологической точности и логической последовательности. The Decoder · Исследования и наука Почему языковые модели ограничены в научных открытиях Исследователь Google DeepMind Том Захави в своей работе «LLMs can't jump» утверждает, что современные языковые модели не способны провоцировать научные революции. Основная причина заключается в отсутствии у них когнитивных механизмов для создания принципиально новых знаний. Автор предполагает, что для совершения прорывных открытий ИИ должен перейти от обработки текста к построению полноценных моделей мира.

← Все материалы