Hacker News · 22.06.2026 ·Машинное обучение

Разработчики ИИ всё чаще используют синтетические данные от других моделей

Исследователи фиксируют массовый переход к использованию синтетических данных при обучении новых нейросетей. Разработчики всё чаще делегируют создание обучающих выборок существующим чат-ботам, таким как GPT-4 или Claude, вместо сбора и разметки данных вручную. Этот подход позволяет значительно ускорить процесс подготовки моделей и снизить затраты на привлечение человеческого труда.

Использование ответов ИИ для обучения других систем создает эффект «самопоедания» данных. Специалисты предупреждают, что при отсутствии контроля качества такие модели могут начать деградировать, наследуя ошибки, галлюцинации и специфические паттерны поведения своих «учителей». В научной среде этот феномен получил название «модельного коллапса», когда многократное обучение на синтетическом контенте приводит к потере разнообразия и точности ответов.

Несмотря на риски, индустрия продолжает активно внедрять автоматизированную генерацию данных. Компании ищут способы фильтрации и верификации синтетического контента, чтобы отсеивать низкокачественные примеры до того, как они попадут в обучающий цикл. Баланс между эффективностью автоматизации и сохранением качества данных становится одной из ключевых задач в разработке современных языковых моделей.

Источник: Hacker News

Похожие материалы

Hacker News · Рынок труда и экономика Проблема масштабирования данных для обучения ИИ Аналитики указывают на фундаментальный барьер в развитии современных языковых моделей: нехватку качественных данных для обучения. Попытки компаний, включая Meta (признана экстремистской организацией, деятельность запрещена в РФ), привлекать штатных инженеров для ручной разметки и создания синтетических датасетов не решают проблему масштабируемости. Человеческий труд в этом процессе становится «узким горлышком», которое ограничивает скорость прогресса и делает разработку новых поколений моделей неоправданно дорогой. Hacker News · Исследования и наука Проблема эффективности обучения моделей на ограниченных данных Современные методы обучения больших языковых моделей сталкиваются с проблемой «черной дыры» в эффективности выборки. Исследования показывают, что текущие подходы требуют колоссальных объемов данных для достижения прироста качества, который непропорционален затраченным вычислительным мощностям. При этом значительная часть доступных в интернете текстов уже была использована для тренировки, что создает дефицит качественных обучающих материалов для будущих поколений нейросетей. Hacker News · Машинное обучение Ограничения обучения на знаниях LLM Исследование указывает на фундаментальную проблему при попытке дообучения моделей на основе их собственных ответов. Авторы анализируют, почему использование синтетических данных, сгенерированных самой нейросетью, часто приводит к деградации качества, а не к улучшению навыков. Основная сложность заключается в том, что модель при дообучении начинает воспроизводить собственные статистические ошибки и галлюцинации, закрепляя их как эталонные знания. arXiv · Исследования и наука Использование синтетических данных в научных исследованиях В последнее время наблюдается рост интереса к применению синтетических данных в научных исследованиях. Социальные науки, например, предлагают использовать "силиконовые образцы", сгенерированные языковыми моделями, для пилотных исследований. В области ИИ всё чаще применяются "судьи" на основе языковых моделей для оценки качества моделей. Даже в биоинформатике синтетические данные ускоряют исследования, например, в области протеомики. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. Hacker News · Машинное обучение Альтернативный подход к ИИ без трансформеров и обучения Исследователи представили архитектуру, которая отказывается от использования трансформеров и классического обучения на огромных массивах данных. Вместо генерации текста на основе вероятностных предсказаний, система использует механизм воздержания от ответа в ситуациях, когда данных недостаточно для формирования точного вывода. Это позволяет минимизировать галлюцинации, характерные для современных больших языковых моделей. Hacker News · Регулирование и политика Расследование Atlantic: миллионы песен использованы для обучения ИИ Издание The Atlantic опубликовало результаты расследования, согласно которым для обучения нейросетей были использованы миллионы музыкальных композиций без явного согласия правообладателей. В выборку попали записи, защищенные авторским правом, которые применялись для тренировки моделей генерации аудио. Анализ показал, что в датасеты включались треки как независимых исполнителей, так и крупных лейблов, что ставит под вопрос текущие стандарты сбора данных для обучения ИИ. Hacker News · Обучение и дообучение Почему ИИ-модели перестают учиться Исследование, опубликованное на Tagide, раскрывает феномен "learning stall" — ситуацию, когда ИИ-модели перестают улучшать свои показатели несмотря на дальнейшее обучение. Авторы статьи анализируют причины этого явления, включая насыщение данных, ограничения архитектуры моделей и проблемы с оптимизацией. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Hacker News · Безопасность и алайнмент Проблема конфиденциальности в ИИ: скрытые выводы моделей Основная угроза приватности при работе с нейросетями смещается от прямого раскрытия данных пользователем к способности моделей делать неявные выводы. Современные системы способны реконструировать личную информацию, такую как местоположение, демографические данные или состояние здоровья, анализируя косвенные признаки в запросах, даже если эти сведения не были переданы напрямую.

← Все материалы