arXiv · 21.06.2026 ·Исследования и наука

Малые языковые модели догнали гигантов в задачах извлечения отношений

Исследователи проанализировали возможности компактных языковых моделей (SLM) в задачах извлечения отношений (Relation Extraction) из текстов. В фокусе внимания оказались модели с количеством параметров от 360 миллионов до 3 миллиардов. Результаты показывают, что такие системы способны демонстрировать производительность, сопоставимую с крупными моделями (LLM) уровня frontier, работая при этом в режиме zero-shot.

Эксперименты проводились на двух типах данных: текстах общего назначения и художественной литературе. Выяснилось, что при правильной настройке малые модели эффективно справляются с идентификацией связей между сущностями, не уступая по точности гораздо более тяжелым аналогам. Это открывает возможности для внедрения сложных NLP-решений в инфраструктуру с ограниченными вычислительными ресурсами.

Использование компактных моделей решает проблему зависимости от проприетарных API и позволяет развертывать системы обработки данных локально. Такой подход критически важен для сценариев, где предъявляются повышенные требования к конфиденциальности и скорости отклика. Исследование подтверждает, что эффективность извлечения информации зависит не только от масштаба модели, но и от оптимизации архитектуры под конкретные аналитические задачи.

Источник: arXiv

Похожие материалы

Hacker News · Модели и релизы Как мелкие модели могут конкурировать с крупными Исследователи из DeepClause предложили метод, позволяющий мелким языковым моделям демонстрировать производительность, сопоставимую с крупными аналогами. В статье на Substack они объясняют, что ключевым фактором является не количество параметров, а эффективность архитектуры и стратегии обучения. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Hacker News · Обучение и дообучение Дообучение компактных локальных моделей для классификации запросов Разработчики все чаще обращаются к дообучению компактных языковых моделей для решения узкоспециализированных задач. Такой подход позволяет добиться высокой точности классификации запросов, сохраняя при этом возможность запуска системы на локальном оборудовании без обращения к облачным API. Использование небольших моделей значительно снижает задержки при обработке данных и позволяет полностью контролировать процесс инференса. Hacker News · Исследования и наука Исследование: насколько можно доверять LLM при анализе данных (EDA) Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа. arXiv · Исследования и наука Исследование: риски использования LLM в поиске причинно-следственных связей Новая научная работа анализирует эффективность использования больших языковых моделей для задач поиска причинно-следственных связей (causal discovery). Исследователи изучили подходы, при которых модели просят определять направления связей, предлагать структуру графов или использовать их выводы в качестве априорных ограничений для статистических алгоритмов. Основной вывод заключается в том, что текущие методы часто подменяют строгий анализ данных простыми текстовыми ассоциациями, заложенными в веса моделей. MarkTechPost · Машинное обучение Liquid AI представила компактные модели для многоязычного поиска Компания Liquid AI выпустила новые модели LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M, предназначенные для эффективного семантического поиска. Решения базируются на архитектуре с 350 миллионами параметров и оптимизированы для работы на периферийных устройствах, что позволяет использовать их локально без обращения к облачным серверам. Hacker News · Исследования и наука Проблема эффективности обучения моделей на ограниченных данных Современные методы обучения больших языковых моделей сталкиваются с проблемой «черной дыры» в эффективности выборки. Исследования показывают, что текущие подходы требуют колоссальных объемов данных для достижения прироста качества, который непропорционален затраченным вычислительным мощностям. При этом значительная часть доступных в интернете текстов уже была использована для тренировки, что создает дефицит качественных обучающих материалов для будущих поколений нейросетей. Hacker News · ИИ в бизнесе Практические сценарии применения больших языковых моделей Анализ эффективности внедрения больших языковых моделей показывает, что наиболее успешные кейсы связаны с автоматизацией задач, где требуется обработка неструктурированных данных при наличии четких правил верификации результата. Компании переходят от экспериментов с общими чат-ботами к узкоспециализированным решениям, которые интегрируются в существующие бизнес-процессы для ускорения рутинных операций. Together.ai · Оркестрация агентов Как слабые модели справляются с длинным контекстом Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей. Hacker News · Исследования и наука Исследование: ограничения механизма внимания в современных LLM Ученые проанализировали эффективность архитектуры трансформеров при выполнении задач, требующих длительной концентрации на контексте. В ходе экспериментов выяснилось, что даже самые продвинутые языковые модели демонстрируют снижение точности при обработке длинных последовательностей, если ключевая информация распределена неравномерно или скрыта в середине текста. Этот феномен, известный как «проблема потерянного в середине» (lost in the middle), ставит под вопрос надежность механизмов внимания при работе с большими объемами данных.

← Все материалы