arXiv · 17.06.2026 ·Обучение и дообучение

Исследование методов адаптации LLM для медицины на французском языке

Исследователи проанализировали эффективность различных стратегий адаптации больших языковых моделей для узкоспециализированных областей на примере французского медицинского сектора. В работе сравниваются три основных подхода: непрерывное предварительное обучение (CPT), контролируемая донастройка (SFT) и комбинация этих методов. Целью эксперимента было выявить оптимальный баланс между сохранением общих знаний модели и повышением точности ответов на специфические медицинские вопросы.

Результаты показывают, что выбор метода адаптации существенно влияет на способность модели оперировать профессиональной терминологией и следовать клиническим протоколам. Авторы подчеркивают, что простое увеличение объема данных при дообучении не всегда приводит к росту качества, если не соблюдается баланс между доменной спецификой и общими лингвистическими навыками. Исследование предоставляет эмпирические данные о том, какие комбинации техник позволяют минимизировать галлюцинации и повысить надежность ответов в критически важных сферах.

Данная работа вносит вклад в понимание того, как эффективно адаптировать языковые модели для неанглоязычных рынков. Выводы исследования могут быть использованы для разработки более точных систем поддержки принятия врачебных решений и автоматизации обработки медицинской документации, где точность формулировок и следование медицинской логике имеют приоритетное значение.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование методов доступа к параметрическим знаниям LLM через кросс-языковые промпты Исследователи изучили проблему неравномерного доступа к параметрическим знаниям в больших языковых моделях при смене языка запроса. Стандартные методы инференса часто не справляются с извлечением локализованных фактов, что нарушает консистентность ответов. Авторы предложили стратегии кросс-языкового промптинга, позволяющие эффективнее активировать скрытые знания модели и улучшить качество передачи информации между различными языковыми доменами в процессе генерации. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. arXiv · Оценка и бенчмарки Влияние промптов на безопасность и точность клинических LLM Исследователи изучили, как использование промптов на достаточность доказательств (evidence-sufficiency) влияет на поведение клинических языковых моделей. Выяснилось, что такие инструкции действительно снижают количество самоуверенных, но потенциально опасных ответов. Однако эффективность метода сильно зависит от того, какая именно модель выступает в роли «судьи» при оценке безопасности, что ставит под вопрос объективность текущих метрик оценки ИИ в медицине. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки коррекции заблуждений в медицинских диалогах с LLM Исследователи представили новый метод оценки способности больших языковых моделей распознавать и исправлять ложные медицинские убеждения пациентов в ходе многоходовых диалогов. Текущие системы часто игнорируют ошибочные предпосылки в запросах, что создает риски при использовании ИИ в здравоохранении. Новый подход фокусируется на безопасности коммуникации и точности корректирующей обратной связи в сложных клинических сценариях. arXiv · Исследования и наука Метод коррекции фактических ошибок LLM при смене языка запроса Исследователи представили метод управления инференсом для устранения кросс-языковых фактических противоречий в больших языковых моделях. Проблема заключается в смещении ответов модели в зависимости от языка запроса из-за доминирования высокоресурсных языков в обучающих данных. Новый подход позволяет корректировать распределение вероятностей ответов непосредственно в процессе генерации, обеспечивая согласованность фактов независимо от выбранного пользователем языка. arXiv · Исследования и наука Исследование культурной адаптации моральных нарративов в LLM Исследователи проанализировали, насколько эффективно большие языковые модели сохраняют культурно-специфический контекст при трансляции идентичных моральных уроков на разных языках. Работа выявляет критические пробелы в способности моделей адаптировать повествование под культурные нормы, что ставит под вопрос универсальность ИИ-генерации контента и точность передачи смысловых нюансов при межъязыковом переводе и адаптации историй. arXiv · Оценка и бенчмарки Ограничения LLM-судей в медицинской диагностике Исследователи представили MedQADE — первый стандартизированный бенчмарк для оценки открытых ответов медицинских ИИ-моделей на немецком языке. Работа выявила критический разрыв: автоматизированные LLM-судьи часто не способны воспроизвести клиническую осторожность и точность, свойственную врачам, что ставит под сомнение надежность текущих методов оценки ИИ в медицине при использовании LLM в качестве арбитров. Hacker News · Исследования и наука Почему языковые модели показывают разную эффективность в разных языках Исследование Artifipedia объясняет, почему качество работы LLM сильно варьируется в зависимости от языка. Основная причина кроется в диспропорции данных при обучении: подавляющий объем обучающих корпусов приходится на английский, что создает «языковой разрыв». В результате модели хуже справляются с логикой, нюансами и культурным контекстом в менее представленных языках, даже если они формально поддерживаются. Hacker News · Оценка и бенчмарки Исследование выявило языковую предвзятость LLM при оценке ответов Исследователи обнаружили, что современные LLM, используемые в качестве автоматических судей, демонстрируют значительную предвзятость при оценке ответов на разных языках. Модели склонны завышать оценки текстам на английском языке и занижать их для других языков, даже если качество контента идентично. Это ставит под сомнение надежность текущих методов автоматизированного тестирования ИИ-систем в мультиязычных средах. Hacker News · Модели и релизы EPFL представила первые полностью открытые медицинские LLM Исследователи из Федеральной политехнической школы Лозанны (EPFL) выпустили серию специализированных языковых моделей Meditron, предназначенных для работы в сфере здравоохранения. Это первые медицинские модели с полностью открытыми весами, кодом и набором данных для обучения, что позволяет медицинским организациям и разработчикам разворачивать их локально без передачи конфиденциальных данных сторонним облачным провайдерам.

← Все материалы