Исследователи изучили проблему неравномерного доступа к параметрическим знаниям в больших языковых моделях при смене языка запроса. Стандартные методы инференса часто не справляются с извлечением локализованных фактов, что нарушает консистентность ответов. Авторы предложили стратегии кросс-языкового промптинга, позволяющие эффективнее активировать скрытые знания модели и улучшить качество передачи информации между различными языковыми доменами в процессе генерации.
Проблема заключается в том, что знания, заложенные в веса модели во время обучения, «привязаны» к определенным языковым контекстам. При прямом переводе запроса на другой язык модель может терять доступ к точным фактам, даже если они присутствуют в её обучающей выборке. Предложенный подход позволяет обходить эти ограничения, используя структуру кросс-языковых связей для извлечения данных, которые иначе остаются недоступными для стандартных методов декодирования.
Разработанные техники направлены на повышение надежности мультиязычных систем, работающих с фактологической информацией. Это критически важно для приложений, где требуется высокая точность ответов на разных языках без необходимости дообучения модели под каждый конкретный регион или язык. Исследование демонстрирует, что правильная стратегия промптинга может значительно снизить количество галлюцинаций и ошибок, вызванных языковым барьером внутри архитектуры трансформера.
Ключевые факты
- Выявлена неравномерная доступность параметрических знаний в LLM в зависимости от языка запроса.
- Предложены четыре стратегии кросс-языкового промптинга для активации скрытых фактов.
- Метод позволяет улучшить консистентность знаний при кросс-языковом переносе без изменения весов модели.
- Исследование сфокусировано на оптимизации инференса для повышения точности ответов в мультиязычных сценариях.