Исследователи представили KrishokChat — первый специализированный датасет и бенчмарк для обучения моделей в сфере сельского хозяйства на бенгальском языке. Проект ориентирован на работу в условиях ограниченных ресурсов и обеспечивает высокую точность ответов за счет строгой привязки к верифицированным источникам. Система включает 290 иерархических узлов знаний, извлеченных из 129 профильных аграрных руководств, что минимизирует риск галлюцинаций.

Разработка решает проблему нехватки качественных данных для обучения LLM в узкоспециализированных доменах, где критически важна точность рекомендаций. В отличие от стандартных наборов данных, каждый пример в KrishokChat содержит прямую ссылку на первоисточник, что позволяет моделям аргументировать советы по борьбе с болезнями культур, выбору химикатов и методам ведения хозяйства.

Создание подобных датасетов является важным шагом для внедрения экспертных ИИ-систем в развивающихся регионах. Использование иерархической структуры знаний позволяет моделям лучше понимать взаимосвязи между симптомами заболеваний растений и конкретными протоколами лечения, обеспечивая поддержку принятия решений для фермеров на их родном языке.

Ключевые факты

  • Датасет содержит 290 иерархических узлов знаний, охватывающих симптомы болезней и методы ухода за культурами.
  • В основу легли 129 профильных сельскохозяйственных руководств, прошедших экспертную фильтрацию.
  • Каждая обучающая запись снабжена верифицированной цитатой из исходного документа для обеспечения прозрачности ответов.
  • Проект нацелен на преодоление дефицита данных для обучения моделей в условиях низкоресурсных языков.