Исследователи представили сравнительный анализ точности генерации ответов для крупных языковых моделей GPT-5.5 и GLM-5.2. Согласно полученным данным, модель GPT-5.5 демонстрирует в три раза более высокий уровень галлюцинаций по сравнению с GLM-5.2, распространяемой под лицензией MIT. Тестирование проводилось на наборах данных, требующих высокой фактологической точности и логической последовательности.

Результаты показывают, что увеличение параметров модели не всегда коррелирует с уменьшением количества фактических ошибок. В ходе эксперимента GLM-5.2 показала более стабильные результаты при работе со сложными запросами, требующими обращения к внешним источникам знаний. Разница в показателях подчеркивает важность выбора архитектуры и методов дообучения для задач, где критически важна достоверность предоставляемой информации.

Данное исследование дополняет базу знаний о производительности современных LLM и предлагает новый взгляд на эффективность открытых моделей в сравнении с проприетарными решениями. Полученные метрики позволяют разработчикам точнее выбирать инструменты для внедрения в системы, чувствительные к ошибкам генерации.