Hacker News · 19.06.2026 ·Оценка и бенчмарки

Сравнение частоты галлюцинаций в моделях GPT-5.5 и GLM-5.2

Исследователи представили сравнительный анализ точности генерации ответов для крупных языковых моделей GPT-5.5 и GLM-5.2. Согласно полученным данным, модель GPT-5.5 демонстрирует в три раза более высокий уровень галлюцинаций по сравнению с GLM-5.2, распространяемой под лицензией MIT. Тестирование проводилось на наборах данных, требующих высокой фактологической точности и логической последовательности.

Результаты показывают, что увеличение параметров модели не всегда коррелирует с уменьшением количества фактических ошибок. В ходе эксперимента GLM-5.2 показала более стабильные результаты при работе со сложными запросами, требующими обращения к внешним источникам знаний. Разница в показателях подчеркивает важность выбора архитектуры и методов дообучения для задач, где критически важна достоверность предоставляемой информации.

Данное исследование дополняет базу знаний о производительности современных LLM и предлагает новый взгляд на эффективность открытых моделей в сравнении с проприетарными решениями. Полученные метрики позволяют разработчикам точнее выбирать инструменты для внедрения в системы, чувствительные к ошибкам генерации.

Источник: Hacker News

Похожие материалы

Hacker News · Модели и релизы GLM 5.2 показал высокие результаты в бенчмарках Новая версия модели GLM 5.2 продемонстрировала впечатляющие результаты в различных бенчмарках. Согласно последним тестам, модель превзошла своих предшественников по ряду ключевых метрик, включая точность и скорость обработки запросов. Hacker News · Модели и релизы GLM-5.2 возглавил рейтинг открытых моделей на Artificial Analysis GLM-5.2 от Tsinghua University и Zhipu AI занял первое место в рейтинге открытых моделей на платформе Artificial Analysis. Это обновлённая версия модели, которая теперь демонстрирует лучшие результаты по сравнению с предыдущими версиями и конкурентами. Hacker News · Модели и релизы Новая открытая модель GLM-5.2 превосходит проприетарные аналоги в задачах программирования Разработчики представили открытую языковую модель GLM-5.2, которая демонстрирует результаты в написании кода, превышающие показатели текущих флагманских решений от OpenAI. Согласно опубликованным бенчмаркам, модель показывает более высокую точность в решении алгоритмических задач и генерации функциональных скриптов, при этом стоимость её инференса составляет лишь 1/6 от затрат на использование закрытых моделей аналогичного класса. Hacker News · Оценка и бенчмарки Сравнение производительности моделей MiniMax M3 и GLM 5.2 в задачах программирования Исследователи провели сравнительный анализ двух актуальных языковых моделей, MiniMax M3 и GLM 5.2, сфокусировавшись на их способности к автономной генерации программного кода. В ходе тестирования использовались специализированные наборы задач, имитирующие реальные сценарии разработки, где ИИ должен не просто дополнять фрагменты кода, но и самостоятельно проектировать архитектуру решений, исправлять ошибки и реализовывать функциональность с нуля. The Decoder · Модели и релизы Zhipu AI представила модель GLM-5.2 с контекстным окном в 1 млн токенов Китайская лаборатория Zhipu AI выпустила новую языковую модель GLM-5.2, распространяемую под лицензией MIT. Ключевой особенностью релиза стала поддержка контекстного окна объемом 1 миллион токенов, что позволяет обрабатывать значительные массивы данных за один запрос. Модель ориентирована на решение сложных задач, требующих длительного удержания контекста и глубокого анализа информации. Together.ai · Исследования и наука Как языковые модели генерируют контент без указаний Новое исследование показало, что языковые модели (LLM) демонстрируют уникальные «предпочтения» в генерации контента, когда им не дают конкретных указаний. Учёные обнаружили, что модели из разных семейств по-разному заполняют пробелы в информации. Simon Willison's Weblog · Модели и релизы Выпущена открытая LLM GLM-5.2 с 753 миллиардами параметров Китайская лаборатория Z.ai представила модель GLM-5.2, которая на текущий момент претендует на звание самой мощной текстовой языковой модели с открытыми весами. Релиз состоялся спустя несколько дней после ограниченного доступа для подписчиков, и теперь веса модели доступны под лицензией MIT. Архитектура новинки основана на принципе Mixture of Experts (MoE), что позволяет эффективно использовать ресурсы при колоссальном объеме параметров. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. Hacker News · Исследования и наука Исследование: насколько можно доверять LLM при анализе данных (EDA) Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа. Hacker News · Модели и релизы GLM-5.2: новая модель для сложных задач с долгим горизонтом Команда ZAI представила GLM-5.2 — модель, оптимизированную для задач с долгим горизонтом. Это значит, что она лучше справляется с задачами, требующими последовательного выполнения шагов или анализа больших объёмов информации.

← Все материалы