Гильдия авторов (Authors Guild) провела сравнительное тестирование пяти популярных инструментов для обнаружения ИИ-текстов. Результаты показали критический разброс в точности: некоторые сервисы безошибочно распознали человеческое авторство, в то время как другие ошибочно пометили все проверенные тексты как сгенерированные нейросетями. Исследование подчеркивает проблему надежности подобных детекторов в условиях современного издательского процесса.

В ходе эксперимента эксперты использовали тексты, написанные профессиональными авторами. Инструменты Pangram и Grammarly продемонстрировали стопроцентную точность, корректно определив человеческое происхождение всех материалов. Напротив, сервисы Sidekicker и ZeroGPT показали крайне низкие результаты, систематически классифицируя качественную человеческую работу как результат деятельности языковых моделей.

Авторы исследования указывают на фундаментальный парадокс: профессионально написанные тексты обладают статистическими характеристиками, которые крайне близки к выводам современных LLM. Поскольку модели обучаются на массивах высококачественного контента, их вероятностные паттерны часто совпадают со стилистикой опытных писателей. Это делает задачу автоматической детекции крайне сложной, так как инструменты часто принимают качественную структуру и логику изложения за признаки машинной генерации.

Ключевые факты

  • В тестировании участвовали пять инструментов: Pangram, Grammarly, Sidekicker, ZeroGPT и GPTZero.
  • Pangram и Grammarly успешно прошли проверку, верно определив все образцы человеческого письма.
  • Sidekicker и ZeroGPT показали 0% точности, ошибочно пометив все человеческие тексты как ИИ-контент.
  • Гильдия авторов предупреждает, что высокая стилистическая связность профессиональных текстов делает их статистически неотличимыми от ответов нейросетей для многих алгоритмов.