OpenAI News · 28.05.2026 ·Оценка и бенчмарки

OpenAI представила гайдлайн для проверки ИИ от третьих сторон

OpenAI выпустила руководство по проведению независимых оценок ИИ-систем. Документ охватывает ключевые аспекты: проверку возможностей моделей, их защищенность и достоверность результатов. Особое внимание уделено фронтирным системам, которые могут иметь значительное влияние на общество.

Руководство включает рекомендации по выбору метрик, методам тестирования и критериям оценки. OpenAI подчеркивает важность прозрачности и независимости оценок, чтобы обеспечить доверие к ИИ-технологиям. Это особенно актуально для разработчиков, работающих с мощными моделями, которые могут иметь непредсказуемые последствия.

Документ может быть полезен не только для исследователей, но и для регуляторов, которые стремятся создать стандарты для безопасного использования ИИ. OpenAI приглашает экспертное сообщество к сотрудничеству в развитии и улучшении этих рекомендаций. Это шаг к созданию более надежных и прозрачных систем оценки ИИ.

Для команды Jarv этот гайдлайн может стать полезным инструментом при разработке и тестировании агентов. Он помогает понять, как обеспечить надежность и безопасность ИИ-систем, что особенно важно для продуктов, предназначенных для широкого использования.

Источник: OpenAI News

Обсудить с ИИ

Похожие материалы

OpenAI News · Безопасность и алайнмент OpenAI о рисках безопасности при работе с долгосрочными ИИ-моделями OpenAI опубликовала отчет об опыте внедрения моделей, способных выполнять многоэтапные задачи в течение длительного времени. Компания проанализировала новые риски безопасности, возникающие при переходе от простых запросов к сложным агентным сценариям. Основное внимание уделено выявленным сбоям в поведении систем и методам их предотвращения через итеративное развертывание и усиление механизмов контроля. Hacker News · Безопасность и алайнмент OpenAI опубликовала перечень открытых проблем безопасности ИИ OpenAI представила структурированный список фундаментальных задач в области алайнмента, требующих решения для безопасного развития сверхразумных систем. Компания выделила ключевые барьеры, препятствующие надежному контролю над поведением моделей, включая проблемы интерпретируемости, автоматизированного надзора и предотвращения нежелательных стратегий поведения, которые могут возникнуть при масштабировании ИИ-систем до уровня человеческого интеллекта и выше. arXiv · Оценка и бенчмарки Как аудит решений улучшает прозрачность оценки ИИ Исследователи из MIT и других ведущих университетов предложили новый подход к аудиту публичных оценок ИИ-моделей. В статье, опубликованной на arXiv, они утверждают, что текущие рейтинги ИИ часто воспринимаются как окончательные, но на самом деле они представляют собой выборочные временные ряды, искажённые правилами отчётности, пересмотром бенчмарков и пропусками данных. Hacker News · Безопасность и алайнмент OpenAI протестировала автономные модели на способность к кибератакам OpenAI провела серию тестов, в ходе которых ИИ-модели продемонстрировали способность к автономному поиску и эксплуатации уязвимостей в реальных программных средах. В рамках эксперимента система успешно обнаружила и использовала брешь в безопасности на платформе Hugging Face. Это исследование подчеркивает критическую важность контроля за агентными возможностями моделей перед их широким внедрением в инфраструктурные задачи. Hacker News · Исследования и наука OpenAI представила ИИ-агента для поиска уязвимостей в коде OpenAI разработала автономную систему, способную находить и эксплуатировать уязвимости в программном обеспечении. В ходе тестирования модель успешно обнаружила критические бреши в реальных проектах с открытым исходным кодом, размещенных на Hugging Face. Этот инструмент демонстрирует значительный прогресс в области автоматизированной кибербезопасности, позволяя ИИ самостоятельно анализировать сложные кодовые базы и выявлять потенциальные векторы атак без участия человека. OpenAI News · Инфраструктура для агентов OpenAI представила Deployment Simulation для предсказания поведения моделей OpenAI анонсировала Deployment Simulation — метод предсказания поведения моделей ИИ до их развёртывания. Технология использует реальные данные из диалогов, чтобы оценить, как модель будет вести себя в реальных условиях. Это позволяет выявить потенциальные проблемы с безопасностью и точностью ещё на этапе тестирования. The Decoder · Безопасность и алайнмент OpenAI использует ИИ для автоматизированного тестирования безопасности моделей OpenAI внедрила систему GPT-Red, которая использует методы самообучения для поиска уязвимостей в собственных языковых моделях. Автоматизированный подход показал кратное превосходство над ручным тестированием, выявляя 84% успешных атак в тестовых сценариях. Полученные данные используются для усиления защиты будущих версий моделей, включая GPT-5.6 Sol, что делает процесс обеспечения безопасности более масштабируемым и эффективным. Hacker News · ИИ в бизнесе OpenAI представила руководство по использованию ChatGPT в академических исследованиях OpenAI опубликовала практическое руководство по интеграции ChatGPT в научную деятельность. Материал охватывает применение нейросетей для анализа данных, написания кода, поиска литературы и структурирования академических текстов. Компания делает акцент на повышении продуктивности исследователей при сохранении научной этики и точности интерпретации результатов в различных дисциплинах. The Verge · Безопасность и алайнмент OpenAI протестировала способности ИИ-моделей в кибербезопасности OpenAI провела серию тестов, оценивающих способность ИИ-моделей выполнять задачи в сфере кибербезопасности. В изолированной среде без доступа к интернету системы продемонстрировали неожиданные результаты, успешно справляясь с поиском уязвимостей и написанием эксплойтов. Это исследование подчеркивает растущую необходимость разработки строгих протоколов безопасности для предотвращения злоупотреблений со стороны автономных систем в будущем. Hacker News · Безопасность и алайнмент Сравнение моделей ИИ по способности к исследованию безопасности Недавно исследователи из ZeroQuarry провели сравнительный анализ различных языковых моделей (LLM) на предмет их способности выполнять задачи в области безопасности. В исследовании участвовали модели от OpenAI, Mistral, Anthropic и других, которые тестировались на различных сценариях, связанных с выявлением уязвимостей, анализом кода и генерацией рекомендаций по защите.

← Все материалы