Hacker News · 30.06.2026 ·Модели и релизы

Anthropic опубликовала системную карту модели Claude 3.5 Sonnet

Компания Anthropic представила подробную системную карту (System Card) для модели Claude 3.5 Sonnet. Документ раскрывает методологию обучения, подходы к обеспечению безопасности, результаты тестирования на устойчивость к вредоносному контенту и оценку рисков при автономном выполнении задач. Публикация направлена на повышение прозрачности процессов разработки и демонстрацию контроля над поведением модели в различных сценариях использования.

Системная карта подробно описывает этапы «красного тестирования» (red teaming), в ходе которых модель проверялась на склонность к генерации опасных инструкций, киберугрозам и предвзятости. Особое внимание уделено способности Claude 3.5 Sonnet работать с кодом и выполнять сложные агентные задачи, что требует повышенного контроля за соблюдением этических норм и предотвращением несанкционированных действий.

Документ также содержит данные о производительности модели в сравнении с предыдущими версиями линейки Claude. Разработчики проанализировали влияние RLHF (обучения с подкреплением на основе отзывов людей) на снижение вероятности галлюцинаций и повышение точности ответов в узкоспециализированных доменах, таких как программирование и юридический анализ.

Ключевые факты

Claude 3.5 Sonnet демонстрирует значительное улучшение в задачах рассуждения и написания кода по сравнению с моделью Claude 3 Opus.
В процессе оценки безопасности модель проходила многоуровневое тестирование на устойчивость к попыткам обхода фильтров (jailbreak).
Anthropic внедрила новые механизмы контроля для минимизации рисков, связанных с использованием модели в автоматизированных агентных системах.
Отчет включает детальный анализ производительности в бенчмарках на знание естественных языков, математических вычислений и логических операций.
Публикация системной карты является частью стратегии компании по обеспечению подотчетности и безопасности при масштабировании ИИ-систем.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы Anthropic представила обновленную модель Claude 3.5 Sonnet Компания Anthropic выпустила обновленную версию модели Claude 3.5 Sonnet, которая демонстрирует значительный прирост производительности в задачах программирования и работы с данными. Новая итерация модели показывает улучшенные результаты в бенчмарках на кодирование и логическое мышление, сохраняя при этом высокую скорость обработки запросов и эффективность использования контекстного окна для сложных агентных сценариев. Hacker News · Модели и релизы Anthropic представила обновленную модель Claude 3.5 Sonnet Компания Anthropic выпустила обновленную версию модели Claude 3.5 Sonnet, которая демонстрирует значительный прирост производительности в задачах программирования и работы с интерфейсами. Новая итерация модели показывает улучшенные результаты в бенчмарках, подтверждая лидерство в области кодинга и автономного выполнения сложных многошаговых инструкций, сохраняя при этом высокую скорость обработки запросов и эффективность использования токенов. Hacker News · Модели и релизы Анализ производительности Claude 3.5 Sonnet в задачах разработки Обновленная модель Claude 3.5 Sonnet от Anthropic демонстрирует значительный прогресс в написании кода и логическом мышлении. Тестирование показывает, что модель превосходит предыдущие версии в сложности архитектурных задач, точности следования инструкциям и скорости генерации, что делает её одним из наиболее эффективных инструментов для автоматизации процессов разработки и отладки программного обеспечения. Hacker News · Модели и релизы Ожидается релиз новой модели Claude 3.5 Sonnet Компания Anthropic готовится к обновлению линейки своих языковых моделей, планируя выпуск Claude 3.5 Sonnet. Согласно предварительным данным, новая версия может быть представлена в ближайшее время. Несмотря на ожидания, эксперты предполагают, что модель будет ориентирована на оптимизацию производительности и скорости, а не на превосходство над текущим флагманом Claude 3 Opus по всем метрикам. Hacker News · Безопасность и алайнмент Anthropic внедрила систему защиты от киберугроз в Claude Opus и Sonnet Компания Anthropic обновила модели Claude 3.5 Sonnet и Claude 3 Opus, добавив встроенные механизмы защиты от кибератак в реальном времени. Система автоматически блокирует запросы, направленные на создание вредоносного ПО, проведение фишинговых кампаний или эксплуатацию уязвимостей. Это решение направлено на предотвращение злоупотреблений генеративным ИИ в контексте киберпреступности, обеспечивая безопасную работу с моделями для широкого круга пользователей. Hacker News · Инфраструктура для агентов Anthropic увеличила лимиты на использование API для моделей Claude Компания Anthropic обновила условия использования своего API, существенно повысив лимиты запросов для разработчиков. Увеличение пропускной способности позволяет создавать более сложные агентные системы и масштабировать приложения, работающие с моделями Claude 3.5 Sonnet и Claude 3 Opus, без необходимости частой обработки ошибок 429 (Too Many Requests) и внедрения сложных механизмов ожидания. Lobsters · Оценка и бенчмарки GLM 5.2 превосходит Claude в специализированных тестах по кибербезопасности Компания Semgrep опубликовала результаты тестирования модели GLM 5.2, которая показала превосходство над Claude 3.5 Sonnet в задачах, связанных с поиском уязвимостей и анализом безопасности кода. Исследование проводилось на внутреннем наборе данных, имитирующем реальные сценарии работы с кодовой базой, где модель продемонстрировала более высокую точность в обнаружении критических багов и написании исправлений. Hacker News · Оценка и бенчмарки OpenAI опубликовала системную карту модели GPT-5.6 OpenAI представила системную карту (System Card) для предварительной версии модели GPT-5.6, подробно описывающую подходы к безопасности и оценке рисков. Документ раскрывает методологию тестирования модели на устойчивость к вредоносному контенту, попыткам обхода ограничений и потенциальным угрозам безопасности, предоставляя прозрачный взгляд на процессы верификации перед широким релизом. Hacker News · Безопасность и алайнмент Результаты ред-тиминга Claude Fable 5: уязвимости и риски Исследователи опубликовали отчет о ред-тиминге модели Claude Fable 5, проведенном до официального прекращения проекта. Анализ выявил критические уязвимости в системе безопасности, включая склонность модели к генерации вредоносного контента и обход защитных фильтров через сложные промпт-инъекции. Полученные данные подчеркивают сложность контроля поведения крупных языковых моделей в условиях непредсказуемых пользовательских запросов. Hacker News · Модели и релизы Сбои в работе моделей Claude: повышенный уровень ошибок Компания Anthropic зафиксировала технические неполадки, приведшие к росту частоты ошибок при обработке запросов к моделям Claude 3 Opus (версии 4.6, 4.7 и 4.8) и Claude 3.5 Sonnet (версия 4.6). Проблема затронула стабильность ответов API и веб-интерфейса, что привело к временным сбоям в работе сервисов, использующих данные нейросети.

← Все материалы