arXiv · 21.06.2026 ·Исследования и наука

Эффект ножниц: как изменение размера изображений влияет на устойчивость ИИ к атакам

Исследователи проанализировали метод Input Diversity (DI), который традиционно используется для повышения эффективности состязательных атак на нейросети. Суть метода заключается в случайном изменении размера и добавлении отступов к входным данным на каждой итерации атаки. Ранее считалось, что такая вариативность неизменно улучшает переносимость атак между различными моделями, однако новое исследование опровергает универсальность этого подхода.

Авторы работы выявили так называемый «эффект ножниц», который зависит от типа используемой суррогатной модели. Если для стандартных моделей увеличение вероятности применения DI действительно повышает успех атаки, то для моделей, прошедших процедуру робастного обучения, результат часто оказывается обратным. В таких случаях активное использование случайного изменения размера может снизить эффективность воздействия, делая модель более устойчивой к попыткам манипуляции.

Полученные данные ставят под сомнение устоявшуюся практику автоматического применения DI при разработке методов защиты и тестировании безопасности нейросетей. Исследование подчеркивает, что выбор стратегии аугментации данных при проведении атак должен учитывать архитектурные особенности и методы обучения целевой системы. Понимание этих закономерностей позволяет более точно настраивать инструменты оценки безопасности ИИ и разрабатывать методы защиты, адаптированные к конкретным типам моделей.

Источник: arXiv

Похожие материалы

arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. Hacker News · Безопасность и алайнмент Использование ИИ-моделей в кибератаках на корпоративные сети Исследователи зафиксировали серию успешных взломов 14 компаний, совершенных злоумышленником с низким уровнем технической подготовки. В ходе атак использовались возможности больших языковых моделей, включая Claude и Codex, для написания вредоносного кода и автоматизации этапов проникновения в инфраструктуру. Использование ИИ позволило атакующему компенсировать недостаток глубоких экспертных знаний, эффективно генерируя эксплойты и обходя стандартные меры защиты. Hacker News · Безопасность и алайнмент Как ИИ влияет на уязвимости в программном обеспечении Исследование Anthropic изучает влияние языковых моделей на обнаружение и эксплуатацию уязвимостей в программном обеспечении. Учёные проанализировали, как ИИ может помочь в поиске и устранении уязвимостей, а также в создании эксплойтов. Hacker News · Исследования и наука Исследование раскрывает архитектурную сложность нейросетей Учёные из Массачусетского технологического института (MIT) и Стэнфордского университета опубликовали исследование, посвящённое архитектурной сложности нейросетей. В работе, размещённой на arXiv, авторы анализируют, как структура нейронных сетей влияет на их производительность и обобщающую способность. arXiv · Безопасность и алайнмент Исследование влияния примеров на поведение безопасных LLM Исследователи проанализировали, как модели с настроенными механизмами безопасности реагируют на смешанные примеры в контекстном обучении. В ходе эксперимента в промпты добавляли как безобидные диалоги, так и демонстрации выполнения вредоносных запросов. Цель работы — понять, как именно нейросети интерпретируют противоречивые инструкции и в какой момент «безопасное» поведение начинает уступать место выполнению опасных команд. Hacker News · Машинное обучение Влияние системной обвязки на производительность LLM Исследование, проведенное на примере модели Claude, демонстрирует, что итоговая эффективность ИИ-системы зависит не только от архитектуры самой нейросети, но и от качества инженерной обвязки (harness). В ходе экспериментов одна и та же модель показала кардинально различающиеся результаты при использовании разных методов подготовки промптов, управления контекстом и структурирования входных данных. Это подтверждает гипотезу о том, что системная интеграция и способы подачи инструкций зачастую оказывают большее влияние на точность ответов, чем размер или базовая версия модели. Hacker News · Безопасность и алайнмент Как ИИ меняет кибербезопасность банков Банки и финансовые организации сталкиваются с новыми угрозами в сфере кибербезопасности, связанными с развитием ИИ. По данным исследования, опубликованного в The Atlantic, хакеры всё чаще используют ИИ для автоматизации атак, что делает их более сложными и масштабными. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. Hacker News · Безопасность и алайнмент Уязвимости в цепочках поставок ИИ-моделей Исследователи обнаружили новые векторы атак на цепочки поставок ИИ-моделей, которые могут привести к серьезным уязвимостям в системах, использующих эти модели. В статье на Substack подробно рассматриваются случаи, когда злоумышленники могут внедрять вредоносный код в модели, которые затем используются в различных ИИ-агентах и сервисах. Hacker News · Машинное обучение Автоматизация проектирования нейросетей для граничных вычислений Разработчики представили подход к автоматизированному поиску архитектур нейронных сетей (NAS), оптимизированный для работы на устройствах с ограниченными вычислительными ресурсами. Технология позволяет автоматически подбирать структуру модели так, чтобы она сохраняла высокую точность при минимальных требованиях к оперативной памяти и энергопотреблению. Это решает проблему переноса тяжелых моделей на оборудование уровня Edge AI, где использование стандартных архитектур часто невозможно из-за жестких ограничений по железу.

← Все материалы