Модели и релизы
Natural Language Autoencoders объясняют активации LLM
Исследователи из Transformer Circuits опубликовали работу, в которой предложили использовать Natural Language Autoencoders (NLA) для интерпретации активаций больших языковых моделей (LLM). NLA — это автоэнкодеры, которые преобразуют активации нейронов в естественный язык, делая их более понятными для разработчиков.
Apple представила третье поколение foundation models
Apple анонсировала третье поколение своих foundation models, которые стали более мощными и универсальными. Новые модели демонстрируют улучшенные возможности в обработке естественного языка, компьютерном зрении и других задачах машинного обучения. Это важный шаг для компании, которая активно развивает свои ИИ-капabilities, особенно в контексте интеграции с устройствами и сервисами Apple.
Как выглядит локальная инфраструктура LLM у разработчиков
На Hacker News обсуждают, как разработчики настраивают локальные LLM для работы. Вопрос задал пользователь, интересующийся, какие модели, оборудование и инструменты используют другие участники сообщества. Это важно для Jarv, так как локальный запуск моделей — ключевой элемент для создания автономных агентов, которые могут работать без облачных сервисов.
Gemini 3.5 Flash демонстрирует высокую скорость и качество
Google представила новую версию своей модели Gemini — Gemini 3.5 Flash. Эта модель отличается не только высокой скоростью работы, но и качеством вывода, что делает её конкурентоспособной на рынке ИИ-решений. Gemini 3.5 Flash оптимизирована для работы на устройствах с ограниченными вычислительными ресурсами, что позволяет использовать её в мобильных и встраиваемых системах.
Guardian Angels: персонализация LLM для повышения продуктивности и безопасности
Проект Guardian Angels представляет собой фреймворк для персонализации больших языковых моделей (LLM) с целью повышения продуктивности и безопасности. Разработчики предлагают использовать индивидуальные настройки и адаптацию моделей под конкретные задачи пользователей, что может быть полезно для создания ИИ-агентов.
Brownian Kernel Ladders: новый подход к иерархическим представлениям
Исследователи представили новый метод для построения иерархических представлений в статистическом обучении — Brownian Kernel Ladders (BKLs). Это рекурсивно определённая иерархия интегральных пространств, генерируемых через Brownian-kernel интегральные конструкции. Начиная с линейных функционалов, каждый уровень BKL расширяет пространство функций, сохраняя при этом математически строгую структуру.
Knowledge Trap защищает модели от кражи знаний через ловушки
Исследователи из MIT и других университетов предложили новый способ защиты языковых моделей от кражи знаний. В статье, опубликованной на arXiv, они описывают метод Knowledge Trap, который использует "медовые ловушки" для знаний (Honeypot Knowledge Graph, HKG) и хлебные крошки для направления атак на нерелевантные данные.
Fusion превзошла Frontier по производительности
Команда OpenRouter представила модель Fusion, которая превзошла по производительности модель Frontier от Mistral AI. В тестах Fusion показала лучшие результаты в различных задачах, включая понимание контекста и генерацию текста. Это важно для разработчиков ИИ-агентов, так как новые модели могут значительно улучшить качество взаимодействия с пользователями и выполнение сложных задач.
Как оптимально обрезать экспертов в моделях MoE
Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса.
Исследование: VLA-модели плохо работают с неанглийскими языками
Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной.
Как мировые модели дают ИИ-агентам «первое лицо»
В новом видео исследователи обсуждают концепцию мировых моделей (World Models) и их роль в формировании «первого лица» у ИИ-агентов. Мировые модели — это подход, при котором ИИ создает внутреннюю репрезентацию окружающего мира, что позволяет ему действовать более автономно и адаптивно.
Исследование: динамика развития языковых моделей
Исследователи из Artificial Analysis провели анализ динамики развития языковых моделей, включая модели от Anthropic и Mistral. В исследовании рассматривается, как меняется интеллект моделей с течением времени, что позволяет лучше понять их эволюцию и потенциал.
Rio 3.5 Open 397B: открытая модель от правительства Рио-де-Жанейро
Городское правительство Рио-де-Жанейро представило новую открытую модель Rio 3.5 Open 397B. Это значимое событие, так как модель разработана не частной компанией, а государственным органом. Rio 3.5 Open 397B имеет 397 миллиардов параметров, что делает её одной из крупнейших открытых моделей на сегодняшний день.
Anthropic ограничивает доступ к Fable 5 и Mythos 5 для пользователей за пределами США
Anthropic, один из ведущих разработчиков моделей искусственного интеллекта, объявил о временном ограничении доступа к своим последним моделям Fable 5 и Mythos 5 для пользователей за пределами Соединенных Штатов. Это решение было принято в связи с необходимостью соблюдения международных регуляторных требований и обеспечения безопасности данных.
OpenAI добавил контекст документов в WebRTC Audio Session
Simon Willison, разработчик и блогер, обновил свой инструмент для работы с WebRTC API OpenAI, добавив поддержку документного контекста. Первая версия была создана в декабре 2024 года, чтобы протестировать новый API для работы с аудиомоделями в реальном времени.
Google представил Gemini-SQL2 с точностью 80.04% на BIRD leaderboard
Google Research анонсировал Gemini-SQL2 — модель для преобразования текста в SQL-запросы, основанную на Gemini 3.1 Pro. Она показала 80.04% точность выполнения на BIRD single-model leaderboard, что делает её одной из лучших в своей категории. Этот показатель измеряет способность модели генерировать SQL-запросы, которые корректно выполняются на базе данных, и соответствует лучшим результатам в отрасли.
Persona-Pruner: как облегчить ИИ-агентов для ролевых игр
Исследователи из MIT и других университетов представили Persona-Pruner — метод оптимизации языковых моделей для ролевых взаимодействий. Технология позволяет значительно сократить размер моделей, сохраняя их способность к ролевой игре. Это особенно важно для систем с множеством NPC (неигровых персонажей), где вычислительные затраты становятся критическими.
Почему самоулучшающиеся модели могут деградировать на новых задачах
Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных.
Claude Fable 5: проактивность как ключевая черта ИИ-агента
Claude Fable 5 демонстрирует необычайную проактивность в достижении целей, что делает его интересным примером для разработчиков ИИ-агентов. По словам Simon Willison, модель активно использует множество трюков и стратегий, чтобы решить поставленные задачи. Например, при работе с Datasette Agent он самостоятельно выявил и предложил решение для бага с горизонтальной прокруткой в чат-интерфейсе.
Influcoder: новый метод атрибуции данных для улучшения качества датасетов
Исследователи представили метод Influcoder, который позволяет оценивать влияние отдельных данных на обучение языковых моделей. Это важно для создания качественных датасетов, так как позволяет выявлять и удалять вредоносные или нерелевантные данные.
System 0: новая модель взаимодействия ИИ и человеческого мышления
Новое исследование на arXiv предлагает анализ трёх современных подходов к пониманию влияния ИИ на когнитивные процессы человека: Tri-System Theory, Thinkframes и System 0. Авторы утверждают, что последние два фреймворка охватывают важные аспекты, но System 0 выделяется своей уникальной позицией.
Новый метод обнаружения ошибок в цепочках рассуждений LLM
Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач.
Новый метод для эффективной калибровки ансамблей моделей
Исследователи предложили Simplex-Constrained Sparse Bagging (SCSB) — математический фреймворк для пост-обучения ансамблей моделей, таких как Random Forests, Bagged SVMs и Bagged Neural Networks. В традиционных подходах к ансамблированию каждая модель имеет одинаковый вес, что не учитывает их разную точность в разных контекстах.
Claude Fable 5: мощь и вызов для разработчиков
Simon Willison, известный разработчик и эксперт в области ИИ, поделился своими впечатлениями от новой модели Claude Fable 5, выпущенной компанией Anthropic. Он отмечает, что модель демонстрирует выдающиеся способности, но при этом обладает значительными ограничениями, такими как высокая стоимость и медленная скорость работы.