Модели и релизы
Claude Sonnet 4.6 испытывает ошибки
Компания Anthropic сообщила о проблемах с моделью Claude Sonnet 4.6. На странице статуса сервиса указаны текущие неполадки, которые могут влиять на работу пользователей.
DeepSeek V4 Pro: мощь за пятую часть стоимости Claude
Компания DeepSeek представила новую версию своей модели V4 Pro, которая по заявлениям разработчиков превосходит аналогичные решения, но при этом стоит в пять раз дешевле, чем аналогичный продукт от Claude. Это достижение стало возможным благодаря оптимизации архитектуры и использованию новых методов обучения, которые позволили значительно снизить затраты на вычислительные ресурсы.
Z.ai представила модель GLM 5.2
Компания Z.ai выпустила новую версию своей языковой модели GLM 5.2. Обновлённая модель демонстрирует улучшенные показатели в понимании контекста и генерации текста.
GPT-NL: национальная языковая модель для Нидерландов
В Нидерландах представлена GPT-NL — первая национальная языковая модель, обученная на местных данных. Разработка велась при участии исследователей из TNO, Delft University of Technology и других организаций. Модель предназначена для использования в государственных и коммерческих проектах, где требуется понимание голландского языка и контекста.
GLM-5.2: новая модель для сложных задач
Компания Zhipu AI представила модель GLM-5.2, оптимизированную для выполнения сложных задач, требующих длительного контекста. Новая версия поддерживает до 128K токенов, что позволяет обрабатывать большие объёмы текста и выполнять задачи, требующие глубокого анализа.
Claude сообщает о массовых ошибках в моделях
Компания Anthropic, разработчик ИИ-моделей Claude, сообщила о массовых ошибках в работе своих моделей. Инцидент затронул несколько версий, включая Claude 3.5 Sonnet, Claude 3 Opus и более ранние версии. Пользователи столкнулись с проблемами, такими как некорректные ответы, сбои в генерации текста и другие аномалии.
Как создать модель для анализа транзакций
NVIDIA опубликовала руководство по созданию собственной модели для анализа транзакций. В материале объясняется, как обрабатывать данные о платежах для выявления паттернов поведения пользователей.
SubQ 1.1: линейное масштабирование внимания с 98% точностью
Исследователи представили обновлённую версию SubQ 1.1, модели, использующей линейно-масштабируемое разреженное внимание. Новый алгоритм обеспечивает 98% точность извлечения данных при работе с 12 миллионами токенов.
Qwen-RobotSuite: три модели для робототехники
Команда Qwen представила Qwen-RobotSuite — набор из трёх моделей для робототехники. Каждая модель решает свою задачу: манипуляции, моделирование мира и навигацию.
Qwen3.6-27B: эффективная локальная модель для кодинга
Разработчик Georgi Gerganov поделился опытом использования локальной модели Qwen3.6-27B для задач программирования. В течение последнего месяца и полу он активно применял её на M2 Ultra и RTX 5090, отмечая её полезность в повседневных задачах.
Новый метод улучшения генерации изображений по тексту
Исследователи предложили новый подход к дообучению моделей генерации изображений по тексту. В статье на arXiv представлен метод STAR (SpatioTemporal Adaptive Reward Allocation), который учитывает временную и пространственную структуру процесса генерации.
Новый метод SoftMoE для эффективного масштабирования LLM
Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов.
Новый метод обучения для мультимодального математического мышления
Исследователи предложили новый подход к обучению мультимодальных моделей для решения математических задач. В статье на arXiv представлен метод MathVis-Fine, который учитывает сложные зависимости между текстом и изображениями в процессе решения задач.
Google Cloud представил Open Knowledge Format для ИИ-агентов
Google Cloud анонсировал Open Knowledge Format (OKF) — открытый формат для структурирования знаний, предназначенный для использования ИИ-агентами. OKF представляет собой спецификацию, которая формализует паттерн LLM-wiki, позволяя создавать каталоги знаний в виде markdown-файлов с YAML-фронтматером. Каждый файл описывает концепцию, которая должна содержать хотя бы поле типа.
Locket — система управления доступом к функциям LLM
Исследователи из Stanford University представили Locket — фреймворк для управления доступом к функциям LLM на уровне отдельных API-вызовов. Это позволяет гибко настраивать, какие функции и в каких условиях могут вызываться агентом, что критично для безопасности и контроля поведения ИИ-агентов.
Локальный запуск моделей стал реальностью
В последнее время локальный запуск больших языковых моделей (LLM) стал значительно проще и доступнее. Это связано с развитием технологий, которые позволяют запускать мощные модели даже на обычных ноутбуках. Например, модели вроде GPT-4 или Llama 2 теперь можно развернуть локально с помощью таких фреймворков, как Ollama или LM Studio. Это открывает новые возможности для разработчиков, которые хотят создавать ИИ-агенты с минимальными затратами на инфраструктуру.
GitHub выпустил открытый датасет для обучения многоязычных моделей
GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0.
Модели класса Mythos станут глобальными к 2029 году
По прогнозам экспертов, модели ИИ класса Mythos, обладающие высокой производительностью и доступностью, к 2029 году станут широко распространены по всему миру. Эти модели, которые уже демонстрируют впечатляющие результаты в различных задачах, включая обработку естественного языка и генерацию текста, могут значительно изменить ландшафт индустрии ИИ.
Sakana AI представила коммерческий продукт Sakana Marlin
Sakana AI, компания, специализирующаяся на разработке ИИ-агентов, объявила о запуске своего первого коммерческого продукта — Sakana Marlin. Этот шаг является важным для рынка ИИ-агентов, так как демонстрирует готовность компаний выводить свои решения на коммерческий уровень.
Новый подход к долгосрочному прогнозированию временных рядов
Исследователи из Arxiv представили новый метод HAMON, который использует пассивное оптическое смешивание последовательностей для долгосрочного прогнозирования временных рядов. Этот подход демонстрирует, что простые линейные и частотные модели могут быть конкурентоспособными в задачах долгосрочного прогнозирования, что ставит под сомнение необходимость использования сложных трансформерных моделей в этом контексте.
Локальные модели для кодинга вместо Claude/GPT
На Hacker News обсуждают возможность замены облачных моделей, таких как Claude и GPT, на локальные аналоги для ежедневной работы с кодом. Пользователи делятся опытом использования локальных моделей, таких как Code Llama, Starcoder и другие, которые могут работать на собственных серверах или мощных ноутбуках.
Как улучшить точность небольших моделей кода без переобучения
Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода.
Как NVIDIA ускорила обучение MoE-моделей на 30%
NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения.
Natural Language Autoencoders объясняют активации LLM
Исследователи из Transformer Circuits опубликовали работу, в которой предложили использовать Natural Language Autoencoders (NLA) для интерпретации активаций больших языковых моделей (LLM). NLA — это автоэнкодеры, которые преобразуют активации нейронов в естественный язык, делая их более понятными для разработчиков.