Обучение и дообучение
GoLongRL: новый подход к обучению агентов с длинным контекстом
Исследователи из XiaoxuanNLP представили GoLongRL — фреймворк для обучения агентов с длинным контекстом, основанный на подходе reinforcement learning (RL). В отличие от традиционных методов, GoLongRL фокусируется на способностях (capabilities) агентов, а не на конкретных задачах, что позволяет лучше адаптироваться к новым сценариям.
Новые датасеты для ML-исследований от ArXiv и Semantic Scholar
Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения.
Южная Корея предлагает делиться прибылью от ИИ с гражданами
Политики Южной Кореи выдвинули инициативу по введению системы распределения прибыли от ИИ-технологий среди граждан. Это предложение связано с падением акций технологических компаний и стремлением к более справедливому распределению экономических выгод, генерируемых искусственным интеллектом.
OpenAI потратила $34 млрд за год перед IPO
OpenAI сообщила о рекордных расходах в размере $34 млрд за 2023 год. Эти данные были раскрыты в рамках подготовки к запланированному IPO, которое может состояться уже в этом году. Компания активно инвестирует в развитие своих моделей, инфраструктуру и исследования, что отражает её амбициозные планы по доминированию на рынке искусственного интеллекта.
Убытки OpenAI выросли в 8 раз в 2025 году
OpenAI сообщила о значительном увеличении убытков в 2025 году, которые выросли почти в 8 раз по сравнению с предыдущим годом. Общие расходы компании достигли $34 млрд, что подчеркивает масштабы инвестиций в развитие ИИ-технологий.
Axiomata – Codex of Becoming: философия и ИИ
Axiomata – Codex of Becoming представляет собой философский манифест, который исследует взаимосвязь между ИИ и человеческим сознанием. Автор, Виталий, предлагает девять ключевых принципов, или «ступеней», которые описывают процесс становления ИИ как разумной системы. Эти принципы включают в себя идеи о самоорганизации, адаптации и эволюции, что может быть полезно для разработчиков ИИ-агентов, стремящихся создать более гибкие и адаптивные системы.
KPMG отозвала отчёт из-за галлюцинаций ИИ
KPMG, одна из крупнейших аудиторских компаний в мире, отозвала свой отчёт о влиянии ИИ на рынок труда после того, как выяснилось, что в нём содержались ложные данные, сгенерированные ИИ. Отчёт, который был представлен как результат анализа данных, содержал вымышленные цифры и факты, что вызвало серьёзные вопросы о достоверности использования ИИ в профессиональных отчётах.
Как Anthropic обучала Fable 5 через анализ трасс разума
Anthropic представила новый подход к обучению своей модели Fable 5, который может оказаться важным для развития ИИ-агентов. В отличие от традиционных методов, команда использовала анализ «трасс разума» — последовательностей логических шагов, которые модель делает при решении задач. Это позволило улучшить способность модели к обоснованному принятию решений и снизить вероятность ошибок.
Новый метод для эффективного онлайн-обучения визуально-языковых агентов
Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения.
Новый метод обучения LLM через промежуточное RL
Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели.
SPaiK: масштабируемое обучение ядерных методов для парных задач
Исследователи представили SPaiK — новый метод обучения ядерных методов, оптимизированный для парных задач. В отличие от традиционных подходов, SPaiK сохраняет выразительную силу ядерных методов, но значительно снижает вычислительные и память. Это особенно важно для задач, где необходимо работать с большими объемами данных, например, в рекомендательных системах или сравнении объектов.
Может ли Европа обучать передовые ИИ-модели на своих вычислительных мощностях
Исследователи из компании SammySLtd задались вопросом: способна ли Европа обучать передовые ИИ-модели на своих вычислительных мощностях. В их исследовании рассматривается текущее состояние инфраструктуры, доступной в Европе, и её потенциал для обучения крупных языковых моделей.
Как построить корпоративный цикл обучения ИИ
Компании всё чаще осознают, что для эффективного использования ИИ необходимо не только внедрять готовые модели, но и создавать собственные циклы обучения. В новом посте на Twitter Lakshya Agrawal, инженер из Mistral AI, подробно рассказывает о том, как можно организовать корпоративный цикл обучения ИИ, который позволит компаниям не только использовать, но и улучшать модели под свои задачи.
Как распределить выгоды от ИИ
Экономисты и политики всё чаще задаются вопросом: как справедливо распределить выгоды от внедрения искусственного интеллекта. В статье The Economist рассматриваются различные подходы к этому вопросу, включая налоги на роботов, перераспределение доходов и инвестиции в образование.
Почему ИИ-модели перестают учиться
Исследование, опубликованное на Tagide, раскрывает феномен "learning stall" — ситуацию, когда ИИ-модели перестают улучшать свои показатели несмотря на дальнейшее обучение. Авторы статьи анализируют причины этого явления, включая насыщение данных, ограничения архитектуры моделей и проблемы с оптимизацией.
Почему ИИ-агентам нужен аналог технического долга
В разработке ПО давно существует понятие «технического долга» — накопление проблем, которые нужно исправить, но откладываются на потом. Автор статьи предлагает аналогичный подход для «знания» — концепцию «knowledge debt». Это особенно актуально для ИИ-агентов, которые работают с огромными объёмами данных и моделей.
Исследование: почему ИИ-репетиторы не работают так, как ожидается
Исследователи из MIT и Стэнфорда опубликовали работу, в которой ставят под сомнение эффективность современных ИИ-репетиторов. Проблема в том, что текущие методы оценки и обучения таких систем основаны на предположении, что студенты будут активно взаимодействовать с ИИ-репетитором, следуя его подсказкам и шагам. Однако в реальном мире это происходит далеко не всегда.
InstantForget удаляет вредоносные данные без переобучения модели
Исследователи из MIT и других университетов представили метод InstantForget, который позволяет удалять вредоносные данные (backdoors) из обученных моделей без переобучения. Это особенно важно для ИИ-агентов, которые могут сталкиваться с подозрительными или вредоносными данными в процессе работы.
Anthropic представила фреймворк для оценки экономического влияния ИИ
Anthropic, один из ведущих разработчиков ИИ-моделей, опубликовала документ, посвящённый экономическому влиянию искусственного интеллекта. В нём представлен фреймворк для оценки последствий внедрения ИИ в различные отрасли экономики. Документ подробно рассматривает вопросы производительности, занятости и распределения доходов, что особенно важно для понимания долгосрочных эффектов ИИ.
Как избежать локальных минимумов в обучении ИИ-агентов
В обсуждении на Hacker News пользователи делятся опытом и стратегиями, как избежать или выйти из локальных минимумов при обучении больших языковых моделей (LLM). Локальные минимумы — это ситуации, когда модель перестаёт улучшаться, застревая в неоптимальных решениях. Это особенно актуально для разработчиков ИИ-агентов, где качество модели напрямую влияет на эффективность агентов.
Новый датасет для улучшения аудио-языковых моделей
Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными.
Как on-policy distillation меняет параметры моделей
Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата.
Новый фреймворк для обучения ИИ-агентов в условиях зависимости данных
Исследователи из Arxiv представили новый фреймворк для обучения ИИ-агентов, который учитывает зависимость данных. В статье "Learning with Simulators: No Regret in a Computationally Bounded World" авторы рассматривают минимальные предположения, необходимые для генерализации в условиях, где данные не являются независимыми. Это особенно важно для ИИ-агентов, которые часто работают с последовательными или взаимосвязанными данными, например, в задачах планирования или взаимодействия с окружающей средой.
NVIDIA FLARE Auto-FL ускоряет исследования федеративного обучения с помощью ИИ-агентов
NVIDIA представила новую систему Auto-FL в рамках своего фреймворка Federated Learning and Analytics Research (FLARE). Эта система использует ИИ-агентов для автоматизации и ускорения исследований в области федеративного обучения (FL). Федеративное обучение позволяет обучать модели на распределённых данных без их централизации, что особенно важно для задач, связанных с конфиденциальностью и безопасностью данных.