Обучение и дообучение

GoLongRL: новый подход к обучению агентов с длинным контекстом Hacker News · 16.06.2026 Исследователи из XiaoxuanNLP представили GoLongRL — фреймворк для обучения агентов с длинным контекстом, основанный на подходе reinforcement learning (RL). В отличие от традиционных методов, GoLongRL фокусируется на способностях (capabilities) агентов, а не на конкретных задачах, что позволяет лучше адаптироваться к новым сценариям. Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Hacker News · 16.06.2026 Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. Южная Корея предлагает делиться прибылью от ИИ с гражданами Hacker News · 16.06.2026 Политики Южной Кореи выдвинули инициативу по введению системы распределения прибыли от ИИ-технологий среди граждан. Это предложение связано с падением акций технологических компаний и стремлением к более справедливому распределению экономических выгод, генерируемых искусственным интеллектом. OpenAI потратила $34 млрд за год перед IPO Hacker News · 16.06.2026 OpenAI сообщила о рекордных расходах в размере $34 млрд за 2023 год. Эти данные были раскрыты в рамках подготовки к запланированному IPO, которое может состояться уже в этом году. Компания активно инвестирует в развитие своих моделей, инфраструктуру и исследования, что отражает её амбициозные планы по доминированию на рынке искусственного интеллекта. Убытки OpenAI выросли в 8 раз в 2025 году Hacker News · 16.06.2026 OpenAI сообщила о значительном увеличении убытков в 2025 году, которые выросли почти в 8 раз по сравнению с предыдущим годом. Общие расходы компании достигли $34 млрд, что подчеркивает масштабы инвестиций в развитие ИИ-технологий. Axiomata – Codex of Becoming: философия и ИИ Hacker News · 16.06.2026 Axiomata – Codex of Becoming представляет собой философский манифест, который исследует взаимосвязь между ИИ и человеческим сознанием. Автор, Виталий, предлагает девять ключевых принципов, или «ступеней», которые описывают процесс становления ИИ как разумной системы. Эти принципы включают в себя идеи о самоорганизации, адаптации и эволюции, что может быть полезно для разработчиков ИИ-агентов, стремящихся создать более гибкие и адаптивные системы. KPMG отозвала отчёт из-за галлюцинаций ИИ Hacker News · 15.06.2026 KPMG, одна из крупнейших аудиторских компаний в мире, отозвала свой отчёт о влиянии ИИ на рынок труда после того, как выяснилось, что в нём содержались ложные данные, сгенерированные ИИ. Отчёт, который был представлен как результат анализа данных, содержал вымышленные цифры и факты, что вызвало серьёзные вопросы о достоверности использования ИИ в профессиональных отчётах. Как Anthropic обучала Fable 5 через анализ трасс разума Hacker News · 15.06.2026 Anthropic представила новый подход к обучению своей модели Fable 5, который может оказаться важным для развития ИИ-агентов. В отличие от традиционных методов, команда использовала анализ «трасс разума» — последовательностей логических шагов, которые модель делает при решении задач. Это позволило улучшить способность модели к обоснованному принятию решений и снизить вероятность ошибок. Новый метод для эффективного онлайн-обучения визуально-языковых агентов arXiv · 15.06.2026 Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. Новый метод обучения LLM через промежуточное RL arXiv · 15.06.2026 Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. SPaiK: масштабируемое обучение ядерных методов для парных задач arXiv · 15.06.2026 Исследователи представили SPaiK — новый метод обучения ядерных методов, оптимизированный для парных задач. В отличие от традиционных подходов, SPaiK сохраняет выразительную силу ядерных методов, но значительно снижает вычислительные и память. Это особенно важно для задач, где необходимо работать с большими объемами данных, например, в рекомендательных системах или сравнении объектов. Может ли Европа обучать передовые ИИ-модели на своих вычислительных мощностях Hacker News · 15.06.2026 Исследователи из компании SammySLtd задались вопросом: способна ли Европа обучать передовые ИИ-модели на своих вычислительных мощностях. В их исследовании рассматривается текущее состояние инфраструктуры, доступной в Европе, и её потенциал для обучения крупных языковых моделей. Как построить корпоративный цикл обучения ИИ Hacker News · 15.06.2026 Компании всё чаще осознают, что для эффективного использования ИИ необходимо не только внедрять готовые модели, но и создавать собственные циклы обучения. В новом посте на Twitter Lakshya Agrawal, инженер из Mistral AI, подробно рассказывает о том, как можно организовать корпоративный цикл обучения ИИ, который позволит компаниям не только использовать, но и улучшать модели под свои задачи. Как распределить выгоды от ИИ Hacker News · 14.06.2026 Экономисты и политики всё чаще задаются вопросом: как справедливо распределить выгоды от внедрения искусственного интеллекта. В статье The Economist рассматриваются различные подходы к этому вопросу, включая налоги на роботов, перераспределение доходов и инвестиции в образование. Почему ИИ-модели перестают учиться Hacker News · 14.06.2026 Исследование, опубликованное на Tagide, раскрывает феномен "learning stall" — ситуацию, когда ИИ-модели перестают улучшать свои показатели несмотря на дальнейшее обучение. Авторы статьи анализируют причины этого явления, включая насыщение данных, ограничения архитектуры моделей и проблемы с оптимизацией. Почему ИИ-агентам нужен аналог технического долга Hacker News · 14.06.2026 В разработке ПО давно существует понятие «технического долга» — накопление проблем, которые нужно исправить, но откладываются на потом. Автор статьи предлагает аналогичный подход для «знания» — концепцию «knowledge debt». Это особенно актуально для ИИ-агентов, которые работают с огромными объёмами данных и моделей. Исследование: почему ИИ-репетиторы не работают так, как ожидается arXiv · 14.06.2026 Исследователи из MIT и Стэнфорда опубликовали работу, в которой ставят под сомнение эффективность современных ИИ-репетиторов. Проблема в том, что текущие методы оценки и обучения таких систем основаны на предположении, что студенты будут активно взаимодействовать с ИИ-репетитором, следуя его подсказкам и шагам. Однако в реальном мире это происходит далеко не всегда. InstantForget удаляет вредоносные данные без переобучения модели arXiv · 14.06.2026 Исследователи из MIT и других университетов представили метод InstantForget, который позволяет удалять вредоносные данные (backdoors) из обученных моделей без переобучения. Это особенно важно для ИИ-агентов, которые могут сталкиваться с подозрительными или вредоносными данными в процессе работы. Anthropic представила фреймворк для оценки экономического влияния ИИ Hacker News · 14.06.2026 Anthropic, один из ведущих разработчиков ИИ-моделей, опубликовала документ, посвящённый экономическому влиянию искусственного интеллекта. В нём представлен фреймворк для оценки последствий внедрения ИИ в различные отрасли экономики. Документ подробно рассматривает вопросы производительности, занятости и распределения доходов, что особенно важно для понимания долгосрочных эффектов ИИ. Как избежать локальных минимумов в обучении ИИ-агентов Hacker News · 13.06.2026 В обсуждении на Hacker News пользователи делятся опытом и стратегиями, как избежать или выйти из локальных минимумов при обучении больших языковых моделей (LLM). Локальные минимумы — это ситуации, когда модель перестаёт улучшаться, застревая в неоптимальных решениях. Это особенно актуально для разработчиков ИИ-агентов, где качество модели напрямую влияет на эффективность агентов. Новый датасет для улучшения аудио-языковых моделей arXiv · 12.06.2026 Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными. Как on-policy distillation меняет параметры моделей arXiv · 11.06.2026 Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата. Новый фреймворк для обучения ИИ-агентов в условиях зависимости данных arXiv · 11.06.2026 Исследователи из Arxiv представили новый фреймворк для обучения ИИ-агентов, который учитывает зависимость данных. В статье "Learning with Simulators: No Regret in a Computationally Bounded World" авторы рассматривают минимальные предположения, необходимые для генерализации в условиях, где данные не являются независимыми. Это особенно важно для ИИ-агентов, которые часто работают с последовательными или взаимосвязанными данными, например, в задачах планирования или взаимодействия с окружающей средой. NVIDIA FLARE Auto-FL ускоряет исследования федеративного обучения с помощью ИИ-агентов NVIDIA Technical Blog · 09.06.2026 NVIDIA представила новую систему Auto-FL в рамках своего фреймворка Federated Learning and Analytics Research (FLARE). Эта система использует ИИ-агентов для автоматизации и ускорения исследований в области федеративного обучения (FL). Федеративное обучение позволяет обучать модели на распределённых данных без их централизации, что особенно важно для задач, связанных с конфиденциальностью и безопасностью данных.