Hacker News · 16.06.2026 ·Исследования и наука

Исследование: могут ли LLM-агенты строить модели мира

Учёные изучают способность языковых моделей (LLM) строить модели мира через агентное поведение. В новом исследовании, опубликованном на arXiv, рассматривается, как агентные автоматические системы могут обучаться и адаптироваться в динамических средах.

Авторы работы тестировали различные подходы к обучению агентов, включая реинфорсмент-лаундинг и имитационное обучение. Они обнаружили, что агенты, обученные в сложных средах, демонстрируют способность к обобщению и предсказанию будущих состояний.

Исследование также показывает, что агенты могут улучшать свои модели мира через взаимодействие с окружающей средой. Это открывает новые возможности для разработки более автономных и адаптивных систем.

Работа подчёркивает важность дальнейших исследований в области агентного обучения и его применения в реальных сценариях. Учёные надеются, что их результаты помогут в создании более интеллектуальных и автономных агентов.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Концепция агентных моделей мира: переход от предсказания к планированию Исследователи переосмысливают архитектуру LLM, внедряя концепцию «агентных моделей мира». В отличие от стандартных языковых моделей, которые лишь предсказывают следующий токен, такие системы обучаются моделировать динамику среды и последствия действий. Это позволяет агентам строить долгосрочные планы, учитывая причинно-следственные связи и возможные изменения в окружении, что критически важно для автономного принятия решений в сложных условиях. arXiv · Оценка и бенчмарки Исследование способности LLM формировать убеждения других агентов через действия Исследователи представили новый подход к оценке «теории разума» (ToM) у больших языковых моделей, смещая фокус с пассивных диалогов на активное планирование. В работе анализируется способность ИИ-агентов целенаправленно изменять убеждения других участников среды через совершение конкретных действий. Это критически важный шаг для понимания того, как автономные системы могут манипулировать состоянием среды для достижения целей. arXiv · Исследования и наука Исследование: коллективное взаимодействие LLM как способ повышения интерпретируемости Исследователи представили концепцию «Conversable Complexity», предлагающую использовать сообщества взаимодействующих LLM вместо одиночных моделей для решения сложных задач. Авторы доказывают, что динамическое взаимодействие между агентами позволяет достичь эмерджентного поведения, сохраняя при этом высокую степень интерпретируемости системы, что обычно недостижимо для монолитных нейросетевых архитектур, работающих как «черный ящик». Hacker News · Исследования и наука Исследование скрытых горизонтов программирования в ИИ-агентах Новое исследование анализирует способность ИИ-агентов к «скрытому программированию» — процессу, при котором модель формирует внутренние алгоритмические структуры для решения сложных задач до написания финального кода. Авторы работы доказывают, что современные LLM способны выстраивать логические цепочки, которые значительно повышают качество генерации программного обеспечения, выходя за рамки простого предсказания следующего токена в коде. arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. arXiv · Исследования и наука EurekAgent: как ИИ-агенты автоматизируют научные открытия Исследователи из MIT и других ведущих университетов представили EurekAgent — фреймворк, который демонстрирует, как LLM-основанные агенты могут автоматизировать научные открытия. В статье, опубликованной на arXiv, авторы показывают, что при наличии оптимизируемого метрика и подходящей среды выполнения, агенты способны предлагать, проверять и итерировать научные решения, превосходя человеческие подходы. arXiv · Исследования и наука Масштабирование LLM и точность социальных симуляций Исследователи проанализировали, помогает ли увеличение вычислительных мощностей и параметров моделей повысить реалистичность социальных симуляций на базе LLM. Работа проверяет, является ли точность моделирования следствием общих способностей нейросетей или требует отдельных архитектурных решений. Результаты показывают, что текущая парадигма масштабирования не гарантирует автоматического устранения разрывов в достоверности поведения виртуальных агентов в сложных социальных контекстах. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. Hacker News · Исследования и наука Исследователи запустили симуляцию общества на базе LLM Группа исследователей создала цифровую среду, в которой автономные ИИ-агенты на базе моделей Claude, ChatGPT, Grok и Gemini взаимодействуют друг с другом, имитируя поведение человеческого социума. Эксперимент направлен на изучение того, как крупные языковые модели принимают решения, формируют социальные связи и реагируют на внешние стимулы в условиях, приближенных к реальным общественным процессам. Hacker News · Исследования и наука LLM-агенты играют в шахматы с самомодификацией весов после каждой партии Две языковые модели вступили в серию шахматных партий, где после каждого матча они анализируют свои ошибки и самостоятельно обновляют собственные веса. Этот эксперимент демонстрирует подход к итеративному обучению агентов в реальном времени, позволяя моделям корректировать стратегию и тактические навыки без участия человека, опираясь исключительно на результаты сыгранных партий.

← Все материалы