Исследования и наука
ИИ для оценки депрессии по диалогам с виртуальными ассистентами
Учёные предложили новый метод оценки тяжести депрессии на основе диалогов с ИИ-ассистентами. Исследование опубликовано на arXiv.
Новый метод для мультимодального разрешения кореферентности без предварительного обучения
Исследователи предложили новый подход Plug-and-Adapt для мультимодального разрешения кореферентности (MCR), который не требует предварительного обучения на аннотированных данных. В статье на arXiv показано, что визуальная информация помогает устранять неоднозначности в тексте, что значительно повышает точность системы.
ChLogic: тестирование логического мышления моделей на китайском
Исследователи представили новый бенчмарк ChLogic, который оценивает способность языковых моделей сохранять логическое мышление при работе с китайскими выражениями. В отличие от английских тестов, ChLogic проверяет, как модели справляются с логическими структурами, представленными на китайском языке.
Исследование взаимодействия мультимодальных биомаркеров при болезни Альцгеймера
Учёные провели количественный анализ мультимодальных биомаркеров при болезни Альцгеймера (БА). Исследование опубликовано на arXiv и посвящено интеграции молекулярных, структурных, клинических и генетических данных для улучшения диагностики и моделирования заболевания.
AATF: открытый стандарт для аудита решений ИИ-агентов
Команда разработчиков представила AATF (Agent Audit Trail Format) — открытый стандарт для записи и анализа решений, принимаемых ИИ-агентами. Этот формат позволяет фиксировать логику, данные и контекст, на основе которых агент принимает решения, что критически важно для отладки, мониторинга и повышения прозрачности работы агентов.
Исследование DPBench раскрывает ключи к эффективной координации агентов
Учёные из Стэнфорда и MIT представили исследование DPBench, которое исследует структурные детерминанты координации между мультиагентными системами на основе больших языковых моделей (LLM). Исследование выявляет ключевые факторы, влияющие на эффективность взаимодействия агентов, включая архитектуру, механизмы коммуникации и стратегии принятия решений.
Первые шаги к автоматизации исследований в ИИ
Компания Recursive.ai представила проект, направленный на автоматизацию процессов в исследованиях искусственного интеллекта. Это важный шаг, который может значительно ускорить разработку новых моделей и алгоритмов, а также снизить затраты на исследования.
Как изменились практики документирования в AI за десятилетие
Новое исследование, опубликованное на arXiv, анализирует тенденции в документировании AI-исследований за последние десять лет. Авторы проанализировали 56 800 конференционных статей, чтобы понять, как изменились практики документирования в ответ на кризис воспроизводимости результатов.
Как разработчики работают с ИИ-инструментами
Компания Cursor опубликовала отчёт о привычках разработчиков, который включает данные о том, как программисты используют ИИ-инструменты в своей повседневной работе. Исследование охватило более 1000 разработчиков из разных стран и компаний, что делает его одним из самых масштабных в своей области.
Donate Agent Traces: открытая платформа для сбора данных об агентах
Команда Trace Commons запустила проект Donate Agent Traces — платформу для сбора и анализа данных о работе ИИ-агентов. Проект позволяет разработчикам и исследователям делиться логами взаимодействий агентов с пользователями, что может значительно ускорить развитие технологий в этой области.
Спутник с ИИ впервые самостоятельно нашел цель
В апреле 2026 года спутник наблюдения за Землей впервые в истории самостоятельно нашел и зафиксировал цель, используя встроенный ИИ. Это событие стало важным шагом в развитии автономных агентов, способных работать в условиях ограниченной связи с Землей.
Apple представила Foundation Models для разработчиков
Apple анонсировала Apple Foundation Models — набор моделей машинного обучения, доступных для разработчиков. Эти модели предназначены для интеграции в приложения и сервисы, что может значительно расширить возможности разработчиков, работающих с ИИ.
Исследование: языковые модели и человеческий мозг используют схожие концептуальные пространства
Новое исследование, опубликованное на arXiv, показывает, что языковые модели (LLMs) и человеческий мозг используют схожие концептуальные пространства для обработки информации, даже если они работают на разных языках. Это открытие может иметь значительные последствия для разработки ИИ-агентов, так как оно подтверждает, что языковые модели способны моделировать когнитивные процессы, аналогичные человеческим.
Как открытые модели меняют подход к глубоким исследованиям
Компания Thinkwright.ai представила исследование, в котором рассматривается влияние открытых моделей на процесс глубоких исследований. В статье подчёркивается, что открытые модели, такие как те, которые доступны в рамках инициативы Open Weight Models, позволяют исследователям проводить более детальные и точные анализы, не завися от закрытых решений.
Общие модели превосходят специализированные в клинической диагностике
Исследование, опубликованное в журнале Nature Medicine, показало, что общие большие языковые модели (LLM) превосходят специализированные клинические ИИ-системы в диагностике заболеваний. В ходе эксперимента модели, такие как GPT-4, продемонстрировали высокую точность в интерпретации медицинских данных и постановке диагнозов, сопоставимую с экспертными системами, разработанными специально для медицинских задач.
Исследование: как языковые модели теряют логику при замене переменных
Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию.
Исследование: почему глубина моделей может быть их проклятием
Новое исследование, опубликованное на arXiv, поднимает важный вопрос о том, как глубина архитектуры больших языковых моделей (LLM) влияет на их производительность. Авторы работы утверждают, что увеличение глубины моделей может привести к так называемому "проклятию глубины", когда дополнительные слои не только не улучшают, но и ухудшают качество генерации текста.
ClinHallu: новый бенчмарк для диагностики галлюцинаций в медицинских MLLM
Исследователи представили ClinHallu — новый бенчмарк для выявления и анализа галлюцинаций в медицинских мультимодальных языковых моделях (MLLM). Проблема галлюцинаций особенно критична в медицине, где ошибки могут привести к неверным клиническим решениям. Существующие бенчмарки фокусируются на сборе данных, но не анализируют, на каком этапе возникают галлюцинации.
Исследование скрытых ошибок в работе ИИ-агентов
Исследователи из Arxiv представили longitudinal study о скрытых ошибках в работе ИИ-агентов, которые работают как долгосрочные автономные системы. В исследовании анализируется система личного ассистента, работающая с марта 2026 года. Система включает в себя около 40 запланированных задач, 8 поставщиков LLM, инструментальный прокси и базу знаний.
ИИ автоматизирует проверку воспроизводимости исследований
Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности.
EurekAgent: как ИИ-агенты автоматизируют научные открытия
Исследователи из MIT и других ведущих университетов представили EurekAgent — фреймворк, который демонстрирует, как LLM-основанные агенты могут автоматизировать научные открытия. В статье, опубликованной на arXiv, авторы показывают, что при наличии оптимизируемого метрика и подходящей среды выполнения, агенты способны предлагать, проверять и итерировать научные решения, превосходя человеческие подходы.
Использование синтетических данных в научных исследованиях
В последнее время наблюдается рост интереса к применению синтетических данных в научных исследованиях. Социальные науки, например, предлагают использовать "силиконовые образцы", сгенерированные языковыми моделями, для пилотных исследований. В области ИИ всё чаще применяются "судьи" на основе языковых моделей для оценки качества моделей. Даже в биоинформатике синтетические данные ускоряют исследования, например, в области протеомики.
Исследование: как загрязнённый контент влияет на рекомендации ИИ
Исследователи из MIT и других университетов изучили, как загрязнённый контент в интернете, включая фальшивые отзывы и промо-страницы, влияет на рекомендации, генерируемые поисковыми моделями с дополнением контента из веба. Они обнаружили, что даже одна страница с поддельной информацией может существенно исказить результаты, которые получают пользователи. Это особенно актуально для сервисов, которые полагаются на живые данные из интернета для формирования рекомендаций.
Как цепочки рассуждений влияют на ответы ИИ-моделей
Исследователи изучили, как цепочки рассуждений (Chain-of-Thought, CoT) влияют на точность ответов языковых моделей. Они выяснили, что не все шаги в цепочке одинаково важны для итогового результата. Для оценки значимости каждого шага использовался метод раннего выхода (early exit), который позволяет определить, насколько конкретный шаг влияет на конечный ответ.