arXiv · 18.06.2026 ·Машинное обучение

Новый подход к устранению предвзятости в моделях машинного обучения

Исследователи представили методологию борьбы с предвзятостью в алгоритмах, которая учитывает пересечение нескольких защищаемых атрибутов, таких как раса и гендер. Традиционные методы часто не справляются с ситуациями, когда дискриминация проявляется только при сочетании нескольких факторов, что приводит к снижению точности моделей для определенных групп населения. Основная проблема заключается в нехватке репрезентативных данных для таких подгрупп и отсутствии четких математических метрик для оценки справедливости.

Авторы работы предложили новый подход, основанный на введении ограничений по охвату данных (coverage constraints). Этот метод позволяет количественно измерить уровень предвзятости и сбалансировать обучающую выборку без критической потери общей производительности системы. В статье анализируется «цена справедливости» — компромисс между точностью предсказаний и соблюдением этических норм, который неизбежно возникает при попытке сделать модель более инклюзивной.

Разработанный алгоритм позволяет разработчикам точнее настраивать модели, минимизируя дискриминационные исходы в задачах классификации и принятия решений. Исследование подчеркивает важность систематического подхода к подготовке данных и оценке качества моделей на этапе обучения, что особенно актуально для систем, работающих с персональными данными и влияющих на жизнь людей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод выявления скрытых групп данных для повышения точности моделей Исследователи представили новый подход к решению проблемы ложных корреляций в машинном обучении. Современные модели часто показывают высокую среднюю точность, но допускают критические ошибки на недостаточно представленных подгруппах данных. Традиционные методы борьбы с этим явлением обычно требуют либо предварительной разметки подгрупп, либо использования псевдометок, которые не дают интерпретируемого результата на этапе инференса. arXiv · Машинное обучение Новый метод оценки обобщающей способности моделей через PAC-Bayes Исследователи представили новый подход к дерандомизации PAC-Bayes оценок для функций потерь с высокой степенью гладкости. Традиционные методы оценки обобщающей способности моделей часто опираются на вероятностные предсказатели, что затрудняет их прямое применение к детерминированным алгоритмам. Авторы работы предлагают математический аппарат, позволяющий переносить теоретические гарантии с ансамблей типа Gibbs на конкретные детерминированные модели, используя свойства гладкости функции потерь и класса предсказателей. arXiv · Машинное обучение Fairness Pruning: новый метод локализации демографических искажений в LLM Исследователи представили метод Fairness Pruning, позволяющий выявлять и корректировать демографические искажения в больших языковых моделях. Технология фокусируется на анализе слоев GLU-MLP, используя дифференциальную активацию нейронов при обработке контрастных пар промптов. Это позволяет точно локализовать источники предвзятости внутри архитектуры модели без необходимости её полного переобучения, обеспечивая более прозрачное управление этическими аспектами работы ИИ. arXiv · Машинное обучение Новый метод обучения классификаторов в условиях стратегического поведения пользователей Исследователи представили метод обучения нелинейных классификаторов, устойчивых к стратегическим манипуляциям со стороны пользователей. Ранее подобные задачи ограничивались линейными моделями из-за высокой вычислительной сложности. Новый подход позволяет эффективно оптимизировать классификаторы, когда пользователи пытаются изменить свои данные, чтобы повлиять на решение системы, сохраняя при этом точность и предсказуемость модели в динамической среде. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. Artificial intelligence – MIT Technology Review · Исследования и наука Исследование: ИИ-системы при найме склонны к предвзятости сильнее людей Новое исследование MIT Technology Review показывает, что ИИ-модели, используемые для фильтрации резюме, могут проявлять предвзятость чаще, чем люди-рекрутеры. Проблема заключается не только в переносе стереотипов из обучающих данных, но и в способности моделей самостоятельно формировать дискриминационные паттерны в процессе обработки кандидатов, что ставит под вопрос справедливость автоматизированных систем найма. arXiv · Безопасность и алайнмент Новый подход к оценке приватности данных через предсказуемость Исследователи представили концепцию «приватности через предсказуемость» (privacy via predictability), которая предлагает альтернативу традиционной дифференциальной приватности (DP). В отличие от классических методов, ориентированных на защиту от «худшего сценария» и часто снижающих точность моделей, новый подход позволяет более гибко настраивать баланс между защитой данных и полезностью алгоритмов. Метод учитывает конкретные знания злоумышленника о наборе данных, что делает оценку рисков более точной и менее затратной для производительности систем. arXiv · Машинное обучение Оптимизация визуальных генеративных моделей через распределенные награды Исследователи представили новый метод дообучения генеративных моделей, использующий распределенные награды вместо традиционных пообразных функций. Подход позволяет избежать «взлома наград» (reward hacking), при котором модели теряют разнообразие контента и создают визуальные артефакты. Новый фреймворк обеспечивает более точное соответствие целевым характеристикам, сохраняя при этом высокое качество и вариативность генерируемых изображений в процессе обучения. arXiv · Машинное обучение Новый метод достижения мульти-калибровки в предсказательных моделях Исследователи представили новый подход к достижению мульти-калибровки (multicalibration) в предсказательных моделях. Мульти-калибровка гарантирует, что прогнозы модели остаются несмещенными не только в среднем, но и при рассмотрении различных подгрупп данных, определенных заданными весовыми функциями. Это свойство является критически важным для обеспечения надежности и справедливости алгоритмов в задачах, где ошибки модели могут иметь неравномерные последствия для разных категорий пользователей.

← Все материалы