Исследователи представили многоцентровой набор данных для обучения ИИ-моделей классификации цитологических снимков молочной железы. Датасет включает 470 полноразмерных слайдов (WSI) от 321 пациента, классифицированных по международной системе категорий от C1 до C5. Материалы собраны в индийских медицинских центрах и предназначены для обучения алгоритмов пофрагментной (patch-wise) диагностики патологий.
Работа направлена на автоматизацию анализа тонкоигольной аспирационной цитологии (FNAC), которая является критически важным этапом раннего выявления онкологических заболеваний. Использование данных из нескольких центров позволяет повысить устойчивость моделей к вариативности оборудования, методов окрашивания и качества подготовки образцов, что часто становится препятствием при внедрении ИИ в клиническую практику.
Датасет включает изображения, окрашенные методами Папаниколау и Май-Грюнвальд Гимза, что обеспечивает разнообразие визуальных характеристик для обучения нейросетей. Стандартизация по категориям C1–C5 позволяет напрямую сопоставлять результаты работы алгоритмов с принятыми клиническими протоколами оценки риска злокачественности образований.
Ключевые факты
- Датасет содержит 470 полноразмерных слайдов (WSI) от 321 пациента.
- Сбор данных проводился в третичных медицинских центрах Индии в период с мая 2023 по март 2026 года.
- Классификация основана на пяти категориях (C1–C5), используемых в клинической цитопатологии.
- В набор включены слайды, подготовленные с использованием двух типов окрашивания: Papanicolaou и May-Grunwald Giemsa.