Skip to content

Applications_ru

ivartb edited this page Feb 12, 2024 · 2 revisions

Перечень направлений прикладного использования

Основным направлением использования открытой библиотеки для извлечения признаков из метагеномных данных является анализ данных секвенирования микробиоты кишечника человека при различных состояниях и сопутствующих заболеваниях. Поиск маркеров, связанных со сложно диагностируемыми заболеваниями, является актуальной задачей. Поскольку микробиота кишечника тесно связана со всеми системами организма и влияет на иммунный ответ, разумным предположением является наличие в ней составляющих, которые могут появляться как ранний сигнал или, наоборот, в результате различных заболеваний.

Анализ воспалительных заболеваний кишечника

Библиотека была применена для поиска признаков в наборах данных пациентов с воспалительными заболеваниями кишечника. Пациенты были разбиты на три когорты: здоровые, с язвенным колитом и с болезнью Крона. Были извлечены признаки и обучены предсказательные модели, которые могут быть использованы в качестве вспомогательного метода для поддержки принятия врачебных решений при диагностировании заболеваний.

Из открытых источников были отобраны и использовались шесть наборов данных метагеномного секвенирования кишечника пациентов, страдающих воспалительными заболеваниями кишечника (ВЗК): Franzosa, Lo Sasso, Lloyd-Price, He, Qin, Lewis.

К каждому из выбранных обучающих наборов были применены четыре алгоритма для извлечения признаков. На полученных матрицах признаков обучена логистическая регрессия и выполнено предсказание классов образцов из всех остальных наборов данных, посчитана метрика MCC (Matthew Correlation Coefficient) и метрика точности (accuracy).

Точность бинарной классификации статуса пациента (болезнь Крона – язвенный колит) значительно превышает качество трехклассовой классификации и достигает значения 0.85 по метрике accuracy при обучении на наборе Franzosa и предсказании набора Lo Sasso. При предсказании других наборов методом metafx unique значение метрики accuracy не опускается ниже 0.75. Это существенно превосходит по качеству результаты моделей, обученных на данных таксономической аннотации, и позволяет увеличить точность классификации в среднем на 10 %. Результаты классификации по метрике accuracy представлены на рисунке ниже.

IBD

Анализ раковых заболеваний кишечника

Для анализа были выбраны данные секвенирования микробиоты кишечника людей, связанные с раковыми заболеваниями. Было принято решение использовать для анализа три категории пациентов: больные колоректальным раком (CRC), больные колоректальной аденомой (adenoma), контрольная группа – условно здоровые пациенты (control). Использовались наборы данных из четырех исследований: Austria, Italy, China, Japan.

Для извлечения признаков из каждого набора данных были использованы четыре алгоритма из разработанной библиотеки MetaFX. Алгоритм metafx metafast был применен как базовый алгоритм извлечения признаков без учителя в качестве наиболее простого метода, не использующего информацию по группировке метагеномных образцов на категории. Алгоритмы metafx colored и metafx unique были использованы как методы извлечения признаков с использованием информации о категориях образцов. Кроме того, был использован алгоритм metafx stats в двух модификациях: с параметрами по умолчанию и с ручным подбором оптимальных параметров для каждого набора данных.

Результаты работы моделей логистической регрессии в задаче трехклассовой классификации представлены на рисунке ниже. А) Точность лучшего алгоритма для пары обучающий набор (группировка, выделен шрифтом внизу) и тестовый набор (столбцы, разные цвета); Б) Разница точности между лучшим алгоритмом MetaFX и алгоритмом на основе таксономических признаков; В) Выбранный лучший алгоритм для каждой пары обучающий-тестовый набор.

CRC