Анализ на пшеничен клас с помощта на методи за компютърно зрение

На 14 август приключи първата работилница на Математическия център Академгородок. Действах като куратор на проект за анализ на пшеничен клас с помощта на методи за компютърно зрение. В тази статия искам да ви кажа какво се е случило с нея.

За генетиката на пшеницата важна задача е да се определи плоидността (броят на еднакви комплекти хромозоми в клетъчното ядро). Класическият подход към решаването на този проблем се основава на използването на молекулярно-генетични методи, които са скъпи и трудоемки. Определянето на видове растения е възможно само при лабораторни условия. Следователно в тази работа ние проверяваме хипотезата: възможно ли е да се определи плоидността на пшеницата с помощта на методи за компютърно зрение, само въз основа на изображение на ухо.

Описание на данните

За да се реши проблемът, още преди началото на семинара беше изготвен набор от данни, в който плоидността беше известна за всеки растителен вид. На разположение имахме общо 2344 снимки на хексаплоиди и 1259 тетрапроиди.

Повечето от растенията са заснети с помощта на два протокола. Първият случай - на маса в една проекция, вторият - върху щипка за щипки в 4 проекции. Снимките винаги са имали цветова схема за проверка на цветовете, необходимо е да се нормализират цветовете и да се определи мащабът.

Общо 3603 снимки с 644 уникални номера на семена. Наборът от данни съдържа 20 вида пшеница: 10 хексаплоида, 10 тетраплоида; 496 уникални генотипа; 10 уникална растителност. Растенията са отглеждани между 2015 и 2018 г. в оранжерии на ICG SB RAS. Биологичен материал е предоставен от академик Николай Петрович Гончаров .

Проверка

Растение в нашия набор от данни може да съвпада с до 5 снимки, направени с помощта на различни протоколи и в различни проекции. Разделихме данните на 3 стратифицирани набора: влак (тренировъчна извадка), валиден (валидираща извадка) и изчакване (изоставаща проба), в съотношения съответно 60%, 20% и 20%. При разделянето взехме предвид, че всички снимки с определен генотип винаги се появяват в подпроба. Тази схема за валидиране беше използвана за всички обучени модели.

Опитайте класическите CV и ML методи

Първият подход, който използвахме за решаване на проблема, се основава на съществуващия алгоритъм, който разработихме по-рано. Алгоритъмът позволява да се извлече фиксиран набор от различни количествени характеристики от всяко изображение. Например дължината на ухото, площта на хребетите и т.н. За подробно описание на алгоритъма вижте Genaev et al., Morphometry of the Wheat Spike by Analysing 2D Images, 2019. Използвайки този алгоритъм и методи за машинно обучение, ние сме обучили няколко модела за предсказване на видовете плоидия.

Използвахме методи за логистична регресия, случайни гори и армиране на градиенти. Данните са предварително нормализирани. Избрахме AUC като мярка за точност .

Метод	Влак	Валидно	Устойчив
Логистична регресия	0,77	0,70	0,72
Случайна гора	1.00	0,83	0,82
Бустер	0,99	0,83	0,85

Най-добрата точност на забавеното вземане на проби беше показана чрез метода на градиентно усилване; използвахме внедряването на CatBoost.

Интерпретирайте резултатите

За всеки модел получихме оценка на „важността“ на всяка черта. В резултат на това получихме списък с всички наши функции, сортирани по важност и избрани първите 10 характеристики: площ на острието, индекс на закръгленост, закръгленост, периметър, дължина на стъблото, xu2, L, xb2, yu2, ybm. (описание на всяка функция можете да намерите тук).