Надценен AI, алгоритмите всъщност са по-добрите медицински специалисти

В миналото многократно се е създавало впечатлението, че изкуственият интелект може да открива заболявания също толкова добре, колкото опитен лекар - ако не и по-добре. Заглавия като "Google казва, че изкуственият интелект може да открие рак на белия дроб година преди лекаря" несъмнено предизвиква големи очаквания. Това обикновено включва оценка на файлове с цифрови изображения с помощта на алгоритми за задълбочено обучение или опитен медицински специалист, например при диагностициране на рак на белия дроб или кожата или при диагностициране на различни етапи на слепота. Мюра Нагендран от Imperial College в Лондон и колегите му поставят под въпрос в „British Medical Journal“ дали качеството на публикуваните досега изследвания всъщност е достатъчно, за да покаже, че тестваните алгоритми са наравно с лекарите.

Авторите на статията, която включва видни фигури като Ерик Топол от Изследователския транслационен институт на Скрипс и Джон Йоанидис от Станфордския университет, критикуват факта, че повечето от изследванията, които са оценили, са с лошо научно качество и непрозрачни. Те не поставят под въпрос фундаментално потенциала на изкуствения интелект и не искат да забавят развитието му, но изискват изследванията, които трябва да докажат диагностичната точност на алгоритмите, да се извършват съгласно високи научни стандарти и единни правила. Изследванията с малко доказателства излагат безопасността на пациентите на риск, казват авторите.

Архитектурата на мрежите за дълбоко обучение се основава на невронните мрежи на човешкия мозък. За разпознаване на изображения се използват главно невронни конволюционни мрежи, така наречените конволюционни невронни мрежи. Те автоматично извличат модели от набор от данни за изображения, например въз основа на белодробна или първична диагноза рак. В процеса те научават модели, които вероятно се свързват с рак на белия дроб или кожата, без потребителят да трябва да прави каквото и да било. След това мрежите класифицират независимо всяко ново изображение, като свързват научените модели с обученото задание за рак на белия дроб или кожата. Досега обаче най-вече не беше възможно да се разбере как е взето съответното решение, тъй като мрежите извършват своята класификация без външно влияние. Следователно никой не знае кои модели са били използвани за вземане на решение на мрежата и дали опитен лекар ще действа по съвсем различен начин или ще използва подобни модели като алгоритъма за дълбоко обучение. Следователно невронната конволюционна мрежа е черна кутия. Можем само да преценим решението, а не как е възникнало.

Отрезвяващи резултати от изследването

Сега Нагендран и неговите колеги са изследвали колко високо е качеството на изследванията, публикувани през последните десет години, и колко основани на доказателства са техните заключения. Анализът беше отрезвяващ. Учените установиха, че между 2010 и 2019 г. са публикувани само две висококачествени рандомизирани клинични проучвания, и двете през изминалата година. И двете са произведени в Китай. В момента продължават осем рандомизирани проучвания, включително едно в САЩ. Независимо от това, 16 алгоритми за задълбочено обучение за оценка на медицински данни за изображения вече са одобрени от Американската администрация по храните и лекарствата.

Рандомизираните клинични изпитвания са най-добрият начин за сравнение на два подхода. В двете рандомизирани проучвания, публикувани до момента, опитните лекари в едната група са взели собствени решения, а в другата група са били подкрепени от алгоритъма. От 81 нерандомизирани проучвания, които отговарят на критериите за включване, само девет проучвания имат перспективен дизайн. В такива проучвания не се формират и сравняват групи, а по-скоро се събират и оценяват данни по конкретен въпрос с течение на времето. Само шест от тези проспективни проучвания обаче се проведоха при ежедневни клинични условия и по този начин имаха потенциал да кажат нещо за диагностичното качество на тестваните алгоритми при рутинни условия. 58 от 81 проучвания са силно пристрастни. Те са имали по-лош дизайн на проучването или са се отклонявали от признатите стандарти.

Преувеличени претенции

Независимо от това, общо 61 проучвания стигнаха до заключението, че производителността на алгоритмите е сравнима или дори по-добра от работата на опитните лекари. Само в 31 проучвания директорите на проучванията са били толкова самокритични, че са поискали допълнителни проучвания, за да потвърдят своите констатации, когато обобщават или обсъждат резултатите си. Нагендран и колегите му също се оплакват, че средно само четирима опитни лекари са участвали в проучванията. С оглед на факта, че дори опитните лекари имат различни нива на умения, групата трябва да бъде по-голяма, за да се потвърди статистически резултатът. В много малко проучвания беше възможен достъп до суровите данни и кода. Това означава, че алгоритъмът не може да бъде проверен от други специалисти.

Авторите обаче също са самокритични към собственото си изследване и посочват неговите слабости. Например не можете да изключите, че сте пропуснали съответните изследвания. Вие се съсредоточихте върху разпознаването на изображения чрез дълбоко обучение. Обвинението ви, че много изследвания не са с необходимото качество, може да бъде различно в други области, в които изкуственият интелект се използва в медицината. Нагендран и неговите колеги стигат до извода от техния анализ, че много от предишните твърдения са преувеличени. Те дори виждат това като потенциален риск за здравето на пациентите и предупреждават да не се използват преувеличени формулировки, за да се направят проучвания склонни към погрешни тълкувания и да се предизвика неподходяща реклама. Полето се нуждае от висококачествена и прозрачна база данни - всичко друго не служи на пациента.