Член Воков

Материал от MachineLearning.

Съдържание

държавен университет

Един от идеолозите и администраторите на ресурси MachineLearning.RU.

Допълнителни подробности - на подстраницата Автобиография.

Образователни материали

Лекционни курсове

  • Машинно обучение - едногодишен курс, катедра "Интелигентни системи" FUPMMIPT и катедра MMPVMK Московски държавен университет.
  • Математически методи за анализ на текст - семестриален курс, катедра "Интелигентни системи" FUPMMIPT
  • Вероятностни тематични модели - семестриален специален курс, департамент на Московския държавен университет.
  • Теория за надеждността на преподаването с помощта на прецеденти - специален курс, катедра MMPVMK, Московски държавен университет.
  • Приложен статистически анализ на данни - едносеместриален курс, департамент на Московския държавен университет, Московския държавен университет; алтернативен семестриален курс, FUPMMFTI.

Препоръки за студенти и студенти

Всеки студент, с когото започваме съвместна научна работа, трябва внимателно да прочете и разбере:

Други учебни материали:

Презентации на конференции и семинари

Научни интереси

Анализ на текст и извличане на информация

Основни направления на научноизследователска и развойна дейност

  • йерархичен тематичен модел на научно и научнопопулярно съдържание;
  • тематично проучвателно търсене на информация;
  • класификация и динамично тематизиране на новинарски потоци;
  • класификация и анализ на сценарии на записи в кол център;
  • тематично групиране на прегледи на клиенти или анкети на персонала;
  • модели на символна динамика за информационен анализ на електрокардиосигнали;
  • идентифициране на модели на потребителско поведение на клиентите при банкови транзакции;
  • идентифициране на видове икономически дейности на компании за банкови транзакции;

  • анализ на текст, извличане на информация, извличане на ключови фрази, моделиране на теми, вероятностен латентен семантичен анализ (PLSA), латентно разпределение на Дирихле (LDA), вземане на проби от Гибс, категоризация на документи, учене за класиране, тенденции в изследванията, изследователски фронт.

Материали и задачи

Диагностика на заболявания чрез ЕКГ

Всички знаят, че електрокардиограмата може да се използва за диагностика на сърдечно-съдови заболявания. Професор d.m.s. VM Uspensky предложи нов диагностичен метод, който позволява диагностика на широк спектър от заболявания на вътрешните органи чрез ЕКГ. Много заболявания засягат работата на сърцето много преди появата на клинични симптоми, което прави възможно използването на ЕКГ за ранна диагностика. За 15 години приложение на тази технология е натрупана обучителна извадка за двадесет хиляди пациенти и няколко десетки заболявания. Изчислителните експерименти потвърждават, че диагностицирането на широк спектър от заболявания от една ЕКГ с помощта на методи за машинно обучение може да постигне невероятна точност. Нашата научна група се ангажира с цялостно статистическо изследване на този диагностичен метод и разработване на нови принципи за анализ на взети проби биомедицински сигнали. По-специално, важна област е използването на тематично моделиране и методи на изчислителна лингвистика. Всъщност говорим за търсене на оптимална реконструкция (възстановяване на синтаксиса и семантиката) на езика, генериран от най-сложните физиологични процеси, протичащи в човешкото тяло, и в същото време носещи значителна диагностична информация за състоянието на човека здраве.

Основни направления на научноизследователска и развойна дейност:

  • търсене на по-ефективни методи за вземане на проби от ЕКГ сигнали;
  • изграждане на диагностични стандарти на заболявания с използване на методи за тематично моделиране;
  • разработване на диагностични модели за специфични заболявания;
  • разработване на специални методи за избор на характеристики, задълбочено обучение, класификация в няколко класа;
  • проучване за преквалификация на диагностични модели.

Архивът съдържа файлове за 1 заболяване, набор за обучение с класификации, набор от тестове без класификации, read.me с условие на задача.

Други материали и задачи

Архивът съдържа файлове за 5 заболявания, като за всяка болест има два файла: файлове с буквата "Е" в името - референтни проби с надеждно проверени диагнози, които се предполага, че ще се използват за обучение; файлове без буквата "E" са контролни проби. Можете да използвате само справка, можете да опитате да ги смесите. Във всеки файл първата колона съдържа етикетите на класовете (0-здрав, 1-болен), следващите 216 колони са стойностите на признаците.

Обобщаваща теория на способностите

Проблемът с обобщаващите способности е ключов и същевременно най-труден в машинното обучение. Дори е обособена като отделна дисциплина - теорията на компютърното обучение. Ако алгоритъмът за възстановяване на някаква неизвестна зависимост се изгражда на базата на краен набор от прецеденти за обучение, тогава как да се предскаже качеството на работата му върху контролен набор, състоящ се от нови прецеденти? Защо това е възможно? Как да обучим алгоритъм, така че рядко да прави грешки при нови данни?

Активно проучване на тези проблеми започва в края на 60-те години, когато В. Н. Вапник и А. Я. Червоненкис предлагат статистическа теория за възстановяване на зависимости от емпирични данни (теория на ВК) и получават горни граници за вероятността от грешка на обучен алгоритъм (VC- граници). Тези оценки направиха възможно обосноваването на отдавна отбелязан емпиричен факт: с увеличаването на сложността на семейството от използвани алгоритми качеството на обучението първо се подобрява, а след това започва да се влошава. Влошаването се дължи на ефекта на пренастройване. Ако алгоритъмът има прекомерен брой параметри („степени на свобода“), тогава той може да се настрои твърде точно към конкретна тренировъчна извадка в ущърб на качеството на възстановяване на зависимостта като цяло. В теорията на Vapnik-Chervonenkis е разработен метод за минимизиране на структурния риск (SMR), който дава възможност автоматично да се намери модел на оптимална сложност. За съжаление оценките на вероятността за грешка са изключително надценени (предпазливи, песимистични), което може да доведе до опростяване на модела в метода CMP. Въпреки 40-годишните усилия на много учени и значителното усложнение на математическия апарат, все още не са получени точни оценки.