TSM - Как; разбираме отзивите на клиенти на хотели

Майкъл Матушек - ръководител на екипа на науката за данни @ TrustYou

Представете си, че искате да пътувате до райска почивка и искате да сте сигурни, че хотелът, който изберете, предлага безопасен детски басейн, добра закуска и чисти стаи, въпреки ниската цена на уебсайта. резервации. Може да сте открили някои отзиви, които са или добри, или лоши, но може би някои от тях не са били много полезни или не са свързани с това, което ви интересува. Със сигурност нямате време да преминете през топ 100 отзива, само за да видите дали това, което сте открили, са нещастни изключения или капани за маркетинг на портални резервации.

Не би ли било чудесно някой да ви даде обобщение на това, което мислят клиентите, вместо да направите сами всички изследвания? Не трябва ли мениджърите на хотели да знаят какво оценяват повечето клиенти в сравнение с други места? Какво прави клиентите нещастни?

В TrustYou ние предлагаме точно този тип информация, като услуга за хотели или хотелски вериги. Ние събираме всички отзиви на клиенти от стотици хиляди хотели по света като терабайта данни, след което ги анализираме и оценяваме автоматично, за да видим какво е доброто и специалността на всеки хотел и да позволим на хотелиерите да разберат какво могат да подобрят, за да предоставят услуги. по-добре своите клиенти.

Нашите екипи за разработка в Мюнхен, Клуж и Мадрид са отговорни за различни аспекти на обработката на данни и прилагат уеб инструменти за хотелиери за достъп и разбиране на работата на техния хотел.

Обхождане - откриваме какво пишат клиентите

Целият процес започва в Интернет. Там пишете мнения за портали за резервации, сайтове със специални рецензии, социални медии, сайтове на хотели и много други.

Всички тези източници имат различни нива на доверие. Що се отнася до социалните медии, всеки може да публикува почти всичко. Хотелските сайтове обикновено имат модератори, които се стремят към изчистен език и добра презентация. Сайтовете за прегледи могат или не могат да открият измамни отзиви, издадени от злонамерен хотел на съседите ви, и могат да го правят с различна степен на усилия и успех. От друга страна, порталите за резервации могат да определят съвсем ясно дали рецензентът наистина е резервирал стая, но тези портали са ограничени до действителни потребители и техните търговски интереси при продажбата на възможно най-много нощи влияят върху начина, по който филтрират и представя своите рецензии.

Въпреки тези неща, всички тези източници предоставят необходимите части от пъзела, за да разберат пълната гама от мнения, които хората имат за това къде са прекарали ваканцията или престоя си в бизнеса. Хората предпочитат различни места, за да оставят мненията си по причини, които се различават от личните предпочитания, до стимула, който получават от определен портал след престоя им, до техническия опит, необходим за разбиране и използване на среда с вярно. Само цялостното изображение, което отчита всички източници, може да доведе до цялостно разбиране на представянето и спецификата на даден хотел.

Някои може да кажат, че обхождането е проблем в наши дни. Тъй като повечето уебсайтове полагат огромни усилия, за да направят съдържанието им лесно достъпно в Google, съществува схващането, че обхождането не би трябвало да е трудно. Но не всеки е Google. Порталите за резервации и хотелските групи имат всички основания да споделят своите данни с компании като TrustYou, но други уебсайтове са много по-взискателни при разрешаването на опити за обхождане. Следователно обхождането на съдържание е огромно пространство за маневриране за бизнес партньорски бизнеси, които споделят своите данни чрез специализирани, структурирани уеб API и произволни уебсайтове, които ограничават достъпа на HTML робота.

Що се отнася до синтактичния анализ на HTML страници, не всички уебсайтове улесняват извличането на съдържание. Някои са много добри в предоставянето на семантични метаданни и маркиране, позволявайки лесен достъп до интересуващо съдържание. Други са пълен хаос на HTML, чиято структура непрекъснато се променя поради A/B тестове, насочени към потребителите.

Всички тези проблеми налагат използването на голяма ферма от обекти на обхождане, за да се справят с големия брой източници и ограничения. Нуждаем се от бърз и надежден инструмент за синтактичен анализ на HTML, който улеснява бързото дефиниране и адаптиране на правилата за извличане, както и солиден процес на почистване и дедупликация, който улавя незначителни, но чести вариации на представянето на един и същ преглед на различни места във времето. Езикът за програмиране Python и lxml инструментариумът ни помогнаха да сме в крак с това постоянно променящо се поле на изисквания/спецификации. Посещавайки милиони уебсайтове всеки ден, ние можем да събираме постоянен поток от милиони нови отзиви седмично.

Семантичен анализ - разбираме мненията

След като отзивите са извлечени и почистени, те се обработват от нашия механизъм за семантичен анализ, който е написан изцяло на Python и е базиран на безплатната библиотека NLTK (Natural Language Toolkit). Натоварването се разпределя на клъстер Hadoop със стотици възли, които отговарят на нашите нужди от обработка.

Основната цел е да се направи анализ на чувствата, но не само на ниво документ (за да може да се реши дали прегледът е отрицателен или положителен), но и на ниво обект. Следователно не можем просто да сканираме изрази, които обозначават чувства, като например „добри“ или „лоши“, и да ги изчислим количествено. Напротив, ние се опитваме да идентифицираме интересите, за които хората пишат в рецензии (стаи, легла, закуска, услуги и т.н.) и да идентифицираме думите или изразите, свързани с тези обекти, които се отнасят до чувства. Един прост пример би бил „[стаята] беше много [чиста]“, което води до положителна асоциация, но изреченията и изразите могат да бъдат произволно сложни или двусмислени в зависимост от контекста. Например „[стая] [малка]“ е отрицателен коментар, но „[цена] [малка]“ не е - затова за максимална точност използваме внимателно подбрани естествени граматики, йерархично организирани граматики и лексикално ориентиран стил и терминология отзиви за хотели.

По този начин можем да покрием над 20 езика, като повечето достигат точност от над 90%. По този начин можем да създадем правилен и детайлен образ на приятните и неприятни аспекти, свързани с определено място, като в същото време успяваме да издаваме общи ценностни преценки, като докладваме на йерархията. Например, ако хората се оплакват, че има душ под душа, можем да добавим, че има проблем с чистотата на стаята. Поради тази висока степен на точност и покритие, ние предлагаме безценна услуга на мениджърите на хотели, които искат да знаят бързо какво се случва и какво трябва да се промени, за да се подобри удовлетвореността на клиентите.

Класификация на хотели

Отвъд повече или по-малко положителните аспекти на хотела, като например размера и чистотата на стаята, има характеристики на хотел, които могат да представляват интерес само за някои пътници. Да приемем например, че искате да прекарате романтичен уикенд с партньора си - ще искате да потърсите хотел, различен от семейството с малки деца. Като алтернатива, някои от вас биха искали да потърсят специфична функция за хотел, като казино, уелнес център или гледка към езерото.

За да помогнем на пътниците с техните решения, ние предлагаме на всеки хотел значки за заслуги, които посочват хотелите с най-добрите уелнес услуги, най-романтичните, най-подходящите за семейства, въз основа на рейтингите на клиентите. За целта първият въпрос, на който трябва да отговорим, е дали хотелът е от определен тип или не, т.е. трябва да класифицираме хотелите.

Класификацията е основен въпрос за машинното обучение. Алгоритмите за машинно обучение обаче могат да се прилагат на ниво бройни вектори, докато ние се справяме с текста (съдържанието на отзивите за хотели). Как можем да представим текст под формата на числов вектор?

Има няколко подхода към това, всеки с предимства и ограничения. Един прост, но много ефективен подход е TF-IDF, съкратено от Term Frequency - Inverse Document Frequency. Резултатът от TF-IDF на термин в документ е стойност, която показва колко "важен" е терминът за конкретен документ в сравнение с колекция от други документи (или корпуси). Например, ако нашият корпус е колекция от отзиви за хотели, може да очакваме думи като „стая“ или „рецепция“ да имат висока честота в корпуса. Но ако думите „казино“ или „чип машини“ се появяват с неочаквано висока честота за определен хотел (но не и за други), можем да научим важни неща за хотела.

Други методи, използвани за представяне на текст чрез вектори, са така наречените word2vec вложения. Основната идея е да се вземе предвид контекстът, в който се появява дадена дума, като "контекст" означава елемента в документа, който е непосредствено преди или след думата. Синоними като „умен“ или „умен“ ще се появят в подобен контекст (например, последван от думи като „човек“, „момче“ или „момиче“). Векторите, произтичащи от вграждането на word2vec, са близо един до друг, когато се появяват в сходен контекст и могат да уловят връзката между термини: синоними, антоними или аналогии. Типичен пример е уравнението "цар" - "мъж" + "жена" = "кралица".

Мета рецензии - извличаме есенцията

Целта на всички тези стъпки е да предостави на клиентите бърз, точен и кратък преглед на хотел. Ние извличаме същността в така нареченото Meta Review (Meta Review), обобщение на рецензии, но повече от това.

От семантичния анализ на отзивите получаваме не само най-честите оплаквания и похвали, които клиентите отправят към хотела, но откриваме и интересни подробности, които се открояват. Въз основа на този статистически подход, нашият механизъм за генериране на естествен език (NLG) създава плавен, лесен за четене текст, който е най-важната характеристика на всички рецензии, които сме прегледали - истински „мета“ преглед. Освен това, тъй като ние създаваме неекстрактивно обобщение на представянето на тип знание/разбиране, което е независимо от езика (т.е. не използваме изречения от реални рецензии), NLG лесно се адаптира към различни естествени езици на продукцията, докато събира рецензии на всички рецензии, на всички езици, които анализираме семантично. С други думи, дори ако отидете в хотел, който има отзиви само на японски, можете да се възползвате от мета рецензията на английски, испански или други езици, за да разберете дали местните смятат хотела за добър.

От данни към знания

След като суровите текстови данни бъдат обработени в структурирана информация, много може да се направи с тях. Например хотелите могат да използват информацията, за да разберат подробно работата си и да предприемат действия по жалби на клиенти, независимо дали са недоброжелателен персонал на рецепцията, неподредени басейни или липса на тоалетна хартия в стаите. Положителното е, че хотелиерите могат да разберат какво ги прави специални в сравнение с други хотели, за да могат да се съсредоточат върху най-подходящия сегмент от клиентите.

От друга страна, сайтовете за резервации могат да използват предоставената от нас информация, за да валидират и подобрят представянето на хотела, така че препоръките и специалните предложения да достигат по-лесно до заинтересованите.