Големи данни Времето дойде ”- GULP

Интервю със Сергей Рисев, ръководител на разработка на софтуер и системна администрация в GULP

GULP не само обединява експерти и компании, но и сам наема разработчици на софтуер. Нейните задачи включват поддръжката и по-нататъшното развитие на технологията зад около 90 000 профила на свободна практика, над 200 000 запитвания за проекти годишно и всеки хиляда предложения за работа и проект ежедневно. Сергей Рисев, ръководител на разработка на софтуер и системна администрация в GULP, и неговият екип подкрепят вътрешни колеги в GULP при намирането на подходящите експерти в този огромен масив от данни и привеждането им заедно с компанията по прецизно пригоден начин. За нашата поредица от големи данни го помолихме за оценка на текущото състояние на развитие и въпроса какво трябва да донесе специалистът по големи данни.

GULP: Как оценявате текущото развитие на големи данни в момента?

Сергей Рисев: Количеството данни експлодира в най-разнообразните области на живота ни: безброй данни от сензори в нашите автомобили, транзакции на клиенти, информация за покупки с карти за отстъпки, преместване на данни от нашите смартфони и много други. Обществото произвежда все повече и повече данни, така че вече не може да бъде оценено с класически методи, дори с най-добрата база данни на Oracle.

Основните концепции за работа с големи данни са известни отдавна, но досега просто липсваха техническите условия за прилагане на теорията на практика. През последните няколко години технологиите за съхранение и изчисления направиха гигантски скок и станаха по-евтини, така че това е на път да се промени.

Големите ИТ компании като Google, IBM и Amazon Web Services са свършили важна новаторска работа тук. Те все повече извеждат на пазара „странични продукти“ от собствените си разработки, които правят големите данни все по-подходящи за масите. Примери са Amazon Machine Learning, IBM Watson или Lex от Amazon, които предоставят основните функции на Alexa за собствените си приложения.

Често цитираното изречение е: „Данните са новото масло.“ И точно това е: Данните са основата за много приложения. Въпреки това самият суров петрол все още има сравнително малка полза; той трябва да бъде преработен, преди да може да се използва като гориво или пластмаса например. Независимо от това: Който притежава данните или маслото, има решаващо предимство. Те взимат по-бързи и по-добри решения в сравнение с тези, които не го правят. Например, той знае по-добре какво се отнася до клиентите и къде могат да бъдат намерени потенциални клиенти.

GULP: Каква е разликата между проект за големи данни и нормален ИТ проект?

Сергей Рисев: Особено когато проектите за големи данни се създават от нулата, те имат по-изследователски характер, тъй като все още няма толкова много доказани методи и подходи. Знаете дори по-малко от традиционните проекти какво да очаквате и какъв ще бъде крайният резултат.

Точка, която не бива да се пренебрегва, е темата: От кого идват данните, кой отговаря за данните и как могат да бъдат контролирани и предадени на членовете на проектния екип със съответните права за достъп? Ключът тук е не само да създадете технически подходящи интерфейси, но и да привлечете всички на борда.

GULP: Какво трябва да носят експертите за големи данни със себе си?

Сергей Рисев: Много опит и интуиция. Те трябва да могат да преценят дали могат да черпят ценна или подходяща информация от наличните данни. Или, ако случаят не е такъв, като „геолог“, когато търси нефт - на технически жаргон: „брокер на данни“. Те знаят къде се намират данните от интерес, както вътрешно, така и външно, напр. във Федералната статистическа служба, Евростат и др. И те знаят кои данни са от значение. Експертите за големи данни също се нуждаят от определен дух на изследване с всички свързани характеристики: любопитство, желание за учене, упоритост и постоянство.

И от чисто техническа гледна точка: ТЕХНОЛОГИЯТА за големи данни не съществува, защото има много различни подходи за реализиране на проекти за големи данни. Езици като Python и R, както и системи за бази данни noSQL около Hadoop като Cassandra, HBase или MongoDB са особено важни. Тези, които се интересуват от големи данни, също трябва да потърсят инструменти за SQL заявки за клъстери Hadoop, например Hive, Impala или Phoenix. (Забележка на редактора: Ще се справим с уменията за големи данни в отделна статия.)