Съвпадението между времето за големи данни r инфраструктура; el Spark печели

През последните десет години или повече, три рамки с отворен код от движението Hadoop предлагат да обработват потоци от данни в реално време. Наляво на същата начална линия, къде са те днес ?

По отношение на големите данни, определен брой случаи на употреба не са удовлетворени от обработката на данни в партиди (или партида). Борбата с измамите, киберсигурността, откриването на аномалии в индустриалното производство, мониторингът на пътния трафик или препоръките на продукти на сайт за електронна търговия изискват обработка на потоци от данни в реално време, за да се получат резултати почти веднага. За да отговорят на този проблем, три рамки с отворен код, специализирани в поточно предаване на данни, се появиха в началото на 2010 г. в галактиката на предложенията на Hadoop. Или, по реда на външния вид, Spark, Flink и Storm. Към това трио можем да добавим Kafka Streams, което придава стрийминг измерение на Kafka, рамка, посветена на обработката на събития. Всички се предлагат под лиценза Apache.

Първоначално тези рамки отговарят на две различни философии. Flink и Storm извършват обработка в реално време - в реално време - докато Spark работи на микропартиди, за да обработва и дава резултати на всеки X милисекунди, за да се приближи до реалното време.

Сравнение на инфраструктурите за големи данни в реално време Apache Storm Apache Spark Apache Flink година на създаване Произход Същност на обработката Поддържани езици Дистрибутори на Hadoop, интегриращи рамката Издателски партньорства Търговски редактор Управлявана услуга в облачен режим Препратки

2011 г.	2009 г.	2010 г.
Twitter	UC Бъркли	Университет в Берлин
Обработка на събития	Микропартиди	Обработка в реално време
Clojure, Java	Java, Python, R, Scala	Java, Python, Scala
-	Cloudera, Hortonworks и MapR	-
-	Talend, Dataiku	Talend
-	Databricks	Занаятчии на данни (придобити от Alibaba)
Apache Storm на Azure HDInsight	Apache Spark на Amazon EMR, Spark на Azure HDInsight, Cloud Dataproc от Google Cloud (Spark + Hadoop)	Apache Flink на Amazon EMR
Yahoo!, Twitter, Spotify, Groupon.	Uber, ING, Criteo, Zalando.	Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom.

Според Кристоф Парагео, старши експерт по данни и архитектура на Java в Ippon Technologies, „трябва да се вземат предвид и други критерии за подбор, като зрялостта на рамката, нейната популярност в общността на разработчиците или дори подкрепата на решението от търговски редактор. Толкова много гаранции за устойчивост и мащабируемост. "

Spark, най-популярният

По отношение на популярността, Spark изпревари своята конкуренция. За да се убедите в това, просто трябва да видите броя на заявките, свързани с рамката в Google Trends. Рамката, проектирана в престижния AMPLab на Калифорнийския университет в Бъркли, всъщност има всичко, което да хареса на хартия. Кой беше основният му недостатък (обработка на данни в микро-партиден режим, а не в поток) беше преодолян преди две години с пускането на неговата версия 2.0. За случая новата функция Spark Streaming въведе, както подсказва името му, управлението на поточно предаване на данни. От тази версия Spark също взаимодейства с TensorFlow, за да интегрира измерението за дълбоко обучение. „Ненадминат плюс“, според Разван Бизой, независим консултант по архитектура на база данни и обучител в института Orsys.