Съвпадението между времето за големи данни r инфраструктура; el Spark печели

По отношение на големите данни, определен брой случаи на употреба не са удовлетворени от обработката на данни в партиди (или партида). Борбата с измамите, киберсигурността, откриването на аномалии в индустриалното производство, мониторингът на пътния трафик или препоръките на продукти на сайт за електронна търговия изискват обработка на потоци от данни в реално време, за да се получат резултати почти веднага. За да отговорят на този проблем, три рамки с отворен код, специализирани в поточно предаване на данни, се появиха в началото на 2010 г. в галактиката на предложенията на Hadoop. Или, по реда на външния вид, Spark, Flink и Storm. Към това трио можем да добавим Kafka Streams, което придава стрийминг измерение на Kafka, рамка, посветена на обработката на събития. Всички се предлагат под лиценза Apache.
Първоначално тези рамки отговарят на две различни философии. Flink и Storm извършват обработка в реално време - в реално време - докато Spark работи на микропартиди, за да обработва и дава резултати на всеки X милисекунди, за да се приближи до реалното време.
| 2011 г. | 2009 г. | 2010 г. |
| UC Бъркли | Университет в Берлин | |
| Обработка на събития | Микропартиди | Обработка в реално време |
| Clojure, Java | Java, Python, R, Scala | Java, Python, Scala |
| - | Cloudera, Hortonworks и MapR | - |
| - | Talend, Dataiku | Talend |
| - | Databricks | Занаятчии на данни (придобити от Alibaba) |
| Apache Storm на Azure HDInsight | Apache Spark на Amazon EMR, Spark на Azure HDInsight, Cloud Dataproc от Google Cloud (Spark + Hadoop) | Apache Flink на Amazon EMR |
| Yahoo!, Twitter, Spotify, Groupon. | Uber, ING, Criteo, Zalando. | Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom. |
Според Кристоф Парагео, старши експерт по данни и архитектура на Java в Ippon Technologies, „трябва да се вземат предвид и други критерии за подбор, като зрялостта на рамката, нейната популярност в общността на разработчиците или дори подкрепата на решението от търговски редактор. Толкова много гаранции за устойчивост и мащабируемост. "
Spark, най-популярният
По отношение на популярността, Spark изпревари своята конкуренция. За да се убедите в това, просто трябва да видите броя на заявките, свързани с рамката в Google Trends. Рамката, проектирана в престижния AMPLab на Калифорнийския университет в Бъркли, всъщност има всичко, което да хареса на хартия. Кой беше основният му недостатък (обработка на данни в микро-партиден режим, а не в поток) беше преодолян преди две години с пускането на неговата версия 2.0. За случая новата функция Spark Streaming въведе, както подсказва името му, управлението на поточно предаване на данни. От тази версия Spark също взаимодейства с TensorFlow, за да интегрира измерението за дълбоко обучение. „Ненадминат плюс“, според Разван Бизой, независим консултант по архитектура на база данни и обучител в института Orsys.