欢迎访问西安大中科技技工学校网站! 加入收藏 | 学校信箱

招生信息

您的当前位置:首页 > 招生就业 > 招生信息 > 详细内容

六大主流大数据采集平台架构分析

作者: 文章来源: 更新时间:2017-08-11
      近几年随着网络信息技术不断发展,大数据越来越被重视,数据采集的挑战变的尤为突出。关于大数据采集需要好的平台来操作完成,今天小编为大家介绍几款数据采集平台,任何完整的大数据平台,一般包括以下的几个过程:数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)。
                                                             

      其中,数据采集是所有数据系统必不可少的,这其中包括:数据源多种多样、数据量大、变化快、如何保证数据采集的可靠性的性能?如何避免重复数据?如何保证数据的质量?我们今天就来看看当前可用的六款数据采集的产品,重点关注它们是如何做到高可靠,高性能和高扩展。

1、Apache Flume
      Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境Flume最初是由Cloudera的工程师设计用于合并日志数据的系统,后来逐渐发展用于处理流数据事件。

2、Fluentd
      Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。

3、Logstash
      Logstash是著名的开源数据栈ELK (ElasticSearch, Logstash, Kibana)中的那个L。
      Logstash用JRuby开发,所有运行时依赖JVM。
      Logstash的部署架构如下图,当然这只是一种部署的选项。

4、Chukwa
      Chukwa基于Hadoop的HDFS和Map Reduce来构建(显而易见,它用Java来实现),提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。很奇怪的是它的上一次 github的更新事7年前。可见该项目应该已经不活跃了。

5、Scribe
      Scribe是Facebook开发的数据(日志)收集系统。已经多年不维护,同样的,就不多说了。

6、Splunk Forwarder
      以上的所有系统都是开源的。在商业化的大数据平台产品中,Splunk提供完整的数据采集,数据存储,数据分析和处理,以及数据展现的能力。