欢迎访问西安大中科技学校网站! 加入收藏 | 学校信箱

就业信息

您的当前位置:首页 > 招生就业 > 就业信息 > 详细内容

大数据生态圈到底是什么?

作者: 文章来源: 更新时间:2017-08-24
      在每个行业都有它的商圈领域,现如今比较火的大数据也是如此,大数据范围比较广泛,应用在生活的各方面,那么大数据生态圈到底是什么?
   
      大数据这个概念本身就太大而且太宽,如果一定要严格定义是非常困难的一件事,不过Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的——一般而言,这种数据依赖单机很难完成。
大数据,首先你要能存的下大数据。
      对传统的单机文件系统来说,横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem),你可以通过横跨上千甚至上万台机器来完成大量数据得存储,同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者,你完全不用去计较文件具体存储的位置,这个文件系统会为你搞定一切。

      在大量机器处理过程中,必须处理一些事务:任务分配、紧急情况处理、信息互通等等,这时候必须引入MapReduce / Tez / Spark 。这其中,前者可以成为计算引擎的第一代产品,后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计,可以说只用了两个计算的处理过程,但是这个工具已经足够应付大部分的大数据工作了。