hadoop组件按服务对象和功能可以划分为数据来源层、数据计算层、业务模型层等。
1、数据来源层
数据来源层是数据的存储与管理是数据仓库的核心。数据来源层针对现有业务系统的数据进行抽取,清洗,并有效集成,按照主题进行组织。数据来源层按照覆盖范围可以分为部门级数据仓库与企业级数据仓库。
2、数据计算层
数据计算层是一种基于磁盘的分布式并行批处理计算模型,用于处理大数据量的计算。其中Map对应数据集上的元素进行指定的操作,生成键值对形式中间,Reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。
3、业务模型层
业务模型层是一种基于内存的分布式并行计算框架,中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此业务模型层能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
hadoop的特点介绍
1、高可靠性
hadoop底层维持多个副本,即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失。
2、高拓展性
hadoop在集群间分配任务数据,可方便地拓展数以千计的节点。
3、高效性
在MapReduce的思想下,hadoop可以并行工作,以加快任务处理速度。
4、高容错性
hadoop能够自动将失败的任务重新分配。
5、低成本
hadoop可以运行在廉价的机器上。但是不能实现数据的随机修改,只能实现数据的追加。
6、高容错性
如果一个子任务速度过慢或者任务失败hadoop会有响应策略会自动重试跟任务分配。
以上内容参考:百度百科-hadoop
Copyright © 2019- baijiahaobaidu.com 版权所有 湘ICP备2023023988号-9
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务