大数据基础组件-摩杜云开发者社区

HBASE

HBase Hadoop database 的简称，也就是基于Hadoop列数据库，是一种OLTP 数据库nosql ，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等

Sqoop

sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)：

1、将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase

2、将数据从Hadoop 系统里抽取并导出到关系型数据库

ETL

英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库

数据仓库

Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合，为数据分析性报告和决策支持、数据智能应用而创建，按照数据时效可分为实时数仓和离线数仓。通常数仓解决方案是基于Hadoop组件构建。

消息队列

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削峰等问题。目前在生产环境，使用较多的消息队列有Kafka、MetaMQ、RocketMQ、Turbo Mq等。

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

场景四、数据加工处理完成后，会进行SQL查询、拖拽分析或可视化应用，这一过程主要是基于Hadoop生态各个组件构建的大数据解决方案来实现。

Hadoop

Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，是最常用的大数据软件架构，由一系列组件搭建而成。其核心部件是HDFS与MapReduce。

HDFS

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，是大数文件存储工具。

MapReduce

MapReduce是面向大数据并行处理的计算模型、框架和平台,是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。是利用SQL语句查询存储在HDFS文件系统上的计算查询引擎，可以处理超大数据量，缺点是执行map和reduce过程性能会比较慢。

Hive

Hive是基于Hadoop构建的数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在HDFS中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL.适合离线的批量数据计算

Spark

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。和Hadoop MapReduce类似的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。换句话说，Spark 启用了内存分布数据集，内存计算下，Spark 比 Hadoop 快100倍。

Presto

Presto是由 Facebook 推出的一个基于Java开发的开源分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询。

Kudu

KUDU 是一个列式存储的存储引擎, kudu是一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐，以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统中的地位非常相似,是实时数仓建设的常用组件。

YARN

Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。是 Hadoop 2.0 版本以后的资源管理器，即 MapReduce 2.0，相比于 1.0 版本，架构中的各个模块分工明确，在性能和稳定性上都有所提升。YARN 负责整个集群资源的管理和调度，也就是说所有的 MapReduce 都需要通过它来进行调度，支持多种计算框架。

ZooKeeper

ZooKeeper是一个分布式的应用程序协调服务，是Hadoop和Hbase的重要组件。提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

Clickhouse

ClickHouse开源列式数据库，主要用于数据分析（OLAP）领域，可以支持任意指标、任意维度并秒级给出反馈的大数据Ad-hoc查询，ClickHouse比Spark快了近10倍。适合海量数据实时导入实时查询，多维聚合分析

场景六、对于大促活动、例如淘宝双十一实时数据监控大屏，T+1的数据已经不能满足需求了，需要数据的实时处理，实时展示，这个时候会用到Storm、Flink，实时处理Kafka传输的业务数据。

Storm

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等