九、大数据处理技术-摩杜云开发者社区

九、大数据处理技术_数据

云计算

1、掌握云计算的概念、云计算的特征、云计算的三层 SPI 模型（IaaS、PaaS、 SaaS）。

云计算的概念

云计算是一种通过计算机网络提供的服务（服务器硬件资源、软件资源）。

云计算1.0：资源虚拟化，以虚拟化为核心

云计算2.0：软件定义与整合，以资源为核心

云计算3.0：云原生与重构业务。以应用为核心

云计算的特征

五大特征是：

1、弹性服务，快速灵活的扩展性；服务的规模可快速伸缩，以自动适应业务负载的动态变化。

2、资源池化，资源共享池；资源以共享资源池的方式统一管理。

3、按需服务，随需应变的自助服务。

4、服务可计费，可计量。

5、泛在接入；用户可以利用各种终端设备随时随地通过互联网访问云计算服务。

狭义云计算和广义云计算

部署模式分类：公有云，私有云，混合云，社区云

云计算的三层 SPI 模型

IaaS（Infrastructure as a Service–基础设施即服务）
IaaS 是 Infrastructure as a Service 的缩写，意思是基础设施即服务。指把 IT 基础设施作为一种服务通过网络对外提供，并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。
PaaS（Platform as a Service–平台即服务）
PaaS 是 Platform as a Service 的缩写，意思是平台即服务，即把用户所需运行软件的平台作为服务出租，PaaS 层介于软件即服务与基础设施即服务之间。PaaS 又分为 2 种：

半平台 PaaS：只安装操作系统，其他的用户自己去安装部署。这样会比较麻烦，因为你需要有较强的技术实力，而且需要耗费部分资源去安装软件运行需要中间件、开发 | 运行环境、数据库等。
全平台 PaaS：安装应用软件依赖的全部平台软件，也就是全部部署完毕。不过大家也知道，世界上的应用软件如此庞大，支撑他们的语言、数据库、中间件、开发 | 运行环境可能都不一样，PaaS 云端公司不可能全部都去安装，所以他们支持的软件是有限的。

SaaS（Software as a Service–软件即服务）
SaaS 是 Software as a Service 的缩写名称，意思为软件即服务，即通过网络提供软件服务。SaaS 平台供应商将应用软件统一部署在自己的服务器上，客户可以根据工作实际需求，通过互联网向厂商定购所需的应用软件服务，按定购的服务多少和时间长短向厂商支付费用，并通过互联网获得 SaaS 平台供应商提供的服务。

虚拟化

2、掌握虚拟化技术的概念、常用虚拟化方法，了解常用虚拟化软件。

虚拟化技术的概念

指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化依赖软件来模拟硬件功能并创建虚拟计算机系统。这使 IT 组织能够在单个服务器上运行多个虚拟系统以及多个操作系统和应用。

虚拟化包括计算虚拟化，网络虚拟化，存储虚拟化。

CPU虚拟化，内存虚拟化，I/O虚拟化都属于计算虚拟化。

虚拟化常见类型：服务器虚拟化，桌面虚拟化，存储虚拟化，网络虚拟化，应用虚拟化。

虚拟化主要方法

全虚拟化，准虚拟化，硬件辅助虚拟化。

全虚拟化：使用名为hypervisor的一种软件，在虚拟服务器和底层硬件之间建立一个抽象层。hypervisor运行在裸硬件上，充当主机操作系统host;而由hypervisor管理的虚拟服务器运行客户端操作系统guest OS。

准虚拟化：改动客户操作系统，让它以为自己运行在虚拟环境下，能够与hypervisor协同工作。这种方法就叫准虚拟化para-virtualization。Xen是开源准虚拟化技术的一个例子。准虚拟化技术的优点是性能高。无法适用于闭源操作系统（windows）。

硬件辅助虚拟化：一套解决方案，完整的情况需要CPU、主板芯片组、BIOS和软件的支持。Intel在其处理器产品线中实现了Intel VT虚拟化技术（包括Intel VT-x/d/c）。AMD也同样实现了其芯片级的虚拟化技术AMD-V。

常用虚拟化软件

VMware：作为一款高性能的付费虚拟机软件，VMware在企业级应用中得到了广泛应用。它可以支持大规模的虚拟化环境，包括云计算、数据库和企业级应用等。
VirtualBox：虽然VirtualBox不如VMware那么强大，但由于它是一款免费的开源软件，所以被广泛应用于教育、开发和测试等领域。它的易用性和社区支持也是其受欢迎的原因之一。
Hyper-V：作为微软的一款虚拟化解决方案，Hyper-V主要应用于Windows环境中的企业级应用，如Windows Server和SQL Server等。
Docker：Docker的轻量级容器技术使得它在应用开发和部署领域得到了广泛应用。它可以将应用程序和依赖项打包成容器，使得应用开发和部署变得更加高效和方便。
KVM
QEMU

存储虚拟化

基于主机的存储虚拟化，基于存储设备的存储虚拟化，基于网络的存储虚拟化。

分布式计算

分布式计算( Distributed computing )是一种把需要进行大量计算的工程数据分割成小块，由多台计算机分别计算，在上传运算结果后，将结果统一合并得出数据结论的科学。（即多个通过网络互联的计算节点通过相互协作共同完成计算任务）

单向资源调用，计算节点只能无偿贡献算力资源。

其他计算为分布式计算的延伸及实现。

优点：充分利用多台计算机的计算资源，提高计算速度和效率。更强的可靠性和容错能力。

缺点：需要对数据进行划分和传输，增加了数据安全性和隐私保护难度。

网格计算

是分布式计算的其中一种模式。

网格计算的资源范围更小，网格说明参与计算的是一个集群，焦点放在支持跨管理域计算的能力。

以计算为中心，将数据和计算资源虚拟化。

高性能计算HPC

高性能计算(High performance computing)是利用超级计算机实现并行计算的理论、方法、技术以及应用的一门技术科学，围绕利用不断发展的并行处理单元以及并行体系架构实现高性能并行计算这一核心问题。

包括高性能计算机和高性能应用。更适用于并行计算。

高性能计算平台包括：物理层，系统层，数据层，算法层。（基础设施（全液冷解决方案），硬件平台，网络系统，存储系统，操作系统，基础软件）

高性能计算包括：实时计算，批量计算和流式计算。

边缘计算

边缘计算是将从终端采集到的数据，直接在靠近数据产生的本地设备或网络中进行分析，无需再将数据传输至云端数据处理中心。

机器学习方法

有监督学习

由训练资料中学到的或建立一个模式（函数/learning model），并以此模式推测新的实例，训练资料由输入物件（向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

有监督机器学习方法：

按问题类型分类：

简单分类方法：感知机、k 近邻法、朴素贝叶斯法、决策树
复杂分类方法：逻辑回归模型、最大熵、支持向量机、提升方法
标注方法：隐马尔科夫模型、条件随机场

概率模型和非概率模型：

概率模型（由条件概率表示的模型）：朴素贝叶斯、隐马尔科夫模型
非概率模型（由决策函数表示的模型）：感知机、k 近邻、支持向量机、提升方法
概率模型和非概率模型：决策树、逻辑回归模型、最大熵模型、条件随机场

无监督学习

根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

聚类方法（层次聚类、k均值聚类，FCM）
奇异值分解（SVD）
降维方法，主成分分析（PCA）
潜在语义分析（LSA）
概率潜在语义分析（PLSA）
马尔可夫链蒙特卡罗法（MCMC，包括Metropolis-Hastings算法、吉布斯抽样）
潜在狄利克雷分配（LDA）
PageRank算法

强化学习

训练时需要环境不断给予反馈，以对应具体的反馈值。强化学习指导训练对象每一步如何决策，采取什么样的行的完成特定目标或使收益最大化。

学习依据基于评价。

强化学习包含哪些元素？环境state、agent、动作action、反馈reward

数据集市、数据仓库、数据中台、数据平台

https://baijiahao.baidu.com/s?id=1747825823760539737&wfr=spider&for=pc

数据集市

数据集市是企业级数据仓库的一个子集，通常称为部门级数据仓库，主要面向部门级业务的决策分析，并通常只面向某个特定主题。

可以分为独立型和从属型数据集市。

RDM 风险数据集市

数据集市建设优先使用DWS层模型进行满足，数据集市可以直接访问DWS，DWD层的维度表。

ETL?（extraction-transformation-load 抽取-转换-加载）

传统的数据仓库集成处理架构是ETL，利用ETL平台的能力，E=从源数据库抽取数据，T=将数据清洗（不符合规则的数据）、转化（对表按照业务需求进行不同维度、不同颗粒度、不同业务规则计算进行统计），L=将加工好的表以增量、全量、不同时间加载到数据仓库。

数据仓库

数据中台

数据平台

数据采集与预处理

数据采集

数据清洗

数据转换

数据脱敏

数据存储与管理技术、大数据处理架构

hadoop

Hadoop 核心设计为HDFS和MapReduce。HDFS提供存储（HDFS基于GFS），MapReduce提供计算。

分布式文件系统 HDFS

NoSQL数据库

分布式数据库 HBase

大数据处理环节主要思想

大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（包括大数据检索、大数据可视化、大数据应用、大数据安全等）。

云计算

云计算的概念

云计算的特征

云计算的三层 SPI 模型

虚拟化

虚拟化技术的概念

虚拟化主要方法

常用虚拟化软件

存储虚拟化

分布式计算

分布式计算

网格计算

高性能计算HPC

边缘计算

机器学习方法

有监督学习

无监督学习

强化学习

数据集市、数据仓库、数据中台、数据平台

数据集市

数据仓库

数据中台

数据平台

数据采集与预处理

数据采集

数据清洗

数据转换

数据脱敏

数据存储与管理技术、大数据处理架构

hadoop

分布式文件系统 HDFS

NoSQL数据库

分布式数据库 HBase

大数据处理环节主要思想

大数据处理与分析的代表性流行产品