大数据 (Big Data)——02-摩杜云开发者社区

大数据 (Big Data)——02

4jzk2Z0RyhMg 2023年11月19日 56 0

数据 hadoop 迭代 Hadoop 数据迭代

常见关键技术有MapReduce、HBase、HDFS等，其余的例如：

Chukwa：数据收集系统，用于监控大型分布式系统。继承了Hadoop的可伸缩性和鲁棒性。
Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；能够对数据进行简单处理，并写到各种数据接受方(可定制) 。
Kafka：是一种高吞吐量的分布式，发布订阅消息系统
Producer、Consumer：分别负责发布消息和向Kafka broker读取消息
Apache Spark：专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，不同的是，其Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，能更好地适用于数据挖掘与机器学习等需要迭代的算法。
Spark ：启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。可用来构建大型的、低延迟的数据分析应用程序。其在 Scala 语言中实现，Spark 和 Scala 能够紧密集成，通过 Mesos第三方集群可以在 Hadoop 文件系统中并行运行。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Flink之常用处理函数下一篇： spark insert overwrite 覆盖整个表吗

分享：

最后一次编辑于 2023年11月19日 0

暂无评论

推荐阅读

Hadoop启动报错NoClassDefFoundError: javax/activation/DataSource解决方案

KRe60ogUm4le 18天前 13 0 0 大数据 Hadoop

hadoop 上传表数据

RicJUpRJV7So 2023年12月23日 16 0 0 外部表上传 Hadoop 上传 Hadoop 外部表

hive查询多个表的数据条数

uBACcm3oHgm7 2023年12月23日 38 0 0 hive 加载数据加载数据数据数据 hive

截止今天学习大数据技术的笔记

KRe60ogUm4le 18天前 20 0 0 hive Hadoop kafka

hadoop usergroupinformation 认证文件

5iQTA4J0tGQG 2023年12月23日 73 0 0 ci ci 身份认证 Hadoop 身份认证 Hadoop

最终一致性和实时一致性是什么？在架构设计中，我们应该选择哪种方式？

KRe60ogUm4le 11天前 17 0 0 Service 数据

hadoop 三副本

YjRpu8K1h22F 2023年12月23日 63 0 0 开发者 Hadoop 数据块开发者 Hadoop 数据块

hadoop拷贝文件

WB6LihfPs90J 2023年12月23日 15 0 0 拷贝文件 Hadoop Hadoop 拷贝文件

Hadoopapi中文文档

TykIG7bs1jyC 2023年12月23日 21 0 0 中文文档 API 中文文档 API Hadoop Hadoop

从纯函数讲起，一窥最深刻的函子 Monad

KRe60ogUm4le 18天前 20 0 0 javascript 数据

hive sql转置函数

AyUM17vPJ7Nd 2023年12月23日 19 0 0 hive 转置数据数据 hive 转置

Hive 查询顺序

AG1X23SmUB8Q 2023年12月23日 20 0 0 hive 加载数据加载数据数据数据 hive

【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍

Ri3M98rAWHaL 2023年12月23日 14 0 0 数据分析数据分析数据数据处理数据处理数据

企业级hadoop设置存储路径

MNB4tIcMG5eR 2023年12月23日 70 0 0 xml Hadoop 配置文件 xml Hadoop 配置文件

hadoop的数据导入到mysql

F1Wfwe7nWfUI 2023年12月23日 32 0 0 mysql Hadoop MySQL 数据导入 Hadoop 数据导入

HADOOP_HOME 查看

r3WP0l4Uu2vq 2023年12月23日 21 0 0 System Hadoop System Hadoop

如何通过京东工业商品API接口获取商品详情

10jApn78vfx0 2023年12月23日 16 0 0 JSON JSON API 数据数据 API

速卖通商品API接口的使用指南与示例

10jApn78vfx0 2023年12月23日 20 0 0 API 数据访问权限访问权限数据 API

高频数据采集请求如何不影响主业务（7）

KRe60ogUm4le 11天前 18 0 0 数据 kafka

hive 一次添加多个字段

67PT2pJOaiwq 2023年12月23日 96 0 0 hive 字段 Hadoop hive hadoop 字段

4jzk2Z0RyhMg

作者其他文章更多

两数之和

2023-12-22

回文数

2023-12-22

软件测试——08

2023-12-12

软件测试——07

2023-12-11

软件测试——06

2023-12-10

软件测试——05

2023-12-09

软件测试——04

2023-12-08

软件测试——03

2023-12-07

软件系统开发方法论——01

2023-12-06

软件系统开发方法论——02

2023-12-06

最新推荐更多

Powershell数据类型介绍-02

2024-05-03

面试官：讲讲雪花算法，越详细越好

2024-05-03

剑指Offer(30)--最小的k个数

2024-05-03

微服务之间的数据依赖问题，你知道怎么解决吗

2024-05-03

最终一致性和实时一致性是什么？在架构设计中，我们应该选择哪种方式？

2024-05-03

表数据量大读写缓慢如何优化（4）【分库分表】

2024-05-03

大数据处理神器datatable库安装及使用(远超pandas效率)

2024-05-03

高频数据采集请求如何不影响主业务（7）

2024-05-03

Scala数据类型

2024-05-03

2023爬虫学习笔记 -- 某狗网站爬取数据

2024-04-26

安卓逆向 -- 自吐算法（3DES和AES）

2024-04-26

从纯函数讲起，一窥最深刻的函子 Monad

2024-04-26

捕获内网数据包

2024-04-26

准备数据集用于flink学习

2024-04-26

安卓逆向 -- 算法基础(MD5)

2024-04-26

安卓逆向 -- 算法基础(数字签名)

2024-04-26

什么是机器学习回归算法？【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

2024-04-26

截止今天学习大数据技术的笔记

2024-04-26

利用bladex+avue实现下拉数据源展示

2024-04-26

剑指Offer【33】--丑数

2024-04-26