大数据 (Big Data)——02
  4jzk2Z0RyhMg 2023年11月19日 56 0

常见关键技术有MapReduce、HBase、HDFS等,其余的例如:

  1. Chukwa:数据收集系统,用于监控大型分布式系统。继承了Hadoop的可伸缩性和鲁棒性。
  2. Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;能够对数据进行简单处理,并写到各种数据接受方(可定制) 。
  3. Kafka:是一种高吞吐量的分布式,发布订阅消息系统
  4. Producer、Consumer:分别负责发布消息和向Kafka broker读取消息
  5. Apache Spark:专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,不同的是,其Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,能更好地适用于数据挖掘与机器学习等需要迭代的算法。
  6. Spark :启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。可用来构建大型的、低延迟的数据分析应用程序。其在 Scala 语言中实现,Spark 和 Scala 能够紧密集成,通过 Mesos第三方集群可以在 Hadoop 文件系统中并行运行。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月19日 0

暂无评论

推荐阅读
4jzk2Z0RyhMg