Hadoop Hello World-摩杜云开发者社区

Hadoop Hello World

fztgkkRjHIsV 2023年11月02日 31 0

jar hadoop

在安装并配置好Hadoop环境之后，需要运行一个实例来验证配置是否正确，Hadoop就提供了一个简单的wordcount程序，其实就是统计单词个数的程序，这个程序可以算是Hadoop中的“Hello World”了。

MapReduce

原理

MapReduce其实就是采用分而治之的思想，将大规模的数据分成各个节点共同完成，然后再整合各个节点的结果，得到最终的结果。这些分节点处理数据都可以做到并行处理，大大缩减了工作的复杂度。

过程

MapReduce可以分成两个阶段，其实就是单词拆成map和reduce，这其实是两个函数。map函数会产生一个中间输出，然后reduce函数接受多个map函数产生的一系列中间输出然后再产生一个最终输出。

WordCount展示

前期工作

启动hadoop

cd /usr/hadoop/hadoop-2.6.2/
sbin/start-dfs.sh
sbin/start-yarn.sh

创建本地数据文件

cd ~/
mkdir ~/file
cd file
echo "Hello World" > test1.txt
echo "Hello Hadoop" > test2.txt

这样就创建了两个txt文件，里面分别有一个字符串：Hello World，Hello Hadoop。我们通过wordcount想要得到的结果是这样的：Hello 2，World 1,Hadoop 1。

在HDFS上创建输入文件夹

hadoop fs -mkdir /input

创建好我们可以通过

hadoop fs -ls /

来查看结果：

Hadoop Hello World_jar

将数据文件传到input目录下

hadoop fs -put ~/file/test*.txt /input

同样，我们可以通过

hadoop fs -ls /input

来查看是否上传成功：

Hadoop Hello World_Hadoop_02

如果看不到任何结果，说明在hadoop的配置中存在问题，或者是防火墙没有关闭，导致节点连接不通。

运行程序

运行wordcount

hadoop jar /你的hadoop根目录/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.3.jar wordcount /input /output

运行这条命令后，Hadoop会启动一个JVM来运行MapReduce程序，而且会在集群上创建一个output文件夹，将结果存在其中。

我们来看看结果：

Hadoop Hello World_jar_03

注意点：

这个目录一定要填对，要不然会报jar不存在。
输出文件夹一定要是空文件夹。

查看结果

output文件夹中现在有两个文件，我们需要的结果在part-r-00000这个文件夹中。

hadoop fs -cat /output/part-r-00000

我们就可以看到最终的wordcount结果了：

Hadoop Hello World_jar_04

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Azkaban 下一篇：深入理解HDFS：Hadoop分布式文件系统

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

maven教程

PdpU0qqPjdlY 2023年12月08日 32 0 0 Java maven maven jar Web java Web jar

Hbase 迁移小结：从实践中总结出的最佳迁移策略

8bxyRFfzXN55 2023年12月07日 37 0 0 大数据大数据 hbase hbase hive hadoop 数据库数据库 hive hadoop

本地jar安装到maven中（淘宝为例）本地jar无法打包

ttOzQgS7km1w 2023年12月12日 38 0 0 Java java 本地jar安装到maven中本地jar无法打包 jar 本地jar安装到maven中 jar 本地jar无法打包

不要微信中发送spring boot的jar包

2OAa79iHhyoO 2023年12月02日 30 0 0 Java 后端后端 jar hive java spring boot spring boot jar hive

上传到服务的jar包怎么使用docker运行部署

2OAa79iHhyoO 2023年12月11日 27 0 0 Java Dockerfile java docker jar docker Dockerfile jar

SpringBoot |引用外部jar包中的类方式

nh4iDltz0QxA 2023年12月11日 28 0 0 Java java jar jar包 jar包 jar

springboot 项目非docker 部署自动启动

2OAa79iHhyoO 2023年12月02日 22 0 0 后端后端 jar docker jar包 spring boot spring boot jar docker jar包

devops学习(五) Jenkins 简单完成持续部署

wAzzyqwRgjCe 2023年12月10日 30 0 0 学习学习 jar docker devops jenkins jenkins DevOps jar docker

windows系统安装RocketMQ_dashboard

06PagLd5y8mb 2023年12月23日 83 0 0 maven maven rocketmq rocketmq jar 官网 jar 官网

使用Dockerfile Maven Plugin 将Docker镜像Push到AWS ECR (Elastic Container Registry)

wHsz5gF329ep 2023年12月23日 34 0 0 maven maven AWS jar docker 云计算 AWS jar docker 云计算

xshell终端——多个窗格同步输入——xshell同时控制多个窗口的快捷方式

z67waqH4oRtg 2023年11月30日 79 0 0 多窗口快捷键 Hadoop hadoop 多窗口快捷键

Jdk升级到1.7后，hutool工具类的很多方法报错解决方案

6HyrTgZXAbVP 2023年12月12日 91 0 0 Java 模块化模块化 jar java jar

使用Arthas分析Java线上接口耗时

NrKhGdPqPgIO 2023年12月02日 32 0 0 Java java jar 开发语言开发语言 jar

使用docker-compose 实现发布本地的jar包

2OAa79iHhyoO 2023年12月07日 29 0 0 Dockerfile 容器 docker jar docker Dockerfile 容器 jar

spring如何重新生成新的JAR文件？

rRziRjHpH3eG 2023年12月06日 32 0 0 jar 构建工具命令行 jar 构建工具命令行

zipkin 与 sleuth 实现链路追踪

J84zBtaJg2j3 2023年11月30日 110 0 0 jar Elastic spring spring jar Elastic

springboot~构建webjars类型的前端jar包

XfpaLQko7Ata 2023年12月12日 34 0 0 maven 静态资源 jar 静态资源 maven jar

【Maven】基础快速入门

pgSCHb2FgBf2 2023年12月07日 28 0 0 Java maven 生命周期 maven 生命周期 jar java jar

CentOS配置java环境

RdEelXhuDp09 2023年12月07日 28 0 0 Java java jar java环境 java环境 jar

SpringBoot指定激活配置文件

YdgLK35ZDPaA 2023年12月11日 26 0 0 maven spring jar 配置文件 maven spring 配置文件 jar

fztgkkRjHIsV

作者其他文章更多

Spring与RMI集成实现远程访问

2023-11-19

Maven构建多模块项目

2023-11-19

如何创建线程？

2023-11-19

Active MQ延时发送消息的Java示例代码段

2023-11-19

任务调度开源框架Quartz动态添加、修改和删除定时任务

2023-11-19

SpringAOP拦截Controller,Service实现日志管理(自定义注解的方式)

2023-11-19

Mybatis中insert中返回主键ID的方法

2023-11-19

进程和线程之由来

2023-11-19

SQL Server触发器创建、删除、修改、查看

2023-11-19

Java中hashCode的作用

2023-11-19

最新推荐更多

终于搞懂了！原来 Vue 3 的 generate 是这样生成 render 函数的

2024-05-20

博客园美化：增加顶部炫彩loading进度条

2024-05-20

lodash已死？radash库方法介绍及源码解析 —— 函数柯里化 + Number篇

2024-05-20

TypeScript入门介绍

2024-05-20

XML Schema 复杂元素类型详解：定义及示例解析

2024-05-20

什么是单点登录？如何实现？

2024-05-20

基于uniapp+vue3自定义增强版table表格组件「兼容H5+小程序+App端」

2024-05-18

解释下什么是事件代理？应用场景？

2024-05-18

Vue项目中有封装过axios吗？主要是封装哪方面的？

2024-05-17

浅谈Vue.js与原生开发

2024-05-17

vue要做权限管理该怎么做？如果控制到按钮级别的权限怎么做？

2024-05-17

Vue模板语法、属性绑定、条件渲染的学习

2024-05-17

vue3编译优化之“静态提升”

2024-05-17

VUE-局部使用

2024-05-17

你是怎么处理vue项目中的错误的？

2024-05-17

实现抖音 “视频无限滑动“效果

2024-05-17

说说webpack proxy工作原理？为什么能解决跨域?

2024-05-17

我为什么还要造一个前端轮子？

2024-05-17

一款摸鱼神器！帮助你利用上班时间背单词！

2024-05-17

next-route

2024-05-17