JavaScript
inputformat 标签描述

背景 无论是hdfs存储文件还是mapreduce处理文件,对于小文件的存储和处理都会影响效率,在实际工作中又难免面临处理大量小文件的场景(比方说用flume实时采集日志,日志是由用户发送请求而产生的,用户发送请求的频率不是固定的,有的时候频繁请求,有的时候请求数就比较少,flume采集数据的配置是每隔固定的一段时间产生一个文件,所以就导致在有些时间段会难免产生大量的小文件)。 在d盘的input目录创建三个文件: one.txt: IloveBeijign IloveChina BeijingisthecapitalofChina tow.txt: IloveYantai Ilov...