创建maven工程,pom文件如下: <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3</version> <scope>provided</scope> </dependency> <!-与jdbc集成--> <dependency&g...

背景 无论是hdfs存储文件还是mapreduce处理文件,对于小文件的存储和处理都会影响效率,在实际工作中又难免面临处理大量小文件的场景(比方说用flume实时采集日志,日志是由用户发送请求而产生的,用户发送请求的频率不是固定的,有的时候频繁请求,有的时候请求数就比较少,flume采集数据的配置是每隔固定的一段时间产生一个文件,所以就导致在有些时间段会难免产生大量的小文件)。 在d盘的input目录创建三个文件: one.txt: IloveBeijign IloveChina BeijingisthecapitalofChina tow.txt: IloveYantai Ilov...

UDF(UserDefinedFunction)又称:用户自定义函数。可以像concat,substr那样的hive内置的函数一样直接用于select语句,简化复杂查询。 编写UDF其实就是写一个类继承org.apache.hadoop.hive.ql.exec.UDF该类,在类里面写一个名为evaluate的方法,在方法里写相应的业务逻辑,最后打成jar包,提交到服务器上,在hive的命令行模式下添加这个jar包到环境变量,使用里面写好的evaluate方法。 编写UDF基本步骤 所需pom文件如下: <dependency> <groupId>org.apa...

  bhG8jH8b1hMi   2023年11月02日   18   0   0 jarudfapachehivejarudfhiveapache

一、kafka是什么? 在实时计算中,Kafka主要是用来缓存数据,storm可以通过消费kafka中的数据进行实时计算。 一套开源的分布式的消息队列系统,由scala写成,支持javaAPI。 Kafka读消息采用topic进行归类。 二、kafka中有哪两种角色? 发送消息:Producer(生产者) 接收消息:Consumer(消费者) 三、为什么要使用消息队列? 可以解耦,拓展两边(生产者,消费者)的处理过程,为了避免高耦合出现的问题 可以拓展。 可恢复,生产者或者消费者宕机不会影响整个系统。 可以削峰,缓冲短时间高并发对系统带来的冲击。 顺序保障,FIFO。 异步通信,系...

需求如题,tomcat访问日志如下: 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/HTTP/1.1"200259 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/head.jspHTTP/1.1"200713 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/body.jspHTTP/1.1"200240 192.168.88.1[30/Jul/2017:12:54:37+0800]"GET/MyDemoWeb...

需求:根据jsp文件的名字,将各自的访问日志放入到不同的分区文件中,如下: 生成的分区文件 例如:part-00000文件中的内容:只包含了java.jsp的访问日志 日志内容: 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/HTTP/1.1"200259 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/head.jspHTTP/1.1"200713 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/body...

常见的业务场景:x年x月x日x点x分x秒,限时抢购10件商品。前提:分布式的环境,多用户高并发访问。 依赖的jar包 <projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0&l...

首先启动Hive的远程服务:hiveserver2& 所需jar包的pom文件如下: <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.3.0</version> </dependency> </dependencies> 为了避免在程序运行时出现以下错误:修改hadoop配...

  bhG8jH8b1hMi   2023年11月02日   53   0   0 JavaSQLsqlhivejavahive

创建maven工程,pom文件如下: <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3</version> <scope>provided</scope> </dependency> </dependencies> storm编写的程序叫Topolog...

pom文件如下: <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.0.0</version> </dependency> <dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...

  bhG8jH8b1hMi   2023年11月02日   39   0   0 kafkakafkaapacheapacheJavajavaAPIAPI

需求:将有多个分区的RDD中的数据保存到数据库 ps:针对分区进行数据库操作的话,建议使用foreachPartition算子,每个分区创建一个Connection,避免一个Connection被多个分区使用而造成的序列化的麻烦。 defsaveToMySql(it:Iterator[(String,String)])={ varconn:Connection=null varps:PreparedStatement=null try{ conn=DriverManager.getConnection("jdbc:mysql://qujianlei/spark","root","Wel...

一、下载zookeeper 以zookeeper-3.4.10为例:https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/ 二、上传到Linux服务器 我使用的是WinSCP进行上传,下载地址:https://dl.pconline.com.cn/html_2/1/86/id=7244&pn=0&linkPage=1.html 三、安装 解压tar包(我是解压到家目录下的training目录下的):tar-zxvfzookeeper-3.4.10.tar.gz-C/training/ 设置环境变量:可以在/...

添加一个队列模拟商品列表 lpushproductlist12345678910 利用多线程模拟30个人抢购这10件商品: packagedemo; importjava.util.concurrent.ExecutorService; importjava.util.concurrent.Executors; importredis.clients.jedis.Jedis; importredis.clients.jedis.JedisPool; importredis.clients.jedis.JedisPoolConfig; / @authorqujianlei ...

1.MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点: 计算机性能CPU、内存、磁盘、网络 I/O操作 数据倾斜 map和reduce数设置不合理 map运行时间太长,导致reduce等待过久 小文件过多 大量的不可分块的超大文件(例:通过gzip压缩后的文件) spill(溢写)次数过多 merge(map端合并或reduce端合并)次数过多 2.MapReduce优化方法 MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。 2.1.数据输入 合并小文件:在执行mr任务前将小文件进...

需求: 有如下订单明细数据 0000001 01 222.8 0000002 06 722.4 0000001 05 25.8 0000003 01 222.8 0000003 01 33.8 0000002 03 522.8 0000002 04 122.4 第一列是订单编号,第二列是商品id,第三列是商品金额,列与列之间用制表符分隔。 现在需要求出每一个订单中最贵的商品。 思路: 将订单id和商品金额封装成一个对象作为map端的key输出,value置为空。利用map端在输出数据时会默认按照key的compareTo方法进行排序这一特点,在compareTo方法中制定排序规则:先...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~