摩杜云开发者社区-摩杜云

Storm集成 JDBC

创建maven工程，pom文件如下： <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3</version> <scope>provided</scope> </dependency> <!-与jdbc集成--> <dependency&g...

bhG8jH8b1hMi 2023年11月13日 33 0 0 bc storm ide 集成jdbc apache apache bc storm ide 集成jdbc

mapreduce自定义inputformat

背景无论是hdfs存储文件还是mapreduce处理文件，对于小文件的存储和处理都会影响效率，在实际工作中又难免面临处理大量小文件的场景（比方说用flume实时采集日志，日志是由用户发送请求而产生的，用户发送请求的频率不是固定的，有的时候频繁请求，有的时候请求数就比较少，flume采集数据的配置是每隔固定的一段时间产生一个文件，所以就导致在有些时间段会难免产生大量的小文件）。在d盘的input目录创建三个文件： one.txt: IloveBeijign IloveChina BeijingisthecapitalofChina tow.txt: IloveYantai Ilov...

bhG8jH8b1hMi 2023年11月02日 36 0 0 mapreduce inputformat Hadoop apache hadoop apache inputformat mapreduce

如何创建 Hive 的 UDF？

UDF（UserDefinedFunction）又称：用户自定义函数。可以像concat,substr那样的hive内置的函数一样直接用于select语句，简化复杂查询。编写UDF其实就是写一个类继承org.apache.hadoop.hive.ql.exec.UDF该类，在类里面写一个名为evaluate的方法，在方法里写相应的业务逻辑，最后打成jar包，提交到服务器上，在hive的命令行模式下添加这个jar包到环境变量，使用里面写好的evaluate方法。编写UDF基本步骤所需pom文件如下： <dependency> <groupId>org.apa...

bhG8jH8b1hMi 2023年11月02日 18 0 0 jar udf apache hive jar udf hive apache

Kafka 简介、集群架构、安装部署、基本命令

一、kafka是什么？在实时计算中，Kafka主要是用来缓存数据，storm可以通过消费kafka中的数据进行实时计算。一套开源的分布式的消息队列系统，由scala写成，支持javaAPI。 Kafka读消息采用topic进行归类。二、kafka中有哪两种角色？发送消息：Producer（生产者）接收消息：Consumer（消费者）三、为什么要使用消息队列？可以解耦，拓展两边（生产者，消费者）的处理过程，为了避免高耦合出现的问题可以拓展。可恢复，生产者或者消费者宕机不会影响整个系统。可以削峰，缓冲短时间高并发对系统带来的冲击。顺序保障，FIFO。异步通信，系...

bhG8jH8b1hMi 2023年11月02日 41 0 0 服务器服务器 kafka zookeeper kafka zookeeper

Spark编程案例：分析tomcat访问日志求访问量最高的前两个网页

需求如题，tomcat访问日志如下： 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/HTTP/1.1"200259 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/head.jspHTTP/1.1"200713 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/body.jspHTTP/1.1"200240 192.168.88.1[30/Jul/2017:12:54:37+0800]"GET/MyDemoWeb...

bhG8jH8b1hMi 2023年11月02日 60 0 0 Hadoop HTTP hadoop oracle oracle spark Spark http

Spark编程案例：创建自定义分区

需求：根据jsp文件的名字，将各自的访问日志放入到不同的分区文件中，如下：生成的分区文件例如：part-00000文件中的内容：只包含了java.jsp的访问日志日志内容： 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/HTTP/1.1"200259 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/head.jspHTTP/1.1"200713 192.168.88.1[30/Jul/2017:12:53:43+0800]"GET/MyDemoWeb/body...

bhG8jH8b1hMi 2023年11月02日 47 0 0 创建自定义分区创建自定义分区 HTTP hadoop oracle spark spark HTTP oracle hadoop

利用 zookeeper 的分布式锁实现秒杀

常见的业务场景：x年x月x日x点x分x秒，限时抢购10件商品。前提：分布式的环境，多用户高并发访问。依赖的jar包 <projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0&l...

bhG8jH8b1hMi 2023年11月02日 40 0 0 maven maven apache zookeeper 秒杀秒杀 zookeeper apache

使用JDBC操作Hive

首先启动Hive的远程服务：hiveserver2& 所需jar包的pom文件如下： <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.3.0</version> </dependency> </dependencies> 为了避免在程序运行时出现以下错误：修改hadoop配...

bhG8jH8b1hMi 2023年11月02日 53 0 0 Java SQL sql hive java hive

如何编写 Storm 程序？

创建maven工程，pom文件如下： <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3</version> <scope>provided</scope> </dependency> </dependencies> storm编写的程序叫Topolog...

bhG8jH8b1hMi 2023年11月02日 49 0 0 apache storm apache storm Java 数据 java 数据

Kafka 生产者API，消费者API，拦截器，流计算

pom文件如下： <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.0.0</version> </dependency> <dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...

bhG8jH8b1hMi 2023年11月02日 39 0 0 kafka kafka apache apache Java java API API

Spark编程案例：针对每个分区进行数据库操作

需求：将有多个分区的RDD中的数据保存到数据库 ps：针对分区进行数据库操作的话，建议使用foreachPartition算子，每个分区创建一个Connection，避免一个Connection被多个分区使用而造成的序列化的麻烦。 defsaveToMySql(it:Iterator[(String,String)])={ varconn:Connection=null varps:PreparedStatement=null try{ conn=DriverManager.getConnection("jdbc:mysql://qujianlei/spark","root","Wel...

bhG8jH8b1hMi 2023年11月02日 51 0 0 数据保存数据保存对分区的数据库操作对分区的数据库操作 spark bc bc spark

zookeeper 的安装和配置

一、下载zookeeper 以zookeeper-3.4.10为例：https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/ 二、上传到Linux服务器我使用的是WinSCP进行上传，下载地址：https://dl.pconline.com.cn/html_2/1/86/id=7244&pn=0&linkPage=1.html 三、安装解压tar包（我是解压到家目录下的training目录下的）：tar-zxvfzookeeper-3.4.10.tar.gz-C/training/ 设置环境变量：可以在/...

bhG8jH8b1hMi 2023年11月02日 51 0 0 zookeeper zookeeper 服务器根目录根目录服务器

利用 Redis 队列操作的原子性实现秒杀

添加一个队列模拟商品列表 lpushproductlist12345678910 利用多线程模拟30个人抢购这10件商品： packagedemo; importjava.util.concurrent.ExecutorService; importjava.util.concurrent.Executors; importredis.clients.jedis.Jedis; importredis.clients.jedis.JedisPool; importredis.clients.jedis.JedisPoolConfig; / @authorqujianlei ...

bhG8jH8b1hMi 2023年11月02日 17 0 0 System redis System Java java Redis 秒杀秒杀

MapReduce性能优化秘籍

1.MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点：计算机性能CPU、内存、磁盘、网络 I/O操作数据倾斜 map和reduce数设置不合理 map运行时间太长，导致reduce等待过久小文件过多大量的不可分块的超大文件（例：通过gzip压缩后的文件） spill（溢写）次数过多 merge（map端合并或reduce端合并）次数过多 2.MapReduce优化方法 MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。 2.1.数据输入合并小文件：在执行mr任务前将小文件进...

bhG8jH8b1hMi 2023年11月02日 18 0 0 数据 mapreduce 性能优化数据数据倾斜数据倾斜性能优化 mapreduce

MapReduce自定义GroupingComparator

需求：有如下订单明细数据 0000001 01 222.8 0000002 06 722.4 0000001 05 25.8 0000003 01 222.8 0000003 01 33.8 0000002 03 522.8 0000002 04 122.4 第一列是订单编号，第二列是商品id，第三列是商品金额，列与列之间用制表符分隔。现在需要求出每一个订单中最贵的商品。思路：将订单id和商品金额封装成一个对象作为map端的key输出，value置为空。利用map端在输出数据时会默认按照key的compareTo方法进行排序这一特点，在compareTo方法中制定排序规则：先...

bhG8jH8b1hMi 2023年11月02日 16 0 0 hadoop apache hadoop apache 数据 GroupingComparator mapreduce 数据 GroupingComparator mapreduce