摩杜云开发者社区-摩杜云

Hive环境搭建

1.安装mysql 这里使用mysql作为元数据库，直接用yum安装mysql sudoyuminstall-ymysql-server 1.1.启动mysqld服务 sudoservicemysqldstart 1.2进入数据库如果是普通用户一定要sudo给权限 sudomysql 1.3使用mysql数据库 usemysql; 1.4设置权限 updateusersethost='%'wherehost='localhost'; 1.5设置用户名与密码 updateusersetpassword=PASSWORD('123456')whereuser='root'...

ILwIY8Berufg 2023年11月13日 23 0 0 hive Hadoop hive MySQL hadoop MySQL

Hive基本操作

DDL 数据定义语言（data-define-lauguage） 1.数据库操作 1.1建库 createdatabaseifnotexistsdbname; ifnotexists防止报错 1.2切换库 usedbname; 1.3查询正在使用的库 selectcurrent_database(); 1.4查询库列表 showdatabases; showdatabaseslike"test"; 1.5查询库的详细描述信息 descdatabasedbname; 1.6删除数据库 dropdatabaseifexistsdbname;默认只能删除空数据库中没有表的...

ILwIY8Berufg 2023年11月13日 25 0 0 hive 字段数据数据 hive 字段

Hive高级操作

hive的数据类型 1.原子类型整型：tinyintsmallintintbigint 浮点型：floatdouble 布尔：boolean 字符串：string 时间戳类型：timestamp 2.复杂数据类型 2.1array数组类似于java中的array,单值存储多个元素的,每一个元素一个值 idnamescore 1zs300,295,310,410 2ls400,402,426 3ww426,500,495 建表 idintnamestringscorearray 指定数组元素之间的分隔符collectionitemsterminatedby createtab...

ILwIY8Berufg 2023年11月13日 25 0 0 hive 分隔符 hive 分隔符字符串字符串

Apache Flink 在 58 同城的应用与实践

实时计算平台架构实时计算平台的定位是为58集团海量数据提供高效、稳定的实时计算一站式服务。一站式服务主要分为三个方向：第一个方向是实时数据存储，主要负责为线上业务接入提供高速度的实时存储能力；第二是实时数据计算，主要为海量数据的处理提供分布式计算框架；第三是实时数据分发，主要负责将计算后的数据分发到后续的实时存储，供上层应用。平台建设主要分为两个部分：第一部分是基础能力建设，目前主要包括Kafka集群、storm集群、Flink集群、SparkStreaming集群。另一部分是平台化建设，主要是包括两点：第一个是数据分发，我们的数据分发是基于KafkaConn...

ILwIY8Berufg 2023年11月13日 21 0 0 SQL sql 实时计算数据实时计算数据

知乎 Flink 取代 Spark Streaming 的实战之路

“数据智能”(DataIntelligence)有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进，这包括以下几个方面实时数仓1.0版本，主题：ETL逻辑实时化，技术方案：SparkStreaming。实时数仓2.0版本，主题：数据分层，指标计算实时化，技术方案：FlinkStreaming。 ...

ILwIY8Berufg 2023年11月13日 19 0 0 Streaming 数据源数据数据源数据 Streaming

Kafka 2.8 不需要依赖 Zookeeper，单集群支持数百万个分区

ApacheKafka的核心设计是日志（Log）——一个简单的数据结构，使用顺序操作。以日志为中心的设计带来了高效的磁盘缓冲和CPU缓存使用、预取、零拷贝数据传输和许多其他好处，从而使Kafka能够提供高效率和吞吐量的功能。对于那些刚接触Kafka的人来说，主题（topic）以及提交日志的底层实现通常是他们学习的第一件事。但是log本身的代码在整个系统中只占相对较小的一部分。Kafka的代码库中有很大一部分是负责在集群中多个brokers之间安排partitions(即日志)、分配领导权（allocatingleadership）、处理故障（handlingfailures）等。这是使Kaf...

ILwIY8Berufg 2023年11月13日 24 0 0 元数据 apache 元数据事件驱动事件驱动 apache

Flink中Hudi的应用

ApacheHudi是由Uber开发并开源的数据湖框架，它于2019年1月进入Apache孵化器孵化，次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。如果用户想使用Hudi作为其数据湖框架，就必须在其平台技术栈中引入Spark。放在几年前，使用Spark作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为Spark既可以进行批处理也可以使用微批模拟流，流批一体，一套引擎解决流、批问题。然而，近年来，随着大数据技术的发展，同为大数据处理引擎的Flink逐渐进入人们的视野，并在计算引擎领域获占...

ILwIY8Berufg 2023年11月13日 19 0 0 List 解耦数据解耦 List 数据

java求二维数组每行元素的和

java中不创建新的数组求二维数组中各行元素分别的和的一种思路 packagecom.yzy.testarray; / @classNameArray2DSum.java @authoryangsir @versionV1.0 @date2019年7月29日-上午10:52:03 @description一个3行2列的二维数组arr,求每行元素的和？ / publicclassArray2DSum{ publicstaticvoidmain(String[]args){ int[][]arr={{1,2},{3,4},{5,6}}; for(inti=0;i<arr.l...

ILwIY8Berufg 2023年11月13日 20 0 0 二维数组 Java 数组 Java 数组二维数组

值类型和引用类型作为方法参数的区别

packagecom.yzy.memorymap; / @classNameTest1.java @authoryangsir @versionV1.0 @date2019年7月31日-上午9:12:46 @description / publicclassTest1{ publicstaticvoidmain(Stringargv[]){ Test1t=newTest1();//调用非静态的方法要创建对象 t.first();//调用first方法 } publicvoidfirst(){ inti=5;//给局部变量i赋值 Valuev=newValue()...

ILwIY8Berufg 2023年11月13日 36 0 0 System 赋值局部变量 System 局部变量赋值

TreeSet实现对象的自然排序和定制排序

首先是Student类,自然排序,实现Comparable接口 classStudentimplementsComparable{ Stringname; intage; publicStudent(){ super(); } publicStudent(Stringname,intage){ super(); this.name=name; this.age=age; } / 向set集合中添加对象时，首先调用此对象所在类的hashCode方法，此对象的哈希值决定了此对象的存储位置，如果哈希值一样，它要验证equals,此时equals方法返回tr...

ILwIY8Berufg 2023年11月13日 23 0 0 System System Test ide ide Test

java自定义异常

throw抛出异常作用:可以在方法内用throw手动抛出异常格式:可以在方法内用throw手动抛出异常注意:1)throw写在方法内 2)throw后面的异常类型一定是Exception类型或它的子类型 3)throw抛出的异常必须要处理如果throw后面的异常类型是编译时异常必须要处理(1.throws2.try...catch) 如果throw后面写的运行时异常它不可处理该异常要求:定义一个时间管理类，包含属性季节；定义访问器实现赋值限制，只能是春夏秋冬，如果赋值其它则抛出异常SeasonException。异常处理方式选择try-catch。首先是异常类 //创建一...

ILwIY8Berufg 2023年11月13日 18 0 0 System System Java 抛出异常 Java 抛出异常

Spark Streaming整合Kafka超详细指南

kafka是做消息的缓存，数据和业务隔离操作的消息队列，而sparkstreaming是一款准实时流式计算框架，所以二者的整合，是大势所趋。二者的整合，有主要的两大版本。在spark-stremaing-kafka-0-8的版本中又分为了两种方式：receiver的方式和direct的方式来读取kafka中的数据，主要区别就是是否依赖zookeeper来管理offset信息，以及是否拥有receiver。 API查询地址：http://spark.apache.org/docs/2.2.2/streaming-kafka-0-8-integration.html 导入下面要用到的Maven...

ILwIY8Berufg 2023年11月13日 25 0 0 hadoop kafka Hadoop spark spark kafka

Spark四种性能调优思路（一）——开发调优

开发中常常对Spark程序的效率是比较重视的，笔者总结了Spark开发中十一种调优的思路优化一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDDlineage，也就是“RDD的血缘关系链”。我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。...

ILwIY8Berufg 2023年11月13日 17 0 0 持久化数据 sql 持久化数据 SQL

Spark四种性能调优思路（二）——资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了这里有一张Spark工作的原理图，能帮大家更好理解Spark调优的过程优化一：资源调优 Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理...

ILwIY8Berufg 2023年11月13日 28 0 0 持久化垃圾回收持久化 spark 垃圾回收 spark

Spark四种性能调优思路（三）——shuffle调优

Spark中的性能消耗主要都是在shuffle环节，对shuffle部分进行调优是很有必要的 Spark中负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager。在0.8的版本中出现了优化之后的HashShuffleManager，同时在spark1.2的版本出现的SortShuffleManager成为了默认的shuffle处理方式，目前的版本就只有一个SortShuffleManager。但是SortShuffleManager，也有普通和排序的SortShuffleManager之分。一、HashShuffleManager 未经优化的HashShuff...

ILwIY8Berufg 2023年11月13日 26 0 0 调优数据 spark 调优数据 spark

Spark四种性能调优思路（四）——数据倾斜调优

数据倾斜，英文dataskew，就是由于数据分布不均匀，造成的数据以及任务计算时间有差异，绝大多数task任务执行很快结束，个别task任务执行非常缓慢，如果在mr中接触过的就应该知道，dataskew的现象就是程序长时间停留在99%的阶段，但是不结束表现形式个别task运行很慢绝大多数task任务执行很快结束，个别task任务执行非常缓慢。一个spark程序执行时间是由最慢的task所决定的。这也是数据倾斜中最常见的现象。突然OOM(OutofMemory)正常运行的作业，突然某一天OOM，分析原因，是由于key的分布不均匀造成的。数据倾斜成因处理数据倾斜的思路发生数...

ILwIY8Berufg 2023年11月13日 20 0 0 数据 spark 数据数据倾斜 spark 数据倾斜

大学宿舍采用CCproxy+Proxifier共享网络

大学宿舍采用CCproxy+Proxifier共享网络前言一、为什么要使用CCproxy和Proxifier？二、使用步骤 1.下载软件 2.CCproxy配置 3.连接代理服务器三、总结前言提示：本文将讲解如何使用网络代理软件CCproxy和连接代理服务器软件Proxifier来实现代理上网，对很大部分学校出现的独享网络无法分享的情况很有帮助。如有阅读中发现错误，与笔者联系后将及时改正。一、为什么要使用CCproxy和Proxifier？ 1.众所周知，基本在每个大学中，都存在各大运营商的霸王条款，不允许网络分享，无论是PC还是移动端都把控的死死的，每个人都得单独缴费，而且都...

ILwIY8Berufg 2023年11月02日 25 0 0 代理服务器移动端运营商

如何使用xshell连接同一局域网内其他主机上的NAT下的虚拟机

由于大学宿舍有笔记本和台式，为了能够让台式的xshell连接到笔记本的虚拟机，研究了一下一局域网内的主机访问其中一主机的虚拟机。网上的教程七零八碎，我在这里总结一下。本教程适用于任何同一局域网（可以互通）中不同主机之间访问对方主机上的虚拟机。 1.本人环境说明同一局域网（192.168.0.x/24）的两台电脑，台式机指定固定ip为192.168.0.101，台式机上装有VMware以及VMware上安装了4台Centos虚拟机(ip网段是192.168.80.x/24)，后面都在说明如何通过笔记本上的xshell连接上这4台虚拟机以及一些注意点。重点都在第4部分端口转发设置，有一定基础...

ILwIY8Berufg 2023年11月02日 25 0 0 端口转发 VMware IPV6

Maven的安装与配置

一、安装本地Maven tips:官网为外网，下载速度较慢，这里提供3.6.3版本的三方链接下载Maven下载无视下载速度以及需要其他版本的伙伴点此进入Maven官网下载选择左侧Download 点击箭头所指的链接进行下载下载完成后，选择一个路径进行解压然后配置path环境变量,如图系统变量:MAVEN_HOME=F:\dev\apache-maven-3.6.1 系统变量:path=%MAVEN_HOME%\binMAVEN_HOME: path: 然后win+R运行cmd输入mvn-version，如图所示则配置成功二、配置settings文件 ...

ILwIY8Berufg 2023年11月02日 39 0 0 ide sed maven

一文掌握ElastiscSearch

1.ElasticSearch简介 ElasticSearch是一款基于ApacheLucene构建的开源搜索引擎，它采用Java编写并使用Lucene构建索引、提供搜索功能。ElasticSearch的目标是让全文搜索变得简单，开发者可以通过它简单明了的RestFulAPI轻松地实现搜索功能，而不必去面对Lucene的复杂性。ES能够轻松的进行大规模的横向扩展，以支撑PB级的结构化和非结构化海量数据的处理。简单来说，ElasticSearch是一款基于Lucene的实时分布式搜索和分析引擎。ElasticSearch设计主要用于云计算中，能够达到实时搜索、稳定、可靠、快速，安装使用也非常方...

ILwIY8Berufg 2023年11月02日 39 0 0 搜索 Hadoop 数据 Hadoop 数据搜索