1.安装mysql 这里使用mysql作为元数据库,直接用yum安装mysql sudoyuminstall-ymysql-server 1.1.启动mysqld服务 sudoservicemysqldstart 1.2进入数据库 如果是普通用户一定要sudo给权限 sudomysql 1.3使用mysql数据库 usemysql; 1.4设置权限 updateusersethost='%'wherehost='localhost'; 1.5设置用户名与密码 updateusersetpassword=PASSWORD('123456')whereuser='root'...

  ILwIY8Berufg   2023年11月13日   23   0   0 hiveHadoophiveMySQLhadoopMySQL

DDL 数据定义语言(data-define-lauguage) 1.数据库操作 1.1建库 createdatabaseifnotexistsdbname; ifnotexists防止报错 1.2切换库 usedbname; 1.3查询正在使用的库 selectcurrent_database(); 1.4查询库列表 showdatabases; showdatabaseslike"test"; 1.5查询库的详细描述信息 descdatabasedbname; 1.6删除数据库 dropdatabaseifexistsdbname;默认只能删除空数据库中没有表的...

  ILwIY8Berufg   2023年11月13日   25   0   0 hive字段数据数据hive字段

hive的数据类型 1.原子类型 整型:tinyintsmallintintbigint 浮点型:floatdouble 布尔:boolean 字符串:string 时间戳类型:timestamp 2.复杂数据类型 2.1array数组 类似于java中的array,单值存储多个元素的,每一个元素一个值 idnamescore 1zs300,295,310,410 2ls400,402,426 3ww426,500,495 建表 idintnamestringscorearray 指定数组元素之间的分隔符collectionitemsterminatedby createtab...

实时计算平台架构 实时计算平台的定位是为58集团海量数据提供高效、稳定的实时计算一站式服务。一站式服务主要分为三个方向: 第一个方向是实时数据存储,主要负责为线上业务接入提供高速度的实时存储能力; 第二是实时数据计算,主要为海量数据的处理提供分布式计算框架; 第三是实时数据分发,主要负责将计算后的数据分发到后续的实时存储,供上层应用。 平台建设主要分为两个部分: 第一部分是基础能力建设,目前主要包括Kafka集群、storm集群、Flink集群、SparkStreaming集群。 另一部分是平台化建设,主要是包括两点: 第一个是数据分发,我们的数据分发是基于KafkaConn...

“数据智能”(DataIntelligence)有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。 本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面 实时数仓1.0版本,主题:ETL逻辑实时化,技术方案:SparkStreaming。 实时数仓2.0版本,主题:数据分层,指标计算实时化,技术方案:FlinkStreaming。 ...

ApacheKafka的核心设计是日志(Log)——一个简单的数据结构,使用顺序操作。以日志为中心的设计带来了高效的磁盘缓冲和CPU缓存使用、预取、零拷贝数据传输和许多其他好处,从而使Kafka能够提供高效率和吞吐量的功能。对于那些刚接触Kafka的人来说,主题(topic)以及提交日志的底层实现通常是他们学习的第一件事。 但是log本身的代码在整个系统中只占相对较小的一部分。Kafka的代码库中有很大一部分是负责在集群中多个brokers之间安排partitions(即日志)、分配领导权(allocatingleadership)、处理故障(handlingfailures)等。这是使Kaf...

ApacheHudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark。放在几年前,使用Spark作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为Spark既可以进行批处理也可以使用微批模拟流,流批一体,一套引擎解决流、批问题。然而,近年来,随着大数据技术的发展,同为大数据处理引擎的Flink逐渐进入人们的视野,并在计算引擎领域获占...

  ILwIY8Berufg   2023年11月13日   19   0   0 List解耦数据解耦List数据

java中不创建新的数组求二维数组中各行元素分别的和的一种思路 packagecom.yzy.testarray; / @classNameArray2DSum.java @authoryangsir @versionV1.0 @date2019年7月29日-上午10:52:03 @description一个3行2列的二维数组arr,求每行元素的和? / publicclassArray2DSum{ publicstaticvoidmain(String[]args){ int[][]arr={{1,2},{3,4},{5,6}}; for(inti=0;i<arr.l...

packagecom.yzy.memorymap; / @classNameTest1.java @authoryangsir @versionV1.0 @date2019年7月31日-上午9:12:46 @description / publicclassTest1{ publicstaticvoidmain(Stringargv[]){ Test1t=newTest1();//调用非静态的方法要创建对象 t.first();//调用first方法 } publicvoidfirst(){ inti=5;//给局部变量i赋值 Valuev=newValue()...

首先是Student类,自然排序,实现Comparable接口 classStudentimplementsComparable{ Stringname; intage; publicStudent(){ super(); } publicStudent(Stringname,intage){ super(); this.name=name; this.age=age; } / 向set集合中添加对象时,首先调用此对象所在类的hashCode方法,此对象的哈希值决定了此对象的存储位置,如果哈希值一样, 它要验证equals,此时equals方法返回tr...

  ILwIY8Berufg   2023年11月13日   23   0   0 SystemSystemTestideideTest

throw抛出异常 作用:可以在方法内用throw手动抛出异常 格式:可以在方法内用throw手动抛出异常 注意:1)throw写在方法内 2)throw后面的异常类型一定是Exception类型或它的子类型 3)throw抛出的异常必须要处理 如果throw后面的异常类型是编译时异常必须要处理(1.throws2.try...catch) 如果throw后面写的运行时异常它不可处理该异常 要求:定义一个时间管理类,包含属性季节;定义访问器实现赋值限制,只能是春夏秋冬,如果赋值其它则抛出异常SeasonException。异常处理方式选择try-catch。 首先是异常类 //创建一...

kafka是做消息的缓存,数据和业务隔离操作的消息队列,而sparkstreaming是一款准实时流式计算框架,所以二者的整合,是大势所趋。二者的整合,有主要的两大版本。 在spark-stremaing-kafka-0-8的版本中又分为了两种方式:receiver的方式和direct的方式来读取kafka中的数据,主要区别就是是否依赖zookeeper来管理offset信息,以及是否拥有receiver。 API查询地址:http://spark.apache.org/docs/2.2.2/streaming-kafka-0-8-integration.html 导入下面要用到的Maven...

  ILwIY8Berufg   2023年11月13日   25   0   0 hadoopkafkaHadoopsparksparkkafka

开发中常常对Spark程序的效率是比较重视的,笔者总结了Spark开发中十一种调优的思路 优化一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDDlineage,也就是“RDD的血缘关系链”。 我们在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。...

  ILwIY8Berufg   2023年11月13日   17   0   0 持久化数据sql持久化数据SQL

在开发完Spark作业之后,就该为作业配置合适的资源了 这里有一张Spark工作的原理图,能帮大家更好理解Spark调优的过程 优化一:资源调优 Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。 总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理...

Spark中的性能消耗主要都是在shuffle环节,对shuffle部分进行调优是很有必要的 Spark中负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager。在0.8的版本中出现了优化之后的HashShuffleManager,同时在spark1.2的版本出现的SortShuffleManager成为了默认的shuffle处理方式,目前的版本就只有一个SortShuffleManager。但是SortShuffleManager,也有普通和排序的SortShuffleManager之分。 一、HashShuffleManager 未经优化的HashShuff...

  ILwIY8Berufg   2023年11月13日   26   0   0 调优数据spark调优数据spark

数据倾斜,英文dataskew,就是由于数据分布不均匀,造成的数据以及任务计算时间有差异,绝大多数task任务执行很快结束,个别task任务执行非常缓慢,如果在mr中接触过的就应该知道,dataskew的现象就是程序长时间停留在99%的阶段,但是不结束 表现形式 个别task运行很慢绝大多数task任务执行很快结束,个别task任务执行非常缓慢。一个spark程序执行时间是由最慢的task所决定的。这也是数据倾斜中最常见的现象。 突然OOM(OutofMemory)正常运行的作业,突然某一天OOM,分析原因,是由于key的分布不均匀造成的。 数据倾斜成因 处理数据倾斜的思路 发生数...

大学宿舍采用CCproxy+Proxifier共享网络 前言 一、为什么要使用CCproxy和Proxifier? 二、使用步骤 1.下载软件 2.CCproxy配置 3.连接代理服务器 三、总结 前言 提示:本文将讲解如何使用网络代理软件CCproxy和连接代理服务器软件Proxifier来实现代理上网,对很大部分学校出现的独享网络无法分享的情况很有帮助。如有阅读中发现错误,与笔者联系后将及时改正。 一、为什么要使用CCproxy和Proxifier? 1.众所周知,基本在每个大学中,都存在各大运营商的霸王条款,不允许网络分享,无论是PC还是移动端都把控的死死的,每个人都得单独缴费,而且都...

  ILwIY8Berufg   2023年11月02日   25   0   0 代理服务器移动端运营商

由于大学宿舍有笔记本和台式,为了能够让台式的xshell连接到笔记本的虚拟机,研究了一下一局域网内的主机访问其中一主机的虚拟机。网上的教程七零八碎,我在这里总结一下。本教程适用于任何同一局域网(可以互通)中不同主机之间访问对方主机上的虚拟机。 1.本人环境说明 同一局域网(192.168.0.x/24)的两台电脑,台式机指定固定ip为192.168.0.101,台式机上装有VMware以及VMware上安装了4台Centos虚拟机(ip网段是192.168.80.x/24),后面都在说明如何通过笔记本上的xshell连接上这4台虚拟机以及一些注意点。重点都在第4部分端口转发设置,有一定基础...

  ILwIY8Berufg   2023年11月02日   25   0   0 端口转发VMwareIPV6

一、安装本地Maven tips:官网为外网,下载速度较慢,这里提供3.6.3版本的三方链接下载Maven下载 无视下载速度以及需要其他版本的伙伴点此进入Maven官网下载 选择左侧Download 点击箭头所指的链接进行下载 下载完成后,选择一个路径进行解压 然后配置path环境变量,如图 系统变量:MAVEN_HOME=F:\dev\apache-maven-3.6.1 系统变量:path=%MAVEN_HOME%\binMAVEN_HOME: path: 然后win+R运行cmd输入mvn-version,如图所示则配置成功 二、配置settings文件 ...

  ILwIY8Berufg   2023年11月02日   39   0   0 idesedmaven

1.ElasticSearch简介 ElasticSearch是一款基于ApacheLucene构建的开源搜索引擎,它采用Java编写并使用Lucene构建索引、提供搜索功能。ElasticSearch的目标是让全文搜索变得简单,开发者可以通过它简单明了的RestFulAPI轻松地实现搜索功能,而不必去面对Lucene的复杂性。ES能够轻松的进行大规模的横向扩展,以支撑PB级的结构化和非结构化海量数据的处理。 简单来说,ElasticSearch是一款基于Lucene的实时分布式搜索和分析引擎。ElasticSearch设计主要用于云计算中,能够达到实时搜索、稳定、可靠、快速,安装使用也非常方...

  ILwIY8Berufg   2023年11月02日   39   0   0 搜索Hadoop数据Hadoop数据搜索
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~