docker 先使用Docker构建一个Zookeeper运行环境的镜像,之前做过Hadoop的集群,我做过一个镜像(这里) 然后使用这个镜像分别启动3个容器:1个Master节点,两个Slave节点 在Master节点上配置Slave节点信息 在Master上启动Zookeeper Zookeeper安装 我使用的是zookeeper-3.4.11,其他版本请看这里 cd/usr/local/hadoop wgethttp://apache.fayea.com/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz tar-zxvfz...

  fztgkkRjHIsV   2023年11月02日   68   0   0 hadoopzookeeper服务器

在本文中,我将解释JVM到底是如何执行垃圾回收处理的。 什么是GC监控? 垃圾回收收集监控指的是搞清楚JVM如何执行GC的过程,例如,我们可以查明: 1.       何时一个新生代中的对象被移动到老年代时,所花费的时间。 2.     Stop-the-world何时发生的,持续了多长时间。 GC监控是为了鉴别JVM是否在高效地执行GC,以及是否有必要进行额外的性能调优。基于以上信息,我们可以修改应用程序或者调整GC算法(GC优化)。 如何监控GC 有很多种方法可以监控G...

  fztgkkRjHIsV   2023年11月02日   50   0   0 cijvmJava

神马是Hive? 建立在Hadoop基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL 查询语言,称为 QL ,它允许熟悉SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper 和reducer来处理内建的mapper和reducer 无法完成的复杂的分析工作。 SQL解析引擎,它将SQL语句转译成Map/ReduceJob然后在Hadoop执行。H...

  fztgkkRjHIsV   2023年11月02日   111   0   0 mysqlhive

一、问题描述 三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的成绩及平均值。 数据格式如下: Chinese.txt 张三78 李四89 王五96 赵六67 Math.txt 张三88 李四99 王五66 赵六77 English.txt 张三80 李四82 王五84 赵六86 文件目录 二、Spark编程(JAVA) pom.xml <?xmlversion="1.0"encoding="UTF-8"?> <projectxmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="h...

  fztgkkRjHIsV   2023年11月02日   53   0   0 hadoopapachespark

多行字符串的表示方法 多行字符串用三个双引号来表示分隔符,格式为:”“”…“”“。 实例如下: valfoo="""菜鸟教程 www.runoob.com www.w3cschool.cc www.runnoob.com 以上三个地址都能访问""" 变量 变量声明 varVariableName:DataType[=InitialValue] 或 valVariableName:DataType[=InitialValue] 变量声明不一定需要初始值,以下也是正确的: varmyVar:Int; valmyVal:String; 例如 varmyVar:String="F...

  fztgkkRjHIsV   2023年11月02日   95   0   0 TestScala

1.背景 现代互联网充斥着各种攻击、病毒、钓鱼、欺诈等手段,层出不穷。对于一个公司而已最基本的财富无非是代码和数据,“配置属性加密”的应用场景假设如果攻击者通过某些手段拿到部分敏感代码或配置,甚至是全部源代码和配置时,我们的基础设施账号依然不被泄漏。当然手段多种多种多样,比如以某台中毒的内网机器为肉机,对其他电脑进行ARP攻击抓去通信数据进行分析,或者获取某个账号直接拿到源代码或者配置,等等诸如此类。 2.思路 采用比较安全的对称加密算法; 对基础设施账号密码等关键信息进行加密; 构建时、运行时传入密钥,在加载属性前进行解密; 开发环境可以将密钥放置在代码中,测试、灰度、生产等环境放置在构...

  fztgkkRjHIsV   2023年11月02日   121   0   0 基础设施githubspring

一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。 输入文件内容如下: childparent StevenLucy StevenJack JoneLucy JoneJack LucyMary LucyFrank JackAlice JackJesse DavidAlice DavidJesse PhilipDavid PhilipAlma MarkDavid MarkAlma 根据父辈和子辈挖掘爷孙关系。比如: StevenJack JackAlice JackJesse 根据这三条记录,可以得出Jack是Steven的长辈,...

  fztgkkRjHIsV   2023年11月02日   116   0   0 Texthadoopapache

一、问题描述 任务要求–现有一批电话通信清单,记录了用户A拨打用户B的记录–需要做一个倒排索引,记录拨打给用户B的所有用户Areverse.txt 1359999999910086 13899999999120 1354444444418955555555 1892222222218955555555 18900000000120 13544444444120 13544444444110 13544444444119 1389999999918955555555 要求使用MapReduce 主叫以‘|’分割 二、算法思路 三、MapReduce程序 p...

  fztgkkRjHIsV   2023年11月02日   43   0   0 Texthadoopapache

一、问题描述 文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下: pid0334589.41 pid1663306.49 pid2499226.8 pid3130618.22 pid4513708.8 pid5723470.7 pid6998579.14 pid7831682.84 pid887723.96 要求使用MapReduce,按商品的价格从低到高排序,输出格式仍为原来的格式:第一列为商品id,第二列为商品价格。 为了方便测试,写了一个DataProducer类随机产生数据。 packageco...

  fztgkkRjHIsV   2023年11月02日   64   0   0 Texthadoopapache

file1.txt中的内容: 20150101x 20150102y 20150103x 20150104y file2.txt中的内容: 20150105z 20150106x 20150101y 20150102y file3.txt中的内容: 20150103x 20150104z 20150105y 二、MapReduce程序 编写MapReduce程序,运行环境参考我的上一篇博客MapReduce编程(一)WordCount importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop....

  fztgkkRjHIsV   2023年11月02日   47   0   0 Texthadoopapache

一、问题描述 三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的平均分。 数据格式如下: Chinese.txt 张三78 李四89 王五96 赵六67 Math.txt 张三88 李四99 王五66 赵六77 English.txt 张三80 李四82 王五84 赵六86 二、MapReduce编程 packagecom.cl.hadoop.avg; importcom.cl.hadoop.FileUtil; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.fs...

  fztgkkRjHIsV   2023年11月02日   60   0   0 Texthadoopapache

一、软件环境 我使用的软件版本如下: IntellijIdea2017.1 Maven3.3.9 macOS本地配置Hadoop环境单服务(Docker Hadoop分布式环境(安装教程可参考这里)) 二、创建maven工程 打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可,不用勾选Creatfromarchetype,如果想创建web工程或者使用骨架可以勾选)    完整的工程路径如下图所示:  三、添加maven依赖 在pom.xml添加依...

  fztgkkRjHIsV   2023年11月02日   55   0   0 hadoopJavaapache

本文目的: 使用ZooKeeper作为SpringBoot应用的配置中心 应用中使用到的业务规则存储在Zookeeper中,规则更新后在不重启应用的情况下通知应用动态重载规则 1.zookeeper简介 Zookeeper是一个高性能,分布式的,开源分布式应用协调服务。它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如同步,配置管理,集群管理,命名空间。它被设计为易于编程,使用文件系统目录树作为数据模型。服务端跑在java上,并且提供java和C的客户端API。 数据模型: 特点: 采用树形结构,每个节点叫Znode,节点路径已/分隔,如:/zoo/foo,每个节点路...

  fztgkkRjHIsV   2023年11月02日   43   0   0 zookeeperspring加载

   之前,我们说过Hadoop的两个核心为HDFS和MapReduce,既然我们已经学习了Hadoop的HDFS,那么我们就来看看MapReduce是什么。当然,我们学习的顺序还是先看看基本概念,再研究一下原理,最后做一些练习。 一、是什么 1、概念理解       HadoopMap/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 2、Map(映射)   &nbs...

  fztgkkRjHIsV   2023年11月02日   32   0   0 jarhdfshadoop

一:需要的jar包: 1.<?xmlversion="1.0"encoding="UTF-8"?> 2.<projectxmlns="http://maven.apache.org/POM/4.0.0" 3.xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 4.xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"> 5.<modelVersion>4.0...

  fztgkkRjHIsV   2023年11月02日   42   0   0 dockerhadoopapache

文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。 1.介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。 传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时访问NFSServer时,很容易造成服务器压力,造成性能瓶颈。另外如果要对NFS中的文件中进行操作,需要首先同步到本地,这些...

  fztgkkRjHIsV   2023年11月02日   37   0   0 hdfshadoop文件系统

在安装并配置好Hadoop环境之后,需要运行一个实例来验证配置是否正确,Hadoop就提供了一个简单的wordcount程序,其实就是统计单词个数的程序,这个程序可以算是Hadoop中的“HelloWorld”了。 MapReduce 原理 MapReduce其实就是采用分而治之的思想,将大规模的数据分成各个节点共同完成,然后再整合各个节点的结果,得到最终的结果。这些分节点处理数据都可以做到并行处理,大大缩减了工作的复杂度。 过程 MapReduce可以分成两个阶段,其实就是单词拆成map和reduce,这其实是两个函数。map函数会产生一个中间输出,然后reduce函数接受多个map函数产...

  fztgkkRjHIsV   2023年11月02日   43   0   0 jarhadoop

1.Azkaban是什么? Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 在介绍Azkaban之前,我们先来看一下现有的两个工作流任务调度系统。知名度比较高的应该是ApacheOozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂...

  fztgkkRjHIsV   2023年11月02日   62   0   0 ci上传执行流程

springboot中,可以通过在bootstrap.yml配置文件中,配置多个不同的profile,实现在不同的环境(比如开发、测试和生产环境)使用不同的配置变量。 SpringBoot中application.yml与bootstrap.yml的区别 Bootstrap.yml(bootstrap.properties)在application.yml(application.properties)之前加载,就像application.yml一样,但是用于应用程序上下文的引导阶段。它通常用于“使用SpringCloudConfigServer时,应在bootstrap.yml中指定spr...

  fztgkkRjHIsV   2023年11月02日   63   0   0 jarbootstrapspring

1、添加Maven依赖(或jar包) <!-RabbitMQ--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-amqp</artifactId> </dependency> 2、配置数据源相关信息 RabbitMQ spring.application.name=spirng-boot-rabbitmq spring.rabbitmq.host=...

  fztgkkRjHIsV   2023年11月02日   66   0   0 jarJavaspring
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~