摩杜云开发者社区-摩杜云

Spark机器学习——余弦相似性算法

余弦相似性介绍有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，百度主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到余弦相似性（cosinesimiliarity）。下面，我举一个例子来说明，什么是"余弦相似性"。余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。...

ILwIY8Berufg 2023年11月02日 24 0 0 词频余弦相似度词频 spark 余弦相似度 spark

Spark机器学习——K-Means聚类算法

K-Means介绍中心思想：事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中。接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。聚类算法：是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是：聚类算法是无监督的学习算法，而分类算法属于监督的学习算法，分类是知...

ILwIY8Berufg 2023年11月02日 28 0 0 聚类 spark spark apache 聚类 apache

CDP7无SparkSQL解决方案

相信很多在用CDP7的小伙伴都遇到了Spark里面不再支持spark-sql的问题这里给出两种解决方案：spark-submit与spark-shell cloudera官方给的解决方案 https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/developing-spark-applications/topics/spark-sql-example.html 基于这个方案，这里提供两种通用方案 test.hql CREATEDATABASESPARK; CREATETABLESPARK.TEST(IDINT,NAMESTRING); ...

ILwIY8Berufg 2023年11月02日 33 0 0 sql spark spark SQL

Spark中文分词案例

这里介绍一下用spark对中文文本中的关键字提取，这里使用IK分词实现 Maven依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.6</version> </dependency> <dependency> <groupId>org.apache.s...

ILwIY8Berufg 2023年11月02日 35 0 0 Word Word spark spark apache apache

Spark机器学习——逻辑回归分类算法

逻辑回归介绍逻辑回归是一种的监督学习算法，主要用于分类问题。 LogisticRegression虽然被称为回归，但其实际上是分类模型，并常用于二分类。LogisticRegression因其简单、可并行化、可解释强深受工业界喜爱。 Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。逻辑回归案例这里主要通过逻辑回归模型建立一个二元分类器模型，根据过去的考试成绩预测下一次学生的考试及格/不及格成绩 scores.csv (第一次考试的分数，第二次考试的分数，是(0)否(1)能通过第三次考试) score1,score2,result 34.62365...

ILwIY8Berufg 2023年11月02日 29 0 0 spark spark apache lua apache lua

Spark机器学习——协同过滤推荐算法

协同过滤介绍协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。协同过滤算法是一种较为著名和常用的推荐算法，它基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐。也就是常见的“猜你喜欢”，和“购买了该商品的人也喜欢”等功能。协同过滤之Spark实例官方案例链接 https://spark.apache.org/docs/2.2.2/ml-collaborative-...

ILwIY8Berufg 2023年11月02日 38 0 0 spark spark apache lua apache lua

hadoop基础集群环境准备

hadoop基础集群环境准备 1.配置权限给hadoop用户(普通用户)sudoer权限，在root账号下，输入 vi/etc/sudoers 然后按一下大写的G，在如图所示地方加上一行保存退出 2.修改主机名在root账号下，输入 vi/etc/sysconfig/network 保存退出 3.设置系统默认启动级别在root账号下，输入 vi/etc/inittab 将这里默认的数值5，改为3 保存退出 4.配置IP 参考网络配置(里面第三步中IPADDR的值为自己想要配置的IP值)1-4步 5.关闭防火墙输入,永久关闭防火墙 chkconfigiptables...

ILwIY8Berufg 2023年11月02日 34 0 0 java linux linux Hadoop java Hadoop

hadoop分布式集群安装

hadoop分布式集群安装(使用普通用户hadoop) 集群规划: HDFS YARN hadoop01 namenode+datanode nodemanager hadoop02 datanode+secondarynamenode nodemanager hadoop03 datanode nodemanager+resourcemanager 1.上传安装包 putc:/hadoop-2.7.6.tar.gz 2.解压安装包 tar-zxvfhadoop-2.7.6.tar.gz-C/home/hadoop/apps 3.配置环境变量输入 ...

ILwIY8Berufg 2023年11月02日 52 0 0 HDFS xml Hadoop xml Hadoop HDFS

Spark入门运行wordcount

在spark集群上跑一个程序首先保证下面进程开启 zookeeper hdfs spark 首先是父类的依赖 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.2</spark.version> <hadoop.version>2.7.6</hadoop.version> </properties> <modules> <module>spark-core-study</mo...

ILwIY8Berufg 2023年11月02日 44 0 0 spark spark apache scala scala apache

Spark中常见transformation操作

1-8main defmain(args:Array[String]):Unit={ valconf=newSparkConf() .setAppName(s"${Transformation.getClass.getSimpleName}") .setMaster("local[]") valsc=newSparkContext(conf) //map(sc) //flatMap(sc) //filter(sc) //sample(sc) //union(sc) //join(sc) //gbk(sc) //rbk(sc) sc.stop() } 1.map rdd.map(func)...

ILwIY8Berufg 2023年11月02日 49 0 0 右外连接 spark spark 右外连接 List List

Spark 高可用分布式集群搭建

安装节点要求： jdk hadoop scala zookeeper 1.安装scala 1.1上传安装包 putc:/scala-2.11.8.tgz 1.2解压 tar-zxvfscala-2.11.8.tgz-C/home/hadoop/apps/ 1.3重命名 mvscala-2.11.8scala 1.4配置环境变量 vim/.bash_profile 添加如下内容 exportSCALA_HOME=/home/hadoop/apps/scala exportPATH=$PATH:$SCALA_HOME/bin 重新加载配置文件 source/.bash_p...

ILwIY8Berufg 2023年11月02日 21 0 0 hadoop Hadoop spark spark

Spark SQL与Hive整合

节点要求：启动hdfs 启动spark 1.SparkSQL整合Hive配置 1.1修改配置文件 cdapps/apache-hive-2.3.2-bin/conf/ vihive-site.xml 首先在hive-site.xml配置文件最后加入以下一个配置，这里为hive所在节点 <property> <name>hive.metastore.uris</name> <value>thrift://hadoop03:9083</value> </property> 1.2拷贝配置文件将hive-si...

ILwIY8Berufg 2023年11月02日 42 0 0 hive hive hadoop Hadoop spark spark

Spark中常见action操作

1.foreach 遍历rdd中所有的元素。 retRDD.foreach(println) 2.count 统计该rdd中元素的个数，返回值为Long类型。 println(retRDD.count()) 3.take 返回该rdd中的前N个元素，如果该rdd的数据是有序的，那么take(n)就是TopN。 println(retRDD.take(2).mkString("[",",","]")) 4.first take(n)中比较特殊的一个take(1)(0)，即take(1)集合中的第一个元素。 println(retRDD.first) 5.collect 字面意思...

ILwIY8Berufg 2023年11月02日 41 0 0 Text hadoop Text Hadoop apache apache

Spark core中高级排序相关操作

1.普通排序 1.1sortByKey sortByKey数据类型为k-v，且是按照key进行排序。sortByKey是局部排序，不是全局排序，如果要进行全局排序，必须将所有的数据都拉取到一台机器上面才可以 //sortByKey，按照身高进行降序排序 valheight2Stu=stuRDD.map(stu=>(stu.height,stu)) valsorted=height2Stu.sortByKey(ascending=false,numPartitions=1) sorted.foreach{case(height,stu)=>println(stu)} 1.2so...

ILwIY8Berufg 2023年11月02日 28 0 0 ide spark ide spark apache apache

RDD常见编程题

1.hdfs目录/data下的数据文件peopleinfo.txt，该文件包含了序号、性别和身高三个列，形式如下： 1F170 2M178 3M174 4F165 编写Spark应用程序，该程序对HDFS文件中的数据文件peopleinfo.txt进行统计，计算得到男性总数、女性总数、男性最高身高、女性最高身高、男性最低身高、女性最低身高。 packageblog.p4 importorg.apache.spark.{SparkConf,SparkContext} / @AuthorDaniel @Description 第一题解答 / objectTest1{ defmain(a...

ILwIY8Berufg 2023年11月02日 20 0 0 spark spark apache List apache List

Spark SQL load hdfs数据报错解决方法

问题描述：在使用sparksql加载hdfs上的数据的时候报错，加载本地的就没问题，一直报找不到路径的错，但是hdfs上是有文件的 loaddatainpath'data/spark/teacher_basic.txt'intotablespark_on_hive.teacher_basic 在sparksql上run这个load语句报错： Errorinquery:java.lang.IlleagalArgumentException:WrongFS:hdfs:/,expected:file:///; 在hive里面run同样的语句却可以执行 loaddatainpath'data...

ILwIY8Berufg 2023年11月02日 44 0 0 mysql hive hive spark spark MySQL

Spark核心机制之SparkCore详解

1.Spark核心功能 SparkCore提供Spark最基础的最核心的功能，主要包括： SparkContext 通常而言，DriverApplication的执行与输出都是通过SparkContext来完成的，在正式提交Application之前，首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、Web服务等内容，应用程序开发者只需要使用SparkContext提供的API完成功能开发。 SparkContext内置的DAGScheduler负责创建Job，将DAG中的RDD划分到不同的St...

ILwIY8Berufg 2023年11月02日 45 0 0 数据 sql 数据应用程序 SQL 应用程序

Spark Streaming中整合Spark SQL与HDFS

Maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.2.2</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactI...

ILwIY8Berufg 2023年11月02日 50 0 0 hadoop Hadoop spark spark apache apache

Windows下安装ClickHouse图文教程

ClickHouse是没有Windows版的，所以我们要想安装在windows上，一般会选择安装在Docker容器中 1.安装WSL2 因为在Docker运行的时候需要使用Linux内核，WSL2是Windows10专业版和企业版的功能，它允许在Windows上运行原生的Linux二进制文件。DockerDesktopforWindows使用WSL2作为其后端运行引擎，以提供更高性能和更好的兼容性 1.1启用适用于Linux的Windows子系统在开始菜单右键，使用管理员模式打开cmd/powershell dism.exe/online/enable-feature/featurenam...

ILwIY8Berufg 2023年11月02日 346 0 0 Clickhouse clickhouse

Docker部署Doris超详细图文教程

Doris安装有非常多的方法，这里主要介绍Docker中使用dev容器用来学习和测试的方法，避免在其他教程中踩坑(生产环境不建议使用Docker安装) 这里介绍一个不踩坑的docker本地单机版，笔者安装环境为Windows下的Docker，若为Linux系统安装基本一样，Linux只会更好装 1.安装Docker 参考Windows下安装ClickHouse图文教程中步骤12安装WSL以及Docker，若已安装则自行忽略 2.修改内核参数在安装doris时，需要将Linux操作系统的内核参数设置为2000000，这里是Doris官方要求的我这里是Windows，所以我在WSL虚拟机...

ILwIY8Berufg 2023年11月02日 53 0 0 doris Docker doris Docker