摩杜云开发者社区-摩杜云

正则表达式(Java版整理)

基础元字符代码说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 ^ 匹配字符串的开始 $ 匹配字符串的结束 \b 匹配字符串的结束重复代码/语法说明重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次字符类想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e...

ILwIY8Berufg 2023年11月02日 38 0 0 字符串子序列正则表达式字符串子序列正则表达式

java处理xml——Dom方式

字符串格式的xml <?xmlversion="1.0"encoding="UTF-8"?><rssversion="2.0"><channel><title>JavaTutorialsandExamples</title><item><title><![CDATA[JavaTutorials]]></title><link>http://www.javacodegeeks.com/</link></item><item><titl...

ILwIY8Berufg 2023年11月02日 66 0 0 xml Java Java xml

java处理xml——Dom4j方式

Maven依赖，1.6+版的Dom4j得引入jaxen包 <dependencies> <dependency> <groupId>jaxen</groupId> <artifactId>jaxen</artifactId> <version>1.1.6</version> </dependency> <dependency> <groupId>dom4j</groupId> <artifactId>dom4j&...

ILwIY8Berufg 2023年11月02日 91 0 0 xml Java Java xml

根据xpath生成xml

根据传入的xpath生成对应的xml文件国内网站上这一块可以参考的东西很少，所有自己写了一个工具类，不需要导入额外的jar包，给大家分享一下输入文件： input.txt Student/PlayGame Student/FallInLove Student/WatchTV Student/Games/LOL Student/Games/CF Student/Games/DNF Student/Lovers/Jack Student/Lovers/Daniel Student/Lovers/Lily Student/Money/dollar Student/Money/RMB Stude...

ILwIY8Berufg 2023年11月02日 70 0 0 子节点 xml Java Java 子节点 xml

poi读取Excel日期为数字的解决方法

这个问题虽然也比较常见，解决办法也比较简单，但是网上有一些代码不全，思路混乱，乱七八糟的办法，容易误导大家，特地来为大家开路这里分享一下我的一个思路 Maven依赖  <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.9</version> </dependency> <dependency> <groupId>org...

ILwIY8Berufg 2023年11月02日 45 0 0 apache Java Apache JSON Java json

PostgreSQL使用jdbc导入csv文件

在windows版的pgAdmin中，可以轻松的导入数据，但是如果要在pgAdmin的界面中用命令来导入的话就不好办了（使用cmdcopy命令除外）这里介绍一下如何使用JDBC的方式来导入一个csv文件到数据库表 init.sql CREATETABLEpublic.test( idcharactervaryingNOTNULL, namecharactervarying ); INSERTINTOpublic.testVALUES('1','Daniel'); INSERTINTOpublic.testVALUES('2','Lily'); input.csv id,name 3,J...

ILwIY8Berufg 2023年11月02日 60 0 0 sql PostgreSQL Java SQL postgresql Java

Java根据权重生成随机数

算法的思路为将所有的key和value先放到一个集合在添加在集合的过程中，权重是会累加的生成介于0到100(总权重，不一定要为100)的随机数通过累加的权重与这个随机数比较，如果比大于或等于它则输出 WeightedRandom.java packageutil; importjava.util.; / @AuthorDaniel @Description根据权重生成随机数 / publicclassWeightedRandom{ publicstaticvoidmain(String[]args){ Map<String,Double>map=newHas...

ILwIY8Berufg 2023年11月02日 87 0 0 权重随机数 Java 随机数 Java 权重

java按列拼接文本

在java中实现按列评价是非常简单和方便的，类似于scala与python中的zip函数，shell命令中的paste命令 1.txt idname 1Daniel 2Mary 3Mike 2.txt deptgender AM CF DM MergeFileByLine.java packagecom.blog; importjava.io.; / @AuthorDaniel @DescriptionJava按列拼接文本 / publicclassMergeFileByLine{ publicstaticvoidmain(String[]args){ mergeData("1....

ILwIY8Berufg 2023年11月02日 85 0 0 文本文件 Java Java 文本文件 python Python

vue-echarts环境构建(包成功)

github上有不少vue+echart的demo，但是对于不会vue的新手来说，还是不太友好的，这里出一个对vue新手比较友好的vue+echart项目构建教程 1.环境准备需要用到的环境或组件(自行安装) node npm node+npm安装 vscode vscode官网安装 vue2 npminstallvue webpack npminstallwebpackwebpack-cli–g vue-cli npminstall-gvue-cli 测试是否安装成功 node-v npm-v vuelist 2.项目构建自行新建一个目录，用来...

ILwIY8Berufg 2023年11月02日 38 0 0 Email App App ide ide Email

Spring Data JPA快速入门

一、SpringDataJpa简介 1.JPA JPA(JavaPersistenceAPI)意即Java持久化API，是Sun官方在JDK5.0后提出的Java持久化规范（JSR338，这些接口所在包为javax.persistence，详细内容可参考:https://github.com/javaee/jpa-spec）JPA的出现主要是为了简化持久层开发以及整合ORM技术，结束Hibernate、TopLink、JDO等ORM框架各自为营的局面。JPA是在吸收现有ORM框架的基础上发展而来，易于使用，伸缩性强。总的来说，JPA包括以下3方面的技术： ORM映射元数据：支持XML和注解...

ILwIY8Berufg 2023年11月02日 85 0 0 User JPA spring spring User JPA

SpringBoot基于Restful架构实现增删改查

1.构建SpringBoot项目基于maven构建（Maven的安装与配置） Next Next 创建好项目后，添加Maven依赖  <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.1.4.RELEASE</version> <relativ...

ILwIY8Berufg 2023年11月02日 48 0 0 java spring Java User User spring

eclipse连接HDFS

1.文件准备百度云链接提取码：t72q 解压hadoop压缩包将winutils.exe放在hadoop的安装包的bin目录下将hadoop.dll放在windows下的System32目录下将hadoop-eclipse-plugin-2.7.5.jar放在eclipse的plugins目录下 2.配置windows下的环境变量因为hadoop是在JDK的基础上运行的所以这里首先配置一下JDK JAVA_HOME在系统环境变量中点击新建加入自己JDK的路径,如果你的路径里面有空格，要进行转译，比如我这里ProgramFiles中有空格，我就给他加了英文下的双引号进行转...

ILwIY8Berufg 2023年11月02日 93 0 0 java HDFS Hadoop java Hadoop HDFS

MapReduce实现PageRank算法——基于web-Google.txt

本文主要是介绍如何使用pagerank算法处理67M的web-Google.txt文件。需要对pagerank有一定的了解。由于网上介绍pagerank的文章比较多，这里就不在重新介绍，推荐两篇比较好的文章 java版Hadoop实战训练————MapReduce实现PageRank算法 python版PageRank算法简介及Map-Reduce实现需求使用mapreduce实现pagerank算法，计算web-Google.txt文件中的top100的pr值解决方案 1.编码 maven依赖 <dependency> <groupId>org.apa...

ILwIY8Berufg 2023年11月02日 79 0 0 Text Text Hadoop Hadoop apache apache

Spark利用多线程并发提交多个任务

一个SparkSubmit可以同时提交多个sql并行跑吗？这里来探究一下这个问题这里模拟一个需求来说明一个submit命令是否可以并行提交多个Job 需求：按列拼接三个表（不是按key来join，与key无关）例如 1A 2B 3C 拼接上 1a 2c 3b 正确的结果应该为 1A1a 2B2c 3C3b 弄清楚需求后，贴上代码 Maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core...

ILwIY8Berufg 2023年11月02日 56 0 0 sql spark spark SQL apache apache

Spark创建DataFrame的三种方式

Scala packageblog importorg.apache.spark.sql.{Row,SparkSession} importorg.apache.spark.sql.types.{IntegerType,StringType,StructField,StructType} / @AuthorDaniel @Descriptionscala创建DataFrame的三种方式 / objectCreateDataFrame{ defmain(args:Array[String]):Unit={ valspark=SparkSession.builder() .master(...

ILwIY8Berufg 2023年11月02日 67 0 0 sql spark spark SQL apache apache

SparkStreaming常见transformation算子

map(func)对DStream中的各个元素进行func函数操作，然后返回一个新的DStream flatMap(func)与map方法类似，只不过各个输入项可以被输出为零个或多个输出项 filter(func)过滤出所有函数func返回值为true的DStream元素并返回一个新的DStream repartition(numPartitions)增加或减少DStream中的分区数，从而改变DStream的并行度 union(otherStream)将源DStream和输入参数为otherDStream的元素合并，并返回一个新的DStream. count()通过对DStreaim中的...

ILwIY8Berufg 2023年11月02日 43 0 0 数据 spark 数据 spark apache apache

Spark Streaming编程案例

Maven依赖 <properties> <spark.version>2.2.2</spark.version> </properties> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${spark.version}</version> </...

ILwIY8Berufg 2023年11月02日 81 0 0 kafka spark spark kafka apache apache

Spark Streaming优化建议

1.缓存操作 SparkStreaming的缓存就是DStream的缓存，DStream的缓存就只有一个方面，DStream对应的RDD的缓存，说白了就是RDD的缓存，只要使用rdd.persist()算子指定持久化策略，大多算子默认情况下，持久化策略为MEMORY_AND_DISK_SER_2。 2.Checkpoint机制每一个SparkStreaming应用，正常来说，都是要724小时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此，对实时计算应用的要求，应该是必须要能够对与应用程序逻辑无关的失败，进行容错。如果要实现这个目标，SparkStreaming程序就...

ILwIY8Berufg 2023年11月02日 58 0 0 数据 spark 数据应用程序 spark 应用程序

Spark Structured Streaming入门编程指南

Spark结构式流编程指南概览 StructuredStreaming是一个可拓展，容错的，基于SparkSQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来，SparkSQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在SparkSQL上引擎上使用DataSet/DataFrameAPI处理流数据的聚集，事件窗口，和流与批次的连接操作等。最后StructuredStreaming系统快速，稳定，端到端的恰好一次保证，支持容错的处理。小样例 importorg.apache.spark.sql.functions._ importorg.apach...

ILwIY8Berufg 2023年11月02日 25 0 0 数据集输出模式数据集数据数据输出模式

Spark机器学习——TF-IDF算法

TF-IDF介绍上面是TF-IDF算法的公式。这里从一个实例开始说起。假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用程序提取它的关键词。一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行词频（TermFrequency，缩写为TF）统计。结果你肯定猜到了，出现次数最多的词是——"的"、"是"、"在"——这一类最常用的词。它们叫做停用词（stopwords），表示对找到结果毫无帮助、必须过滤掉的词。假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个...

ILwIY8Berufg 2023年11月02日 34 0 0 词频权重词频权重 spark spark