摩杜云开发者社区-摩杜云

中英文关键词抽取

中英文关键词抽取欢迎使用中英文关键词抽取工具，本工具支持多种关键词抽取算法，帮助用户从文本中快速提取重要信息。下图展示了我们所支持的关键词抽取算法：介绍本工具提供多种关键词抽取算法，满足不同需求。支持的算法如下： TF-IDF：通过词频和逆文档频率来衡量词汇的重要性。 TextRank：基于图算法的无监督关键词抽取方法。 KeyBERT：结合BERT模型的关键词抽取技术，能捕捉语义相关性。 Word2Vec：利用词向量表示来进行关键词提取。 LDA：一种基于主题模型的关键词抽取方法。   使用方法 1、TF-IDF fromkeyword_extractimportKe...

KPcg4i6RCrif 13天前 40 0 0 算法与数据结构

TF-IDF 算法原理以及源码实现

TF-IDF（TermFrequency-InverseDocumentFrequency），是用来衡量一个词在文档中的重要性，下面看一下TDF-IDF的公式：   首先是TF，也就是词频，用来衡量一个词在文档中出现频率的指标。假设某词在文档中出现了(n)次，而文档总共包含(N)个词，则该词的TF定义为：注意：（t，d）中的t表示的是文档中的词汇，d表示的是文档的词汇集合，通过计算TF也就是进行词频率的统计，好的，那么看一下代码的实现。   defcompute_tf(word_dict,doc_words): """ :paramword_dict:字符的统计个数...

KPcg4i6RCrif 29天前 47 0 0 算法与数据结构

最长无重复子串

无重复字符的最长子串这个问题两个思路，要么进行遍历暴力破解，要么进行滑动窗口（巧妙），下面先看一下暴力解法： classSolution: deflengthOfLongestSubstring(self,s:str)->int: s_count=len(s) max_list=[] ifs_count0: return0 else: 两层的遍历 foriinrange(s_count): tmp=s[i] max_list.append(tmp) forjinrange(i+1,s_count): tmp+=s[j] max_list.append(tmp) 然后用set判断...

KPcg4i6RCrif 2024年08月16日 46 0 0 算法与数据结构

一键语法错误增强工具 ChineseErrorCorrector

一键语法错误增强工具    欢迎使用我最近开源的使用一键语法错误增强工具，该工具可以进行14种语法错误的增强，不同行业可以根据自己的数据进行错误替换，来训练自己的语法和拼写模型，希望推动行业文本纠错的发展，欢迎Star，14种错误如下所示：   每种错误类型，对应的使用方法，如下所示：环境的安装   pipinstallChineseErrorCorrector 　　不同类型的数据增强 1.缺字漏字   fromChineseErrorCorrector.datimportGrammarErrorDat cge...

KPcg4i6RCrif 2024年08月07日 80 0 0 AI综合

对精确率（P）、召回率（R）、F1值的理解以及对应的实现

对精确率、召回率、F1值的理解算法理解在机器学习中，P、R和F1值在各种评测中很常见，那么到底什么是P、R、F1值呢，怎么理解呢，困扰了很多人，下面给我对P、R、F1值的理解，   首先，我们先看一个表：   模型预测为正例模型预测为负例真的正例 TP FN 真的负例 FP TN 然后根据上面的表，再看一下下面的公式，后面会给出详细的例子，供大家理解：    $$P=\frac{TP}{TP+FP} $$ 精确率P的理解是：所有预测出来的正例中有多少是真的正例。    $$R=\frac{TP}{...

KPcg4i6RCrif 2024年08月07日 40 0 0 算法与数据结构