中英文关键词抽取 欢迎使用中英文关键词抽取工具,本工具支持多种关键词抽取算法,帮助用户从文本中快速提取重要信息。下图展示了我们所支持的关键词抽取算法: 介绍 本工具提供多种关键词抽取算法,满足不同需求。支持的算法如下: TF-IDF:通过词频和逆文档频率来衡量词汇的重要性。 TextRank:基于图算法的无监督关键词抽取方法。 KeyBERT:结合BERT模型的关键词抽取技术,能捕捉语义相关性。 Word2Vec:利用词向量表示来进行关键词提取。 LDA:一种基于主题模型的关键词抽取方法。   使用方法 1、TF-IDF fromkeyword_extractimportKe...

  KPcg4i6RCrif   13天前   40   0   0 算法与数据结构

TF-IDF(TermFrequency-InverseDocumentFrequency),是用来衡量一个词在文档中的重要性,下面看一下TDF-IDF的公式:   首先是TF,也就是词频,用来衡量一个词在文档中出现频率的指标。假设某词在文档中出现了(n)次,而文档总共包含(N)个词,则该词的TF定义为: 注意:(t,d)中的t表示的是文档中的词汇,d表示的是文档的词汇集合,通过计算TF也就是进行词频率的统计,好的,那么看一下代码的实现。   defcompute_tf(word_dict,doc_words): """ :paramword_dict:字符的统计个数...

  KPcg4i6RCrif   29天前   47   0   0 算法与数据结构

无重复字符的最长子串 这个问题两个思路,要么进行遍历暴力破解,要么进行滑动窗口(巧妙),下面先看一下暴力解法: classSolution: deflengthOfLongestSubstring(self,s:str)->int: s_count=len(s) max_list=[] ifs_count0: return0 else: 两层的遍历 foriinrange(s_count): tmp=s[i] max_list.append(tmp) forjinrange(i+1,s_count): tmp+=s[j] max_list.append(tmp) 然后用set判断...

  KPcg4i6RCrif   2024年08月16日   46   0   0 算法与数据结构

一键语法错误增强工具    欢迎使用我最近开源的使用一键语法错误增强工具,该工具可以进行14种语法错误的增强,不同行业可以根据自己的数据进行错误替换,来训练自己的语法和拼写模型,希望推动行业文本纠错的发展,欢迎Star,14种错误如下所示:   每种错误类型,对应的使用方法,如下所示: 环境的安装   pipinstallChineseErrorCorrector    不同类型的数据增强 1.缺字漏字   fromChineseErrorCorrector.datimportGrammarErrorDat cge...

  KPcg4i6RCrif   2024年08月07日   80   0   0 AI综合

对精确率、召回率、F1值的理解 算法理解 在机器学习中,P、R和F1值在各种评测中很常见,那么到底什么是P、R、F1值呢,怎么理解呢,困扰了很多人,下面给我对P、R、F1值的理解,   首先,我们先看一个表:   模型预测为正例 模型预测为负例 真的正例 TP FN 真的负例 FP TN 然后根据上面的表,再看一下下面的公式,后面会给出详细的例子,供大家理解:    $$P=\frac{TP}{TP+FP} $$ 精确率P的理解是:所有预测出来的正例中有多少是真的正例。    $$R=\frac{TP}{...

  KPcg4i6RCrif   2024年08月07日   40   0   0 算法与数据结构
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~