python中jieba库用法详解
  TEZNKK3IfmPf 2023年11月14日 18 0

jieba分词

示例代码:

import jieba

s = '我爱你伟大的中华人民共和国!人生苦短,我爱python!'

# 精确匹配 默认模式
ret1 = jieba.lcut(s, cut_all=False)  # 默认是False
print(ret1)

# 全匹配
ret2 = jieba.lcut(s, cut_all=True)
print(ret2)

# 精确匹配
ret3 = jieba.lcut_for_search(s)
print(ret3)

运行结果:

python中jieba库用法详解

词性标注

示例代码:  

import jieba.posseg as pseg

s = '我爱你伟大的中华人民共和国!人生苦短,今天我要好好学习python!'

# 默认匹配
ret1 = pseg.lcut(s)
print(ret1)

ret2 = pseg.lcut(s, use_paddle=True)  # 看源码似乎需要安装
print(ret2)

运行结果:

python中jieba库用法详解

paddle模式的词性对照表如下:

python中jieba库用法详解

关键字提取

        基于 TF-IDF 算法进行关键词提取,也可以基于TextRank 算法。 TF-IDF 算法与 elasticsearch 中使用的算法是一样的。

示例代码:

import jieba.analyse

s = '我爱你伟大的中华人民共和国!人生苦短,今天我要好好学习python!'
topk = 3

# 使用tf-idf算法提取关键词
tags = jieba.analyse.extract_tags(s, topk)
print(tags)

# 使用textrank算法提取关键词
tags2 = jieba.analyse.textrank(s, topk, withWeight=True)
print(tags2)

运行结果:

python中jieba库用法详解

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读
  TEZNKK3IfmPf   2024年05月31日   36   0   0 python开发语言
  TEZNKK3IfmPf   2024年05月31日   27   0   0 python
  TEZNKK3IfmPf   2024年05月31日   35   0   0 excelpython
  TEZNKK3IfmPf   2024年05月31日   28   0   0 python
TEZNKK3IfmPf