利用jieba库进行词频统计-摩杜云开发者社区

利用jieba库进行词频统计

TEZNKK3IfmPf 2023年11月15日 31 0

字符串列表 python

0 引言

在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。

1 问题

通过对一篇文章和一本书中的词频统计，我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它，

2 方法

利用jieba库进行词频统计

encoding=’ANSI’:将打开的文本格式设为ANSI形式
read(size):方法从文件当前位置起读取size个字节，若无参数size，则表示读取至文件结束为止，它范围为字符串对象。
items = list（counts.items）:将counts中的元素存入items表格中。
key = lambda x:x[1]:等价于 def func(x):
return x[1]
reverse = True：列表反转排序，不写reverse = True 就是列表升序排列，括号里面加上reverse =True 就是降序排列！
{0:<10}{1:>5}:<表示左对齐，>表示右对齐，数字表示宽度,<10表示左对齐，并占10个位置，>5表示右对齐，占5个位置。

3 实验结果与讨论

通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。

代码清单 1

import jieba
txt = open("三国演义.txt", "r", encoding='ANSI').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print ("{0:5}".format(word, count))

4 结语

使用jieba库对一段文本进行词频的统计是一件非常有意思的事，我们只需要使用这第三方库，就可以在不阅读文本的情况下，得到该文本的高频率词汇。但jieba库的作用远远不止于此，它更多的作用等着我们去挖掘。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：创建三个学生对象，分别打印其详细信息下一篇：字符串截取

分享：

最后一次编辑于 2023年11月15日 0

暂无评论

推荐阅读

vue课程65 使用vue-filter定义全局过滤器

TEZNKK3IfmPf 22天前 33 0 0 字符串 vue 大数据

解决pandas读取文件报错ValueError: Invalid file path or buffer object type: ＜class ‘tuple‘＞

TEZNKK3IfmPf 22天前 32 0 0 python 开发语言

【Qt5学习笔记】 2.1_字符串类

TEZNKK3IfmPf 22天前 36 0 0 字符串 qt

python的粘包和分包

TEZNKK3IfmPf 22天前 31 0 0 python

生成一个文件保存在指定的文件夹中思路 python

TEZNKK3IfmPf 22天前 37 0 0 python 路径

安装pyspark kernel

TEZNKK3IfmPf 22天前 67 0 0 java spark python

Python——break、continue、pass语句作用

TEZNKK3IfmPf 22天前 41 0 0 python 开发语言

python进阶之内存模型

TEZNKK3IfmPf 22天前 29 0 0 python 内存

python3中，//、/ 的区别

TEZNKK3IfmPf 22天前 30 0 0 python

实验四、格子世界（Grid World）

TEZNKK3IfmPf 22天前 32 0 0 numpy python

python-函数-变量的作用域-全局变量

TEZNKK3IfmPf 22天前 31 0 0 python 函数

Unicode处理公共类

TEZNKK3IfmPf 22天前 28 0 0 字符串 ico i++

python界面开发--pyqt 小用

TEZNKK3IfmPf 22天前 29 0 0 python

C# split字符串根据1个或多个空格

TEZNKK3IfmPf 22天前 26 0 0 字符串 split

python-列表包字典-根据字典的某一个键的值来进行排序

TEZNKK3IfmPf 22天前 34 0 0 数据 python

python3中，isinstance() 函数

TEZNKK3IfmPf 22天前 37 0 0 字符串 python

python语句如何换行和字符串太长如何换行

TEZNKK3IfmPf 22天前 42 0 0 python 开发语言

为什么python-office自动化办公不支持mac和linux？

TEZNKK3IfmPf 22天前 35 0 0 linux python

loguru分离特定级别的日志到不同文件（TRACE/DEBUG/INFO/SUCCESS/WARNING/ERROR/CRITICAL）

TEZNKK3IfmPf 22天前 37 0 0 日志 python

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14