上市公司绿色创新效率数据计算(text mining方法的使用)
  lcmAlSHHIVfa 2023年11月02日 40 0

需求:

工作中需要计算上市公司绿色创新效率数据,需要首先利用text_preprocessing对文本提取值进行预处理,然后通过Text mining方法进行转换后计算处理,最后利用效率法来进行综合计算和归类存储,用于后续的深度数据挖掘。

解决:

import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize nltk.download('stopwords') nltk.download('punkt')

def text_preprocessing(text): # 文本转换 text = text.lower() # 分词 tokens = word_tokenize(text) # 去除停用词 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token not in stop_words] return tokens

text = "Text mining is the process of analyzing text data to extract useful information." tokens = text_preprocessing(text) print(tokens)

数据来源:  上市公司绿色创新效率数据

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

lcmAlSHHIVfa
最新推荐 更多

2024-05-31