小树的博客

技术

发表于2024-07-08更新于2024-11-20 Python

评论分词评论内容分词基于jieba的中文分词GitHub的项目地址：jieba jieba的使用非常简单，在这里为了对评论文本进行审核，我们只使用最基础的分词功能，以下是全模式的分词示例： 123456import jiebaseg_list = jieba.cut("今天军训我摸鱼")for word in seg_list: print(word) 最终的分词结果会返回到一个列表对象中，我们对这个列表进行循环即可得到分词。我们尝试基于jieba分词，再将分词与与停用库中的词语进行对比，从而实现评论过滤的作用。 1234567891011121314import jiebajieba.load_userdict('stop-words.txt')with open('stop-words.txt', 'r', encoding='utf-8') as open: stopwords = open.read().split('\n')seg_list = ...