评论分词评论内容分词基于jieba的中文分词GitHub的项目地址:jieba
jieba的使用非常简单,在这里为了对评论文本进行审核,我们只使用最基础的分词功能,以下是全模式的分词示例:
123456import jiebaseg_list = jieba.cut("今天军训我摸鱼")for word in seg_list: print(word)
最终的分词结果会返回到一个列表对象中,我们对这个列表进行循环即可得到分词。
我们尝试基于jieba分词,再将分词与与停用库中的词语进行对比,从而实现评论过滤的作用。
1234567891011121314import jiebajieba.load_userdict('stop-words.txt')with open('stop-words.txt', 'r', encoding='utf-8') as open: stopwords = open.read().split('\n')seg_list = ...