pystopwords

中文停用词大全Python接口


Keywords
停用词, stopwords, 中文, chinese
License
MIT
Install
pip install pystopwords==0.0.2

Documentation

pystopwords

简介

中文停用词大全,支持Python接口, 可选择百度,哈工大,中科院等公开停用词典。

目前只专注于中文,未来考虑加入多语言支持。

安装

pip install pystopwords

使用方法

from pystopwords import stopwords

stopwords函数返回一个停用词set,有两个参数:

  • langs: string,支持的语言,目前仅支持中文(zh)
  • source: string, 停用词来源,目前支持
    • baidu: 百度停用词表
    • hit: 哈工大停用词表
    • ict: 中科院计算所停用词表
    • scu: 四川大学机器智能实验室停用词库
    • cn: 广为流传未知来源的中文停用词表
    • marimo: Marimo multi-lingual stopwords collection 内的中文停用词
    • iso: Stopwords ISO 内的中文停用词
    • all: 上述所有停用词并集

默认参数是stopwords(langs='zh', source='all')

from pystopwords import stopwords
import jieba

# 默认的参数为:
# all_stopwords = stopwords(langs='zh', source='all')
all_stopwords = stopwords()

# 可以选择不同的来源
baidu_stopwords = stopwords(source='baidu')
hit_stopwords = stopwords(source='hit')

word_list = jieba.lcut('我想找一个简单好用的停用词典')
word_list_drop_stopwords = [word for word in word_list if word not in all_stopwords]
print(word_list_drop_stopwords)

# Stdout: ['想', '找', '简单', '好用', '停用', '词典']

来源说明

名称 来源 来源url 个数 备注
ict 中科院计算所 1207 网络上大部分很多链接失效,而且一共1207个,不是网传的1208个
baidu 百度 1429
hit 哈工大 767
scu 四川大学机器智能实验室 976
cn 未知来源 746
marimo koheiw https://github.com/koheiw/marimo 387 原始文件有更细致的分类体系
iso stopwords-iso https://github.com/stopwords-iso/stopwords-iso 794 原始文件支持很多语言