datasetstation

datasetstation 快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题


Keywords
computer-vision, datasets, deep-learning, natural-language-processing, nlp
License
Apache-2.0
Install
pip install datasetstation==1.0.1.10

Documentation

datasetstore

有没有找不到中文数据集,有没有找到中文数据集下载缓慢,下载了数据集每次都要根据不同的框架写不同的预处理逻辑的痛苦。 这个包帮你搞定这些!

  • 不用等了很久,结果 Timeout
  • 不用每次写不同的数据预处理代码

快速使用

pip install datasetstore
from datasetstore import load_dataset, list_datasets

# 打印支持的数据集
print(list_datasets())

# 加载数据及并打印并第一个样本
hotel_review = load_dataset('hotel-review')
print(hotel_review['train'][0])

# 处理数据集 - 给每个样本增加一个文本长度的特征
hotel_review = hotel_review.map(lambda x: {"length": len(x["text"])})

# 结合 transformers 库,快速使用各种模型处理任务
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')

tokenized_dataset = hotel_review.map(lambda x: tokenizer(x['text']), batched=True)

更多的关于 dataset 的操作,请参考 Huggingface Datasets 文档

目前支持数据集

数据集 介绍
hotel-review 【英文】酒店评价情感分析
imdb 【英文】电影评论情感分析
new-title-chinese 【中文】新闻标题
chinese-hotel-review 【中文】携程酒店评价情感分析
dbms 【中文】豆瓣电影评论、打分数据
ez-douban 【中文】豆瓣电影信息、打分、评论
waimai-review-10k 【中文】外卖评价数据 10k 条,正负两种情绪
weibo-senti-100k 【中文】微博情感分析 100k 条,正负两种情绪
simplifyweibo-4-moods 【中文】微博情感分析,喜悦、愤怒、厌恶、低落四种情绪
eshopping-10-cats 【中文】电商 10 种商品评价,正负情感
squad 【英文】Stanford Question Answering Dataset (SQuAD)
stopwords-cn 【中文】中文停用词表
stopwords-hit 【中文】哈工大停用词表
stopwords-baidu 【中文】百度停用词表
stopwords-scu 【中文】四川大学机器智能实验室停用词库

(陆续上传更多中文数据集)如果你有数据集,希望也能快速使用,请联系作者公众号 @春阳CYang。存储空间有限,先到先得!

ROADMAP

每个版本详细的变更日志 release notes.

协议

Apache License

Copyright on (c) 2022-present CYang