概要

文字列をひらがな、片仮名、漢字、数字、アルファベットごとに分割するツールです。英日両文に適用可能ですが、ピリオドを含む一部の用語は適切に分割できない場合があります。詳しくは、実行サンプルをご確認ください。

セットアップ

pip install divide-char-type

アンインストール

pip uninstall divide-char-type

使い方

from divide_char_type import divide_char_type

data = divide_char_type("今日の天気は晴れです。")

print(data[0])

戻り値

配列型
- 第0要素：字種分割した全体のリスト
- 第1要素：字種分割した全体の字種タイプリスト
- 第2要素：字種分割したひらがなのリスト
- 第3要素：字種分割したカタカナのリスト
- 第4要素：字種分割した漢字のリスト
- 第5要素：字種分割したアルファベットのリスト
- 第6要素：字種分割した数字のリスト
- 第7要素：字種分割したその他記号などのリスト

字種タイプリスト

０：平仮名
１：カタカナ
２：漢字
３：アルファベット
４：数字
５：その他記号など

実行サンプル

['1.0', ' ', 'is', ' ', 'number', '.']
['1', ',', '000', ' ', 'is', ' ', 'number', '.']
['u.s.a.', ' ', 'is', ' ', 'state', '.']
['u.k', '.', ' ', 'is', ' ', 'state', '.']
['e.g.', ',', ' ', 'th', ',', ' ', 'ch', ',', ' ', 'sh', ',', ' ', 'ph', ',', ' ', 'gh', ',', ' ', 'ng', ',', ' ', 'qu']
['state', ' ', 'include', ' ', 'u.s.', ' ', 'u.s.', ' ', 'is', ' ', 'state', '.']
['state', ' ', 'include', ' ', 'u.k', '.', ' ', 'u.k', '.', ' ', 'is', ' ', 'state', '.']
['u.s.', 'は', '国', 'です', '。']
['u.s', '.', 'は', '国', 'です', '。']
['あいうえおーかきくけこ']
['アイウエオーカキクケコ']
['今日', 'の', '天気', 'は', '晴', 'れです', '。\n', '明日', 'の', '天気', 'は', '曇', 'りです', '。\n']
['&&&', '1.0', '&&&']

実行速度

論文

赤木信也：字種分割ツールの開発と公開,
情報処理学会第85回全国大会講演論文集 2023 (1), 29-30, 2023-02-16
https://cir.nii.ac.jp/crid/1050579753470466176

ライセンス

divide_char_type
- Python Software Foundation License
- Copyright (C) 2023-2024 Shinya Akagi

divide-char-type
Release 0.2.8

Release 0.2.8

0.2.4

0.1.1

0.1.2

0.1.3

0.1.5

0.1.6

0.1.0

0.2.9

0.2.8

0.2.7

Documentation

概要

セットアップ

アンインストール

使い方

戻り値

字種タイプリスト

実行サンプル

実行速度

論文

ライセンス

Stats

Development practices

Releases

Contributors

divide-char-type Release 0.2.8

Release 0.2.8 Toggle Dropdown 0.2.4 0.1.1 0.1.2 0.1.3 0.1.5 0.1.6 0.1.0 0.2.9 0.2.8 0.2.7

Documentation

概要

セットアップ

アンインストール

使い方

戻り値

字種タイプリスト

実行サンプル

実行速度

論文

ライセンス

Stats

Development practices

Releases

Contributors

divide-char-type
Release 0.2.8

Release 0.2.8

0.2.4

0.1.1

0.1.2

0.1.3

0.1.5

0.1.6

0.1.0

0.2.9

0.2.8

0.2.7