ja_text_cleaner

ja_text_cleanerは、日本語のための日本語変換ライブラリです。

パイプライン

内部処理で使われているライブラリと、主な処理過程の概要を次に示します。現在は名前の処理にマッチするように設計されています。

わかち書き

制御文字・記号等のノイズを除去
形態素解析でわかち書き（sudachi）

読みがな取得

わかち書きされたトークンの読み（全角カタカナ）を取得（sudachi）
辞書にヒットしない英字の読み（全角カタカナ）を取得（romkan）
辞書にヒットしない半角カタカナを全角カタカナに変換（jaconv）

その他

必要に応じて半角を全角に変換（mojimoji）
必要に応じてカタカナからひらがな・ヘボン式に変換（romkan）

システム要件

Python 3.8+

インストール

ja_text_cleanerのほかに、形態素解析（sudachi）で使用する辞書（sudachidict_core）が必要です。

pip install ja_text_cleaner sudachidict_core

始める

from ja_text_cleaner import name

# 制御文字・記号はノイズとして除去されます
name.Wakachi(" \t\n\xa0a\u3000-!_")  # "a"

# 形態素解析結果はsudachiの処理結果に依存します
name.Wakachi("abc123あいうアイウｱｲｳ日本!")  # "abc　123　あ　いう　アイウｱｲｳ　日本"

# CJK互換漢字はCJK統合漢字へ正規化（NFC・NFKC）されません
name.Wakachi("神")  # "神"

name.Wakachi("日本太郎")  # "日本　太郎"
name.Zenkaku("日本太郎")  # "日本　太郎"
name.Katakana("日本太郎")  # "ニッポン　タロウ"
name.Hiragana("日本太郎")  # "にっぽん　たろう"
name.Romaji("日本太郎")  # "nippon tarou"

name.Wakachi("nippon tarou")  # "nippon　tarou"
name.Zenkaku("nippon tarou")  # "ｎｉｐｐｏｎ　ｔａｒｏｕ"
name.Katakana("nippon tarou")  # "ニッポン　タロウ"
name.Hiragana("nippon tarou")  # "にっぽん　たろう"
name.Romaji("nippon tarou")  # "nippon tarou"

name.Wakachi("abc")  # "abc"
name.Zenkaku("abc")  # "ａｂｃ"
name.Katakana("abc")  # "エービーシー"
name.Hiragana("abc")  # "えーびーしー"
name.Romaji("abc")  # "e-bi-shi-"

name.Wakachi("伊藤")  # "伊藤"
name.Zenkaku("伊藤")  # "伊藤"
name.Katakana("伊藤")  # "イトウ"
name.Hiragana("伊藤")  # "いとう"
name.Romaji("伊藤")  # "itou"

注意

本ライブラリは実験段階です。

ja-text-cleaner
Release 0.0.1

Release 0.0.1

0.0.1

Documentation

ja_text_cleaner

パイプライン

わかち書き

読みがな取得

その他

システム要件

インストール

始める

注意

Stats

Development practices

Releases

Contributors

ja-text-cleaner Release 0.0.1

Release 0.0.1 Toggle Dropdown 0.0.1

Documentation

ja_text_cleaner

パイプライン

わかち書き

読みがな取得

その他

システム要件

インストール

始める

注意

Stats

Development practices

Releases

Contributors

ja-text-cleaner
Release 0.0.1

Release 0.0.1

0.0.1