ja-text-cleaner

日本語のための日本語変換ライブラリ


License
MIT
Install
pip install ja-text-cleaner==0.0.1

Documentation

ja_text_cleaner

ja_text_cleanerは、日本語のための日本語変換ライブラリです。

パイプライン

内部処理で使われているライブラリと、主な処理過程の概要を次に示します。 現在は名前の処理にマッチするように設計されています。

わかち書き

  1. 制御文字・記号等のノイズを除去
  2. 形態素解析でわかち書き(sudachi)

読みがな取得

  1. わかち書きされたトークンの読み(全角カタカナ)を取得(sudachi)
  2. 辞書にヒットしない英字の読み(全角カタカナ)を取得(romkan)
  3. 辞書にヒットしない半角カタカナを全角カタカナに変換(jaconv)

その他

  1. 必要に応じて半角を全角に変換(mojimoji)
  2. 必要に応じてカタカナからひらがな・ヘボン式に変換(romkan)

システム要件

  • Python 3.8+

インストール

ja_text_cleanerのほかに、形態素解析(sudachi)で使用する辞書(sudachidict_core)が必要です。

pip install ja_text_cleaner sudachidict_core

始める

from ja_text_cleaner import name

# 制御文字・記号はノイズとして除去されます
name.Wakachi(" \t\n\xa0a\u3000-!_")  # "a"

# 形態素解析結果はsudachiの処理結果に依存します
name.Wakachi("abc123あいうアイウアイウ日本!")  # "abc 123 あ いう アイウアイウ 日本"

# CJK互換漢字はCJK統合漢字へ正規化(NFC・NFKC)されません
name.Wakachi("神")  # "神"

name.Wakachi("日本太郎")  # "日本 太郎"
name.Zenkaku("日本太郎")  # "日本 太郎"
name.Katakana("日本太郎")  # "ニッポン タロウ"
name.Hiragana("日本太郎")  # "にっぽん たろう"
name.Romaji("日本太郎")  # "nippon tarou"

name.Wakachi("nippon tarou")  # "nippon tarou"
name.Zenkaku("nippon tarou")  # "nippon tarou"
name.Katakana("nippon tarou")  # "ニッポン タロウ"
name.Hiragana("nippon tarou")  # "にっぽん たろう"
name.Romaji("nippon tarou")  # "nippon tarou"

name.Wakachi("abc")  # "abc"
name.Zenkaku("abc")  # "abc"
name.Katakana("abc")  # "エービーシー"
name.Hiragana("abc")  # "えーびーしー"
name.Romaji("abc")  # "e-bi-shi-"

name.Wakachi("伊藤")  # "伊藤"
name.Zenkaku("伊藤")  # "伊藤"
name.Katakana("伊藤")  # "イトウ"
name.Hiragana("伊藤")  # "いとう"
name.Romaji("伊藤")  # "itou"

注意

本ライブラリは実験段階です。