opencc2

開放中文轉換 2 | 开放中文转换 2 | Open Chinese Convert 2


Keywords
chinese chinese-language nlp natural-language-processing, chinese, chinese-language, natural-language-processing, nlp, opencc, simplified-chinese, traditional-chinese
License
MIT
Install
pip install opencc2==0.2.5

Documentation

opencc-python3

Update: The official Python binding for OpenCC is out!

pip install opencc

It is now recommended to use the official Python binding.

See https://pypi.org/project/OpenCC/.


简体中文(中国大陆) - 繁體中文(臺灣) - English (United States)

$ pip install opencc-python3

基本概念

見《繁簡中文轉換概說》(原文爲大陸簡體)。

用法

在代碼中使用

從大陸簡體轉換爲臺灣繁體(臺灣正體)(帶詞彙轉換):

>>> import opencc
>>> cc = opencc.Converter(from_variant='cn', to_variant='twp')
>>> print(cc.convert('头发,发展,内存'))
頭髮,發展,記憶體

從臺灣繁體(臺灣正體)轉換爲大陸簡體(帶詞彙轉換):

>>> import opencc
>>> cc = opencc.Converter(from_variant='twp', to_variant='cn')
>>> print(cc.convert('乾坤,乾燥,計程車'))
乾坤,干燥,出租车

opencc.Converter 接受以下參數:

  • from_variant: 原文本的變體類型(詳見下方列表)。默認爲大陸簡體
  • to_variant: 目標文本的變體類型(詳見下方列表)。默認爲臺灣繁體(臺灣正體)(帶詞彙轉換)

在命令行中使用

從大陸簡體轉換爲臺灣繁體(臺灣正體)(帶詞彙轉換):

$ echo 头发,发展,内存 | opencc-python3 -f cn -t twp
頭髮,發展,記憶體

從臺灣繁體(臺灣正體)轉換爲大陸簡體(帶詞彙轉換):

$ echo 乾坤,乾燥,計程車 | opencc-python3 -f twp -t cn
乾坤,干燥,出租车

詳見 opencc-python3 -h

支持的變體類型

支持的變體類型如下:

  • OpenCC 2 繁體 (t)
  • 大陸簡體、新加坡簡體 (cn, sg)
  • 香港繁體 (hk)
  • 臺灣繁體(臺灣正體) (tw)
  • 臺灣繁體(臺灣正體)(帶詞彙轉換) (twp)

開源協議

  • 代碼:MIT
  • 詞庫:Apache-2.0