Morphological Analysis for Japanese
Homepage CRAN R Documentation Download
--- output: github_document --- ```{r, include = FALSE} knitr::opts_chunk$set( collapse = TRUE, comment = "#>", fig.path = "man/figures/README-", out.width = "100%" ) ``` # moranajp はじめに The goal of moranajp is a tool of morphological analysis for Japanese. moranajpは,日本語形態素解析をするためのものです. ## Installation インストール You can install the released version of moranajp from [GitHub] ( https://github.com/matutosi/moranajp ). You need install MeCab ( https://taku910.github.io/mecab/ ). 最新バージョンは,[GitHub] ( https://github.com/matutosi/moranajp ) でダウンロードできます. MeCab ( https://taku910.github.io/mecab/ ) を別途インストールする必要があります. ``` r # CRAN install.packages("moranajp") # development # install.packages("remotes") remotes::install_github("matutosi/moranajp") ``` ## Example 使用例 ```{r} library(moranajp) data(neko) neko <- neko |> dplyr::mutate(text = stringi::stri_unescape_unicode(text)) |> tibble::rownames_to_column("cols") neko # First part of 'I Am a Cat' by Soseki Natsume # MeCab (Need install MeCab) # MeCabをインストールする必要あり bin_dir <- "d:/pf/mecab/bin" # set your environment MeCabをインストールしたフォルダを指定 # bin_dir <- "/opt/local/mecab/bin/" # Example for Mac or Linux iconv <- "CP932_UTF-8" # maybe need in Windows Windowsで必要な場合あり # 文字化けする場合は,引数 iconv を使ってください. # `iconv = "CP932_UTF-8"` or `iconv = "EUC_UTF-8"` neko |> moranajp_all(text_col = "text", bin_dir = bin_dir, iconv = iconv) |> print(n=30) # chamame (Do not need install, but use web service) # 別途ツールのインストールのなし(Web茶まめを使用) neko |> head(3) |> moranajp_all(method = "chamame", text_col = "text") |> print(n=30) ``` ```{r, fig.width=7, fig.height=7} library(moranajp) data(synonym) synonym <- unescape_utf(synonym) data(neko_mecab) neko_mecab <- neko_mecab |> unescape_utf() |> add_sentence_no() |> clean_up(use_common_data = TRUE, synonym_df = synonym) bigram_neko <- neko_mecab |> draw_bigram_network() add_stop_words <- c("\\u3042\\u308b", "\\u3059\\u308b", "\\u3066\\u308b", "\\u3044\\u308b","\\u306e", "\\u306a\\u308b", "\\u304a\\u308b", "\\u3093", "\\u308c\\u308b", "*") |> unescape_utf() data(review_chamame) bigram_review <- review_chamame |> dplyr::slice(1:2000) |> unescape_utf() |> add_sentence_no() |> clean_up(add_stop_words = add_stop_words) |> draw_bigram_network() data(review_ginza) bigram_review_ginza <- review_ginza |> unescape_utf() |> add_sentence_no() |> clean_up(add_depend = TRUE) |> draw_bigram_network(depend = TRUE) ``` ## Note 注意点 Line breaks in the text will be removed to avoid lag text id. If you want to remain line breaks, please change them into other character. 文字列内の改行コード(\r\n, \n)は,削除されます(改行コードでずれるのを防ぐため). 改行コードに意味がある場合は,事前に改行コードを別の文字列に変更するなどの対応をしてください. ## Citation 引用 Toshikazu Matsumura (2021) Morphological analysis for Japanese with R. https://github.com/matutosi/moranajp/. 松村 俊和 (2021) Rによる日本語形態素解析. https://github.com/matutosi/moranajp/. ## Installation of MeCab for (Linux / Mac) MeCabのインストール(Linux / Mac) download file (mecab-0.996.tar.gz, mecab-ipadic-2.7.0-20070801.tar.gz) ファイルのダウンロード(mecab-0.996.tar.gz, mecab-ipadic-2.7.0-20070801.tar.gz) http://taku910.github.io/mecab/#download ``` tar xvf mecab-0.996.tar.gz cd mecab-0.996 ./configure --enable-utf8-only --prefix=/opt/local/mecab make sudo make install # install directory # 辞書のインストール tar xvf mecab-ipadic-2.7.0-20070801.tar.gz cd mecab-ipadic-2.7.0-20070801 ./configure --with-mecab-config=/opt/local/mecab/bin/mecab-config --with-charset=utf8 --prefix=/opt/local/mecab make sudo make install # add path # パスの追加 echo 'export PATH=/opt/local/mecab/bin:$PATH' >> ~/.bash_profile source ~/.bash_profile # run mecab # mecabの実行 mecab ``` ref (in Japanese) 参考 https://qiita.com/nkjm/items/913584c00af199794257