Using 'MeCab' for morphological analysis. Keep other colnames in dataframe.
Usage
moranajp_all(
tbl,
bin_dir = "",
method = "mecab",
text_col = "text",
option = "",
iconv = "",
col_lang = "jp"
)
moranajp(tbl, bin_dir, method, text_col, option = "", iconv = "", col_lang)
remove_linebreaks(tbl, text_col)
separate_cols_ginza(tbl, col_lang)
make_input(tbl, text_col, iconv, brk = "BPMJP ")
make_cmd(method, bin_dir, option = "")
make_cmd_mecab(option = "")
out_cols_mecab(col_lang = "jp")
out_cols_ginza(col_lang = "jp")
out_cols_sudachi(col_lang = "jp")
out_cols_jp()
out_cols_en()
out_cols()
mecab_all(tbl, text_col = "text", bin_dir = "")
mecab(tbl, bin_dir)
Arguments
- tbl
A tibble or data.frame.
- bin_dir
A text. Directory of mecab.
- method
A text. Method to use: "mecab", "ginza", "sudachi_a", "sudachi_b", "sudachi_c", or "chamame". "a", "b" and "c" specify the mode of splitting. "a" split shortest, "b" middle and "c" longest. See https://github.com/WorksApplications/Sudachi for detail. "chamame" use https://chamame.ninjal.ac.jp/ and rvest.
- text_col
A text. Colnames for morphological analysis.
- option
A text. Options for mecab. "-b" option is already set by moranajp. To see option, use "mecab -h" in command (win) or terminal (Mac).
- iconv
A text. Convert encoding of MeCab output. Default (""): don't convert. "CP932_UTF-8": iconv(output, from = "Shift-JIS" to = "UTF-8") "EUC_UTF-8" : iconv(output, from = "eucjp", to = "UTF-8") iconv is also used to convert input text before running MeCab. "CP932_UTF-8": iconv(input, from = "UTF-8", to = "Shift-JIS")
- col_lang
A text. "jp" or "en"
- brk
A string of break point
Value
A tibble. Output of morphological analysis and added column "text_id".
A string
A string
A string
A character vector
A character vector
A character vector
A character vector
A character vector
A data.frame
Examples
# \donttest{
# sample data of Japanese sentences
data(neko)
neko <-
neko |>
unescape_utf()
# chamame
neko |>
moranajp_all(method = "chamame") |>
print(n=100)
#> Analaysing by chamame. Please wait.
#> Submitting with button .
#> # A tibble: 2,962 × 7
#> text_id 表層形 品詞 品詞細分類1 品詞細分類2 品詞細分類3 原形
#> <dbl> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 1 吾輩 代名詞 "" "" "" 我が輩
#> 2 1 は 助詞 "係助詞" "" "" は
#> 3 1 猫 名詞 "普通名詞" "一般" "" 猫
#> 4 1 で 助動詞 "" "" "" だ
#> 5 1 ある 動詞 "非自立可能" "" "" 有る
#> 6 1 。 補助記号 "句点" "" "" 。
#> 7 1 名前 名詞 "普通名詞" "一般" "" 名前
#> 8 1 は 助詞 "係助詞" "" "" は
#> 9 1 まだ 副詞 "" "" "" 未だ
#> 10 1 無い 形容詞 "非自立可能" "" "" 無い
#> 11 1 。 補助記号 "句点" "" "" 。
#> 12 2 どこ 代名詞 "" "" "" 何処
#> 13 2 で 助詞 "格助詞" "" "" で
#> 14 2 生れ 動詞 "一般" "" "" 生まれる
#> 15 2 た 助動詞 "" "" "" た
#> 16 2 か 助詞 "終助詞" "" "" か
#> 17 2 と 助詞 "格助詞" "" "" と
#> 18 2 んと 感動詞 "フィラー" "" "" うんと
#> 19 2 見当 名詞 "普通名詞" "一般" "" 見当
#> 20 2 が 助詞 "格助詞" "" "" が
#> 21 2 つか 動詞 "非自立可能" "" "" 付く
#> 22 2 ぬ 助動詞 "" "" "" ず
#> 23 2 。 補助記号 "句点" "" "" 。
#> 24 2 何 代名詞 "" "" "" 何
#> 25 2 で 助詞 "格助詞" "" "" で
#> 26 2 も 助詞 "係助詞" "" "" も
#> 27 2 薄暗い 形容詞 "一般" "" "" 薄暗い
#> 28 2 じめじめ 副詞 "" "" "" じめじめ
#> 29 2 し 動詞 "非自立可能" "" "" 為る
#> 30 2 た 助動詞 "" "" "" た
#> 31 2 所 名詞 "普通名詞" "副詞可能" "" 所
#> 32 2 で 助詞 "格助詞" "" "" で
#> 33 2 ニャーニャー 副詞 "" "" "" にゃあ…
#> 34 2 泣い 動詞 "一般" "" "" 泣く
#> 35 2 て 助詞 "接続助詞" "" "" て
#> 36 2 い 動詞 "非自立可能" "" "" 居る
#> 37 2 た 助動詞 "" "" "" た
#> 38 2 事 名詞 "普通名詞" "一般" "" 事
#> 39 2 だけ 助詞 "副助詞" "" "" だけ
#> 40 2 は 助詞 "係助詞" "" "" は
#> 41 2 記憶 名詞 "普通名詞" "サ変可能" "" 記憶
#> 42 2 し 動詞 "非自立可能" "" "" 為る
#> 43 2 て 助詞 "接続助詞" "" "" て
#> 44 2 いる 動詞 "非自立可能" "" "" 居る
#> 45 2 。 補助記号 "句点" "" "" 。
#> 46 2 吾輩 代名詞 "" "" "" 我が輩
#> 47 2 は 助詞 "係助詞" "" "" は
#> 48 2 ここ 代名詞 "" "" "" 此処
#> 49 2 で 助詞 "格助詞" "" "" で
#> 50 2 始め 動詞 "非自立可能" "" "" 始める
#> 51 2 て 助詞 "接続助詞" "" "" て
#> 52 2 人間 名詞 "普通名詞" "一般" "" 人間
#> 53 2 と 助詞 "格助詞" "" "" と
#> 54 2 いう 動詞 "一般" "" "" 言う
#> 55 2 もの 名詞 "普通名詞" "サ変可能" "" 物
#> 56 2 を 助詞 "格助詞" "" "" を
#> 57 2 見 動詞 "非自立可能" "" "" 見る
#> 58 2 た 助動詞 "" "" "" た
#> 59 2 。 補助記号 "句点" "" "" 。
#> 60 2 しかも 接続詞 "" "" "" 然も
#> 61 2 あと 名詞 "普通名詞" "副詞可能" "" 後
#> 62 2 で 助詞 "格助詞" "" "" で
#> 63 2 聞く 動詞 "一般" "" "" 聞く
#> 64 2 と 助詞 "接続助詞" "" "" と
#> 65 2 それ 代名詞 "" "" "" 其れ
#> 66 2 は 助詞 "係助詞" "" "" は
#> 67 2 書生 名詞 "普通名詞" "一般" "" 書生
#> 68 2 と 助詞 "格助詞" "" "" と
#> 69 2 いう 動詞 "一般" "" "" 言う
#> 70 2 人間 名詞 "普通名詞" "一般" "" 人間
#> 71 2 中 接尾辞 "名詞的" "副詞可能" "" 中
#> 72 2 で 助詞 "格助詞" "" "" で
#> 73 2 一番 副詞 "" "" "" 一番
#> 74 2 獰悪 名詞 "普通名詞" "形状詞可能" "" 獰悪
#> 75 2 な 助動詞 "" "" "" だ
#> 76 2 種族 名詞 "普通名詞" "一般" "" 種族
#> 77 2 で 助動詞 "" "" "" だ
#> 78 2 あっ 動詞 "非自立可能" "" "" 有る
#> 79 2 た 助動詞 "" "" "" た
#> 80 2 そう 名詞 "助動詞語幹" "" "" そう-伝…
#> 81 2 だ 助動詞 "" "" "" だ
#> 82 2 。 補助記号 "句点" "" "" 。
#> 83 2 この 連体詞 "" "" "" 此の
#> 84 2 書生 名詞 "普通名詞" "一般" "" 書生
#> 85 2 と 助詞 "格助詞" "" "" と
#> 86 2 いう 動詞 "一般" "" "" 言う
#> 87 2 の 助詞 "準体助詞" "" "" の
#> 88 2 は 助詞 "係助詞" "" "" は
#> 89 2 時々 名詞 "普通名詞" "副詞可能" "" 時々
#> 90 2 我々 代名詞 "" "" "" 我々-代…
#> 91 2 を 助詞 "格助詞" "" "" を
#> 92 2 捕え 動詞 "一般" "" "" 捕らえる
#> 93 2 て 助詞 "接続助詞" "" "" て
#> 94 2 煮 動詞 "一般" "" "" 煮る
#> 95 2 て 助詞 "接続助詞" "" "" て
#> 96 2 食う 動詞 "一般" "" "" 食う
#> 97 2 と 助詞 "格助詞" "" "" と
#> 98 2 いう 動詞 "一般" "" "" 言う
#> 99 2 話 名詞 "普通名詞" "サ変可能" "" 話
#> 100 2 で 助動詞 "" "" "" だ
#> # ℹ 2,862 more rows
# }
if (FALSE) { # \dontrun{
# Need to install 'mecab', 'ginza', or 'sudachi' in local PC
# mecab
bin_dir <- "d:/pf/mecab/bin"
iconv <- "CP932_UTF-8"
neko |>
moranajp_all(text_col = "text", bin_dir = bin_dir, iconv = iconv) |>
print(n=100)
# ginza
neko |>
moranajp_all(text_col = "text", method = "ginza") |>
print(n=100)
# sudachi
bin_dir <- "d:/pf/sudachi"
iconv <- "CP932_UTF-8"
neko |>
moranajp_all(text_col = "text", bin_dir = bin_dir,
method = "sudachi_a", iconv = iconv) |>
print(n=100)
} # }