Using 'MeCab' for morphological analysis. Keep other colnames in dataframe.
Usage
make_groups(
tbl,
text_col = "text",
length = 8000,
tmp_group = "tmp_group",
str_length = "str_length"
)
make_groups_sub(tbl, text_col, n_group, tmp_group, str_length)
max_sum_str_length(tbl, tmp_group, str_length)
Value
A tibble. Output of morphological analysis and added column "text_id".
A string
A string
A string
A character vector
A character vector
A character vector
A character vector
A character vector
A data.frame
Examples
# \donttest{
# sample data of Japanese sentences
data(neko)
neko <-
neko |>
unescape_utf()
# chamame
neko |>
moranajp_all(method = "chamame") |>
print(n=100)
#> Analaysing by chamame. Please wait.
#> Submitting with button .
#> # A tibble: 2,962 × 7
#> text_id 表層形 品詞 品詞細分類1 品詞細分類2 品詞細分類3 原形
#> <dbl> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 1 吾輩 代名詞 "" "" "" 我が輩
#> 2 1 は 助詞 "係助詞" "" "" は
#> 3 1 猫 名詞 "普通名詞" "一般" "" 猫
#> 4 1 で 助動詞 "" "" "" だ
#> 5 1 ある 動詞 "非自立可能" "" "" 有る
#> 6 1 。 補助記号 "句点" "" "" 。
#> 7 1 名前 名詞 "普通名詞" "一般" "" 名前
#> 8 1 は 助詞 "係助詞" "" "" は
#> 9 1 まだ 副詞 "" "" "" 未だ
#> 10 1 無い 形容詞 "非自立可能" "" "" 無い
#> 11 1 。 補助記号 "句点" "" "" 。
#> 12 2 どこ 代名詞 "" "" "" 何処
#> 13 2 で 助詞 "格助詞" "" "" で
#> 14 2 生れ 動詞 "一般" "" "" 生まれる
#> 15 2 た 助動詞 "" "" "" た
#> 16 2 か 助詞 "終助詞" "" "" か
#> 17 2 と 助詞 "格助詞" "" "" と
#> 18 2 んと 感動詞 "フィラー" "" "" うんと
#> 19 2 見当 名詞 "普通名詞" "一般" "" 見当
#> 20 2 が 助詞 "格助詞" "" "" が
#> 21 2 つか 動詞 "非自立可能" "" "" 付く
#> 22 2 ぬ 助動詞 "" "" "" ず
#> 23 2 。 補助記号 "句点" "" "" 。
#> 24 2 何 代名詞 "" "" "" 何
#> 25 2 で 助詞 "格助詞" "" "" で
#> 26 2 も 助詞 "係助詞" "" "" も
#> 27 2 薄暗い 形容詞 "一般" "" "" 薄暗い
#> 28 2 じめじめ 副詞 "" "" "" じめじめ
#> 29 2 し 動詞 "非自立可能" "" "" 為る
#> 30 2 た 助動詞 "" "" "" た
#> 31 2 所 名詞 "普通名詞" "副詞可能" "" 所
#> 32 2 で 助詞 "格助詞" "" "" で
#> 33 2 ニャーニャー 副詞 "" "" "" にゃあ…
#> 34 2 泣い 動詞 "一般" "" "" 泣く
#> 35 2 て 助詞 "接続助詞" "" "" て
#> 36 2 い 動詞 "非自立可能" "" "" 居る
#> 37 2 た 助動詞 "" "" "" た
#> 38 2 事 名詞 "普通名詞" "一般" "" 事
#> 39 2 だけ 助詞 "副助詞" "" "" だけ
#> 40 2 は 助詞 "係助詞" "" "" は
#> 41 2 記憶 名詞 "普通名詞" "サ変可能" "" 記憶
#> 42 2 し 動詞 "非自立可能" "" "" 為る
#> 43 2 て 助詞 "接続助詞" "" "" て
#> 44 2 いる 動詞 "非自立可能" "" "" 居る
#> 45 2 。 補助記号 "句点" "" "" 。
#> 46 2 吾輩 代名詞 "" "" "" 我が輩
#> 47 2 は 助詞 "係助詞" "" "" は
#> 48 2 ここ 代名詞 "" "" "" 此処
#> 49 2 で 助詞 "格助詞" "" "" で
#> 50 2 始め 動詞 "非自立可能" "" "" 始める
#> 51 2 て 助詞 "接続助詞" "" "" て
#> 52 2 人間 名詞 "普通名詞" "一般" "" 人間
#> 53 2 と 助詞 "格助詞" "" "" と
#> 54 2 いう 動詞 "一般" "" "" 言う
#> 55 2 もの 名詞 "普通名詞" "サ変可能" "" 物
#> 56 2 を 助詞 "格助詞" "" "" を
#> 57 2 見 動詞 "非自立可能" "" "" 見る
#> 58 2 た 助動詞 "" "" "" た
#> 59 2 。 補助記号 "句点" "" "" 。
#> 60 2 しかも 接続詞 "" "" "" 然も
#> 61 2 あと 名詞 "普通名詞" "副詞可能" "" 後
#> 62 2 で 助詞 "格助詞" "" "" で
#> 63 2 聞く 動詞 "一般" "" "" 聞く
#> 64 2 と 助詞 "接続助詞" "" "" と
#> 65 2 それ 代名詞 "" "" "" 其れ
#> 66 2 は 助詞 "係助詞" "" "" は
#> 67 2 書生 名詞 "普通名詞" "一般" "" 書生
#> 68 2 と 助詞 "格助詞" "" "" と
#> 69 2 いう 動詞 "一般" "" "" 言う
#> 70 2 人間 名詞 "普通名詞" "一般" "" 人間
#> 71 2 中 接尾辞 "名詞的" "副詞可能" "" 中
#> 72 2 で 助詞 "格助詞" "" "" で
#> 73 2 一番 副詞 "" "" "" 一番
#> 74 2 獰悪 名詞 "普通名詞" "形状詞可能" "" 獰悪
#> 75 2 な 助動詞 "" "" "" だ
#> 76 2 種族 名詞 "普通名詞" "一般" "" 種族
#> 77 2 で 助動詞 "" "" "" だ
#> 78 2 あっ 動詞 "非自立可能" "" "" 有る
#> 79 2 た 助動詞 "" "" "" た
#> 80 2 そう 名詞 "助動詞語幹" "" "" そう-伝…
#> 81 2 だ 助動詞 "" "" "" だ
#> 82 2 。 補助記号 "句点" "" "" 。
#> 83 2 この 連体詞 "" "" "" 此の
#> 84 2 書生 名詞 "普通名詞" "一般" "" 書生
#> 85 2 と 助詞 "格助詞" "" "" と
#> 86 2 いう 動詞 "一般" "" "" 言う
#> 87 2 の 助詞 "準体助詞" "" "" の
#> 88 2 は 助詞 "係助詞" "" "" は
#> 89 2 時々 名詞 "普通名詞" "副詞可能" "" 時々
#> 90 2 我々 代名詞 "" "" "" 我々-代…
#> 91 2 を 助詞 "格助詞" "" "" を
#> 92 2 捕え 動詞 "一般" "" "" 捕らえる
#> 93 2 て 助詞 "接続助詞" "" "" て
#> 94 2 煮 動詞 "一般" "" "" 煮る
#> 95 2 て 助詞 "接続助詞" "" "" て
#> 96 2 食う 動詞 "一般" "" "" 食う
#> 97 2 と 助詞 "格助詞" "" "" と
#> 98 2 いう 動詞 "一般" "" "" 言う
#> 99 2 話 名詞 "普通名詞" "サ変可能" "" 話
#> 100 2 で 助動詞 "" "" "" だ
#> # ℹ 2,862 more rows
# }
if (FALSE) { # \dontrun{
# Need to install 'mecab', 'ginza', or 'sudachi' in local PC
# mecab
bin_dir <- "d:/pf/mecab/bin"
iconv <- "CP932_UTF-8"
neko |>
moranajp_all(text_col = "text", bin_dir = bin_dir, iconv = iconv) |>
print(n=100)
# ginza
neko |>
moranajp_all(text_col = "text", method = "ginza") |>
print(n=100)
# sudachi
bin_dir <- "d:/pf/sudachi"
iconv <- "CP932_UTF-8"
neko |>
moranajp_all(text_col = "text", bin_dir = bin_dir,
method = "sudachi_a", iconv = iconv) |>
print(n=100)
} # }