Skip to contents

Using 'MeCab' for morphological analysis. Keep other colnames in dataframe.

Usage

make_groups(
  tbl,
  text_col = "text",
  length = 8000,
  tmp_group = "tmp_group",
  str_length = "str_length"
)

make_groups_sub(tbl, text_col, n_group, tmp_group, str_length)

max_sum_str_length(tbl, tmp_group, str_length)

Arguments

tbl

A tibble or data.frame.

text_col

A text. Colnames for morphological analysis.

length

A numeric.

tmp_group, str_length

A string to use temporary.

n_group

A numeric.

Value

A tibble. Output of morphological analysis and added column "text_id".

A string

A string

A string

A character vector

A character vector

A character vector

A character vector

A character vector

A data.frame

Examples

# \donttest{
  # sample data of Japanese sentences
  data(neko)
  neko <-
      neko |>
      unescape_utf()
  # chamame
  neko |>
    moranajp_all(method = "chamame") |>
        print(n=100)
#> Analaysing by chamame. Please wait.
#> Submitting with button .
#> # A tibble: 2,962 × 7
#>     text_id 表層形       品詞     品詞細分類1  品詞細分類2  品詞細分類3 原形    
#>       <dbl> <chr>        <chr>    <chr>        <chr>        <chr>       <chr>   
#>   1       1 吾輩         代名詞   ""           ""           ""          我が輩  
#>   2       1 は           助詞     "係助詞"     ""           ""
#>   3       1 猫           名詞     "普通名詞"   "一般"       ""
#>   4       1 で           助動詞   ""           ""           ""
#>   5       1 ある         動詞     "非自立可能" ""           ""          有る    
#>   6       1 。           補助記号 "句点"       ""           ""
#>   7       1 名前         名詞     "普通名詞"   "一般"       ""          名前    
#>   8       1 は           助詞     "係助詞"     ""           ""
#>   9       1 まだ         副詞     ""           ""           ""          未だ    
#>  10       1 無い         形容詞   "非自立可能" ""           ""          無い    
#>  11       1 。           補助記号 "句点"       ""           ""
#>  12       2 どこ         代名詞   ""           ""           ""          何処    
#>  13       2 で           助詞     "格助詞"     ""           ""
#>  14       2 生れ         動詞     "一般"       ""           ""          生まれる
#>  15       2 た           助動詞   ""           ""           ""
#>  16       2 か           助詞     "終助詞"     ""           ""
#>  17       2 と           助詞     "格助詞"     ""           ""
#>  18       2 んと         感動詞   "フィラー"   ""           ""          うんと  
#>  19       2 見当         名詞     "普通名詞"   "一般"       ""          見当    
#>  20       2 が           助詞     "格助詞"     ""           ""
#>  21       2 つか         動詞     "非自立可能" ""           ""          付く    
#>  22       2 ぬ           助動詞   ""           ""           ""
#>  23       2 。           補助記号 "句点"       ""           ""
#>  24       2 何           代名詞   ""           ""           ""
#>  25       2 で           助詞     "格助詞"     ""           ""
#>  26       2 も           助詞     "係助詞"     ""           ""
#>  27       2 薄暗い       形容詞   "一般"       ""           ""          薄暗い  
#>  28       2 じめじめ     副詞     ""           ""           ""          じめじめ
#>  29       2 し           動詞     "非自立可能" ""           ""          為る    
#>  30       2 た           助動詞   ""           ""           ""
#>  31       2 所           名詞     "普通名詞"   "副詞可能"   ""
#>  32       2 で           助詞     "格助詞"     ""           ""
#>  33       2 ニャーニャー 副詞     ""           ""           ""          にゃあ… 
#>  34       2 泣い         動詞     "一般"       ""           ""          泣く    
#>  35       2 て           助詞     "接続助詞"   ""           ""
#>  36       2 い           動詞     "非自立可能" ""           ""          居る    
#>  37       2 た           助動詞   ""           ""           ""
#>  38       2 事           名詞     "普通名詞"   "一般"       ""
#>  39       2 だけ         助詞     "副助詞"     ""           ""          だけ    
#>  40       2 は           助詞     "係助詞"     ""           ""
#>  41       2 記憶         名詞     "普通名詞"   "サ変可能"   ""          記憶    
#>  42       2 し           動詞     "非自立可能" ""           ""          為る    
#>  43       2 て           助詞     "接続助詞"   ""           ""
#>  44       2 いる         動詞     "非自立可能" ""           ""          居る    
#>  45       2 。           補助記号 "句点"       ""           ""
#>  46       2 吾輩         代名詞   ""           ""           ""          我が輩  
#>  47       2 は           助詞     "係助詞"     ""           ""
#>  48       2 ここ         代名詞   ""           ""           ""          此処    
#>  49       2 で           助詞     "格助詞"     ""           ""
#>  50       2 始め         動詞     "非自立可能" ""           ""          始める  
#>  51       2 て           助詞     "接続助詞"   ""           ""
#>  52       2 人間         名詞     "普通名詞"   "一般"       ""          人間    
#>  53       2 と           助詞     "格助詞"     ""           ""
#>  54       2 いう         動詞     "一般"       ""           ""          言う    
#>  55       2 もの         名詞     "普通名詞"   "サ変可能"   ""
#>  56       2 を           助詞     "格助詞"     ""           ""
#>  57       2 見           動詞     "非自立可能" ""           ""          見る    
#>  58       2 た           助動詞   ""           ""           ""
#>  59       2 。           補助記号 "句点"       ""           ""
#>  60       2 しかも       接続詞   ""           ""           ""          然も    
#>  61       2 あと         名詞     "普通名詞"   "副詞可能"   ""
#>  62       2 で           助詞     "格助詞"     ""           ""
#>  63       2 聞く         動詞     "一般"       ""           ""          聞く    
#>  64       2 と           助詞     "接続助詞"   ""           ""
#>  65       2 それ         代名詞   ""           ""           ""          其れ    
#>  66       2 は           助詞     "係助詞"     ""           ""
#>  67       2 書生         名詞     "普通名詞"   "一般"       ""          書生    
#>  68       2 と           助詞     "格助詞"     ""           ""
#>  69       2 いう         動詞     "一般"       ""           ""          言う    
#>  70       2 人間         名詞     "普通名詞"   "一般"       ""          人間    
#>  71       2 中           接尾辞   "名詞的"     "副詞可能"   ""
#>  72       2 で           助詞     "格助詞"     ""           ""
#>  73       2 一番         副詞     ""           ""           ""          一番    
#>  74       2 獰悪         名詞     "普通名詞"   "形状詞可能" ""          獰悪    
#>  75       2 な           助動詞   ""           ""           ""
#>  76       2 種族         名詞     "普通名詞"   "一般"       ""          種族    
#>  77       2 で           助動詞   ""           ""           ""
#>  78       2 あっ         動詞     "非自立可能" ""           ""          有る    
#>  79       2 た           助動詞   ""           ""           ""
#>  80       2 そう         名詞     "助動詞語幹" ""           ""          そう-伝…
#>  81       2 だ           助動詞   ""           ""           ""
#>  82       2 。           補助記号 "句点"       ""           ""
#>  83       2 この         連体詞   ""           ""           ""          此の    
#>  84       2 書生         名詞     "普通名詞"   "一般"       ""          書生    
#>  85       2 と           助詞     "格助詞"     ""           ""
#>  86       2 いう         動詞     "一般"       ""           ""          言う    
#>  87       2 の           助詞     "準体助詞"   ""           ""
#>  88       2 は           助詞     "係助詞"     ""           ""
#>  89       2 時々         名詞     "普通名詞"   "副詞可能"   ""          時々    
#>  90       2 我々         代名詞   ""           ""           ""          我々-代…
#>  91       2 を           助詞     "格助詞"     ""           ""
#>  92       2 捕え         動詞     "一般"       ""           ""          捕らえる
#>  93       2 て           助詞     "接続助詞"   ""           ""
#>  94       2 煮           動詞     "一般"       ""           ""          煮る    
#>  95       2 て           助詞     "接続助詞"   ""           ""
#>  96       2 食う         動詞     "一般"       ""           ""          食う    
#>  97       2 と           助詞     "格助詞"     ""           ""
#>  98       2 いう         動詞     "一般"       ""           ""          言う    
#>  99       2 話           名詞     "普通名詞"   "サ変可能"   ""
#> 100       2 で           助動詞   ""           ""           ""
#> # ℹ 2,862 more rows
# }
if (FALSE) { # \dontrun{
  # Need to install 'mecab', 'ginza', or 'sudachi' in local PC

  # mecab
  bin_dir <- "d:/pf/mecab/bin"
  iconv <- "CP932_UTF-8"
  neko |>
    moranajp_all(text_col = "text", bin_dir = bin_dir, iconv = iconv) |>
        print(n=100)

  # ginza
  neko |>
    moranajp_all(text_col = "text", method = "ginza") |>
      print(n=100)

  # sudachi
  bin_dir <- "d:/pf/sudachi"
  iconv <- "CP932_UTF-8"
  neko |>
    moranajp_all(text_col = "text", bin_dir = bin_dir,
                 method = "sudachi_a", iconv = iconv) |>
        print(n=100)
} # }