Morphological analysis for a specific column in dataframe

Using 'MeCab' for morphological analysis. Keep other colnames in dataframe.

Usage

moranajp_all(
  tbl,
  bin_dir = "",
  method = "mecab",
  text_col = "text",
  option = "",
  iconv = "",
  col_lang = "jp"
)

moranajp(tbl, bin_dir, method, text_col, option = "", iconv = "", col_lang)

remove_linebreaks(tbl, text_col)

separate_cols_ginza(tbl, col_lang)

make_input(tbl, text_col, iconv, brk = "BPMJP ")

make_cmd(method, bin_dir, option = "")

make_cmd_mecab(option = "")

out_cols_mecab(col_lang = "jp")

out_cols_ginza(col_lang = "jp")

out_cols_sudachi(col_lang = "jp")

out_cols_jp()

out_cols_en()

out_cols()

mecab_all(tbl, text_col = "text", bin_dir = "")

mecab(tbl, bin_dir)

Arguments

tbl: A tibble or data.frame.
bin_dir: A text. Directory of mecab.
method: A text. Method to use: "mecab", "ginza", "sudachi_a", "sudachi_b", "sudachi_c", or "chamame". "a", "b" and "c" specify the mode of splitting. "a" split shortest, "b" middle and "c" longest. See https://github.com/WorksApplications/Sudachi for detail. "chamame" use https://chamame.ninjal.ac.jp/ and rvest.
text_col: A text. Colnames for morphological analysis.
option: A text. Options for mecab. "-b" option is already set by moranajp. To see option, use "mecab -h" in command (win) or terminal (Mac).
iconv: A text. Convert encoding of MeCab output. Default (""): don't convert. "CP932_UTF-8": iconv(output, from = "Shift-JIS" to = "UTF-8") "EUC_UTF-8" : iconv(output, from = "eucjp", to = "UTF-8") iconv is also used to convert input text before running MeCab. "CP932_UTF-8": iconv(input, from = "UTF-8", to = "Shift-JIS")
col_lang: A text. "jp" or "en"
brk: A string of break point

Value

A tibble. Output of morphological analysis and added column "text_id".

A string

A character vector

A data.frame

Examples

# \donttest{
  # sample data of Japanese sentences
  data(neko)
  neko <-
      neko |>
      unescape_utf()
  # chamame
  neko |>
    moranajp_all(method = "chamame") |>
        print(n=100)
#> Analaysing by chamame. Please wait.
#> Submitting with button .
#> # A tibble: 2,962 × 7
#>     text_id 表層形       品詞     品詞細分類1  品詞細分類2  品詞細分類3 原形    
#>       <dbl> <chr>        <chr>    <chr>        <chr>        <chr>       <chr>   
#>   1       1 吾輩         代名詞   ""           ""           ""          我が輩  
#>   2       1 は           助詞     "係助詞"     ""           ""          は      
#>   3       1 猫           名詞     "普通名詞"   "一般"       ""          猫      
#>   4       1 で           助動詞   ""           ""           ""          だ      
#>   5       1 ある         動詞     "非自立可能" ""           ""          有る    
#>   6       1 。           補助記号 "句点"       ""           ""          。      
#>   7       1 名前         名詞     "普通名詞"   "一般"       ""          名前    
#>   8       1 は           助詞     "係助詞"     ""           ""          は      
#>   9       1 まだ         副詞     ""           ""           ""          未だ    
#>  10       1 無い         形容詞   "非自立可能" ""           ""          無い    
#>  11       1 。           補助記号 "句点"       ""           ""          。      
#>  12       2 どこ         代名詞   ""           ""           ""          何処    
#>  13       2 で           助詞     "格助詞"     ""           ""          で      
#>  14       2 生れ         動詞     "一般"       ""           ""          生まれる
#>  15       2 た           助動詞   ""           ""           ""          た      
#>  16       2 か           助詞     "終助詞"     ""           ""          か      
#>  17       2 と           助詞     "格助詞"     ""           ""          と      
#>  18       2 んと         感動詞   "フィラー"   ""           ""          うんと  
#>  19       2 見当         名詞     "普通名詞"   "一般"       ""          見当    
#>  20       2 が           助詞     "格助詞"     ""           ""          が      
#>  21       2 つか         動詞     "非自立可能" ""           ""          付く    
#>  22       2 ぬ           助動詞   ""           ""           ""          ず      
#>  23       2 。           補助記号 "句点"       ""           ""          。      
#>  24       2 何           代名詞   ""           ""           ""          何      
#>  25       2 で           助詞     "格助詞"     ""           ""          で      
#>  26       2 も           助詞     "係助詞"     ""           ""          も      
#>  27       2 薄暗い       形容詞   "一般"       ""           ""          薄暗い  
#>  28       2 じめじめ     副詞     ""           ""           ""          じめじめ
#>  29       2 し           動詞     "非自立可能" ""           ""          為る    
#>  30       2 た           助動詞   ""           ""           ""          た      
#>  31       2 所           名詞     "普通名詞"   "副詞可能"   ""          所      
#>  32       2 で           助詞     "格助詞"     ""           ""          で      
#>  33       2 ニャーニャー 副詞     ""           ""           ""          にゃあにゃあ……
#>  34       2 泣い         動詞     "一般"       ""           ""          泣く    
#>  35       2 て           助詞     "接続助詞"   ""           ""          て      
#>  36       2 い           動詞     "非自立可能" ""           ""          居る    
#>  37       2 た           助動詞   ""           ""           ""          た      
#>  38       2 事           名詞     "普通名詞"   "一般"       ""          事      
#>  39       2 だけ         助詞     "副助詞"     ""           ""          だけ    
#>  40       2 は           助詞     "係助詞"     ""           ""          は      
#>  41       2 記憶         名詞     "普通名詞"   "サ変可能"   ""          記憶    
#>  42       2 し           動詞     "非自立可能" ""           ""          為る    
#>  43       2 て           助詞     "接続助詞"   ""           ""          て      
#>  44       2 いる         動詞     "非自立可能" ""           ""          居る    
#>  45       2 。           補助記号 "句点"       ""           ""          。      
#>  46       2 吾輩         代名詞   ""           ""           ""          我が輩  
#>  47       2 は           助詞     "係助詞"     ""           ""          は      
#>  48       2 ここ         代名詞   ""           ""           ""          此処    
#>  49       2 で           助詞     "格助詞"     ""           ""          で      
#>  50       2 始め         動詞     "非自立可能" ""           ""          始める  
#>  51       2 て           助詞     "接続助詞"   ""           ""          て      
#>  52       2 人間         名詞     "普通名詞"   "一般"       ""          人間    
#>  53       2 と           助詞     "格助詞"     ""           ""          と      
#>  54       2 いう         動詞     "一般"       ""           ""          言う    
#>  55       2 もの         名詞     "普通名詞"   "サ変可能"   ""          物      
#>  56       2 を           助詞     "格助詞"     ""           ""          を      
#>  57       2 見           動詞     "非自立可能" ""           ""          見る    
#>  58       2 た           助動詞   ""           ""           ""          た      
#>  59       2 。           補助記号 "句点"       ""           ""          。      
#>  60       2 しかも       接続詞   ""           ""           ""          然も    
#>  61       2 あと         名詞     "普通名詞"   "副詞可能"   ""          後      
#>  62       2 で           助詞     "格助詞"     ""           ""          で      
#>  63       2 聞く         動詞     "一般"       ""           ""          聞く    
#>  64       2 と           助詞     "接続助詞"   ""           ""          と      
#>  65       2 それ         代名詞   ""           ""           ""          其れ    
#>  66       2 は           助詞     "係助詞"     ""           ""          は      
#>  67       2 書生         名詞     "普通名詞"   "一般"       ""          書生    
#>  68       2 と           助詞     "格助詞"     ""           ""          と      
#>  69       2 いう         動詞     "一般"       ""           ""          言う    
#>  70       2 人間         名詞     "普通名詞"   "一般"       ""          人間    
#>  71       2 中           接尾辞   "名詞的"     "副詞可能"   ""          中      
#>  72       2 で           助詞     "格助詞"     ""           ""          で      
#>  73       2 一番         副詞     ""           ""           ""          一番    
#>  74       2 獰悪         名詞     "普通名詞"   "形状詞可能" ""          獰悪    
#>  75       2 な           助動詞   ""           ""           ""          だ      
#>  76       2 種族         名詞     "普通名詞"   "一般"       ""          種族    
#>  77       2 で           助動詞   ""           ""           ""          だ      
#>  78       2 あっ         動詞     "非自立可能" ""           ""          有る    
#>  79       2 た           助動詞   ""           ""           ""          た      
#>  80       2 そう         名詞     "助動詞語幹" ""           ""          そう-伝聞……
#>  81       2 だ           助動詞   ""           ""           ""          だ      
#>  82       2 。           補助記号 "句点"       ""           ""          。      
#>  83       2 この         連体詞   ""           ""           ""          此の    
#>  84       2 書生         名詞     "普通名詞"   "一般"       ""          書生    
#>  85       2 と           助詞     "格助詞"     ""           ""          と      
#>  86       2 いう         動詞     "一般"       ""           ""          言う    
#>  87       2 の           助詞     "準体助詞"   ""           ""          の      
#>  88       2 は           助詞     "係助詞"     ""           ""          は      
#>  89       2 時々         名詞     "普通名詞"   "副詞可能"   ""          時々    
#>  90       2 我々         代名詞   ""           ""           ""          我々-代名詞……
#>  91       2 を           助詞     "格助詞"     ""           ""          を      
#>  92       2 捕え         動詞     "一般"       ""           ""          捕らえる
#>  93       2 て           助詞     "接続助詞"   ""           ""          て      
#>  94       2 煮           動詞     "一般"       ""           ""          煮る    
#>  95       2 て           助詞     "接続助詞"   ""           ""          て      
#>  96       2 食う         動詞     "一般"       ""           ""          食う    
#>  97       2 と           助詞     "格助詞"     ""           ""          と      
#>  98       2 いう         動詞     "一般"       ""           ""          言う    
#>  99       2 話           名詞     "普通名詞"   "サ変可能"   ""          話      
#> 100       2 で           助動詞   ""           ""           ""          だ      
#> # ℹ 2,862 more rows
# }
if (FALSE) { # \dontrun{
  # Need to install 'mecab', 'ginza', or 'sudachi' in local PC

  # mecab
  bin_dir <- "d:/pf/mecab/bin"
  iconv <- "CP932_UTF-8"
  neko |>
    moranajp_all(text_col = "text", bin_dir = bin_dir, iconv = iconv) |>
        print(n=100)

  # ginza
  neko |>
    moranajp_all(text_col = "text", method = "ginza") |>
      print(n=100)

  # sudachi
  bin_dir <- "d:/pf/sudachi"
  iconv <- "CP932_UTF-8"
  neko |>
    moranajp_all(text_col = "text", bin_dir = bin_dir,
                 method = "sudachi_a", iconv = iconv) |>
        print(n=100)
} # }