新たな企画が動き出すことが決まった. 当然のことだが,やれるときにやれることをやっておこう.
Syncthingは,ネットにはファイルをおかずPC間でファイルを共有できるとのこと.
https://github.com/syncthing/syncthing/
VScodeが急に起動しなくなった. ショートカットがおかしくなっているのかと思ったが,大丈夫だった. ネットで調べると,アップデートのときに不具合が発生することがあるらしい. 以下を参考にして “_” のディレクトリのファイルを移動したら起動するようになった.
https://qiita.com/Taku_Taku_Taku/items/3c8f944a6cd4f12de7f0
お正月は,いつもどおりダラダラと過ごしてしまった.
ただ,ちょっと新たな企画が動くかもしれないので,その準備を少しずつした.
アメリカの編集者からのメールに12/19から1/5までは祝日なので対応できないとのことだった. 世界的にはこれぐらい休むのが普通なのだろうか.
GitHubからメールが届いた. R自動化本のサポートページへの連絡(issues)かと思ったら違った. だいぶ前に作ったRの日本語の形態素解析のパッケージmoranajp関連だった. 「purrrがバージョンアップするので,コードを変更するように」って内容. 「ふーん」って思っていたが,よくよく見るとHadley Wickham氏からのものだ. これはびっくりした. purrrを使っているパッケージは多いだろうから,ある程度自動化して送っている気がするものの,それでも嬉しい. ただ,Pull requestをもらうのがはじめてなので,どう対応したら良いのかわからない. 忘れないうちにやっておこう.
https://github.com/matutosi/moranajp/pull/1
PDFからテキストを取り出すのは簡単にできる. でも,表形式になっているデータをそのまま表として取り出すのって結構難しい. HTMLのように明示的に「ここが表です」って書いていればわかりやすいが,PDFではそうではない. どこが表なのかを見極めて,そこから正しく行と列を認識しなければならないからだ.
tabulaはPDFから表をうまく取り出せるようだ. ただし,Javaが必要.
RのパッケージであるtabulapdfはRからtabulaを使えるようにするものみたい. なのでrJavaも必要だ.
Pythonではpdfplumberが良さそう. これは Anssi Nurminen’s さんの修士論文とtablaを参考にしているが,独自にコードを書いているっぽい.
大学の先輩が木工のYouTuberとして活躍されている. 以前,紹介されていた名刺入れを頂いたことがあった. そのお礼を兼ねて,R自動化の書籍をお渡ししたところ,YouTubeでご紹介いただきました. ありがとうございます.
https://www.youtube.com/watch?v=RcDVBwW-gVk (R加工の方法) https://www.youtube.com/watch?v=FweYxNR0ZTI&t (名刺入れ作り)
Windows11のコマンドプロンプトでgrepみたいなことをするには,findを使う. pip list | find "py"
指がgrepになってしまうことがある. “c:/windows/system32"にある"find.exe"を"grep.exe"として別名で保存しておくと,grepで実行できる.
中澤港さんが書籍の紹介記事を書いてくださった. ありがとうございます.
https://minato.sip21c.org/im3r/20250828.html