Claude codeを使い始めた. 噂どおりすごい. 一発で不具合のないものができる訳では無いが,労力がかなり削減できる. ファイルごとでバラバラだったものが統一できるのも嬉しい.
「Rによる自動化・効率化レシピ集」にはじめて評価がついた.嬉しい.コメントがあれば,さらに嬉しい.
https://www.amazon.co.jp/dp/4627858310/
「Rによる自動化・効率化レシピ集」の英語版の企画書を海外の出版社にいくつか送ったが,いずれもだめだった.
https://www.amazon.co.jp/dp/4627858310/
新たな企画が動き出すことが決まった. 当然のことだが,やれるときにやれることをやっておこう.
Syncthingは,ネットにはファイルをおかずPC間でファイルを共有できるとのこと.
https://github.com/syncthing/syncthing/
VScodeが急に起動しなくなった. ショートカットがおかしくなっているのかと思ったが,大丈夫だった. ネットで調べると,アップデートのときに不具合が発生することがあるらしい. 以下を参考にして “_” のディレクトリのファイルを移動したら起動するようになった.
https://qiita.com/Taku_Taku_Taku/items/3c8f944a6cd4f12de7f0
お正月は,いつもどおりダラダラと過ごしてしまった.
ただ,ちょっと新たな企画が動くかもしれないので,その準備を少しずつした.
アメリカの編集者からのメールに12/19から1/5までは祝日なので対応できないとのことだった. 世界的にはこれぐらい休むのが普通なのだろうか.
GitHubからメールが届いた. R自動化本のサポートページへの連絡(issues)かと思ったら違った. だいぶ前に作ったRの日本語の形態素解析のパッケージmoranajp関連だった. 「purrrがバージョンアップするので,コードを変更するように」って内容. 「ふーん」って思っていたが,よくよく見るとHadley Wickham氏からのものだ. これはびっくりした. purrrを使っているパッケージは多いだろうから,ある程度自動化して送っている気がするものの,それでも嬉しい. ただ,Pull requestをもらうのがはじめてなので,どう対応したら良いのかわからない. 忘れないうちにやっておこう.
https://github.com/matutosi/moranajp/pull/1
PDFからテキストを取り出すのは簡単にできる. でも,表形式になっているデータをそのまま表として取り出すのって結構難しい. HTMLのように明示的に「ここが表です」って書いていればわかりやすいが,PDFではそうではない. どこが表なのかを見極めて,そこから正しく行と列を認識しなければならないからだ.
tabulaはPDFから表をうまく取り出せるようだ. ただし,Javaが必要.
RのパッケージであるtabulapdfはRからtabulaを使えるようにするものみたい. なのでrJavaも必要だ.
Pythonではpdfplumberが良さそう. これは Anssi Nurminen’s さんの修士論文とtablaを参考にしているが,独自にコードを書いているっぽい.