PDFから表を取り出す
PDFからテキストを取り出すのは簡単にできる. でも,表形式になっているデータをそのまま表として取り出すのって結構難しい. HTMLのように明示的に「ここが表です」って書いていればわかりやすいが,PDFではそうではない. どこが表なのかを見極めて,そこから正しく行と列を認識しなければならないからだ.
tabulaはPDFから表をうまく取り出せるようだ. ただし,Javaが必要.
RのパッケージであるtabulapdfはRからtabulaを使えるようにするものみたい. なのでrJavaも必要だ.
Pythonではpdfplumberが良さそう. これは Anssi Nurminen’s さんの修士論文とtablaを参考にしているが,独自にコードを書いているっぽい.