PDFから表を取り出す

PDFからテキストを取り出すのは簡単にできる. でも,表形式になっているデータをそのまま表として取り出すのって結構難しい. HTMLのように明示的に「ここが表です」って書いていればわかりやすいが,PDFではそうではない. どこが表なのかを見極めて,そこから正しく行と列を認識しなければならないからだ.

tabulaはPDFから表をうまく取り出せるようだ. ただし,Javaが必要.

RのパッケージであるtabulapdfはRからtabulaを使えるようにするものみたい. なのでrJavaも必要だ.

Pythonではpdfplumberが良さそう. これは Anssi Nurminen’s さんの修士論文とtablaを参考にしているが,独自にコードを書いているっぽい.