PDFから表を取り出す

September 26, 2025

PDFからテキストを取り出すのは簡単にできる．でも，表形式になっているデータをそのまま表として取り出すのって結構難しい． HTMLのように明示的に「ここが表です」って書いていればわかりやすいが，PDFではそうではない．どこが表なのかを見極めて，そこから正しく行と列を認識しなければならないからだ．

tabulaはPDFから表をうまく取り出せるようだ．ただし，Javaが必要．

RのパッケージであるtabulapdfはRからtabulaを使えるようにするものみたい．なのでrJavaも必要だ．

Pythonではpdfplumberが良さそう．これは Anssi Nurminen’s さんの修士論文とtablaを参考にしているが，独自にコードを書いているっぽい．