上から、PDFをHTMLにしてサイトに掲載してくれという依頼が来ました
見た目はそのまま再現できればそれがベストだそうです
正直、個人としてはその作業の意図がわかりません😓
Google は 2001 年に PDF ファイルのインデックス登録を開始(英語)し、現在では 数億件もの PDF ファイルがインデックスに登録されています。
検索結果における PDF ファイルの取り扱いについてのヒント
PDFのまま載せたってインデックスしてもらえるのに、html化するメリットがなんかあるの?
・・・そう思いながらも、理屈を納得してもらうよりはやってしまったほうが早そうなので、言われたとおりのことをやってみました
pdf2htmlEX
調べてみたら pdf2htmlEXというものがありました
サンプルを見てみると出来がすごい!
でもブログの最終更新は”Looking for new maintainer“
そのメッセージどおりGitHubレポジトリはアーカイブされていました
今はこちらでメンテナンスされているのかな?(バージョンは0.14.6のまま変わってないようだけど…)
ともあれインストールはhomebrewにformulaがあったので簡単でした
$ brew install pdf2htmlex
変換の実験してみます
こちらからサンプリファイルを拝借しました
変換してみます
–embedの部分はそれぞれ
C | CSS |
F | font |
I | image |
J | JavaScript |
O | outline |
を意味していて、大文字だとそれをembed(HTMLに埋め込み。画像などはbase64エンコードで埋め込まれる)、小文字だと外部ファイルにする、という設定です
ひとつのhtmlファイルで完結したい場合なんかは全部embedしてしまえばいいわけですね
もうひとつの–fit-widthは幅を何pxにするか、になります
$ pdf2htmlEX --embed cfijo --fit-width 1024 sample-pdf.pdf sample-pdf.html
ソースにいくらかクセはあるけども(サンプルテキストのところなんか文章が細切れにspanで分割されている)、見た目は完全に再現されました!