[mac] PDFをHTMLにする

上から、PDFをHTMLにしてサイトに掲載してくれという依頼が来ました
見た目はそのまま再現できればそれがベストだそうです
正直、個人としてはその作業の意図がわかりません😓

Google は 2001 年に PDF ファイルのインデックス登録を開始(英語)し、現在では 数億件もの PDF ファイルがインデックスに登録されています。

検索結果における PDF ファイルの取り扱いについてのヒント

PDFのまま載せたってインデックスしてもらえるのに、html化するメリットがなんかあるの?

・・・そう思いながらも、理屈を納得してもらうよりはやってしまったほうが早そうなので、言われたとおりのことをやってみました

pdf2htmlEX

調べてみたら pdf2htmlEXというものがありました

pdf2htmlEX

サンプルを見てみると出来がすごい!

でもブログの最終更新は”Looking for new maintainer
そのメッセージどおりGitHubレポジトリはアーカイブされていました
今はこちらでメンテナンスされているのかな?(バージョンは0.14.6のまま変わってないようだけど…)

ともあれインストールはhomebrewにformulaがあったので簡単でした

$ brew install pdf2htmlex

変換の実験してみます
こちらからサンプリファイルを拝借しました

元PDFファイル: sample-pdf.pdf

変換してみます
–embedの部分はそれぞれ

CCSS
Ffont
Iimage
JJavaScript
Ooutline

を意味していて、大文字だとそれをembed(HTMLに埋め込み。画像などはbase64エンコードで埋め込まれる)、小文字だと外部ファイルにする、という設定です
ひとつのhtmlファイルで完結したい場合なんかは全部embedしてしまえばいいわけですね
もうひとつの–fit-widthは幅を何pxにするか、になります

$ pdf2htmlEX --embed cfijo --fit-width 1024 sample-pdf.pdf sample-pdf.html

出力結果HTML: sample-pdf.html

ソースにいくらかクセはあるけども(サンプルテキストのところなんか文章が細切れにspanで分割されている)、見た目は完全に再現されました!