本の自炊

小品いろいろ

【5】本の自炊

きっかけ

本の自炊をやらなければ駄目だな、と思ったのはだいぶ昔のことになります。

自宅は木造２階建てですが、1階の台所とリビングの境界にあるガラス戸の動きが悪い。さらにガラス戸をはずすことができなくなっていました。

木造では築25年にもなればいろいろ具合が悪いところが出てくるにしても、本の重さが原因の一つではないか、と思われます。

実は、家を建てるときに建築設計士に、２階のこの部屋は本が特別に多くなるということはありますか、と聞かれ、普通程度にしか置きません、と答えたのです。今にして思えば、「本はかなり多くなりますので、対策してください」、とお願いしてあれば、少しは違っていたような気がします。

決定的だったのは東日本大震災です。

その時は外出していて、帰りにはげしい交通渋滞に巻き込まれ、深夜にようやく帰宅して、自分の部屋に入ったのは翌日ではないかと思います。ドアがあかないのです。内開きのドアをなんとか押しこんですきまからのぞくと、ドアの内側に棚から落ちた本が重なり合っていました。すきまから腕を伸ばして少しずつ本をどかして、ようやく体を中に入れて、なるほど、これが"足の踏み場もない"ということかと納得した次第です。

スタートするまで

それ以降、いろいろ考えてきましたが、なかなか決心がつかずに４年がたってしまいました。その原因を思い起こしてみました。

初期費用が高い。特にスキャナーが高い
持ち運びするときに手ごろなリーダーがない
大画面で読むにしても、本と比べると目が疲れる(年齢のせいもある)

少し前に、ADF(自動紙送り)機能が付いた複合機を購入したので、あるとき思い立って、10ページ程度のパンフレットを入力してみました。少なくともパソコンの大きな画面で見ると、それほど読みにくいものではありませんでした。ページめくりは思ったより高速で十分使えそうです。

また、特別セールの時にAmazonのKindleを購入し、電子本を１冊購入して読んでみると、これが見やすいのです。ただし自分でスキャンしたものは見やすいものではありません。拡大表示していくと、ある拡大率の時に非常に見やすくなります。スキャンと表示の分解能がうまく対応したのでしょう。たとえばレティナディスプレイではうまく表示できるのかもしれませんが、まだちょっと分かりません。

その後、atlasさんの「家電批評モノマニア」というサイトにある「比較2015' 自炊用スキャナの価格と性能・おすすめ」という記事に、自炊に向くスキャナーの比較記事があることを見つけ、参考にさせていただきました。

スキャナーとして私には、富士通の定番機"スキャンスナップFI-IX500"とCANONの "DR-C225W"が候補のように思われました。これは上記のサイトのお勧めの最初の２機種です。

Amazonで価格と評価をチェックすると、FI-IX500の方が1万円位高く、また悪い評価が多いのです。評価の内容を見ると、その原因が分かりました。先行機種に対して値下げしたようなのですが、その要因は添付ソフトで、Adobe Acrobat(正規品と同じもの)をやめて互換ソフトに替えたということです。なるほどこれではがっかりする人が多いでしょうね。私はAdobe Acrobatの正規品を持っていますので、この点は問題になりません。

結局、値段が約１万円安いという点から、CANONの "DR-C225W"を選択しました。

スキャナー選択の評価

これは以下の点で、正解ではなかったと思っています。比較していないので確実なところは分りませんが。

コンパクトであること。現在、パソコンを載せた机の片隅に載せています。接地面積は18cm×32cmくらい。
重送(紙を複数枚同時に読みこんでしまう)を確実に検知できる
そこそこ早い(特に長い時間待つ、という印象はない。)
文字認識の精度は"まあ、こういうものかな"と思える程度

主な不満点は次の様なものです。

一度にセットできる原稿の枚数ですが、20～30枚です。この２倍あればその間に別の事ができるのですが、現在は"つきっきり"の状態です。
文字認識の精度が分解能を上げても単純に上昇しない。

文字認識ですが、300dpiでスキャンして誤認識しているところがあるからといって、600dpiにすると、誤認識が解消するところもありますが、逆に300dpiの時に正しく認識できていたところを誤認識する、という経験を何度かしています。文字認識のアルゴリズムが300dpiくらいを前提にしたものなのでしょうか。原因は分らないのですが、現在は600dpiは文字認識率改善のためではなく、文字の見やすさの改善という狙いで利用しています。

誤認識がどのような場合に多いのか、ということについてもよくわかりません。グラビア印刷の様な文字の輪郭がシャープな文字でも誤認識するときがあり、また古い文庫本の頭注・脚注といった小さな文字を意外にもきちんと認識できていることもあります。

もっとも、語句検索するときには、誤検出はまだよいのです。本当に困るのは検出しないという場合です。

現状

始めてから約5週間で、190冊をスキャンしました。60ページの機関誌が多かったりしているので、文庫・新書で150冊相当というところでしょうか。

いままでで、失敗したと思って途中でやり方を変えたのは以下の様なところです。ご参考まで。

(1)本をバラす方法････最初は10～20枚くらいずつ順にひきはがすように手でちぎるようにしていました。こうすると、接着部分がずれて、それを直してから接着部分を切り取る、ということになります。それで、まず全体を真ん中で２分割し、次にそれぞれを２分割し、と言う事を繰り返し、一つの塊が20枚くらい(次項のカッターで切りやすい枚数)になるまで続ける、というやり方にしました。

(2)本の閉じ部分を切り取る方法････最初はカッターマット、ローラーカッター、専用定規(歯が当たる部分に金属が埋め込まれているもの)を使っていました。このローラーカッターがよく切れません。考えてみると、ローラーカッターは歯を動かして切ると言うよりは歯を押しつけて切るものです。これでは力が必要です。それで単純に替刃方式のカッターに変えました。こちらの方が大分楽です。

(3)スキャンデータの格納方法････最初は一つのフォルダーに入れていました。この欠点は、全ファイル検索をさせせたときに、時間がかかりすぎることです。そこで、検索の対象としての分類をしてフォルダーを分けました。図書館の分類の様なイメージです。それでも、一つのフォルダーの中のファイルが多くなると検索時間の問題が起るため、途中でフォルダーをさらに分ける、と言う場合も発生しています。

スキャンした本は捨てています。もともと、本が重い、という動機で始めたものなので当然です。

まだ迷っているのは、スキャンしたデータファイルの検索方法です。現在は、できるだけ元の本の姿がイメージできるように、本のカバーまたは表紙のイメージデータをExcelの表に張り付け、スキャンデータ・ファイルにハイパーリンクを張って開けるようにしています。

イメージデータをクリックすれば対応するスキャンデータ・ファイル(pdf形式)が開くというものです。ただし設定作業としては次のようなものになり、結構面倒です。

スキャンデータファイルの先頭ページを画像データとして保存
→画像のサイズを縮小する(250×250ピクセルの枠内に入るサイズ)
→画像をExcelの表に挿入
→画像のサイズを45%に縮小し、枠線を付ける
→画像にハイパーリンクを設定する
→画像の下に本のタイトルを埋め込む

45%に縮小して表紙するのは、主に使うモニタに、横方向に12枚(月刊誌を考慮)ならべて一覧できるサイズ、ということで決めたものです。

上記したようにフォルダーを変えたときは、対象ファイルの全部についてハイパーリンクを張りなおす必要があります。

このインデックスは最初はhtmlファイルで作り出したのですが、その場合、pdfファイルはブラウザに組み込まれた状態で開きます。本はもともと見開きで読むのが普通ですが、ブラウザのなかで表示されたpdfファイルを見開きで表示させる方法がその時はわからなかったので、Excelに切り替えました。htmlファイルで作った方がいろいろな設定がテキストのコピーで済むので、Excelで手作業でいちいち設定するよりは容易と思っていますので、今後変えるかもしれません。

スキャンデータとして読む事のメリット・デメリット

いままで感じた範囲では次のようになります。

【メリット】

本の重量から解放される。空間的にも解放される。
語句の検索ができること。これはとてもなく大きなメリット(これはとても重要)。
持ち運びが圧倒的に楽(ただしピュアーにより見やすさの問題は残ります)。
表示の拡大・縮小が簡単にできるので、細部を見るのが楽。

【デメリット】

一般的には印刷の方がどうしても見やすい(目が疲れない)。
本を読んでいるという実感がない。
画像が含まれるページは、画像中心にスキャンすると文字が不鮮明になり、文字に合わせれば画像が汚くなる。また、画像はいずれにしても印刷物よりは汚くなる。
本をばらすのに抵抗を感じる。文庫・新書ならまだいいが、きちんと製本された本や購入したばかりの本はどうしてもためらってしまう。
スキャンデータ・ファイルのバックアップに気を使う(本であれは心配なのは火災くらい)。
スキャンに伴う作業が面倒で時間がかかる。

項目数で言うとデメリットの方が多いですが、"本の重量軽減"と"語句検索の便利さ"という二つのメリットが大きく、今後もスキャン作業を続けていく予定です。

備考

このシリーズでは、この前の記事までは「だ・である」調にしていましたが、どうもしっくりこないので、この記事は「です・ます」調に変えました。どちらにするか悩ましいですね。