小品いろいろ


前に戻る    次に進む    "小品いろいろ"のトップに戻る

【6】本の自炊 その2 文字列検索

どこまで検索できるか

本のスキャン入力の大きなメリットとして、文字列検索ができる、ということを前の記事で書きました。

どの程度検索できるか、について経験したことを書いてみます。

チェックポイントは以下の様なことです。

以下で、"OK"とはざっと見て検索できた、ということであって、必ず検索できるということではありません。また、NGとは、ざっと検索したとき、一度も検索できなかった、ということです。

検索の精度

思った以上に高いです。もっとも、どの程度期待するか、によりますが。

古い文庫本のような紙質の悪いもの・・・・OK

振り仮名付きの文字列・・・・同じ文字列でも検索できるときとできないときがある

頭注・脚注の小さな字体・・・・文庫本の脚注についてOK

泣き別れに対する検索

行間の泣き別れ・・・・OK

段組間の泣き別れ・・・・NG

ページ間の泣き別れ・・・・NG

以下の例は、行間の泣き別れの検索です。行末の「なげ」から次の行の「き」までつながった「なげき」の3文字を検索しています。この例では、1ページを上下の二つの段組みとしています。段組みの構造を認識して検索をしていることが分かります。これは検索の問題というよりは、文字認識において段組みの構造を認識している、ということとですね。

(「合本 八代集」 久保田淳・川村晃生編 三弥井書店 平成11年3月)

脚注でも、行間の泣き別れが検索できています。「思ふ」を検索した例です。段組みの構造の認識と同じように、本文と脚注の二段構造を認識していることが分かります。

(「和泉式部集・和泉式部続集」清水文雄 校注 岩波文庫 岩波書店 1991年1月 第6刷)

段組間での泣き別れは検索できません。下の図で、上の段の末尾の「松山」は検索できます(下の図の通り)が、次の段の先頭まで続けた「松山の」の検索はできません。実例は省略しますが、ページ間の泣き別れも検索不可です。

(「合本 八代集」 久保田淳・川村晃生編 三弥井書店 平成11年3月)


泣き別れについては、Adobe Acrobatの検索機能に依存するものなのでしょうか。でも、行間の泣き別れが検索できるだけでもすばらしいと思います。


「合本 八代集」や「和泉式部集・和泉式部続集」などは、通して読むというよりは調べ物をするときに参照することが多いように思われます(少なくとも私の場合は)。その際に文字列検索ができると言うことはとても便利で、確実性はまだ分かりませんが、大いに期待できると感じました。



[ページの先頭に戻る]