Tesser-OCR:Linux Mint 19.3 xfce - hidamari09の日記

2020年２月17日（火）

　FMV BIBLO MG50K のLinux Mint 19.3 xfce にOCR（Optical charactor reader)をインストールしました。とても簡単にインストール出来ました。

　現在の生活で、OCRを使う機会は極稀です。

　使つたのは、サラリーマン時代に極稀に馴染みの無い言語で書かれた資料等を読まねばならないときくらいでした。

　Mac用のOCRソフトは数が少なく、また高価であったことから、SUB機のWindowsパソコンでOCRソフトを稼働させていました。

　最近、そのWindowsパソコンが起動しなくなってしまいました。当面、OCRソフトを使えなくても困ることはないのですが、いままで使える環境があったのに、使えないというのは、いざという時に対応できなくなり不便です。。

　そこで、古いFMV BIBLO MG50K にLinux Mint 19.3 xfce をインストールしたこともあり、Linux 上で動作するTesseract-OCR をインストールしてみました。

　”ソフトの管理”で”tesseract"で検索すると、Linux Mint で使用できるTesseract-OCRのパッケージが表示されます。同時に、GUI としてGimagereader と各種の言語パッケージも表示されます。

　とりあえず、言語は日本語（縦・横）、英語、簡体字（縦・横）、繁体字（縦・横）をインストールすることにします。

　必要なパッケージをクリックするとインストールされます。インストールの過程でTesseract-OCRに必要なソフトのインストールも促されます。

　インストールは簡単に、あっという間に終了しました。

f:id:hidamari09:20200317130752j:plain

　さて、どこにインストールされたのかをみてみると、Graphicにインストールされていました。

f:id:hidamari09:20200317132036j:plain

　早速、立ち上げてみます。

　”ソフトの管理”ページのスクリーンショットを読み込んでみます。① 画像の読み込み、②”使用言語の選択”と”読み取り”、③ は環境設定。

　操作はシンプルで、ページイメージを読み取るような複雑なことはできなさそうです。

f:id:hidamari09:20200317132110j:plain

　英語モードでの読み取りです。日本語は文字化けし、アイコンなどは意味のない文字に変換されます。④で読み取り結果の保存、⑤の☓でよ読み取り結果のクリアー。

f:id:hidamari09:20200317133343j:plain

　インストールはしたものの、問題は漢字圏の言語の読み取り精度です。

　まずは形が簡単な簡体字の文章で試してみます。

　読み取り開始時に、Speling辞書をインストールするか聞いてきますが、Speling辞書はないので、don't・・・を選びます。以降、聞いてきません。

　適当に文章の画像を選び読み取らせてみます。

　左が読み取りの画像（Jpeg)で右が読み取り結果です。

f:id:hidamari09:20200317135412j:plain

　事前に文字以外の画像は消しておきました。

　上付き文字、（）の前後で変換ミスが多発しています。

f:id:hidamari09:20200317135541j:plain

　変換結果は、624文字中44文字が誤変換です。変換率は93％とあまり高くありません。それでも、580文字の入力が省けることになります。この程度の文字数なら、直接入力したほうが早いかもしれません。しかし、1,000文字・5,000文字となると、誤変換を訂正しても効果がでて来るでしょう。

　資料によっては、変換の前処理が多数ある場合があります。このあたりは、変換の文書量と削除作業工数の兼ね合いということになるでしょう。

f:id:hidamari09:20200317140405j:plain

　制限はありますが、使える環境があるということはなりよりの強みになります。