PDF化(スキャニング・OCR処理)

こんなお悩み入力代行.jpが解決します!

・紙媒体しかない、大量の文書・書籍を電子化したい。
・顧客データを管理したい。
・取引先の名刺をデータ化したい。
・手書き文字のため、OCRは、誤字だらけ。
・化学記号があり、入力対応できない。
・入力したデータを、検索のデータベースに活用したい。

矢印
・探す手間が省け、資料のやり取りや管理が楽になった。
・遠く離れた支店にも簡単送信。
・日焼け、汚れ、ヤブレ等の劣化がない。
・タグを付けることによって、上付き、下付き文字の対応も可能。
・入力データにタグを付けることにより、データベース用のテキスト作成可能。
・既存テキストデータの編集・加工処理
※膨大なファイルに収まった書類をスキャニングでデータ管理。
※社内資料や文書、アンケートの保管・活用。大切な書類をデータ化。

そのファイル、本当に検索でヒットしますか?

ひとくちに電子媒体化といっても、 どんな目的で加工するかにより、どこまで手を掛ければよいかが異なります。
・検索目的以外の単純な画像化
・ファイル名で識別できればよいデータ
・タイトル、キーワード等の付加情報を必要とするデータ
・ファイルの要約が必要なデータ
・全文テキスト化が必要なもの

電子媒体化するということは、小石を大海に投げるのと同じことです。
適切に処理していないファイルは、ディスクの海から二度と探し当てられなくなる可能性があります。
人間の眼と違って、コンピューター上で行われる検索は指定された語句を正確に探そうとします。

テキスト化を実現するうえで、OCR処理は、確かに低コストかつ便利な機能ですが、残念ながら必ずしも万能ではありません。
スキャナーやソフトの精度が上がってきたとはいえ、旧字や手書き文書、化学式等の特殊文字が含まれる文書や配置が複雑な文書は苦手です。

【例1】 
コンピューター ⇔ コソピュ-夕一
(ソ・-・夕・一 等の誤読)
コンピューター ⇔ コン ピューター
(改行時の泣き分かれ)
【例2】
1(数字) ⇔ l(小文字のエル)
二(漢数字) ⇔ ニ(カタカナ
-(マイナス) ⇔ ー(長音記号
へ(平仮名) ⇔ ヘ(カタカナ


誤読や泣き分かれのまま格納されたファイル、、、
例えば法令、例えば判例、例えば論文、膨大な資料の山の中に確実にあるデータのはずなのに、正しく入力していなければ、あるはずのデータも拾えなくなってしまうのです。

PDF等に電子媒体化する際、予算だけを重視して、校正を不要とする。本当にそれでよいのでしょうか?

企業経営を行うにあたり、確かにコストは重要です。
でも、コストを優先するあまり、本来必要であるデータが正しく入力されていなければ、、
・誤った経営判断に繋がる
・過去の事例を参照できない
・資料の再作成が必要
・お客様サービスの低下を招く

重大な局面で、コスト負担に繋がることも考えられます。

『解体の出来ない本・古書にも対応します』

希少な本で解体が出来ない原稿のPDF作成もお受けいたします。
ただし解体してADFで流す作業に比べ、手で一枚ずつスキャンしますので時間もコストもかかってしまいますがあらかじめご了承下さい。(大量データの場合は他の方法にて対応いたします)

また当然ながら作業をお受けできるのは著作権に問題がないことを確認させていただいてからになります。

スキャニングにあたり本の解体やその再製本もお受けできますのでお問合せ下さい。

『透明テキストの付与』

作成したPDFにOCR処理でのテキストや手入力からのテキストデータの付与もいたします。
代表的な作業の依頼としては
①PDF+OCRかけっぱなしテキスト付与
②PDF+OCRテキスト抽出+校正入力テキスト付与
③PDF+手入力+校正

です。
※コストと納期は①<②<③

『OCR処理テキスト抽出の苦手なところ』

OCRでのテキスト抽出は、一定の条件さえあえば非常に効率の良い手法です。
ただし次のような条件下では著しく 誤認識が増加します。
①原稿が新聞のような多段組
②画像や図表が多い原稿
③紙に色がついているもの