セクション 5:文書の言語の選択

Readirisは、スキャンされた画像や画像ファイルやPDFファイルを、編集可能なテキスト文書や検索可能なPDF文書に変換します。Readirisに画像中のテキストを認識させるには、適切な認識オプションを選択する必要があります。

最も重要な認識オプションは文書の言語です。

文書の言語の選択方法:

Readiris Proのヒント:複数の言語からなる文書を認識したい場合、文字セットが最も大きい言語を選択してください。英語とフランス語の両方が含まれる文書を認識したい場合、文書の言語としてフランス語を選択します。こうすることによって、アクセント記号が正しく認識されます。

数字文書の認識

数字のみで、ほとんどまたはまったくテキストを含まない文書を処理する際には、[数値] オプションを選択するようお勧めします。

このオプションを選択すると、Readirisは、数字0~9と下記の記号のみを認識します。

+

プラス記号

*

星印

/

スラッシュ

%

パーセント記号

,

コンマ

.

ピリオド

(

左丸括弧

)

右丸括弧

-

ハイフン

=

イコール記号

$

ドル記号

£

ポンド記号

ユーロ記号

¥

円記号

 

ラテンアルファベットを使用しない西洋の単語の認識

固有名詞など、ラテンアルファベットで書かれた西洋諸語を含むキリル文字、スラブ語、ギリシア語、アジア諸語の文書を処理する際には、使用可能な言語ペアの中から適切なものを選択するようお勧めします。

言語ペアは、常に英語と組み合わされるようになっており、ロシア語、ベルラーシ語(白ロシア語)、ウクライナ語、セルビア語、マケドニア語、ブルガリア語、ギリシア語で利用できます。

注記:アジア諸語、ヘブライ語の文書を処理する場合は、混合文字セットが自動的に使用されます。

言語ペアを選択するには:

ページごとに言語を選択

ある特定のページで、文書全体と異なる言語が使用されている場合、二次言語を指定する必要はありません。そのページで別の言語を適用することができます。

[ページ] パネルでページを選択し、Ctrlを押したままそれをクリックし、[言語]コマンドで、そのページに、文書全体と異なる言語を指定します。

文書全体と異なる言語が使用されているページは、[ページ] パネルの中で赤い印が付いています。

二次言語と異なり、これには制限がありません。

注記:[ページ] パネル内のページのツールチップは、そのページにどの言語が適用されているかを示しています。

 

一つの文書で二次言語を認識(Readiris Corporateのみ)

文書に複数の言語のテキストが含まれる場合、主な認識言語を選択し、複数の二次言語を組み合わせるようお勧めします。最高で4つの言語まで選択することができます。

選択した一次言語に応じて、利用可能な二次言語のリストが変化します。

注意:該当しない言語を選択しないでください。言語の数が多いほど、認識が遅くなり、光学文字認識エラーの危険性が高くなります。