第 5 章:选择文档语言

Readiris 将扫描的图像、图像文件和 PDF 文件转换为可编辑的文本文档和文本可搜索的 PDF 文档。为了让 Readiris 识别您图像中的文本,您需要选择正确的 识别选项

其中最重要的识别选项是文档语言

要选择文档语言:

Readiris Pro 提示:识别多语言文档时,确保选择字符集最大的语言。例如,要识别的文档既包含英语又包含法语文本,则选择法语为文档语言。这样一来,将正确识别重音符号。

识别数字文档

如果处理的文档仅含或者几乎都是数字,或者不含文本,建议选择数字选项。

选择此选项之后,Readiris 将只识别数字 0-9 和下列符号:

+

加号

*

星号

/

斜杠

%

百分号

,

逗号

句号

(

左圆括号

)

右圆括号

-

连字号

=

等号

$

美元符号

£

英镑符号

欧元符号

¥

日元符号

 

识别非拉丁字母的西方文字

在处理西里尔语、斯拉夫语、希腊语或亚洲语文档时,如果还包含以拉丁字母书写的“西方”文字(如专有名词),建议选择可用的语言对之一。

语言对总是结合了英语,可供俄罗斯语、白俄罗斯语、乌克兰语、塞尔维亚语、马其顿语、保加利亚语和希腊语使用。

注意:当处理亚洲语或希伯来语文档时,将自动使用混合的字符集。

要选择语言对:

选择按页面的语言

当特定页面使用的语言不同于总体语言时,您无需指定次要语言。您可对这些页面应用不同的语言。

在页面面板中选择这些页面,Ctrl-单击它们,使用命令语言来指定一种不同于文档总体语言的其他语言到这些页面。

对于不同于文档总体语言的页面,在页面面板中用红色标记

与次要语言不同的是,这里没有限制。

注意:页面面板中每个页面的工具提示表示应用到该页面的语言。

 

识别单个文档中的次要语言(仅 Readiris Corporate)

如果文档包含多语言文本,建议选择一种主要识别语言,再组合多种 次要语言。您可选择最多 4 种次要语言:

次要语言列表会根据选定的主要语言而变化。

注意:请勿选择不适用的语言;字符集越大,识别越慢,OCR 出错风险越高。