搜索 <book_title>...

Enterprise Vault™ 使用 Veritas 信息分类器进行分类

Last Published: 2021-12-06

Product(s): Enterprise Vault (14.2)

语言检测故障排除

默认情况下，如果邮件中至少有 80 个字符，则 Veritas Information Classifier 会确定邮件中的语言。使用 Veritas Information Classifier 2.4.0，管理员可以为语言检测配置最小字符数以及更高或更低的可信度。当小文件中存在多种语言时，管理员可以为执行语言检测的每个块指定较小的大小。

执行以下步骤：

导航到 C:\Program Files (x86)\Enterprise Vault\Services\vic\Engine 目录，然后使用文本编辑器打开 .vic-overrides-config.yml 文件。
此文件用于覆盖 Veritas Information Classifier 的配置设置以进行自定义。
确保将分类器部分下的属性 languageDetectionEnabled 设置为 true。

要覆盖语言检测的任何值，请为分类器部分下的以下属性设置值。

属性	描述
minimumTextRequiredForLanguageDetection	指定语言检测的最小文本长度。小于该设置值的任何文本都将指定为语言“未知”。默认值为 80 个 Unicode 字符。
chunkSizeForLanguageDetection	指定执行语言检测的每个块的大小。默认值为 300。例如，如果文档的长度为 500 个 Unicode 字符，则 Veritas Information Classifier 将检测前 300 个字符的语言，然后在最后 200 个字符中，出现次数最多的语言会被指定为主要语言。如果文档包含的 Unicode 字符少于 300 个，但存在多种语言，请使用此属性减少语言检测的块大小。
minimumConfidenceForLanguageDetection	指定用于检测语言的可信度。较高的可信度可以达到更高的准确性，但语言确定为“未知”的可能性也更大。该值应介于 1 到 100 之间。默认值是 90。

属性

描述

minimumTextRequiredForLanguageDetection

指定语言检测的最小文本长度。

小于该设置值的任何文本都将指定为语言“未知”。默认值为 80 个 Unicode 字符。

chunkSizeForLanguageDetection

指定执行语言检测的每个块的大小。默认值为 300。

例如，如果文档的长度为 500 个 Unicode 字符，则 Veritas Information Classifier 将检测前 300 个字符的语言，然后在最后 200 个字符中，出现次数最多的语言会被指定为主要语言。

如果文档包含的 Unicode 字符少于 300 个，但存在多种语言，请使用此属性减少语言检测的块大小。

minimumConfidenceForLanguageDetection

指定用于检测语言的可信度。较高的可信度可以达到更高的准确性，但语言确定为“未知”的可能性也更大。

该值应介于 1 到 100 之间。默认值是 90。

覆盖条目示例：

classifier:
  minimumTextRequiredForLanguageDetection: 200
  chunkSizeForLanguageDetection: 400
  minimumConfidenceForLanguageDetection: 90

保存 .vic-overrides-config.yml 文件。
回收 EnterpriseVaultVIC 应用程序池。
所做更改将反映在 C:\Program Files (x86)\Enterprise Vault\Services\vic\Engine 目录下的 .vic-merged-config.yml 文件中。