Enterprise Vault™ 使用 Veritas 信息分类器进行分类
- 关于本指南
- 准备 Enterprise Vault 进行分类
- 设置 Veritas 信息分类器策略
- 定义和应用 Enterprise Vault 分类策略
- 在测试模式中运行分类
- 将分类与智能分区配合使用
- 附录 A. 用于自定义字段搜索的 Enterprise Vault 属性
- 附录 B. 用于分类的 PowerShell cmdlet
- 附录 C. 分类缓存文件夹
- 附录 D. 从 FCI 分类迁移到 Veritas 信息分类器
- 附录 E. 监视和故障排除
语言检测故障排除
默认情况下,如果邮件中至少有 80 个字符,则 Veritas Information Classifier 会确定邮件中的语言。使用 Veritas Information Classifier 2.4.0,管理员可以为语言检测配置最小字符数以及更高或更低的可信度。当小文件中存在多种语言时,管理员可以为执行语言检测的每个块指定较小的大小。
执行以下步骤:
- 导航到
C:\Program Files (x86)\Enterprise Vault\Services\vic\Engine
目录,然后使用文本编辑器打开.vic-overrides-config.yml
文件。此文件用于覆盖 Veritas Information Classifier 的配置设置以进行自定义。
- 确保将分类器部分下的属性 languageDetectionEnabled 设置为 true。
- 要覆盖语言检测的任何值,请为分类器部分下的以下属性设置值。
属性
描述
minimumTextRequiredForLanguageDetection
指定语言检测的最小文本长度。
小于该设置值的任何文本都将指定为语言“未知”。默认值为 80 个 Unicode 字符。
chunkSizeForLanguageDetection
指定执行语言检测的每个块的大小。默认值为 300。
例如,如果文档的长度为 500 个 Unicode 字符,则 Veritas Information Classifier 将检测前 300 个字符的语言,然后在最后 200 个字符中,出现次数最多的语言会被指定为主要语言。
如果文档包含的 Unicode 字符少于 300 个,但存在多种语言,请使用此属性减少语言检测的块大小。
minimumConfidenceForLanguageDetection
指定用于检测语言的可信度。较高的可信度可以达到更高的准确性,但语言确定为“未知”的可能性也更大。
该值应介于 1 到 100 之间。默认值是 90。
覆盖条目示例:
classifier: minimumTextRequiredForLanguageDetection: 200 chunkSizeForLanguageDetection: 400 minimumConfidenceForLanguageDetection: 90
- 保存
.vic-overrides-config.yml
文件。 - 回收 EnterpriseVaultVIC 应用程序池。
所做更改将反映在
C:\Program Files (x86)\Enterprise Vault\Services\vic\Engine
目录下的.vic-merged-config.yml
文件中。