搜索 <book_title>...

Enterprise Vault™ 使用 Veritas Information Classifier 进行分类

Last Published: 2023-03-05

Product(s): Enterprise Vault (14.4)

创建或编辑模式

您无法编辑内置模式，但可以编辑您创建的任何自定义模式。

创建或编辑模式

在 Veritas 左侧，单击 Patterns。
执行以下操作之一：
- 要创建模式，请单击 New。
- 要编辑现有模式，请选择该模式，然后单击 Edit。
下图显示了 New Pattern 对话框，模式类型为 Regular expression。

对字段进行如下设置：

Name

指定模式名称。名称必须唯一，并且最多只能包含 100 个字母数字、空格和特殊字符。

Description

（可选）简要描述在 Veritas 中显示的模式。

Type

指定模式类型。

对于 Text 或 Regular expression 模式，必须指定要查找的值。如果将这些值作为模式值输入，则在策略条件中输入这些值时所需遵循的相同准则同样适用。

请参见关于策略条件。

选择 Similar document 以查找与提供的模板类似的项目。例如，您可以通过将空白表单作为模板提交来查找完成的表单。与 Text 和 Regular expression 模式不同，在策略条件中纳入 Similar document 模式时，可以设置这些模式所需的可信度。

文档相似度功能可以查找用户通过添加、删除或重新排序段落、句子或词语创建模板文档变体的实例。它还可以查找用户更改单个词语的实例。但是，词语的更改幅度越大，Veritas 找到匹配项的可能性越小。

您必须选择所需的相似度模式：Full 或 Section。在 Full 模式下，Veritas 会完整地将模板文档与其他文档进行比较。查找用户更改了模板文档的某些方面但未对总体大小造成很大影响的实例时，该模式非常有用。在 Section 模式下，Veritas 会查找模板文档的内容显示为较大文档中的一部分的实例。

要提交模板文档，请单击 Browse，然后选择所需的文档。

选择 Exact Data Match 以查找项目中一个或多个特定值的匹配项。通过精确数据匹配 (EDM) 设置更细化级别的数据匹配条件，从而精确控制数据分类过程并减少误报。

通过 EDM，可以使用数据库记录创建模式。

请参见“创建基于精确数据匹配的模式”。

通过单击 Browse，然后选择一个应当与模式匹配的文档来测试模式。
选中 Include text in images 复选框，可以使用光学字符识别 (OCR) 从图片中提取信息并执行分类。
注意:
只有在运行 Veritas 的系统上安装了 Tesseract 软件时，才会显示 Include text in images 复选框。
稍等片刻，Veritas 会指示是否已找到匹配项。当属于这种情况时，可以单击 Show details 查看匹配文本和可信度。
单击 Save。

创建基于精确数据匹配的模式

按照前面所述的初始步骤来创建模式。
在 Type 框中，单击以选择 Exact Data Match。

指定以下配置选项：

First row contains column headers	如果源文档中的第一行包含每个字段的名称，请选择 Yes。如果选中，则不会考虑使用源文档中第一行的内容生成规则。如果源文档中的第一行不包含每个字段的名称，请选择 No。
Column delimiter	此字段是可选字段。它指定分隔符字符，用于分隔数据文件中的每个列/字段。注意：分隔符可以是任何单个特殊字符。例如，逗号 (,)、竖线 (\|)、空格等。如果源文档仅包含单个列/字段，则可以设置文件中不存在的任何分隔符字符。分隔符必须是单个字符值。
Perform hashing to secure data fields	如果需要对生成的用于创建 EDM 模式的规则进行哈希处理以保护数据，请选择 Yes。在生成的分类规则中存储数据字段时，使用哈希算法 SHA256 对其进行哈希处理。注意: 如果在创建精确数据匹配模式时使用哈希，分类性能会降低。
Use case-sensitive matching	如果匹配需要区分大小写，请选择 Yes。
Proximity for matches	以字符数指定两列或两个字段之间的距离，以便将匹配项视为有效。有效值大于 0。注意：如果源文档仅包含单个列/字段，则邻近值应设置为 1。生成分类规则的 generateRulePack API 使用“From the first condition option”邻近选项。精确数据匹配不支持“Sliding Window”邻近选项。示例：在邻近值 = 20 的情况下，如果 CSV 源文档内容如下所示： Goodbye, Hello 测试文档内容为： … You say Goodbye and I say Hello … 此处，在“Goodbye”和“Hello”这两个词之间，邻近值是 19 个字符。匹配的词在设定的邻近值范围（即 20 个字符）内。因此，Veritas 将显示匹配项。
Minimum columns to match	指定应匹配以触发结果的最小列数。请注意，无论创建 EDM 模式时在 Minimum columns 中指定的值如何，都强制匹配第一列。注意: 如果选中 All columns 复选框，将忽略 Minimum columns 字段。
All columns	如果源文档中的所有列/字段都需要匹配才能触发结果，请选中此复选框。

在 Source Document 部分下，浏览以选择要基于其创建分类规则的 EDM 源文件。
注意：
- EDM 源文档的类型必须为 CSV 或 TXT（仅纯文本）
- 可配置最大文档大小。建议大小为 5 MB。
- 不支持引用字段的 CSV 文档
单击 Save。
创建的 EDM 模式显示用户配置的精确数据匹配选项。为模式保留源文档名称，但不提供其位置或直接链接。请参见下图。
可以使用创建的 EDM 模式执行以下操作：
- 增强现有策略
- 创建新策略

有关更多信息，请参见关于策略条件。

编辑 EDM 模式时的已知问题

编辑 EDM 模式时，更新模式名称或说明可能会因内部系统错误而失败。如果遇到此问题，请与系统管理员或 Veritas 支持联系。