Enterprise Vault™ 使用 Veritas 信息分类器进行分类
- 关于本指南
- 准备 Enterprise Vault 进行分类
- 设置 Veritas 信息分类器策略
- 定义和应用 Enterprise Vault 分类策略
- 在测试模式中运行分类
- 将分类与智能分区配合使用
- 附录 A. 用于自定义字段搜索的 Enterprise Vault 属性
- 附录 B. 用于分类的 PowerShell cmdlet
- 附录 C. 分类缓存文件夹
- 附录 D. 从 FCI 分类迁移到 Veritas 信息分类器
- 附录 E. 监视和故障排除
关于策略条件
条件指定 Veritas 信息分类器将项目视为匹配项时项目所必须满足的条件。策略可以包含任意数量的条件。
所有条件的基本形式如下:
属性运算符值
例如,在以下条件中,“Content”是属性,“contains text”是运算符,“Stocks”是值:
属性指定要评估的项目的一部分或特征:内容、标题、修改日期、文件大小,等等。从列表中选择一个属性时,另外两个字段中的选项将会相应更改。例如,如果选择“修改日期”属性,其他字段将提供可用于设置一个或多个日期的选项。对于“内容”、“标题”和“作者”等属性,可用的运算符如下:
contains text
matches regex
matches pattern
language is
contains entity
sentiment score
在每个条件的右侧,可以指定项目满足条件所需的最小次数,满足条件后 Veritas Information Classifier 才会将项目视为匹配项。
在组织中使用的各种应用程序可能会向您要进行分类的项目添加自定义属性信息。例如,当 Enterprise Vault 处理项目时,它将在项目的许多元数据属性中填充信息,并随已归档项目一起存储这些信息:Enterprise Vault 归档项目的日期和项目具有的附件数等。
如果您知道特别需要的属性的名称,则可以在策略条件中输入名称作为自定义字段。
自定义字段可用于根据 AIP 标签对文档进行分类。例如,如果 AIP 标签名称为“MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”,您可以为 Microsoft Office 文档创建一个自定义字符串字段名称为“custom:MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”的策略,或者为 PDF 文件创建一个自定义字符串字段名称为“pdf:docinfo:custom:MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”的策略,并执行分类。或者,您可以在 Veritas Information Classifier 的 YAML 配置中创建自定义属性,然后在其下映射所有 AIP 标签名称,以在用户界面中重用此自定义属性。
设置条件以便在提交分类的项目中查找特定词汇或短语时,请遵循以下准则:
如果在条件中放置多个词汇或短语并且把每一个放置在单独一行上,将可以查找多个词汇或短语。项目仅需包含列表中的一个词汇或短语即满足条件。
选择
将仅在指定词汇或短语中查找大写和小写字母均完全匹配的项。选择
将查找指定词汇或短语包含在其他词汇或短语内的实例。例如,如果选择此选项,则词语 enter 匹配 enters、entertainment 和 carpenter。如果清除该选项,则 enter 仅匹配 enter。同样地,如果选择
,则短语 call me 匹配 call media 和 recall meeting,但不匹配 surgically mend。您可以在同一行中的两个词语之间放置近似运算符 NEAR 和 BEFORE。例如,tax NEAR/10 reform 匹配 tax 与 reform 之间不超过十个词语的实例。sales BEFORE/5 report 匹配 sales 位于 report 之前、且它们之间不超过 5 个单词的实例。对于这两种情况,均需输入数字。
注意:
评估格式化数据(例如,表和电子表格)时,这些邻近运算符可能无法按预期运行。数据分类之前执行的转换过程可以交换表单元格的顺序。例如,假设电子表格在一个单元格中包含词语 sales,紧靠该单元格右侧的单元格中包含 report。这应匹配运算符 sales BEFORE/5 report,但转换电子表格后可能无法执行此操作,因为转换过程已变换这两个词的顺序。
词汇和短语可以包含星号 (*) 和问号 (?) 通配符。作为词汇的一部分,星号匹配零个或多个字符。就其本身而言,星号与一个词汇完全匹配。问号与一个字符完全匹配。例如:
stock* 匹配 stock、stocks 和 stockings。
*ock 匹配 stock 和 clock。
*ock* 匹配 stock 和 clocks。
??ock 匹配 stock 和 clock,但不匹配 dock。
sell * stock 匹配 sell the stock 和 sell some stock,但不匹配 sell stock。
可以将通配符与 NEAR 和 BEFORE 运算符结合使用。例如:
s?l? BEFORE/1 stock* 匹配 sold the stock、sell stocks 和 sale of stockings。
正则表达式(缩写为 regex)是一种包含普通字符(例如,字母 a - z)和特殊字符(称为元字符)的文本模式。该模式描述在搜索文本时要匹配的一个或多个字符串。例如,以下正则表达式与所有 VISA 卡编号中的数字序列匹配:
\b4[0-9]{12}(?:[0-9]{3})?\b
您的正则表达式必须符合 Perl 正则表达式语法。
有关此语法的详细信息,请参见 Veritas Information Classifier 的联机帮助。
您可能会发现使用免费在线工具 (https://regex101.com) 构建并测试正则表达式非常有帮助。此工具可在您键入正则表达式时显示相关说明,还会列出正则表达式与您所选测试字符串之间的所有匹配项。默认的正则表达式样式 pcre (php) 与 Veritas Information Classifier 兼容。
注意:
查找正则表达式匹配项比查找特定词语或短语的匹配项慢很多。您可以查找这两种类型的匹配项彼此邻近的实例,进而显著提高性能和准确性。为此,请设置 All of 条件组,其中包含正则表达式条件和用于查找特定词语和短语的 条件,并指定匹配项应出现的必需距离。Veritas Information Classifier 首先评估 条件,然后仅查找正则表达式匹配项。
模式匹配根据现有的 Veritas 信息分类器模式评估选定的项目属性。根据选择的模式,可以设置您愿意接受的可信度。较高的可信度可能会生成数量更少、但更相关的匹配项。
如果在测试使用内置模式的策略时没有得到预期结果,请注意下列事项:
很重要的一点就是检查测试项目是否达到了模式可信度。例如,默认情况下,Credit Card Policy 将查找匹配模式“Credit/Debit Card Number”且具有中等到极高可信度的内容。要满足中等可信度要求,项目必须包含以下选项之一:
带分隔符的信用卡号(数字之间包含空格或短划线的信用卡号)。
不带分隔符的信用卡号和一个或多个信用卡关键字,如“AMEX”或“Visa”。
因此,如果某个项目包含不带分隔符的信用卡号,但它也不包含信用卡关键字,则该项目不满足这些条件。
单击 Test classification results 窗口可能无法突出显示部分或全部匹配项。这是仅限某些特定模式的已知问题。Veritas 信息分类器的未来版本将纠正该问题。
查看测试结果之后,
可以设置条件,以将策略匹配限制为特定语言的项目。例如,设置如下所示的条件来查找内容主要是法语的项目:
语言列表中的其中一个选项是
。此选项匹配至少包含两种语言的项目。要防止 Veritas Information Classifier 因无法确定项目的主要语言而将其忽略,请选择
。Veritas Information Classifier 无法确定项目主要语言的最常见原因是项目包含的内容量太少。可以设置条件,将策略匹配限制为包含人员名称或位置的内容。
注意:
只有在运行 Veritas Information Classifier 应用程序时使用了 nlp-service-0.1.4.jar
,“contains entity”条件才可用。此外,命名实体识别 (NER) 仅适用于英语。
例如,设置如下条件来查找包含人名的内容。
注意:
与普通分类相比,命名实体识别 (NER) 占用的时间和资源更多。NER 不适用于大型文档,尤其是大于 10 MB 的文档。
您可以将一组条件组合在一起,并将组合条件嵌套在其他组合条件内。所选的组运算符将确定项目是必须满足该组中的所有条件、满足其中的部分条件还是不得满足其中的任何条件才会被视为匹配项。有下列组运算符可用:
All of。项目必须满足所有指定条件。
Any of。项目必须至少满足一个指定条件。
None of。项目不得满足任一指定条件。
注意:
您可以在 All of 组内嵌套 None of 组以查找特定条件匹配项,同时排除其他条件匹配项。例如,要获得 (condition X AND condition Y) BUT NOT condition Z 效果,请在 All of 组中包括 X 和 Y 条件,在嵌套的 None of 组中包括 Z 条件。
n or more of。项目必须满足指定数量的条件。
只有对于 All of 组,才能选择查找条件出现在彼此的指定字符数内的实例。例如,以下条件组查找词汇 Goodbye 出现在词汇 Hello 的 20 个字符内的实例:
对于测试字符串“You say Goodbye and I say Hello”,由于 Hello 的第一个字符与 Goodbye 的第一个字符之间少于 20 个字符,因此匹配这些条件。同样地,字符串“You say Hello and I say Goodbye”也匹配,因为其中这两个词汇的结尾之间少于 20 个字符。在每种情况下,空格均计为字符。
注意:
执行 within nn characters 邻近搜索时,注意不要在多个条件之间重复相同的搜索词。例如,假设您定义了一个条件来查找姓名 Fred、Sue 和 Bob,并定义了第二个条件来查找 Joe、Bob 和 Sarah。包含单个 Bob 实例的项目将与这两个条件都匹配。
您可以不选择
选项,而选择 。此选项查找条件出现在指定数字的任意字符序列内的实例。例如,查找词汇 Goodbye 出现在词汇 Hello 的 20 个字符滑动窗口内的条件组不匹配“You say Goodbye and I say Hello”,因为词汇 Goodbye 的开头与词汇 Hello 的结尾之间有 23 个字符。