Enterprise Vault™ 使用 Veritas 信息分类器进行分类

Last Published:
Product(s): Enterprise Vault (14.2)
  1. 关于本指南
    1. 指南简介
      1.  
        Veritas 信息分类器与其他分类方法之间的关系
    2.  
      本指南的内容
    3. 从何处获取有关 Enterprise Vault 的详细信息
      1.  
        Enterprise Vault 培训模块
  2. 准备 Enterprise Vault 进行分类
    1.  
      关于准备步骤
    2.  
      用户需求
    3.  
      检查 Enterprise Vault 存储服务器上的高速缓存位置
    4.  
      设置数据访问帐户
    5.  
      在所有 Enterprise Vault 服务器上启用 Veritas 信息分类器
    6.  
      配置 Veritas 信息分类器以实现安全客户端连接
  3. 设置 Veritas 信息分类器策略
    1.  
      Veritas Information Classifier 简介
    2.  
      打开 Veritas 信息分类器
    3.  
      寻找解决办法
    4.  
      分析内容取样,查找策略匹配项
    5. 关于策略
      1.  
        创建或编辑策略
      2.  
        关于策略条件
      3.  
        启用或禁用策略
      4.  
        导出或导入策略
      5.  
        重置策略
      6.  
        删除策略
    6. 关于模式
      1.  
        创建或编辑模式
      2.  
        导出或导入模式
      3.  
        删除模式
    7. 关于标签
      1.  
        创建或编辑标签
      2.  
        导出或导入标签
      3.  
        关于 Enterprise Vault 索引属性
      4.  
        分类属性值与保留类别的交互方式
      5.  
        设置保留类别注意事项
      6.  
        删除标签
  4. 定义和应用 Enterprise Vault 分类策略
    1.  
      关于 Enterprise Vault 分类策略
    2. 定义分类策略
      1.  
        配置分类策略以分配持续时间最短的保留类别
    3.  
      关于与分类策略一起使用的 PowerShell cmdlet
    4.  
      将分类策略与保留计划关联
    5.  
      关于与保留计划一起使用的 PowerShell cmdlet
    6.  
      将保留计划应用于 Enterprise Vault 归档
  5. 在测试模式中运行分类
    1.  
      关于分类测试模式
    2.  
      实施分类测试模式
    3.  
      关于测试模式中运行分类所使用的 PowerShell cmdlet
    4.  
      了解分类测试模式报告
  6. 将分类与智能分区配合使用
    1.  
      关于智能分区
    2.  
      Enterprise Vault 如何确定是否将项目归档到智能分区
    3.  
      设置智能分区
    4.  
      验证 Enterprise Vault 是否已将项目归档到智能分区
  7. 附录 A. 用于自定义字段搜索的 Enterprise Vault 属性
    1.  
      关于 Enterprise Vault 属性
    2.  
      系统属性
    3.  
      附件属性
    4.  
      自定义的 Enterprise Vault 属性
    5.  
      文件系统归档项目的自定义 Enterprise Vault 属性
    6.  
      SharePoint 项目的自定义 Enterprise Vault 属性
    7.  
      Compliance Accelerator 处理的项目的自定义 Enterprise Vault 属性
    8.  
      用于策略管理软件的自定义属性
    9.  
      Enterprise Vault SMTP 归档的自定义属性
  8. 附录 B. 用于分类的 PowerShell cmdlet
    1.  
      关于分类 cmdlet
    2.  
      Disable-EVClassification
    3.  
      Get-EVClassificationPolicy
    4.  
      Get-EVClassificationStatus
    5.  
      Get-EVClassificationTestMode
    6.  
      Get-EVClassificationVICTags
    7.  
      Initialize-EVClassificationVIC
    8.  
      Set-EVClassificationVICFIPSMode
    9.  
      New-EVClassificationPolicy
    10.  
      Remove-EVClassificationPolicy
    11.  
      Set-EVClassificationPolicy
    12.  
      Set-EVClassificationTestMode
  9. 附录 C. 分类缓存文件夹
    1.  
      Enterprise Vault 对其提交以进行分类的项目的缓存方式
    2.  
      针对分类文件大小的限制
    3.  
      配置 Enterprise Vault 以便将分类文件保留在高速缓存文件夹中
  10. 附录 D. 从 FCI 分类迁移到 Veritas 信息分类器
    1.  
      转换 FCI 分类规则以用于 Veritas 信息分类器
  11. 附录 E. 监视和故障排除
    1.  
      审核
    2.  
      检查分类性能计数器
    3.  
      分类故障排除
    4.  
      在归档中搜索 Veritas 信息分类器已分类的项目
    5.  
      语言检测故障排除

关于策略条件

条件指定 Veritas 信息分类器将项目视为匹配项时项目所必须满足的条件。策略可以包含任意数量的条件。

条件的基本组成部分

所有条件的基本形式如下:

属性运算符值

例如,在以下条件中,“Content”是属性,“contains text”是运算符,“Stocks”是值:

Example of a Veritas Information Classifier condition

属性指定要评估的项目的一部分或特征:内容、标题、修改日期、文件大小,等等。从列表中选择一个属性时,另外两个字段中的选项将会相应更改。例如,如果选择“修改日期”属性,其他字段将提供可用于设置一个或多个日期的选项。对于“内容”、“标题”和“作者”等属性,可用的运算符如下:

  • contains text

  • matches regex

  • matches pattern

  • language is

  • contains entity

  • sentiment score

在每个条件的右侧,可以指定项目满足条件所需的最小次数,满足条件后 Veritas Information Classifier 才会将项目视为匹配项。

自定义字段

在组织中使用的各种应用程序可能会向您要进行分类的项目添加自定义属性信息。例如,当 Enterprise Vault 处理项目时,它将在项目的许多元数据属性中填充信息,并随已归档项目一起存储这些信息:Enterprise Vault 归档项目的日期和项目具有的附件数等。

如果您知道特别需要的属性的名称,则可以在策略条件中输入名称作为自定义字段。

自定义字段可用于根据 AIP 标签对文档进行分类。例如,如果 AIP 标签名称为“MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”,您可以为 Microsoft Office 文档创建一个自定义字符串字段名称为“custom:MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”的策略,或者为 PDF 文件创建一个自定义字符串字段名称为“pdf:docinfo:custom:MSIP_Label_0a8e637f-7bb7-4040-a22f-4e3924ef3558_Name”的策略,并执行分类。或者,您可以在 Veritas Information Classifier 的 YAML 配置中创建自定义属性,然后在其下映射所有 AIP 标签名称,以在用户界面中重用此自定义属性。

Custom fields in policy conditions

请参见关于 Enterprise Vault 属性

文本匹配

设置条件以便在提交分类的项目中查找特定词汇或短语时,请遵循以下准则:

  • 如果在条件中放置多个词汇或短语并且把每一个放置在单独一行上,将可以查找多个词汇或短语。项目仅需包含列表中的一个词汇或短语即满足条件。

  • 选择 Match Case 将仅在指定词汇或短语中查找大写和小写字母均完全匹配的项。

  • 选择 String Match 将查找指定词汇或短语包含在其他词汇或短语内的实例。例如,如果选择此选项,则词语 enter 匹配 entersentertainmentcarpenter。如果清除该选项,则 enter 仅匹配 enter

    同样地,如果选择 String Match,则短语 call me 匹配 call mediarecall meeting,但不匹配 surgically mend

  • 您可以在同一行中的两个词语之间放置近似运算符 NEAR 和 BEFORE。例如,tax NEAR/10 reform 匹配 taxreform 之间不超过十个词语的实例。sales BEFORE/5 report 匹配 sales 位于 report 之前、且它们之间不超过 5 个单词的实例。对于这两种情况,均需输入数字。

    注意:

    评估格式化数据(例如,表和电子表格)时,这些邻近运算符可能无法按预期运行。数据分类之前执行的转换过程可以交换表单元格的顺序。例如,假设电子表格在一个单元格中包含词语 sales,紧靠该单元格右侧的单元格中包含 report。这应匹配运算符 sales BEFORE/5 report,但转换电子表格后可能无法执行此操作,因为转换过程已变换这两个词的顺序。

  • 词汇和短语可以包含星号 (*) 和问号 (?) 通配符。作为词汇的一部分,星号匹配零个或多个字符。就其本身而言,星号与一个词汇完全匹配。问号与一个字符完全匹配。例如:

    • stock* 匹配 stockstocksstockings

    • *ock 匹配 stockclock

    • *ock* 匹配 stockclocks

    • ??ock 匹配 stockclock,但不匹配 dock

    • sell * stock 匹配 sell the stocksell some stock,但不匹配 sell stock

    可以将通配符与 NEAR 和 BEFORE 运算符结合使用。例如:

    • s?l? BEFORE/1 stock* 匹配 sold the stocksell stockssale of stockings

正则表达式匹配

正则表达式(缩写为 regex)是一种包含普通字符(例如,字母 a - z)和特殊字符(称为元字符)的文本模式。该模式描述在搜索文本时要匹配的一个或多个字符串。例如,以下正则表达式与所有 VISA 卡编号中的数字序列匹配:

\b4[0-9]{12}(?:[0-9]{3})?\b

您的正则表达式必须符合 Perl 正则表达式语法。

有关此语法的详细信息,请参见 Veritas Information Classifier 的联机帮助。

您可能会发现使用免费在线工具 (https://regex101.com) 构建并测试正则表达式非常有帮助。此工具可在您键入正则表达式时显示相关说明,还会列出正则表达式与您所选测试字符串之间的所有匹配项。默认的正则表达式样式 pcre (php) 与 Veritas Information Classifier 兼容。

注意:

查找正则表达式匹配项比查找特定词语或短语的匹配项慢很多。您可以查找这两种类型的匹配项彼此邻近的实例,进而显著提高性能和准确性。为此,请设置 All of 条件组,其中包含正则表达式条件和用于查找特定词语和短语的 contains text 条件,并指定匹配项应出现的必需距离。Veritas Information Classifier 首先评估 contains text 条件,然后仅查找正则表达式匹配项。

模式匹配

模式匹配根据现有的 Veritas 信息分类器模式评估选定的项目属性。根据选择的模式,可以设置您愿意接受的可信度。较高的可信度可能会生成数量更少、但更相关的匹配项。

如果在测试使用内置模式的策略时没有得到预期结果,请注意下列事项:

  • 很重要的一点就是检查测试项目是否达到了模式可信度。例如,默认情况下,Credit Card Policy 将查找匹配模式“Credit/Debit Card Number”且具有中等到极高可信度的内容。要满足中等可信度要求,项目必须包含以下选项之一:

    • 带分隔符的信用卡号(数字之间包含空格或短划线的信用卡号)。

    • 不带分隔符的信用卡号和一个或多个信用卡关键字,如“AMEX”或“Visa”。

    因此,如果某个项目包含不带分隔符的信用卡号,但它也不包含信用卡关键字,则该项目不满足这些条件。

  • 单击 Show details 查看测试结果之后,Test classification results 窗口可能无法突出显示部分或全部匹配项。这是仅限某些特定模式的已知问题。Veritas 信息分类器的未来版本将纠正该问题。

语言匹配

可以设置条件,以将策略匹配限制为特定语言的项目。例如,设置如下所示的条件来查找内容主要是法语的项目:

Language search in Veritas Information Classifier

语言列表中的其中一个选项是 Multiple languages detected。此选项匹配至少包含两种语言的项目。

要防止 Veritas Information Classifier 因无法确定项目的主要语言而将其忽略,请选择 Or Primary Language Unknown。Veritas Information Classifier 无法确定项目主要语言的最常见原因是项目包含的内容量太少。

实体匹配

可以设置条件,将策略匹配限制为包含人员名称或位置的内容。

注意:

只有在运行 Veritas Information Classifier 应用程序时使用了 nlp-service-0.1.4.jar,“contains entity”条件才可用。此外,命名实体识别 (NER) 仅适用于英语。

例如,设置如下条件来查找包含人名的内容。

Entity search in Veritas Information

注意:

与普通分类相比,命名实体识别 (NER) 占用的时间和资源更多。NER 不适用于大型文档,尤其是大于 10 MB 的文档。

条件组

您可以将一组条件组合在一起,并将组合条件嵌套在其他组合条件内。所选的组运算符将确定项目是必须满足该组中的所有条件、满足其中的部分条件还是不得满足其中的任何条件才会被视为匹配项。有下列组运算符可用:

  • All of。项目必须满足所有指定条件。

  • Any of。项目必须至少满足一个指定条件。

  • None of。项目不得满足任一指定条件。

    注意:

    您可以在 All of 组内嵌套 None of 组以查找特定条件匹配项,同时排除其他条件匹配项。例如,要获得 (condition X AND condition Y) BUT NOT condition Z 效果,请在 All of 组中包括 X 和 Y 条件,在嵌套的 None of 组中包括 Z 条件。

  • n or more of。项目必须满足指定数量的条件。

只有对于 All of 组,才能选择查找条件出现在彼此的指定字符数内的实例。例如,以下条件组查找词汇 Goodbye 出现在词汇 Hello 的 20 个字符内的实例:

Proximity search in Veritas Information Classifier

对于测试字符串“You say Goodbye and I say Hello”,由于 Hello 的第一个字符与 Goodbye 的第一个字符之间少于 20 个字符,因此匹配这些条件。同样地,字符串“You say Hello and I say Goodbye”也匹配,因为其中这两个词汇的结尾之间少于 20 个字符。在每种情况下,空格均计为字符。

注意:

执行 within nn characters 邻近搜索时,注意不要在多个条件之间重复相同的搜索词。例如,假设您定义了一个条件来查找姓名 FredSueBob,并定义了第二个条件来查找 JoeBobSarah。包含单个 Bob 实例的项目将与这两个条件都匹配。

您可以不选择 from the first condition 选项,而选择 in a sliding window。此选项查找条件出现在指定数字的任意字符序列内的实例。例如,查找词汇 Goodbye 出现在词汇 Hello 的 20 个字符滑动窗口内的条件组不匹配“You say Goodbye and I say Hello”,因为词汇 Goodbye 的开头与词汇 Hello 的结尾之间有 23 个字符。

Sliding window example