Search <book_title>...

Enterprise Vault™ Veritas Information Classifier を使用した分類

Last Published: 2018-03-28

Product(s): Enterprise Vault (12.3)

ポリシー条件について

条件は、Veritas Information Classifier で一致と判断されるために、アイテムが満たす必要がある基準を指定します。ポリシーには任意の数の条件を含めることができます。

このトピックでは次の情報について説明します。

条件の基本的なコンポーネント

すべての条件を次の基本的な形式で示す必要があります。

<プロパティ><演算子><値>

たとえば、次の条件の場合は、「Content」がプロパティ、「contains text」が演算子、「Stocks」が値になります。

プロパティは、評価するアイテムの部分または特性 (コンテンツ、タイトル、更新日、ファイルサイズなど) を指定します。リストからプロパティを選択すると、選択したプロパティに合わせて、他の 2 つのフィールドのオプションが変わります。たとえば、更新日プロパティを選択した場合、他のフィールドには、1 つ以上の日付を設定するためのオプションが表示されます。コンテンツ、タイトル、作成者などのプロパティを選択した場合は、次の演算子を使用できます。

contains text
matches regex
matches pattern
language is

各条件の右側で、Veritas Information Classifier で一致と判断されるためにアイテムが基準を満たす必要がある最小回数を指定できます。

カスタムフィールド

組織で使用しているさまざまなアプリケーションにより、アイテムに対するカスタムプロパティ情報が追加されることがあり、これらの分類が必要になります。たとえば、Enterprise Vault がアイテムを処理する場合、アイテムのメタデータのプロパティに情報をポピュレートし、この情報をアーカイブ済みアイテムとともに格納します。情報とは、具体的には Enterprise Vault がアイテムをアーカイブした日付、付帯する添付ファイルの個数などです。

特に関心のあるプロパティの名前を知っている場合、ポリシー条件のカスタムフィールドとしてその名前を入力できます。

Enterprise Vault のプロパティについてを参照してください。

テキストの一致

分類用に提出するアイテム内で特定の単語またはフレーズを検索する条件を設定する際には、次のガイドラインを確認してください。

複数の単語またはフレーズを検索するには、それぞれを個別の行に指定します。アイテムが条件を満たすには、リスト内に 1 つの単語またはフレーズのみを含める必要があります。
指定した単語またはフレーズに大文字と小文字の違いも含めて完全に一致するもののみを検索するには、［Match Case］を選択します。
指定した単語またはフレーズが他の単語やフレーズの一部である場合を検索するには、［String Match］を選択します。たとえば、このオプションを選択した場合、「enter」は、「enters」、「entertainment」、「carpenter」と一致します。このオプションを選択しない場合、「enter」は「enter」とのみ一致します。
同様に、［String Match］を選択した場合、「call me」というフレーズは、「call media」、「recall meeting」と一致しますが、「surgically mend」とは一致しません。
2 つの単語間の近接演算子 NEAR と BEFORE は、同じ行で指定できます。たとえば、「tax NEAR/10 reform」は、「tax」と「reform」の間に 10 語以下のみ存在する場合に一致します。「sales BEFORE/5 report」は、「sales」が「report」の前にあり、これらの単語間に 5 語以下のみ存在する場合に一致します。どちらの場合も、数値が必須になります。
メモ:
テーブルや表計算ワークシートなどのフォーマット済みデータを評価するときに、これらの近接演算子が予想どおりに機能しない可能性があります。このデータを分類する前に実行する変換処理は、表のセルの順序を入れ替える可能性があります。たとえば、表計算ワークシートのセルに sales という単語が含まれ、そのセルの右隣のセルに report という単語があるとします。これは、sales BEFORE/5 report 演算子と一致しますが、変換処理によりこれら 2 つの単語が入れ替えられて、表計算ワークシートが変換された後は一致しないことがあります。
単語とフレーズにはアスタリスク (*) と疑問符 (?) のワイルドカード文字を含めることができます。単語の一部としてアスタリスクを含めると、ゼロ個以上の文字と一致します。アスタリスクを単独で指定すると、1 つの単語に一致します。疑問符 (?) は 1 文字に一致します。次に例を示します。
- 「stock*」は、「stock」、「stocks」、「stockings」と一致します。
- 「*ock」は、「stock」、「clock」と一致します。
- 「*ock*」は、「stock」、「clocks」と一致します。
- 「??ock」は、「stock」、「clock」と一致しますが、「dock」とは一致しません。
- 「sell * stock」は、「sell the stock」、「sell some stock」と一致しますが、「sell stock」とは一致しません。
ワイルドカードを NEAR 演算子や BEFORE 演算子と組み合せて使用できます。次に例を示します。
- 「s?l? BEFORE/1 stock*」は、「sold the stock」、「sell stocks」、「sale of stockings」と一致します。

正規表現の一致

正規表現 (regex) は、通常の文字 (a から z までの文字など) とメタ文字と呼ばれる特殊文字から成るテキストのパターンです。パターンとは、テキストを検索するときに照合する 1 つ以上の文字列です。たとえば、次の正規表現はすべての Visa カード番号で一連の数を照合します。

\b4[0-9]{12}(?:[0-9]{3})?\b

正規表現は Perl の正規表現の構文に従う必要があります。

この構文について詳しくは、Veritas Information Classifier のヘルプを参照してください。

https://regex101.com で入手できる無料のオンラインツールを使用して、正規表現を作成およびテストすると便利です。このツールでは、正規表現を入力するとその正規表現の説明が表示され、正規表現と入力したテスト文字列で一致するものがすべて一覧に表示されます。デフォルトの正規表現の種類である pcre (php) は、Veritas Information Classifier と互換性があります。

メモ:

正規表現との一致の検索は、特定の単語やフレーズを検索するよりもかなり時間がかかります。両方の種類の一致が互いに近接しているインスタンスを検索すると、パフォーマンスを大幅に向上させることができます。それには、正規表現の条件と特定の語句を検索する［次のテキストが含まれる］条件の両方を含む［すべて］という条件グループを設定して、必要な一致の近接度を指定します。Veritas Information Classifier は、最初に［次のテキストが含まれる］条件を評価して、次に正規表現の一致を検索します。

パターンの一致

パターンの一致では、選択されたアイテムプロパティを、既存の Veritas Information Classifier パターンと比較して評価します。選択したパターンによっては、受け入れる信頼度を設定できます。信頼度を高くすると、数は少ないが関連性のより高い一致が得られる可能性があります。

組み込みパターンを使用するポリシーをテストしたときに期待した結果を得られなかった場合は、次の点を確認してください。

テストアイテムがパターンの信頼度を満たしていることを確認することが重要です。たとえば Credit Card Policy は、デフォルトでは中程度の信頼度または高い信頼度が設定されている「Credit/Debit Card Number」パターンと一致するコンテンツを検索します。中程度の信頼度の要件を満たすには、コンテンツに次のいずれかが含まれている必要があります。
- 区切り文字で分けられたクレジットカード番号 (数値の間にスペースまたはダッシュが含まれている)
- 区切り文字で分けられていないクレジットカード番号と 1 つ以上のクレジットカードキーワード (AMEX、Visa など) の両方
区切り文字で分けられていないクレジットカード番号は含まれているが、クレジットカードキーワードが含まれていないアイテムは、要件を満たしていないことになります。
［Show details］をクリックしてテスト結果を表示した後、［Test classification results］ウィンドウで一致の一部またはすべてがハイライトされないことがあります。これは、特定のパターンでのみ発生する既知の問題です。この問題は Veritas Information Classifier の今後のバージョンで修正される予定です。

言語の一致

ポリシーの照合を特定の言語のアイテムに制限する条件を設定できます。たとえば、主要な言語がフランス語であるアイテムを検索するには次のような条件を設定します。

言語の一覧に［Multiple languages detected］というオプションがあります。このオプションは、2 つ以上の言語を含むアイテムと一致します。

主要な言語を特定できないためにアイテムが無視されるのを防ぐには、［Or Primary Language Unknown］を選択します。Veritas Information Classifier でアイテムの主要な言語を特定できない最も一般的な理由は、アイテムのコンテンツが非常に少ないことです。

条件グループ

条件のセットをグループ化し、その条件グループを他の条件グループ内に入れ子にすることができます。選択したグループ演算子によって、アイテムが一致と判断されるためにそのグループ内の条件のすべてを満たす必要があるか、一部を満たす必要があるか、どの条件も満たさない必要があるかが決まります。次のグループ演算子を使用できます。

All of。アイテムは指定した条件すべてを満たす必要があります。
Any of: アイテムは指定した条件の少なくとも 1 つを満たす必要があります。
None of: アイテムは指定した条件のいずれも満たさない必要があります。
メモ:
［All of］グループ内に［None of］グループを入れ子にして、特定の条件に一致し、特定の条件に一致しないものを除外する検索を行うことができます。たとえば、「(条件 X AND 条件 Y) BUT NOT 条件 Z」で適切な結果を得るには、［All of］グループに X 条件と Y 条件、入れ子にした［None of］グループに Z 条件を指定します。
n or more of: アイテムは指定した数の条件を満たす必要があります。

All of グループの場合にのみ、各条件が指定した文字数内に出現する場合を検索することができます。たとえば、次の条件グループでは、「Goodbye」という単語が「Hello」という単語の 20 文字以内に出現する場合を検索します。

テキスト文字列「You say Goodbye and I say Hello」は、「Hello」の最初の文字と「Goodbye」の最初の文字の間が 20 文字より少ないため、これらの条件と一致します。同様に、テキスト文字列「You say Hello and I say Goodbye」も、2 つの単語の終わりの間の文字数が 20 文字を下回るため、一致します。どちらの場合も、スペースが文字としてカウントされます。

メモ:

［within nn characters］近接検索を実行する場合は、同じ検索語を複数の条件で重複して使用しないように注意してください。たとえば、1 つ目の条件で「Fred」、「Sue」、「Bob」という名前を検索するように定義し、2 つ目の条件で「Joe」、「Bob」、「Sarah」を検索するように定義したとします。この場合、「Bob」の単一のインスタンスを含むアイテムが、これらの条件を満たすことになります。

［from the first condition］オプションを選択するのではなく、［in a sliding window］を選択できます。このオプションでは、指定した数の連続する文字列内で条件が一致する場合を探します。たとえば、「Goodbye」という単語が「Hello」という単語から連続した 20 文字内に出現する場合を検索する条件グループの場合、「You say Goodbye and I say Hello」は一致しません。「Goodbye」という単語の開始時点から「Hello」という単語の終了時点までが 23 文字あるためです。