Enterprise Vault™ Veritas Information Classifier を使用した分類
- このマニュアルについて
- 分類のための Enterprise Vault の準備
- Veritas Information Classifier ポリシーの設定
- Enterprise Vault 分類ポリシーの定義と適用
- テストモードでの分類の実行
- スマートパーティションを使用した分類
- 付録 A. カスタムフィールドの検索に使う Enterprise Vault のプロパティ
- 付録 B. 分類に使う PowerShell cmdlet
- 付録 C. 分類キャッシュフォルダ
- 付録 D. FCI 分類から Veritas Information Classifier への移行
- 付録 E. 監視とトラブルシューティング
パターンの作成または編集
組み込みパターンは編集できませんが、自分で作成したカスタムパターンは編集できます。
パターンを作成または編集する方法
- Veritas Information Classifier の左側の[Patterns]をクリックします。
- 次の図に、パターンの種類が[Regular expression]に設定されている[New Patterns]ダイアログボックスを示します。
次のいずれかを実行します。
パターンを作成するには、[New]をクリックします。
既存のパターンを編集するには、パターンを選択して[Edit]をクリックします。
- フィールドを次のように設定します。
Name
パターン名を指定します。名前は一意である必要があり、最大 100 個の英数字、スペース、および特殊文字を含めることができます。
Description
(オプション) Veritas Information Classifier に表示するパターンの簡単な説明を入力します。
Type
パターンの種類を指定します。
[Text]または[Regular expression]のパターンでは、検索対象の値を指定する必要があります。これらの値をポリシー条件に入力する場合と同じガイドラインが、パターン値としての入力時にも適用されます。
ポリシー条件についてを参照してください。
指定されたテンプレートに類似するアイテムを検索するには、[Similar document]を選択します。たとえば、空白のフォームをテンプレートとして送信して、記入済みのフォームを検索できます。[Text]と[Regular expression]のパターンとは異なり、類似文書パターンをポリシー条件に組み込む際に[Similar document]パターンで必要な信頼度を設定できます。
類似文書機能を使用すると、テンプレート文書の段落、文、単語の追加、削除、並べ替えを行って作成された文書を検索できます。個々の単語が変更された例を検索することもできます。ただし、変更された単語が多くなると、Veritas Information Classifier で一致を検出できる可能性が低くなります。
[Full]または[Section]のいずれか必要な類似モードを選択する必要があります。[Full]モードでは、Veritas Information Classifier はテンプレート文書全体を他の文書全体と比較します。テンプレート文書がところどころ変更されているが全体的なサイズに大きな影響はない例を検索する場合に便利です。[Section]モードでは、Veritas Information Classifier はテンプレート文書の内容がより大きな文書の一部になっているインスタンスを検索します。
テンプレート文書を送信するには、[Browse]をクリックし、目的の文書を選択します。
アイテム内の 1 つ以上の指定値を検索するには、[Exact Data Match]を選択します。完全データ一致 (EDM) はデータ一致条件を詳細に設定できるので、データ分類プロセスよりも制御の厳密性に優れており、誤検知を抑えられます。
EDM では、データベースレコードを使用してパターンを作成できます。
「完全データ一致ベースのパターンを作成する方法」を参照してください。
- [Browse]をクリックし、ポリシーと一致すると考えられる文書を選択して、パターンをテストします。
イメージから情報を抽出し、光学式文字認識 (OCR) を使用して分類を実行する場合は、[Include text in images]チェックボックスにチェックマークを付けます。
メモ:
[Include text in images]チェックボックスは、Veritas Information Classifier を実行しているシステムに Tesseract ソフトウェアがインストールされている場合にのみ表示されます。
しばらくすると、Veritas Information Classifier に、一致が存在するかどうかが示されます。一致が見つかったら、[Show details]をクリックして一致するテキストと信頼度を確認します。
また、パターンページのテスト機能では、分類の一環として詳細ペインにリスクレベルとリスクスコアの情報も示されます。
- [Save]をクリックします。
完全データ一致ベースのパターンを作成する方法
- 前述の説明に従って、パターンの作成手順の冒頭部分を進めます。
- [Type]ボックスで、[Exact Data Match]を選択します。
- 次の設定オプションを指定します。
First row contains column headers
ソース文書の先頭行に各フィールドの名前が含まれている場合は、[Yes]を選択します。[Yes]を選択した場合、ソース文書の先頭行のコンテンツはルール生成の対象外になります。
ソース文書の先頭行に各フィールドの名前が含まれている場合は、[No]を選択します。
Column delimiter
データファイルの各列または各フィールドを区切る区切り文字を指定します。
注意:
区切り文字には、任意の特殊文字を 1 つ指定できます。たとえば、カンマ (,)、パイプ (|)、スペースなどです。
ソース文書に含まれる列またはフィールドが 1 つのみの場合は、ファイルに存在しない区切り文字を自由に設定できます。
区切り文字には 1 文字の値を指定する必要があります。
Perform hashing to secure data fields
EDM パターンの作成に使用する生成対象ルールをデータ保護のためにハッシュ化する必要がある場合は、[Yes]を選択します。生成対象の分類ルールへの格納時に、データフィールドがハッシュアルゴリズム SHA256 でハッシュ化されます。
メモ:
完全データ一致パターンの作成時にハッシュ化を使用すると、分類のパフォーマンスが低下します。
Use case-sensitive matching
照合で大文字と小文字を区別する必要がある場合は、[Yes]を選択します。
Proximity for matches
一致を有効とみなす 2 つの列間またはフィールド間の距離を文字数単位で指定します。有効な値は 0 より大きい数値です。
注意:
ソース文書に含まれる列またはフィールドが 1 つだけの場合、[近接]値は 1 に設定する必要があります。
分類ルールを生成する generateRulePack API では、[最初の条件オプションから]近接オプションが使用されます。完全データ一致では、[スライディングウィンドウ]近接オプションはサポートされません。
例:
[近接]を 20 に設定し、CSV ソース文書が次のとおりであるとします。
Goodbye, Hello
また、テスト対象文書のコンテンツが次のとおりであるとします。
… You say Goodbye and I say Hello …
この場合、「Goodbye」と「Hello」の 2 単語間の近接距離は 19 文字です。照合対象の語句が、設定した[近接]値の範囲内 (20 文字以内) にあります。そのため、Veritas Information Classifier には一致が表示されます。
Minimum columns to match
結果をトリガーするために一致する必要がある列の最小数を指定します。EDM パターンの作成時には、[最小列数]で指定した値にかかわらず先頭列の一致が必須であることに注意してください。
メモ:
[すべての列]チェックボックスにチェックマークを付けた場合、[最小列数]フィールドは無視されます。
All columns
結果をトリガーするためにソース文書のすべての列またはフィールドの一致を必須にする場合は、このチェックボックスにチェックマークを付けます。
- [Source Document]セクションで、分類ルールの作成基準とする EDM ソースファイルを参照して選択します。
注意:
EDM ソース文書の種類は CSV または TXT (プレーンテキストのみ) である必要があります。
最大文書サイズは設定可能です。推奨サイズは 5 MB です。
フィールドが引用符で囲まれている CSV 文書はサポートされません。
- [Save]をクリックします。
作成した EDM パターンに、ユーザー設定の完全データ一致オプションが表示されます。ソース文書の名前はパターン用に保持されますが、文書の場所や直接リンクは提供されません。次の図を参照してください。
作成した EDM パターンを使用すると、次の操作を行えます。
既存のポリシーの拡張
新しいポリシーの作成
詳しくは、 を参照してください。