7.7.2.1. NormalizerAuto#
7.7.2.1.1. 概要#
通常は NormalizerAuto ノーマライザーを使うべきです。 NormalizerAuto はGroonga 2.0.9以前で使っていたノーマライザーと同じものです。2.0.9以前のGroongaの table_create の KEY_NORMALIZE フラグは、2.1.0以降のGroongaの table_create の --normalizer NormalizerAuto と同じです。
NormalizerAuto はすべてのエンコーディングに対応しています。UTF-8でエンコードされたテキストにはUnicodeのNFKC(Normalization Form Compatibility Composition)を使います。他のエンコーディング用にはエンコーディング毎に独自の正規化をします。これらの独自の正規化の結果はNFKCでの結果と似たものになります。
7.7.2.1.2. 構文#
NormalizerAuto には引数はありません。:
NormalizerAuto
7.7.2.1.3. 使い方#
NormalizerAuto は、半角カタカナ(例えば「カ」: U+FF76 HALFWIDTH KATAKANA LETTER KA) + 半角カタカナの濁点(「゙」: U+FF9E HALFWIDTH KATAKANA VOICED SOUND MARK)を濁点付きの全角カタカナ(「ガ」: U+30AC KATAKANA LETTER GA)に正規化します。前者は2文字ですが、後者は1文字です。
以下は NormalizerAuto ノーマライザーを使う例です。
実行例:
table_create NormalLexicon TABLE_HASH_KEY ShortText --normalizer NormalizerAuto
# [[0,1337566253.89858,0.000355720520019531],true]