目次
Zend_Search_Lucene は、完全に PHP 5 で書かれている汎用的なテキスト検索エンジンです。 インデックスをファイルシステム上に保存するためデータベースサーバを必要とせず、 たいていの PHP ウェブサイト上で動作させることができます。 Zend_Search_Lucene は、以下の機能をサポートしています。
重要度による検索 - 最もマッチした結果が最初に返されます
さまざまな強力な検索方式: フレーズ検索、ワイルドカード検索、 あいまい検索、範囲指定検索などなど [5]
指定したフィールド (例: タイトル、作者、内容) による検索
Zend_Search_Lucene は Apache Lucene プロジェクトから派生したものです。 Lucene についての詳細は http://lucene.apache.org/java/docs/ を参照ください。
Zend_Search_Lucene は、ドキュメント単位でインデックスを作成します。 ドキュメントは名前つきのフィールドから構成され、 検索対象のコンテンツがフィールドの中に含まれます。
ドキュメントを表すのが Zend_Search_Lucene_Document オブジェクトです。このオブジェクトの中には、フィールドを表す Zend_Search_Lucene_Field オブジェクトが含まれます。
あらゆる種類の情報がインデックス化される可能性があることに注意しましょう。 アプリケーション固有の情報やメタデータをドキュメントのフィールドに格納し、 検索結果のドキュメントとして後で取得することができます。
インデクサを制御するのは、あなたが作成するアプリケーションの役割です。 ということは、あなたのアプリケーションからアクセス可能な、 あらゆる内容のデータがインデックス化される可能性があるということです。 例えばファイルシステム、データベース、HTML フォームなどが考えられます。
Zend_Search_Lucene_Field
クラスには、
さまざまな性質のフィールドを作成するための静的メソッドが定義されています。
<?php $doc = new Zend_Search_Lucene_Document(); // フィールドはトークン化されませんが、インデックス化されて保存されます。 // 保存されたフィールドは、インデックスから取得することができます。 $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype', 'autogenerated')); // フィールドはトークン化もインデックス化も行われませんが、インデックスに保存されます。 $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created', time())); // バイナリ文字列フィールドはトークン化もインデックス化も行われません。 // しかしインデックスには保存されます。 $doc->addField(Zend_Search_Lucene_Field::Binary('icon', $iconData)); // フィールドがトークン化・インデックス化されてインデックスに保存されます。 $doc->addField(Zend_Search_Lucene_Field::Text('annotation', 'Document annotation text')); // フィールドはトークン化されてインデックス化されますが、インデックスには保存されません。 $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', 'My document content')); ?>
フィールドの名前は自由につけることができます。 検索の際にデフォルトで使用されるフィールド名は "contents" です。 ドキュメントの主要なデータを、この名前のフィールドに設定することをお勧めします。
Keyword
フィールドは、保存されインデックス化されます。
つまり、検索した際に元の内容がそのまま返されるということです。
トークン化は行われません (いくつかの単語に分割されることはありません)。
列挙方のデータベースフィールドは、通常は Zend_Search_Lucene の
Keyword フィールドにうまく収まることでしょう。
UnIndexed
フィールドは検索対象になりませんが、
検索結果としては返されます。このフィールドに設定する値としては、
データベースのタイムスタンプ、主キー、ファイルシステムのパス
およびその他の外部識別子などがあります。
Binary
フィールドは、トークン化もインデックス化も行われません。
しかし、検索結果として取得できるように保存されます。
画像アイコンのようなバイナリデータをバイナリ文字列として
エンコードしたものなどに対して使用します。
Text
フィールドは、保存されインデックス化され、
そしてトークン化されます。検索項目として使用し、
かつ検索結果としても取得したいような項目、
例えばタイトルなどを保存するのに適しています。
UnStored
フィールドはトークン化されインデックス化されます。
しかしインデックスには保存されません。大量のテキストなどに適しています。
データを保存してしまうとディスク上のインデックスのサイズが大きくなってしまうので、
検索はしたいが結果としてそれを表示する必要がない場合などは、
このフィールドを使用しましょう。Zend_Search_Lucene インデックスを
リレーショナルデータベースと組み合わせて使用する場合などには
UnStored フィールドが実用的に使用できるでしょう。
大きなデータフィールドの内容の検索用に UnStored フィールドに保存し、
結果をデータベースから取得するために、もうひとつ別の ID フィールドを使用します。