Inhaltsverzeichnis
Zend_Search_Lucene ist eine komplett in PHP 5 geschriebene Textsuchmaschine für viele Zwecke. Da es seinen Index im Dateisystem ablegt und keinen Datenbankserver erfordert, kann es eine Suchfunktion für nahezu jede auf PHP basierende Website bereitstellen. Zend_Search_Lucene unterstützt die folgenden Funktionalitäten:
Klassifizierte Suche - die besten Ergebnisse werden zuerst zurückgegeben
Viele mächtige Abfragearten: Phrasensuche, Platzhaltersuche, Näherungssuche, Bereichssuche und mehr [5]
Suche anhand eines bestimmten Feldes (z.B. Titel, Autor, Inhalt)
Zend_Search_Lucene wurde abgeleitet vom Apache Lucene Projekt. Für weitere Informationen über Lucene, besuche http://lucene.apache.org/java/docs/.
Für die Indizierung verarbeitet Zend_Search_Lucene Dokumente als atomare Einheiten. Ein Dokument wird in benannte Felder unterteilt und diese Felder enthalten Inhalte, die durchsucht werden können.
Ein Dokument wird durch ein Zend_Search_Lucene_Document Objekt abgebildet und dieses Objekt enthält Zend_Search_Lucene_Field Objekte, welche die Felder abbilden.
Es ist wichtig zu beachten, dass dem Index jegliche Informationen hinzugefügt werden können. Anwendungsspezifische Informationen oder Metadaten können in den Dokumentfeldern gespeichert und später bei der Suche aus dem Dokument zurückgeholt werden.
Es liegt in der Verantwortung deiner Anwendung, den Indexer zu kontrollieren. Das bedeutet, dass die Daten aus jeder Quelle indiziert werden können, die von deiner Anwendung aus ansprechbar ist. Zum Beispiel könnten dies das Dateisystem, eine Datenbank, ein HTML Formular, usw. sein.
Die Zend_Search_Lucene_Field
Klasse stellt verschiedene statische
Methoden zum Erstellen mit unterschiedlichen Charakteristika bereit:
<?php $doc = new Zend_Search_Lucene_Document(); // Feld wird nicht in Token aufgeteilt, aber indiziert und im Index // gespeichert. Die gespeichertern Felder können aus dem Index // abgerufen werden. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype', 'autogenerated')); // Feld wird weder in Token aufgeteilt noch indiziert, aber im Index // gespeichert. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created', time())); // Feld mit einer binären Zeichenkette, die weder in Token aufgeteilt // noch indiziert, aber im Index gespeichert wird. $doc->addField(Zend_Search_Lucene_Field::Binary('icon', $iconData)); // Feld wird in Token aufgeteilt und indiziert und im Index gespeichert. $doc->addField(Zend_Search_Lucene_Field::Text('annotation', 'Document annotation text')); // Feld wird in Token aufgeteilt und indiziert, aber nicht im Index // gespeichert. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', 'My document content')); ?>
Du kannst die Felder benennen, wie du möchtest. Standardmäßig wird für die Suche ein Feld mit dem Namen "contents" verwendet. Es ist eine gute Idee, wichtige Daten des Dokuments in einem Feld mit diesem Namen zu platzieren.
Keyword
(Stichwort) Felder werden gespeichert und indiziert, was
bedeutet, dass sie sowohl durchsucht als auch in Suchergebnissen angezeigt
werden können. Sie werden nicht in einzelne Worte (Tokens) zerteilt.
Datenbankfelder für Aufzählungen lassen sich normalerweise leicht in Keyword
Felder für Zend_Search_Lucene überführen.
UnIndexed
(unindizierte) Felder sind nicht durchsuchbar, werden
aber bei Suchtreffern zurückgegeben. Datenbank Zeitstempel, Primärschlüssel,
Pfade des Dateisystems und andere externe Identifikatoren sind gute Kandidaten
für UnIndexed Felder.
Binary
(binäre) Felder werden nicht in Token aufgeteilt und
indiziert, aber für die Rückgabe bei Suchtreffern gespeichert. Sie können für
die Speicherung aller Daten, die als binäre Zeichenkette kodiert sind,
verwendet werden, wie z.B. eine Grafiksymbol.
Text
Felder werden gespeichert, indiziert und in Token aufgeteilt.
Text Felder sind geeignet für die Speicherung von Informationen wie Themen und
Überschriften, die sowohl durchsuchbar sein müssen, als auch in Suchergebnissen
zurückgegeben werden müssen.
UnStored
(nicht gespeicherte) Felder werden in Token aufgeteilt und
indiziert, aber nicht im Index gespeichert. Umfangreiche Texte werden am besten
durch diesen Feldtyp indiziert. Gespeicherte Daten benötigen einen größeren
Index auf der Festplatte, wenn du also Daten nur durchsuchbar aber nicht wieder
ausgegeben haben musst, verwende ein UnStored Feld. UnStored Felder sind
geeignet, wenn ein Zend_Search_Lucene Index in Kombination mit einer relationalen
Datenbank verwendet wird. Du kannst große Datenfelder mit UnStored Feldern
für die Suche indizieren und sie aus der relationalen Datenbank durch die
Verwendung eines seperaten Feldes mithilfe eines Identifikatoren zurückholen.