Basis der Volltextsuche ist Solr. Pro Publikations-Kanal wird ein Solr-Core verwendet, in dem die indizierten Daten enthalten sind.
Die Indizierung der Daten wird über das CMS gesteuert. Das CMS kennt alle publizierten Artikel des Publikations-Kanals und kann Konfigurationen für verschiedene Artikel-Type zur Steuerung der Indizierung auswerten.
In den letzten 6 Jahren in denen wir Solr einsetzten sind viele Anforderungen eng mit dem CMS umgesetzt worden. Diese hohe Kopplung von CMS und Solr ermöglicht uns die Nutzung von Solr in vielen verschiedenen Bereichen
Vorteile der engen Kopplung von Solr mit dem CMS.
- Das CMS kennt alle publizierten Inhalte und kann für eine vollständige Indizierung eine URL’s List der zu indizierenden Seiten erzeugen. Dadruch sind anderer Techniken wie z.B. das abcrawlen der Website nicht mehr notwendig.
- Neu erstelle, gelöscht und geänderte Artikel können direkt auf den Index angewendet werden. Damit ist der Volltext-Index immer aktuell.
- Facetten können über Daten im CMS wie Kategorie-Bäume, Artikel-Type, usw. aufgebaut werden.
- Über das CMS eingepflegte Metadaten von Medien, wie z.B. Title, Beschreibung können auch in Volltext-Index verwendet werden.
- Installation, Konfiguration und Updates werden wie bei allen anderen CMS-Modulen über eine Zentrale Administrations-Oberfläche (IES-Admin) vorgenommen
- Das CMS stellt eine Konfigurations-Oberfläche für das befüllen des Volltext-Index bereit. Hier wird bestimmt, wie die internen Inhalte
(Artikle und Mediem im CMS) indiziert werden sollen. Zusätzlich gibt es weitere Möglichkeiten zum indizeren von Fremdinhalten.
- Eine oderer merherer Start-URL’s. Hier wird ein Crawler verwendet der die Links der Seite verfolgt und so alle gefundenen Seiten Indiziert.
- Angabe einer URL zu einer XML-Datei. Diese wird mit Hilfe einer XSLT in eine für Solr auswertbares XML-Format umgewandet und so Daten in den Index zu übernehmen.
- Spezielle Artikel im CMS, die beim indizieren ein XML-Format liefert um den Index zu füllen. Der Vorteil bei dieser Lösung ist das über das CMS mehr Einfluss auf die Indizierung genommen werden kann. z.B. das Intervall der Indizierung.
- Verwendung des Volltext-Indexes nicht nur für die Globale Volltext-Suche sondern auch für weitere Anwendungsfälle wie:
- More-Like-This: An einzelen Artikeln kann definiert werden ob für diese Seite eine Auswahl an ähnlichen Artikeln angezeigt werden soll
- Listen-Abschnitt: ein redaktioneller Abschnitt, mit dem eine Suche definiert werden kann, um z.B. eine Link-Liste, Teaser-Liste oder Kachelfeld auf Basis eines Suchergebnisses darzustellen.
- Such-Abschnitt: ein redaktioneller Abschnitt, mit dem eine Suchmaske für die Website-Nutzer bereit gestellt wird, um in einzelnen Bereichen zu suchen. Hier kann über Kontext-spezifische Facetten die Suche verfeintert werden (Vereinsregister, Kategorie, Sport/Fussball/Jugend
- Geo-Umkreissuche. Durch die über das CMS eingepflegten GEO-Daten kann mit Hilfe des Karten-Abschitts eine Bereichssuche mit Kategorie-Filter bereit gestellt werden.
- Veranstaltungs-Kalender (Kategorie-Filter und Datums-Filter)
- Einfache Umsetzbarkeit von Mini-Applikationen wie Pressemeldungen ohne Anpassungen oder Entwicklungen möglich. Hierbei kann der Aufbau von Kategorie-Bäumen die in Bereichssuchen als Facetten genutzt werden können ein weiteres Werkzeug sein.
- Geschützte Seiten oder ganze Bereiche werden von Solr nur als Treffer zurück gegeben, wenn der aktuell an der Webseite angemeldete Nutzer (extranet-Funkionalität) rechte auf diese Seiten hat.
- komplette Solr-installation ist in einem IES-Solr-Modul verpackt. Um Solr zu installieren und einzrichten ist nur nötig das IES-Modul im IES-Admin zu installieren. Über unsere Solr-Oberfläche werden die Solr-Cors eingerichtet und mit dem CMS verbunden.
- Optimierung der Suchergebnisse erfolgt nicht über die Anpassung des Solr-Servers sondern durch Anpassung der Suchanfrage. Z.B. über die definition von Boost-Parametern für diese Suche. Hierbei ist die Optimierung für verschiedene Suchen flexibler.
- FH-Dortmund von “Goolge Search Appliance” zu unserer Solr-Lösung gewechselt.
- Wuppertal-Index: “Website Live: 55000 Einträge” 5GB zugewiesen.