Digital Asset Management BLOG

Thesaurus - Suchunterstützung durch Synonymlisten

Ein "Thesaurus" ist eine Wortsammlung, ähnlich dem kontrollierten Vokabular, dessen Begriffe in einer bestimmten Relation zueinander stehen. Diese Relationen schließen sowohl Synonyme (also Begriffe mit gleicher Bedeutung), wie auch Ober- und Unterbegriffe ein. Definitionsgemäß ist als streng genommen ist also auch die bereits beschriebene Schlagwort-Taxonomie ein Thesaurus.

Im Zusammenhang mit Digital Asset Management Systemen wird die Bezeichnung "Thesaurus" aber meist im Sinne einer Synonymliste angewandt und genau darum geht es in diesem Beitrag.

Muss ich jetzt den Duden abschreiben?

Um den Nutzer der Bild- oder Mediendatenbank bei der Suche nach relevanten Treffern so weit wie möglich entgegen zu kommen, werden Begriffe gleicher Bedeutung mit einander verknüpft. Wenn der Suchende einen Begriff einer solchen Reihe eingibt, bekommt er ebenfalls die Treffer für alle anderen Begriffe. So muss er nicht mehrere Schlagworte ausprobieren und erhält einen größere Anzahl Suchergebnisse, gerade in kleineren oder neu eingeführten Systemen wir so Frustration vermieden.

Doch wo kommen diese Begriffe her und welcher Umfang ist sinnvoll?

Erstmal ist dazu eine Grundlage zu Berücksichtigen: Es geht um Ihre Bilder und Medien!
Niemand kennt Themengebiete, Bildinhalte und Nutzer Ihrer Datenbank so gut wie Sie. Das Ziel ist nicht ein allgemeines Wörterbuch zu schreiben, sondern Ihre Nutzer zielführend zu unterstützen.

Sie brauchen also eine Begriffs-Verzeichnis, das speziell auf Ihre Mediendaten zugeschnitten ist.

Best practices

Eine ideale Basis dafür ist Ihre Taxonomie (siehe: Tipp: Beim Taxonomie-Aufbau hilft eine Mind-Map).

1.

Grundbegriffe festlegen.

Nehmen Sie die hier von Ihnen festgelegten Schlagworte zu den Themen "Was" und "Wer" und fügen Sie sie alphabetisch sortiert in ein einfaches Text-Dokument (.txt, ASCII) ein. Jeden Begriff in eine neue Zeile.

2.

Synonyme hinzufügen.

Nun ergänzen Sie in jeder Zeile Begriffe die folgende Eigenschaften erfüllen:

  • Bedeutungsgleichheit (Orange – Apfelsine)
  • Bedeutungsähnlichkeit / Mundart (Brötchen – Semmel – Schrippe)
  • Fremdwort (Fahrstuhl – Lift)
  • Abkürzung (Deutschland – BRD)
  • Allgemein benutzte Eigen-/Produktnamen (Papiertaschentuch – Tempo)
  • Varianten wie Mehrzahl oder m/w-Formen

Synonyme und Anregungen zu Varianten im deutschen Sprachraum liefern Ihnen z. B. folgende Internetservices

Beachten Sie hierbei die Vorgaben Ihres DAM Herstellers und nehmen Sie ggf. Kontakt zu Ihrem Intergrator auf um den Umgang mit Umlauten und mehrteiligen Begriffen zu klären.

Bei FotoWare-Systemen ist die Verwendung von Umlauten möglich. Mehrteilige Begriffe werden in Anführungszeichen gesetzt. Beispiel: PR;"Public Relations";Öffentlichkeitsarbeit

3.

Konvertierung zur verarbeitbaren Datei.

Auch hier ist Ihr Digital Asset Management Anbieter gefragt, der Ihnen die nötigen Spezifikationen liefern sollte.

Als Beispiel wird in diesem Beitrag wieder FotoWare herangezogen. Die Serverapplikation "Index Manager" liest die Synonymliste im XML-Format ein.

Sie sollten jetzt eine .txt-Datei erstellt haben die etwa so aussieht:
thesaurus.txt 
Diese Datei kann Ihnen auch als Vorlage dienen und enthält schon viele Begriffe aus Marketing/Medien/Kommunikation.

Xenario bietet seinen Kunden den Service, die bis zu diesem Stand vorbereitet Synonymliste zu konvertieren und hilft gerne bei der Einbindung ins FotoWare System. Bitte wenden Sie sich an den Support unter support@xenario.de.

Die konvertierte Datei ist eine XML-Strukur in folgendem Schema:

Der erste einleitende Tag <?xml version="1.0" encoding="utf-8" ?> verrät dem System wie die vorliegende Datei selbst zu verarbeiten ist.

Die Synonymliste ist in die Tags <dtSearchUserThesaurus> </dtSearchUserThesaurus> eingefasst.

Jede Zeile aus der Textdatei wird mit einen <Item>, gefolgt vom ersten Begriff innerhalb von <Name></Name>-Tags und der ganzen Zeile in <Synonyms></Synonyms> dargestellt. </Items> schließt die Zeile.

Speichern Sie diese XML-Datei unter dem Namen "thesaur.xml" und achten Sie darauf, das Sie UTF-8 encodiert ist. So werden die Umlaute richtig ins System übernommen.

Aus dem oben angebotenen thesaurus.txt wird so thesaur.xml.

4.

Ablage und Einbindung ins Digital Asset Management System nach Vorgabe des DAM Anbieters.

In FotoWare Systemen legen Sie die thesaur.xml nun in Verzeichnis C:\ProgramData\FotoWare\Index Manager\Index Control auf Ihrem Server ab.

Die Einträge werden erst nach einem REBUILD DES INDEXES DURCH INDEX MANAGER wirksam!

Tipp: Weiter beobachten und sammeln

Da ein Rebuild bei grossen FotoWare Systemen ein sehr zeitraubender Prozess sein kann, sollte diese Funktion nicht ohne Überlegung gestartet werden. 

Prüfen Sie regelmäßig die Suchphrasen, die Ihre Nutzer anwenden und sammeln Sie Begriffe die keine oder wenig Treffer erzielen obwohl passendes Material unter anderen Schlagworten zur Verfügung steht. Aktualisieren Sie Ihre Thesaurus-Datei mit diesen Begriffen und bauen Sie sie so kontinuierlich aus.

Wenn aufgrund eines Updates oder einer Wartung ein Rebuild eingeplant ist, legen Sie rechtzeitig den aktuellen Stand Ihrer fortgeführten Datei auf dem Server bereit.