Bachelorarbeit von Jan Dikow
Dimensionsreduktion kategorialer Daten zur Erzeugung von Themenlandkarten
Die Firma mapegy erzeugt für ihre webbasierte Analyse-und Visualisierungssoftware mapegy.scout verschiedene Visualisierungen auf Basis mehrerer Datenquellen wie beispielsweise Patentdaten und wissenschaftliche Publikationen. Eine der Visualisierungen ist eine Patentlandkarte, welche auf Grundlage der benutzerabhängigen Eingabe eine Gruppierung der Patente durchführt (Clusteranalyse) und diese Gruppen auf einer Karte darstellt (Dimensionsreduktion), so dass ähnliche Patente nahe zusammenliegen und unterschiedliche weiter auseinander. Dieser Prozess soll grundlegend überarbeitet werden, damit
- Verschiedene Typen von Dokumenten (auch z.B. News und wissenschaftliche Publikationen) anhand ihrer Zuordnung zu bestimmten Kategorien verarbeitet werden können,
- der Prozess besser skalierbar und insgesamt schnellerwird,
- erste Ergebnisse schnell bereitgestellt werden (z.B. durch eine Vorschau, Vorprozesse oder Sampling),
- ein Ausgabedatenmodell entsteht, das verschiedene Darstellungen im Front-End möglich macht.
Zur Erzeugung der Themenlandkarten wurde eine GHSOM (Growing Hierarchical Self-Organizing Map) gewählt, deren einzelne Teilkarten aus einer Menge von Neuronenmodellen bestehen, die sich an die Trainingsdaten anpassen und somit Clustering und Dimensionsreduktion gleichzeitig realisieren.
Kolloqium: 15.09.2015
Betreuer: Dipl.-Inform. Ingo Boersch, Uwe Kuehn, M.Sc. (mapegy GmbH, Berlin)
Download: A1-Poster