Bachelorarbeit von David Saro
Anwendung von Methoden des Data Mining bei der Produktion von Dünnschicht-Solarmodulen
Zielstellung des Themas ist die Untersuchung der Anwendbarkeit von Methoden des Data Mining zum Finden und Modellieren von Abhängigkeiten der an fertigen Solarmodulen gemessenen Größen von den Parametern und Messwerten des Produktionsprozesses. Die auszuwertenden Daten liegen dabei zu Beginn der Arbeit im Wesentlichen als Tabelle vor.
Die Arbeit umfasst in einem ersten Teil die Einordnung der Aufgabenstellung in den wissenschaftlichen Kontext und das Umfeld beim Hersteller, die notwendige Datenvorbereitung (bspw. geeignete Behandlung von fehlenden Werten, Normalisierung, Diskretisierung, Selek-tion und Aggregation von Merkmalen), die Formulierung und Test einfacher Hypothesen (bspw. statistische Abhängigkeit), Darstellung von Werten der deskriptiven Statistik (bspw. Quartile im Boxplot, Scatterplots, Histogramme) und der Korrelation.
Darauf aufbauend soll im zweiten Teil versucht werden, Abhängigkeiten automatisch zu modellieren und über Kreuzvalidierung zu bewerten. Hierbei ist datengetrieben eine geeignete, möglichst transparente (menschenlesbare) Wissensrepräsentation auszuwählen. Als Anre-gung seien hier Entscheidungsbäume, Regelsysteme, künstliche neuronale Netze und Ent-scheidungslisten genannt. Die Arbeit soll konkrete Wege zur Fortführung der Datenanalyse aufzeigen.
Die besondere Schwierigkeit der Arbeit liegt in der unbekannten Datenqualität, dem Umfang der Daten und insbesondere der Breite des Themas. Zur Verwendung werden Weka, Ra-pidMiner, Gnuplot, Excel, R und Matlab empfohlen.
Kolloquium: 02.10.2008
Betreuer: Dipl.-Inform. Ingo Boersch, Prof. Dr.-Ing. Jochen Heinsohn, Christian Kneisel
Download: A1-Poster