Bachelorarbeit von Robert Beilich
Tooling for big data extraction
Diese Arbeit stellt Probleme und Lösungen vor, die auftreten können, wenn mit großen unstrukturierten Datensätzen gearbeitet wird. Dies erfolgt am Praxisbeispiel, die über die Zeit verwendeten JavaScript-Bibliotheken aus dem CommonCrawl-Datensatz zu extrahieren. Beginnend mit wenigen Hardware-Ressourcen und dem späteren Einsatz der stärkeren Infrastruktur des Future SOC Labs werden die verschiedenen Probleme, die diese Entwicklungsstadien mit sich bringen, behandelt, bspw. knappe Ressourcen zum Betreiben der Datenbank und die Hardwarekonfiguration. Abschließend werden die gesammelten Erkenntnisse anhand eines Teils des Datensatzes für das Praxisbeispiel umgesetzt und die Ergebnisse visualisiert. Die Einschränkung auf nur einen Teil des Datensatzes resultiert daraus, dass mit der vorhandenen Hardware der komplette Datensatz nicht bearbeitet werden kann.
Kolloqium: 23.10.2020
Betreuer: Prof. Dr. Sven Buchholz, Dipl. Inform. Ingo Boersch
Download: A1-Poster