Data Hackathon

Die Studenten bekamen anonymisierte Finanzdaten von Kunden der Siemens AG aus den Jahren 2007 bis 2015 zur Verfügung gestellt und konnten zwischen zwei Aufgaben wählen, die sie in Teams bearbeiten: Entweder, sie haben aus den vorliegenden Daten die Zahlungsausfälle für 2016 prognostiziert oder den zu erwartenden Umsatz. Am Ende des Hackathons wurden die Ergebnisse mit den tatsächlichen Zahlen des Geschäftsjahres 2016 vergleichen. Das Team mit der geringsten Abweichung je Aufgabe gewann das Preisgeld in Höhe von je 1.000 Euro. Zudem wurde noch der beste Teamplayer unter den Studenten gekürt.
Die Bedeutung der Datenaufbereitung
„Aus der Veranstaltung haben wir einige interessante Lösungsansätze mitgenommen sowie Verhandlungen über Bachelor, Master und Doktorarbeiten mit den herausragenden Teilnehmern“ sagt Marcel Milde, der weltweit das Siemens Credit Warehouse leitet. Eine Lektion die alle Teilnehmer des Hackathons gelernt hätten, sei die Bedeutung der Vorarbeit am Datensatz. „Dieser müsse, bevor ihm Algorithmen „übergestülpt“ werden, bereinigt werden“ erklärt Milde. Das bedeute, es müssen nutzlose Daten, beispielsweise der Wert “0“ oder Ausreißer, die das gesamte Ergebnis verzerren, entfernt werden. Auch die Art und Weise wie der Datensatz für Analysen gespeichert werde, nämlich die sogenannte Datenperformance, sollte klug sein. Denn ein Datensatz wie dieser, aus der Kategorie „Big Data“, sprenge schnell jede Rechnerkapazität.
Entsprechend haben beim Münchner Hackathon die zwei Teams gewonnen, die die besten Möglichkeiten fanden, den Datensatz in den Griff zu bekommen: Das Team „Data Divers“ hat sich eine eigene Datenbank gebaut und den Preis für die Prognose der Zahlungsausfälle ergattert. Das Team „Outliers“ hat das Preisgeld für die Umsatzprognose eingefahren. Dies, obwohl diese weit vom tatsächlichen Wert abwich, wie bei allen Teams, die sich in dieser Aufgabe versuchten. Sie haben den Preis für ihr gutes Verständnis vom Umgang mit Grunddaten und ihrem Teamgeist gewonnen: Die Mannschaft hat sich gleich zu Beginn aufgeteilt, in Mitglieder, die Daten bereinigen und andere, die si
ch mit Prognosemodellen beschäftigten.