Logo - Fakult�t f�r Mathematik und Informatik Moving Point - Secondo Logo

Seminar 01912/19912 Skalierbare verteilte Datenanalyse

Seminar 01912 für alle Informatikstudiengänge und Bachelor Wirtschaftsinformatik

Seminar 19912 für Master Wirtschaftsinformatik

Inhalt

Die Verarbeitung enorm großer Datenmengen („Big Data Management“) ist ein wichtiges Thema der letzten Jahre. Solche Datenmengen entstehen etwa durch globale Internet-Anwendungen wie Google, Facebook, Twitter, Amazon; durch das ständige Erzeugen und Protokollieren von Daten durch Smartphones (Fotos, Nachrichtenaustausch, Sport-Apps, Aufzeichnen von Positionsdaten); aber auch durch wissenschaftliche Beobachtungen, Experimente oder Simulationen.

Der grundlegende Ansatz, um dieser Datenmengen Herr zu werden, ist fehlertolerante Parallelisierung. Das heißt, man versucht, solche Aufgaben von Tausenden Rechnern gemeinsam ausführen zu lassen; da dabei Ausfälle unausweichlich sind, entwickelt man Techniken, die Ausfälle ohne größere Verzögerung verkraften. Eine bahnbrechende Technik dieser Art ist das von Google 2004 entwickelte MapReduce-Paradigma, bei dem Programmierer nur gewisse Funktionen schreiben, die dann fehlertolerant auf beliebig vielen Rechnern ausgeführt werden. MapReduce ist als OpenSource-Implementierung Hadoop frei verfügbar.

Thema des Seminars sind Techniken und Systeme für hochskalierbare verteilte Datenverarbeitung mit den Schwerpunkten (i) Verarbeitung im Hauptspeicher und (ii) Darstellung und Analyse von Graphen. Während Hadoop dateibasiert arbeitet, ermöglichen Systeme wie z.B. Spark fehlertolerante Verarbeitung im Hauptspeicher. Graphen spielen eine große Rolle: das World-Wide-Web ist ein Graph, soziale Netze sind Graphen, usw. Systeme wie z.B. Pregel erlauben die skalierbare parallele Manipulation aller Knoten eines Graphen in einem Schritt. Natürlich treten Verwendung von Hauptspeicher und Manipulation von Graphen auch kombiniert auf.

Durchführung

Neben den aktiven Teilnehmer/innen werden in begrenztem Umfang auch Anmeldungen von Zuhörer/innen angenommen. Die aktiven Teilnehmer/innen bereiten jeweils einen Vortrag vor, der auf englischsprachigen Artikeln basiert. Zum Vortrag ist eine schriftliche Ausarbeitung zu erstellen, die zusammen mit den Vortragsmaterialien in digitaler Form vor der Präsenzphase einzureichen ist. Während der Präsenzphase hält jede/r aktive Teilnehmer/in einen Vortrag, der mit einer Diskussionsrunde abgeschlossen wird.

Die Teilnahme an der kompletten Präsenzphase ist für alle aktiven Teilnehmer/innen verpflichtend.

Voraussetzungen

Gute Kenntnisse der Konzepte und möglichst der Implementierung von Datenbanksystemen, etwa anhand der Kurse 01665 Datenbanksysteme, 01671 Datenbanken I, 01664 Implementierung von Datenbanksystemen..

Zeitlicher Ablauf

Anmeldung 01.12.2016 bis 31.01.2017
Themenvergabe 03.03.2017 bis 13.03.2017
Abgabe der Gliederung bis 09.04.2017
Abgabe der Ausarbeitung und Präsentationsfolien bis 04.06.2017
Präsenzphase 06.07.2017 bis 08.07.2017

Hinweise

Zur Orientierung bezüglich Form und Umfang geben wir hier einige Hinweise zur Ausarbeitung und zum Vortrag.

Bitte senden Sie Ihre Ausarbeitung sowie Ihre Vortragsfolien (als PDF-Dokument) an fabio.valdes@fernuni-hagen.de.

Themen

Eine Beschreibung der im Seminar behandelten Themen finden Sie unter diesem Link:

Literatur

Die Basisliteratur können Sie als Seminarteilnehmer/in unter folgendem Link (geschützter Bereich) einsehen.

Auskunft erteilen

Prof. Dr. Ralf Hartmut Güting
Datenbanksysteme für neue Anwendungen
FernUniversität Hagen
58084 Hagen
Tel.: (02331) 987-4279
Email: rhg@fernuni-hagen.de


Dr. Fabio Valdés
Datenbanksysteme für neue Anwendungen
FernUniversität Hagen
58084 Hagen
Tel.: (02331) 987-4282
Email: fabio.valdes@fernuni-hagen.de



Letzte Änderung: 2017-03-03 (FV)
FernUni-Logo FernUniversität in Hagen, Lehrgebiet Datenbanksysteme für neue Anwendungen, D-58084 Hagen, Telefon: +49 (2331) 987-4277