ODSL - Das ORIGINS "Data Science" Labor

ODSL ergänzt den Exzellenzcluster mit Expertise in neuen Analysemethoden, Algorithmen und rechnergestützten Werkzeugen um mehrdimensionale, komplexe Datensätze besser verstehen und ausnutzen zu können. Speziell kommen fortgeschrittene Methoden der Mustererkennung in verrauschten Daten und für die Identifizierung und Auskopplung schwacher Signale zum Einsatz. Moderne Techniken aus dem Bereich des Maschinellen Lernens sowie der "Augmented Reality" werden zur Extraktion wissenschaftlicher Ergebnisse aus großen, schwer überschaubaren Datenmengen angewandt und weiterentwickelt.

Zeitschriftenklub

Wir betreiben einen Zeitschriftenclub, in dem jeden Freitag um 14.00 Uhr datenwissenschaftliche Themen diskutiert werden. Um unserer Mailingliste beizutreten und Benachrichtigungen zu erhalten, senden Sie bitte eine leere E-Mail an odsl-subscribe(at)lists.lrz.de oder besuchen Sie diese Website: https://lists.lrz.de/mailman/listinfo/odsl.

Wenn Sie Ideen für zu diskutierende Themen haben, können Sie diese gerne in der folgenden Google-Doku vorschlagen: http://bit.ly/odsljc20.

ODSL Aufforderung zur Einreichung von Vorschlägen

Dieser Abschnitt ist nur in englischer Sprache verfügbar.

Workshop zum Stand der Technik bei Sampling und Clustering

Der Workshop wird sowohl einführende als auch fortgeschrittene Themen im Bereich der statistischen Stichprobenziehung (Sampling )und Clusterbildung behandeln. Neben Vorträgen über den neuesten Stand der Technik wird der Workshop auch Hands-on und Übungssitzungen umfassen.

Der vom Max-Planck-Institut für Physik (MPP) veranstaltete Workshop wird von INSIGHTS ITN, MPP IMPRS und dem Exzellenzcluster ORIGINS organisiert und steht allen Angehörigen dieser Organisationen offen.

Aufgrund von Covid-19 werden alle Vorlesungen, Übungseinheiten und sozialen Interaktionen online abgehalten.

Abhängig von der weiteren Entwicklung der aktuellen Situation kann es immer noch möglich sein, zum MPP zu reisen, um persönliche Kontakte zu knüpfen.

Die Teilnahme ist kostenlos, aber alle Teilnehmer sollten sich bis zum 20. September 2020 anmelden.

Mehr infos: https://indico.mpp.mpg.de/event/7494/overview

Origins Data Science Block Kurse

Das Origins Data Science Labor (ODSL) organisiert zwei Blockkurse von je drei Nachmittagen zu datenwissenschaftlichen Themen.

Jeder Block besteht aus sechs einstündigen Vorlesungen, gefolgt von der Möglichkeit, an einer Reihe von Problemen zu arbeiten, einschließlich kleiner Berechnungen und Implementierungen.

 

Block I (1.-3. September):  Einführung in die probabilistische Argumentation


In diesem Kurs werden wir die grundlegenden Konzepte des Denkens der Unsicherheit einführen. Nach einer kurzen Einführung in die Wahrscheinlichkeitstheorie und häufig verwendete Wahrscheinlichkeitsverteilungen diskutieren wir Inferenzaufgaben mit verschiedenen probabilistischen Modellen. Abschließend skizzieren wir Methoden zur Annäherung an komplexere Inferenzaufgaben durch Approximation oder Stichprobenziehung.

Dozent: Jakob Knollmüller

Voraussetzungen: Lineare Algebra, Grundlagen Analysis, eine Programmiersprache nach Wahl

Erworbene Fertigkeiten: Grundlagen des probabilistischen Denkens und der Bayes'schen Inferenz, probabilistische Modellierung, Modellvergleich, approximative Inferenz

 

Block II (8.-10. September): Einführung in numerische Methoden und maschinelles Lernen


Dieser Kurs konzentriert sich auf Methoden zur Datenverarbeitung, Optimierung und maschinelles Lernen. Zuerst lernen wir die Grundlagen der Datendekorrelations-, Reduktions- und Optimierungsalgorithmen kennen. Basierend auf diesen neuen Fähigkeiten tauchen wir in Themen des maschinellen Lernens ein, wie z.B. Clustering, Klassifikation und Regression mit baumbasierten Algorithmen und neuronalen Netzen. Im letzten Teil werden Modelle des maschinellen Lernens und verschiedene Architekturen vorgestellt und erklärt.

Dozent: Dr. Philipp Eller

Voraussetzungen: Lineare Algebra, Grundlagen Analysis, eine Programmiersprache nach Wahl

Erworbene Fähigkeiten: grundlegende Datentransformationen, Kenntnisse in verschiedenen Optimierungsalgorithmen, k-means-clustering, decision trees, neural networks, convolutional neural networks, auto-encoders, generative models

Formen von Kredit


Es ist möglich, eine Zertifizierung oder ECTS-Punkte für die Teilnahme an den Blockkursen zu erhalten:

Um ein Teilnahmezertifikat zu erhalten (entweder für einen der beiden Blöcke oder für beide), müssen Sie Lösungen zu den Übungen einreichen, die während des Kurses aufgegeben werden, und eine genügende Note errecihen.  Das Zertifikat wird kursweise ausgestellt und besagt, dass Sie den Blockkurs in dem jeweiligen Thema erfolgreich abgeschlossen haben.  Bitte melden Sie sich für den Kurs im Voraus an, damit wir abschätzen können, wie viel Arbeit die Auswertung der Berichte in Anspruch nehmen wird.

Um die 3 ECTS-Punkte zu erhalten, müssen Sie Lösungen zu den Übungen für beide Blockkurse einreichen, die in diesem Jahr angeboten werden. Die Note für den Kurs wird auf den beiden Übungssätzen basieren, und es wird keine zusätzliche Prüfung geben. Die Abgabefrist für den Bericht ist der 30. September 2020. Bitte melden Sie sich für die Kurse im Voraus an, damit wir abschätzen können, wie viel Arbeit die Auswertung der Berichte in Anspruch nehmen wird.

Für weitere Informationen und zur Anmeldung besuchen Sie bitte https://indico.ph.tum.de/event/4491/

Beispielprojekte innerhalb von ODSL

Universelle Bildgebung mittels Informationsfeldtheorie

Um ein gutes Bild einer räumlich variierenden Größe, einem Feld, aus unvollständigen und verrauschten Messdaten zu rekonstruieren, bedarf es der Kombination der Messungen mit Wissen über allgemeine physikalische Eigenschaften des Feldes, wie dessen Glattheit, Korrelationsstruktur, oder Divergenz-Freiheit. Die Informationsfeldtheorie nutzt den eleganten Formalismus von Feldtheorien, um optimale bayesianische Bildgebungsalgorithmen für die unterschiedlichsten Messsituationen mathematisch herzuleiten. Diese Algorithmen können mittels des „Numerical Information Field Theory“ (NIFTy) Programierpaketes effizient und allgemein implementiert werden. Algorithmen die NIFTy nutzen kommen beispielsweise  bereits in der Radio- und Gammastrahlungsastronomie zum Einsatz. NIFTy entwickelt sich gerade zu einem universell einsetzbaren Werkzeug für Bildgebungsprobleme in Astronomie, Teilchenphysik, Medizin und andere Gebiete.

Das “Bayesian Analysis Toolkit”

Das ”Bayesian Analysis Toolkit” (BAT) ist ein Softwarepaket, welches die Lösung statistischer Probleme mittels der Bayesschen Statistik ermöglicht. BAT basiert auf dem Bayesschen Theorem und nutzt sogenannte Markov Chain Monte Carlo Methoden. Dies ermöglicht den Zugang zur vollen A-posteriori-Wahrscheinlichkeitsverteilung und damit eine einfache Parameterbestimmung, sowie Begrenzung und Fortpflanzung von Unsicherheiten. Mittels neuer Stichprobenverfahren, Optimierungsschemata und Parallelisierungsmethoden kann dieses vielseitige Werkzeug in den kommenden Jahren erweitert werden.

Das "Dunkle Materie"-Datenzentrum

ORIGINS wird eine Datenbank aufbauen um alle vorhandenen Informationen zum Thema "Dunkle Materie" zu sammeln. Es werden Daten aus experimentellen Studien, astronomischen Beobachtungen und von theoretischen Modellen kombiniert um einen einfachen Vergleich von Theorie und Beobachtung zu ermöglichen. Dies trifft speziell auf die Suche nach möglichen Kandidaten für „Dunkle Materie“-Teilchen zu, welche dann – auf einfache Weise – mit vorhandenen Experimenten und Theorien aus der Kosmologie, der Astro- und Teilchenphysik bestätigt oder widerlegt werden können. Spannungen zwischen den auf verschiedene Weise erzeugten Datensätzen und auch unterschiedlichen Theorien können einfach aufgezeigt werden und somit neue, bislang verborgene Eigenschaften von Dunkler Materie gefunden werden. Sämtliche Daten werden der internationalen Forschungsgemeinschaft frei zur Verfügung gestellt.