Abschlußbericht des DeepRain Projektes

Das DeepRain-Projekt zielte auf die Entwicklung neuer AnsĂ€tze fĂŒr die Kombination aus modernen Methoden des maschinellen Lernens mit leistungsstarken IT-Systemen fĂŒr die Datenverarbeitung und -verbreitung kombinieren, um verbesserte hochauflösende rĂ€umliche Karten des Niederschlags ĂŒber Deutschland zu erstellen. Grundlage fĂŒr dieses Projekt war das mehrjĂ€hrige Archiv von Ensemble-Modellvorhersagen des numerischen Wettermodells COSMO des Deutschen Wetterdienstes (DWD).

Sechs transdisziplinĂ€re Forschungseinrichtungen arbeiteten in DeepRain zusammen, um eine durchgĂ€ngige Verarbeitungskette zu entwickeln, die potenziell in der zukĂŒnftigen operationellen Wettervorhersage eingesetzt werden kann. Der Projektantrag hatte mehrere Herausforderungen identifiziert, die es in diesem Zusammenhang zu bewĂ€ltigen galt. Neben den technischen Herausforderungen bei der Schaffung einer neuartigen Datenfusion von recht unterschiedlichen DatensĂ€tzen (numerische Modelldaten, Radardaten, Beobachtungen von Bodenstationen), dem Aufbau skalierbarer maschineller Lernlösungen und der Optimierung der Leistung der Datenverarbeitung und des maschinellen Lernens gab es verschiedene wissenschaftliche Herausforderungen im Zusammenhang 1. mit den kleinrĂ€umigen Strukturen von Niederschlagsereignissen, 2. Schwierigkeiten bei der Suche nach robusten Bewertungsmethoden fĂŒr Niederschlagsvorhersagen und 3. den nichtnormalverteilten Niederschlagsstatistiken in Verbindung mit stark unausgewogenen DatensĂ€tzen.


Zum Projektstart von DeepRain war die Anwendung von maschinellem Lernen auf Wetter und Klimadaten noch sehr neu und es gab kaum Veröffentlichungen oder Softwarecodes, auf denen man aufbauen konnte. DeepRain leistete somit Pionierarbeit bei der Anwendung moderner Deep-Learning-Modelle im Bereich der Wettervorhersage. Gleichzeitig konnte man in den letzten drei Jahren einen exponentiellen Anstieg der Zahl der Veröffentlichungen in diesem neuen Bereich beobachten. Sehr oft handelte es sich dabei um Studien, die in Nordamerika oder China durchgefĂŒhrt wurden. Globale Unternehmen wie Google, Amazon, NVidia oder Microsoft haben inzwischen Gruppen von Wissenschaftlern und Ingenieuren gegrĂŒndet, um die Forschung zu “Wetter-KI” voranzutreiben und marktfĂ€hige Wetter- und
Klimaanwendungen mit Deep Learning zu entwickeln. Daher kam das DeepRain-Projekt zur rechten Zeit, da es eine Basis fĂŒr maschinelles Lernen im Bereich Wetter und Klima in Deutschland geschaffen hat. DeepRain ermöglichte es dem Konsortium, das Potenzial von Deep Learning im Zusammenhang mit der erforderlichen gigantischen Datenverarbeitung zu erforschen und mit den internationalen Entwicklungen in diesem schnell wachsenden Forschungsbereich Schritt zu halten.
DeepRain konnte das geplante Ergebnis, d. h. den Bau eines Prototyps fĂŒr einen durchgĂ€ngigen Arbeitsablauf fĂŒr hochauflösende Niederschlagsvorhersagen auf der Grundlage von Deep Learning, zwar nicht vollstĂ€ndig erzielen, aber es wurden alle damit verbundenen Forschungsfragen beantwortet und alle erforderlichen Bausteine fĂŒr einen solchen Arbeitsablauf wurden entwickelt. Beispielsweise wurde die moderne DatenwĂŒrfel-Technologie erfolgreich eingesetzt, um vier- bis sechsdimensionale atmosphĂ€rische
SimulationsdatenwĂŒrfel auf der Basis von DWD-Daten fĂŒr die Extraktion und Analyse bereitzustellen.


ZusĂ€tzlich zu den oben beschriebenen erwarteten Herausforderungen traten wĂ€hrend des Projekts die folgenden schwerwiegenden Probleme auf: 1. ein weitreichender Datenverlust aufgrund von HardwareausfĂ€llen im FrĂŒhjahr 2021, 2. die Covid-19-Pandemie von MĂ€rz 2020 bis heute und 3. Schwierigkeiten, hochqualifiziertes Personal zu finden – insbesondere in Zeiten, in denen die meiste Arbeit im Home-Office erledigt werden musste.

Die wichtigsten Ergebnisse von DeepRain sind:

  • Datentransfer im Petabyte-Bereich von archivierten COSMO-DE-EPS-Vorhersagen von Bandlaufwerken des DWD und des RADKLIM-Datensatzes vom OpenData-Server zum Dateisystem JUST am JSC/FZ JĂŒlich, Organisation und Bereinigung dieser Daten und GewĂ€hrleistung des Datenzugangs fĂŒr alle Projektpartner,
  • Parallelisierte Verarbeitung von COSMO-EPS- und RADKLIM-Daten (Ensemblestatistik, Remapping fĂŒr Datenfusion und fĂŒr das EinfĂŒgen in Rasdaman),
  • Implementierung von Rasdaman DatenwĂŒrfel Array Datenbankservern am FZ JĂŒlich und Ingestion von mehreren TBytes an Wetterdaten,
  • Aufnahme des JĂŒlicher Rasdaman-Servers in den EarthServer-DatenwĂŒrfel-Verbund,
  • Weiterentwicklung von Rasdaman zur Beschleunigung des DateneinfĂŒgens und -abrufs, Definition neuer benutzerdefinierter Funktionen fĂŒr die Analyse topographischer Daten, Definition eines neuen Koordinatenreferenzsystems fĂŒr gedrehte Polkoordinaten und Vorbereitung der Anbindung von Prozessierungsketten fĂŒr maschinelles Lernen,
  • Entwicklung von statistischen Downscaling-Techniken und maschinellen Lernmodellen, um:
    • dichotomen und quantitativen Niederschlagsvorhersagen an Stationsstandorten zu generieren und
    • Gebietsvorhersagen in der Auflösung der RADKLIM-Radardaten zu erzeugen,
  • Erforschung neuer Verifikationsstatistiken auf der Grundlage partieller Korrelationen und des Regression Boostings.


In diesem Bericht geben wir einen detaillierten Überblick ĂŒber die Arbeit und das Erreichte im Rahmen des DeepRain-Projekts. Dieser Bericht ist in fĂŒnf Abschnitte gegliedert: In Abschnitt 1 stellen wir den Arbeitsplan aus dem Projektantrag vor und geben Informationen ĂŒber den Stand der Erbringung jeder einzelnen Aufgabe, um einen kompakten Vergleich zwischen dem Projektplan und seinen Ergebnissen zu ermöglichen. In Abschnitt 2 werden dann die im Rahmen des Projekts durchgefĂŒhrten Arbeiten fĂŒr jedes einzelne Arbeitspaket detailliert beschrieben. In Abschnitt 3 werden die Projektergebnisse und deren mögliche kĂŒnftige Nutzung erörtert. In Abschnitt 4 geben wir einen allgemeinen Überblick ĂŒber die außerhalb des Projektes erfolgten Fortschritte in den Forschungsbereichen, die mit DeepRain in Verbindung stehen. Im Einzelnen sind dies: maschinelles Lernen fĂŒr die Niederschlagsvorhersage, Methoden zur Bewertung von Niederschlagsvorhersagen, Umgang mit Big Data und FAIR-Datenpraktiken. Schließlich werden in Abschnitt 5 alle Zeitschriftenveröffentlichungen, DatensĂ€tze und Softwarepakete sowie geplante Einreichungen aufgefĂŒhrt, die aus dem DeepRain-Projekt hervorgegangen sind.

Abschnitt 6 beinhaltet das Literaturverzeichnis.

Link zum vollstÀndigen Abschlussbericht: https://hdl.handle.net/2128/33144