1. Diskussion
    1. Analyse der Datenreihen
    2. Die Betrachtung der jahreszeitlichen Periodizität zeigt eine Schwingung der CO2-Werte mit vergleichsweise niedrigen Werten im Sommer und hohen Werten im Winter. Allein die durchschnittliche Tageskonzentration für die Januarmonate entspricht nicht diesem Verlauf.

      Aus der Trendberechnung über die Jahre 1992 bis 1996 geht ein Anstieg der durchschnittlichen jährlichen CO2-Konzentration von ca. 2,8124 ppm hervor. Dieser Wert zeigt eine sehr gute Übereinstimmung mit den Ergebnissen von Forstreuter [For 93] für den Zeitraum von 1984 bis 1991:

      "The continuous measurements of the atmospheric CO2-concentration from 1984 to 1991 showed a significant yearly increase of 2.8 ppm."

      Das Korrelogramm zeigt deutlich eine starke Autokorrelation, insbesondere zum Vortageswert. Eine absolute Korrelation von mehr als 0,4 existiert nur für die Windgeschwindigkeit (WG) und die geshiftete CO2-Zeitreihe selbst (Shift 1 bis 4). Für folgende Zeitreihen ist die Korrelation kleiner als 0,05: Sinus des Jahrestages (JTG_SIN), Potentielle Verdunstung (HAUDE), Sättigungsdefizit (SDEF) und Tag im Jahr (JTG).

      Generell müssen hier lineare und nichtlineare Einflüsse unterschieden werden. Zeitreihen, die eine hohe Korrelation zu den CO2-Daten aufweisen, sind linear stark mit dieser verknüpft und eignen sich so als Inputparameter für lineare Modelle wie etwa die multiple lineare Regression. Der auffälligste Wert ist hier sicherlich die hohe negative Korrelation der Windgeschwindigkeit zu den CO2-Daten. Da sich in der näheren Umgebung der Meßstation viele Emissionsquellen wie die Universitäts- und Fachhochschulgebäude, Wohnungen und Industrie befinden, läßt sich dies als Abhängigkeit von lokalen Emissionen erklären: Bei geringer Wingeschwindigkeit haben lokale Emissionen einen größeren Einfluß auf die CO2-Konzentration in der Luft, bei starken Winden ist der Austausch der Luft um die Meßstation größer, hohe lokale Konzentrationen werden ausgeglichen. Interessant ist weiterhin, daß die Windrichtung (WR) offenbar einen deutlich geringeren Einfluß hat.

      Auch die negative Korrelation der CO2-Zeitreihe zur Temperatur (TMP) läßt sich durch lokale Emissionen erklären. Hierfür sind zum einen Heizemissionen der umliegenden Gebäude verantwortlich, zum anderen ist die Temperatur ein Indikator der Jahreszeit und damit der Vegetationstätigkeit. Im Winter (mit niedrigen Temperaturen) kommen also höhere Emissionen und mangelnde Vegetationsaktivität zusammen. Diese jahreszeitlichen Einflüsse werden neben der Temperatur (und damit auch der Tageshöchstemperatur THT) in natürlicher Weise auch von der Cosinus-Transformation des Jahrestages (JTG_COS) erfaßt, allerdings ist diese Zeitreihe positiv zur CO2-Zeitreihe korreliert, da die Transformation im Winter (Dezember/Januar) hohe Werte und im Sommer (Juni/Juli) niedrige Werte annimmt.

      Die versteckten Korrelationen lassen sich am Beispiel der Sonnenscheindauer (SSD) verdeutlichen: Es ist offensichtlich, daß die Sonnenscheindauer auf die Temperatur besonders im Sommer einen starken Einfluß ausübt. Weiterhin ist sie in natürlicher Weise mit dem Bedeckungsgrad (BG) korreliert und durch die Regulation der Sonneneinstrahlung auch mit der relativen Luftfeuchtigkeit (RLF). Diese fließt wiederum in die Formel zur Bestimmung der potentiellen Verdunstung (HAUDE) ein, eine hohe Korrelation ist hier also nicht verwunderlich. Das Sättigungsdefizit (SDEF) ist bis auf den Haude-Proportionalitätsfaktor identisch mit der potentiellen Verdunstung, deswegen auch hier die extrem hohe Korrelation.

      Erstaunlich ist die verhältnismäßig niedrige Korrelation der beiden Niederschlagszeitreihen (NS_DWD und NS_FH) von nur 0,56. Offenbar gibt es hier lokal deutlich unterschiedliche Niederschlagsmengen.

      Die neuronale Sensitivitätsanalyse zeigt eine etwas andere Bewertung der Wichtigkeit der einzelnen Inputs. Zwar zeigt sich auch hier wieder ein starker Einfluß der Windrichtung, die größte Sensitivität hat allerdings der Cosinus des Jahrestages. Die Tageshöchsttemperatur vom Deutschen Wetterdienst (TMP_DWD) ist für das Neuronale Netz offenbar bedeutsamer als die der Fachhochschule (TMP_FH), während sich für den lineare kein Unterschied zwischen den beiden Zeitreihen zeigt. Auffällig ist auch die extrem niedrige Sensitivität der Windrichtung (WR), die für die lineare Modellierung eine wichtige Komponente darstellt.

    3. Vergleich der Methoden
    4. Der theoretische Vergleich der Abbildbarkeit der multiplen linearen Regression auf ein vergleichsweise einfaches Neuronales Netz macht deutlich, daß Neuronale Netze bei geeigneter Topologie zur Zeitreihenanalyse besser geeignet sein müssen: Neben den (linearen) Zusammenhängen die auch die Regression erfaßt, können sie weitere (vornehmlich nichtlineare) Einflüsse modellieren. Fehlen jedoch die entsprechenden Verbindungen, der konstante Input, oder werden andere Aktivierungs- und Ausgabefunktionen verwendet, ist dies nicht mehr zwangsläufig gegeben.

      Die Beschränkung der Untersuchungen auf ein einzelnes Jahr (1996) ist etwas problematisch, denn möglicherweise handelt es sich um besonders untypisches Jahr. Da allerdings für alle Verfahren die gleichen Bedingungen gelten, stellt dies keine Minderung der Aussagekraft der Untersuchung dar. Fehlwerte in den einzelnen Zeitabschnitten spielen ebenfalls für den Vergleich keine Rolle, da sie keinen Einfluß auf die Modellbildung haben.

      In An*betracht der Rechenzeit erschien die Beschränkung der möglichen exogenen Zeitreihen auf 14 als sinnvoll. Da die Bestimmung geeigneter Inputvariablen ohnehin nur für die Regression durchgeführt wurde und da diese Verfahren das Kriterium für die Auswahl lieferten, stellt dies keine Einschränkung für die Gültigkeit der Ergebnisse dar. Auch für die Wahl der günstigsten Netzstruktur wurde die Anzahl zu testender Topologien aus Gründen der Rechenzeit eingeschränkt und somit u.U. besonders gute Netze übersehen. Die Anzahl der freien Parameter ist jedoch gerade bei Neuronalen Netzen zu groß, als daß eine umfassende Betrachtung möglich wäre.

      Es zeigt sich jedoch, daß die Wahl der verwendeten Netzstruktur einen deutlichen Einfluß auf den jeweiligen Netzfehler hat.

    5. Vergleich der Verfahren
      1. Regression, Komponentenmodell und Neuronale Netze
      2. Bei dem Vergleich der Verfahren auf den sechs zweimonatigen Zeiträumen wird deutlich, daß sich die Neuronalen Netze recht gut für die Prognose- bzw. Analyseaufgaben eignen. Zwar weist hin und wieder das Komponentenmodell den geringeren Fehler auf und in seltenen Fällen sogar die Regression, aber im Großen und Ganzen sind Neuronale Netze hier die besseren Verfahren. Dies trifft gleichermaßen für Analysen und Prognosen zu.

        Im Sommer zeigen sich die mathematischen Modelle besser als im Winter, was vermutlich auf die durch die Vegetation bedingte geringere Schwankung der CO2-Werte zurückzuführen ist.

      3. ARIMA-Modellierung

      Die Vergleichbarkeit von ARIMA-Modellen und Neuronalen Netzen bzw. der multiplen linearen Regression ist nur bedingt gegeben, da das ARIMA-Verfahren strikt univariat ist, die Neuronalen Netze und auch die Regression aber eine multivariate Modellierung ermöglichen. Unter der in Kapitel 1 getroffenen Annahme, daß die CO2-Konzentration von anderen Umweltparametern beeinflußt wird, kann eine univariate Erklärung der CO2-Werte "aus sich selbst heraus" den Prozeß höchstens näherungsweise beschreiben. Somit muß angenommen werden, daß die ARIMA-Modellierung weniger gut geeignet ist als die multivariaten Verfahren.

      Die ARIMA-Prognose auf dem gegebenen Zeitabschnitt zeigt die für AR- und MA-Prozesse typische Verschiebung gegenüber der Originalzeitreihe. In unserem speziellen Fall schnitt das ARIMA-Modell nur auf dem Zeiten Intervall besser gegenüber den Neuronalen Netzen ab.

    6. Verfahren zur Auswahl exogener Zeitreihen für Neuronale Netze
    7. Prinzipiell unterscheiden sich die beiden untersuchten Verfahren zur Netzwerkoptimierung schon im Ansatz: Während das Pruning-Verfahren neben Input-Neuronen auch noch Neuronen der verborgenen Schicht und Gewichte zu optimieren versucht, beschränkt sich das Sensitivitätsmodell ganz auf die Inputs. Auch der Aufwand variiert erheblich: Das Sensitivitätsmodell führt für jeden Verfahrensschritt ein komplettes Netztraining durch, das Pruning-Verfahren hingegen beschränkt sich auf ein Netztraining plus für jeden Verfahrensschritt ein Nachtraining, das aber i.d.R. aus vergleichsweise wenigen Trainingszyklen besteht.

      1. Pruning
      2. Beim Pruning des hier gewählten Neuronalen Netzes ergab sich besonders beim Neuronen-Pruning eine wesentliche Veränderung der Netzstruktur. Die Reihenfolge der geprunten Input-Neuronen läßt darauf schließen, welche Bedeutung die einzelnen Inputs für ein neuronales Modell haben. Offenbar sind hier die Einflüsse anders als bei der Regression: Während dort die Zeitreihen TG, JTG_SIN und JTG einen sehr geringen Einfluß ausüben bzw. bereits bei der Vorauswahl exogener Variablen herausgefallen sind, bleiben sie im Netz erhalten oder fallen erst sehr spät aus dem Modell heraus. Auf der anderen Seite haben Zeitreihen mit großem Einfluß bei der Regression (WR, TMP_DWD) im Netz einen geringeren Einfluß und werden gleich zu Anfang geprunt.

        Da das vollständig geprunte Netz erheblich filigraner ist als das Ausgangsnetz, reduziert das Verfahren die Zahl der freien Parameter effektiv. Die Dauer eines dreischrittigen Pruning-Laufes hängt stark von den gewählten Optionen bei den einzelnen Verfahren ab. Insbesondere die Zahl der Trainingsepochen für das Nachtraining hat bei vielen zu entfernenden Elementen (z.B. Gewichte) einen starken Einfluß auf die Laufzeit. Die hier gewählte Konfiguration lief 67 Minuten und ist damit erheblich schneller als die Auswahl nach Sensitivität.

      3. Auswahl nach Sensitivität

Bei der Auswahl nach Sensitivität wird in jedem Verfahrensschritt ein Input-Neuron entfernt, bis eine gewünschte Anzahl von Inputs übrig bleibt. Dabei kann entweder das letzte erzeugte Netz verwendet werden, oder das mit dem bisher geringsten Netzfehler.

Aus der Fehlerentwicklung geht eine deutliche globale Verbesserung des Netzfehlers im Verlauf des Verfahrens hervor. Lediglich der Wert des letzten Verfahrensschrittes ist zu hoch, was eine Beendigung des Verfahrens an dieser Stelle nahelegt. Auch hier läßt die Reihenfolge der entfernten Neuronen Rückschlüsse über die Bedeutung der entsprechenden Inputzeitreihen im neuronalen Modell zu. Das bei Pruning beobachtete Phänomen findet sich hier wieder: Zeitreihen mit großem Einfluß bei der Regression fallen recht früh aus dem Modell (THT_FH), während umgekehrt Zeitreihen mit geringem Einfluß erst sehr spät entfernt werden (TG, SDEF, SSD). Die beiden für die Regression entscheidendsten Datenreihen (WG und NDS_DWD) waren offenbar auch für die Netze wichtig: Sie wurden nicht aus dem Modell entfernt.