Tuesday 31 October 2017

Moving Average Prozess Autokovarianz


Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 1 Im letzten Artikel sahen wir zufällige Wanderungen und weißes Rauschen als grundlegende Zeitreihenmodelle für bestimmte Finanzinstrumente wie Tagesaktien und Aktienindexpreise an. Wir fanden, dass in einigen Fällen ein zufälliges Wanderungsmodell nicht ausreicht, um das vollständige Autokorrelationsverhalten des Instruments zu erfassen, das anspruchsvollere Modelle motiviert. In den nächsten Artikeln werden wir drei Modelltypen diskutieren, nämlich das Autoregressive (AR) - Modell der Ordnung p, das Moving Average (MA) - Modell der Ordnung q und das gemischte Autogressive Moving Average (ARMA) - Modell der Ordnung p , Q. Diese Modelle werden uns helfen zu erfassen oder zu erklären, mehr der seriellen Korrelation in einem Instrument. Letztlich werden sie uns ein Mittel zur Prognose der künftigen Preise bieten. Es ist jedoch bekannt, dass finanzielle Zeitreihen eine Eigenschaft besitzen, die als Volatilitäts-Clusterung bekannt ist. Das heißt, die Flüchtigkeit des Instruments ist nicht zeitlich konstant. Der technische Begriff für dieses Verhalten wird als bedingte Heteroskedastizität bezeichnet. Da die AR-, MA - und ARMA-Modelle nicht bedingt heteroskedastisch sind, dh sie nicht das Volatilitäts-Clustering berücksichtigen, benötigen wir letztlich ein anspruchsvolleres Modell für unsere Prognosen. Zu diesen Modellen gehören das Autogressive Conditional Heteroskedastic (ARCH) Modell und das Generalized Autogressive Conditional Heteroskedastic (GARCH) Modell und die vielen Varianten davon. GARCH ist in Quantfinance besonders bekannt und wird vor allem für finanzielle Zeitreihensimulationen als Mittel zur Risikoabschätzung eingesetzt. Wie bei allen QuantStart-Artikeln möchte ich aber diese Modelle aus einfacheren Versionen aufbauen, damit wir sehen können, wie jede neue Variante unsere Vorhersagefähigkeit ändert. Trotz der Tatsache, dass AR, MA und ARMA relativ einfache Zeitreihenmodelle sind, sind sie die Grundlage für kompliziertere Modelle wie den Autoregressive Integrated Moving Average (ARIMA) und die GARCH-Familie. Daher ist es wichtig, dass wir sie studieren. Einer unserer ersten Trading-Strategien in der Zeitreihe Artikel-Serie wird es sein, ARIMA und GARCH zu kombinieren, um die Preise n Perioden im Voraus vorherzusagen. Allerdings müssen wir warten, bis wir beide diskutiert sowohl ARIMA und GARCH separat, bevor wir sie auf eine echte Strategie anwenden Wie werden wir in diesem Artikel werden wir einige neue Zeitreihen-Konzepte, die gut für die restlichen Methoden, nämlich streng zu skizzieren Stationarität und dem Akaike-Informationskriterium (AIC). Im Anschluss an diese neuen Konzepte werden wir dem traditionellen Muster für das Studium neuer Zeitreihenmodelle folgen: Begründung - Die erste Aufgabe ist es, einen Grund dafür zu liefern, warum sich ein bestimmtes Modell als Quants interessierte. Warum stellen wir das Zeitreihenmodell vor Welche Auswirkungen kann es erfassen Was gewinnen wir (oder verlieren) durch Hinzufügen zusätzlicher Komplexität Definition - Wir müssen die vollständige mathematische Definition (und damit verbundene Notation) des Zeitreihenmodells zur Minimierung bereitstellen Jede Zweideutigkeit. Eigenschaften der zweiten Ordnung - Wir diskutieren (und in einigen Fällen) die Eigenschaften zweiter Ordnung des Zeitreihenmodells, das sein Mittel, seine Varianz und seine Autokorrelationsfunktion enthält. Correlogram - Wir verwenden die Eigenschaften zweiter Ordnung, um ein Korrektramm einer Realisierung des Zeitreihenmodells zu zeichnen, um sein Verhalten zu visualisieren. Simulation - Wir simulieren Realisierungen des Zeitreihenmodells und passen dann das Modell an diese Simulationen an, um sicherzustellen, dass wir genaue Implementierungen haben und den Anpassungsprozess verstehen. Echte Finanzdaten - Wir passen das Zeitreihenmodell auf echte Finanzdaten an und betrachten das Korrektramm der Residuen, um zu sehen, wie das Modell die serielle Korrelation in der ursprünglichen Serie berücksichtigt. Vorhersage - Wir erstellen n-Schritt-Voraus-Prognosen des Zeitreihenmodells für besondere Realisierungen, um letztendlich Handelssignale zu erzeugen. Fast alle Artikel, die ich auf Zeitreihenmodellen schreibe, werden in dieses Muster fallen und es wird uns erlauben, die Unterschiede zwischen jedem Modell leicht zu vergleichen, da wir weitere Komplexität hinzufügen. Wurden zu Beginn mit Blick auf strenge Stationarität und die AIC. Strengst stationär Wir haben die Definition der Stationarität in dem Artikel über die serielle Korrelation. Da wir jedoch in den Bereich vieler Finanzserien mit verschiedenen Frequenzen treten, müssen wir sicherstellen, dass unsere (eventuellen) Modelle die zeitlich variierende Volatilität dieser Serien berücksichtigen. Insbesondere müssen wir ihre Heteroskedastizität berücksichtigen. Wir werden auf dieses Problem stoßen, wenn wir versuchen, bestimmte Modelle zu historischen Serien zu passen. Grundsätzlich können nicht alle seriellen Korrelationen in den Resten von eingebauten Modellen berücksichtigt werden, ohne Heteroskedastizität zu berücksichtigen. Das bringt uns zurück zur Stationarität. Eine Serie ist nicht stationär in der Varianz, wenn sie zeitvariable Volatilität hat, per Definition. Dies motiviert eine rigorosere Definition der Stationarität, nämlich eine strenge Stationarität: Strengst stationäre Serie Ein Zeitreihenmodell ist streng stationär, wenn die gemeinsame statistische Verteilung der Elemente x, ldots, x die gleiche ist wie die von xm, ldots, xm, Für alle ti, m. Man kann an diese Definition nur denken, daß die Verteilung der Zeitreihen für jede zeitliche Verschiebung unverändert bleibt. Insbesondere sind das Mittel und die Varianz rechtzeitig für eine streng stationäre Reihe konstant und die Autokovarianz zwischen xt und xs (nur) hängt nur von der absoluten Differenz von t und s, t-s ab. In zukünftigen Beiträgen werden wir streng stationäre Serien besprechen. Akaike Information Criterion Ich erwähnte in früheren Artikeln, dass wir schließlich zu prüfen, wie die Wahl zwischen getrennten besten Modelle. Dies gilt nicht nur für die Zeitreihenanalyse, sondern auch für das maschinelle Lernen und generell für die Statistik im Allgemeinen. Die beiden Hauptmethoden (vorläufig) sind das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (wie wir mit unseren Artikeln über Bayesian Statistics weiter vorankommen). Nun kurz die AIC, wie es in Teil 2 des ARMA Artikel verwendet werden. AIC ist im Wesentlichen ein Hilfsmittel zur Modellauswahl. Das heißt, wenn wir eine Auswahl von statistischen Modellen (einschließlich Zeitreihen) haben, dann schätzt die AIC die Qualität jedes Modells, relativ zu den anderen, die wir zur Verfügung haben. Es basiert auf Informationstheorie. Das ist ein sehr interessantes, tiefes Thema, das wir leider nicht in zu viel Detail gehen können. Es versucht, die Komplexität des Modells, die in diesem Fall bedeutet die Anzahl der Parameter, wie gut es passt die Daten. Lets eine Definition: Akaike Information Criterion Wenn wir die Likelihood-Funktion für ein statistisches Modell, das k Parameter hat, und L maximiert die Wahrscheinlichkeit. Dann ist das Akaike Information Criterion gegeben durch: Das bevorzugte Modell, aus einer Auswahl von Modellen, hat die minium AIC der Gruppe. Sie können sehen, dass die AIC wächst mit der Anzahl der Parameter, k, erhöht, aber reduziert wird, wenn die negative Log-Likelihood erhöht. Im Wesentlichen bestraft sie Modelle, die übermäßig sind. Wir werden AR, MA und ARMA Modelle von unterschiedlichen Aufträgen erstellen und eine Möglichkeit, das beste Modell zu wählen, das zu einem bestimmten Datensatz passt, ist, die AIC zu verwenden. Dies ist, was gut tun, im nächsten Artikel, vor allem für ARMA Modelle. Autoregressive (AR) Modelle der Ordnung p Das erste Modell, das die Grundlage von Teil 1 bildet, ist das autoregressive Modell der Ordnung p, oft verkürzt zu AR (p). Im vorherigen Artikel betrachteten wir den zufälligen Weg. Wobei jeder Term xt nur von dem vorherigen Term x und einem stochastischen weißen Rauschterm abhängt, wt: Das autoregressive Modell ist einfach eine Erweiterung des zufälligen Wegs, der Terme weiter zurück in der Zeit enthält. Die Struktur des Modells ist linear. Das heißt, das Modell hängt linear von den vorherigen Bedingungen ab, wobei für jeden Term Koeffizienten vorliegen. Dies ist, wo die regressive kommt aus der autoregressive. Es ist im Wesentlichen ein Regressionsmodell, bei dem die vorherigen Begriffe die Prädiktoren sind. Autoregressives Modell der Ordnung p Ein Zeitreihenmodell ist ein autoregressives Modell der Ordnung p. AR (p), wenn: begin xt alpha1 x ldots alphap x wt sum p alpha x wt end Wo ist weißes Rauschen und alpha in mathbb, mit alphap neq 0 für einen autoregressiven p-order Prozess. Wenn wir den Backward Shift Operator betrachten. (Siehe vorheriger Artikel), dann können wir das obige als eine Funktion theta folgendermaßen umschreiben: begin thetap () xt (1 - alpha1 - alpha2 2 - ldots - alphap) xt wt Ende Vielleicht das erste, was über das AR (p) Ist, dass ein zufälliger Weg einfach AR (1) mit alpha1 gleich Eins ist. Wie oben erwähnt, ist das autogressive Modell eine Erweiterung des zufälligen Weges, so dass dies sinnvoll ist. Es ist einfach, Vorhersagen mit dem AR (p) - Modell zu jeder Zeit t vorzunehmen, sobald wir die alphai-Koeffizienten, unsere Schätzung, bestimmt haben Wird einfach: anfangen Hut t alpha1 x ldots alphap x end So können wir n-Schritt voraus Prognosen durch die Herstellung Hut t, Hut, Hut, etc. bis zu Hut. Tatsächlich werden wir, wenn wir die ARMA-Modelle in Teil 2 betrachten, die R-Vorhersagefunktion verwenden, um Prognosen (zusammen mit Standardfehler-Konfidenzintervallbändern) zu erzeugen, die uns helfen, Handelssignale zu erzeugen. Stationarität für autoregressive Prozesse Eines der wichtigsten Aspekte des AR (p) - Modells ist, dass es nicht immer stationär ist. Tatsächlich hängt die Stationarität eines bestimmten Modells von den Parametern ab. Ive berührte dieses vorher in einem vorhergehenden Artikel. Um zu bestimmen, ob ein AR (p) - Prozeß stationär ist oder nicht, müssen wir die charakteristische Gleichung lösen. Die charakteristische Gleichung ist einfach das autoregressive Modell, geschrieben in Rückwärtsverschiebung Form, auf Null gesetzt: Wir lösen diese Gleichung für. Damit das bestimmte autoregressive Verfahren stationär ist, brauchen wir alle Absolutwerte der Wurzeln dieser Gleichung, um Eins zu übersteigen. Dies ist eine äußerst nützliche Eigenschaft und ermöglicht es uns schnell zu berechnen, ob ein AR (p) - Prozeß stationär ist oder nicht. Wir betrachten einige Beispiele, um diese Idee konkret zu machen: Random Walk - Der AR (1) Prozess mit alpha1 1 hat die charakteristische Gleichung theta 1 -. Offensichtlich hat diese Wurzel 1 und als solche ist nicht stationär. AR (1) - Wenn wir alpha1 frac wählen, erhalten wir xt frac x wt. Dies ergibt eine charakteristische Gleichung von 1 - frac 0, die eine Wurzel von 4 gt 1 hat und somit dieses AR (1) - Verfahren stationär ist. AR (2) - Wenn wir alpha1 alpha2 frac setzen, erhalten wir xt frac x frac x wt. Seine charakteristische Gleichung wird - frac () () 0, die zwei Wurzeln von 1, -2 ergibt. Da es sich um eine Einheitswurzel handelt, handelt es sich um eine nichtstationäre Serie. Andere AR (2) - Serien können jedoch stationär sein. Eigenschaften der zweiten Ordnung Der Mittelwert eines AR (p) - Prozesses ist Null. Allerdings sind die Autokovarianzen und Autokorrelationen durch rekursive Funktionen, bekannt als die Yule-Walker-Gleichungen gegeben. Die vollständigen Eigenschaften sind unten angegeben: begin mux E (xt) 0 end begin gammak sum p alpha gamma, enspace k 0 end begin rhok sum p alphai rho, enspace k 0 end Beachten Sie, dass es notwendig ist, die alpha-Parameterwerte vor zu kennen Berechnen der Autokorrelationen. Nachdem wir die Eigenschaften zweiter Ordnung angegeben haben, können wir verschiedene Ordnungen von AR (p) simulieren und die entsprechenden Korrektramme darstellen. Simulationen und Correlogramme Beginnen wir mit einem AR (1) - Prozess. Dies ist ähnlich einem zufälligen Weg, außer dass alpha1 nicht gleich Eins haben muss. Unser Modell wird alpha1 0,6 haben. Der R-Code für die Erzeugung dieser Simulation ist wie folgt gegeben: Beachten Sie, dass unsere for-Schleife von 2 bis 100, nicht 1 bis 100, als xt-1 ausgeführt wird, wenn t0 nicht indexierbar ist. Ähnlich für AR (p) Prozesse höherer Ordnung muss t in dieser Schleife von p bis 100 reichen. Wir können die Realisierung dieses Modells und seines zugehörigen Korrelogramms mit Hilfe der Layout-Funktion darstellen: Wir wollen nun versuchen, einen AR (p) - Prozeß an die soeben erzeugten simulierten Daten anzupassen, um zu sehen, ob wir die zugrunde liegenden Parameter wiederherstellen können. Sie können daran erinnern, dass wir ein ähnliches Verfahren in dem Artikel über weiße Rauschen und zufällige Wanderungen durchgeführt. Wie sich herausstellt, bietet R einen nützlichen Befehl ar, um autoregressive Modelle zu passen. Wir können diese Methode verwenden, um uns zuerst die beste Ordnung p des Modells zu erzählen (wie durch die AIC oben bestimmt) und liefern uns mit Parameterschätzungen für das alphai, die wir dann verwenden können, um Konfidenzintervalle zu bilden. Für die Vollständigkeit können wir die x-Reihe neu erstellen: Jetzt verwenden wir den ar-Befehl, um ein autoregressives Modell an unseren simulierten AR (1) - Prozess anzupassen, wobei die maximale Wahrscheinlichkeitsschätzung (MLE) als Anpassungsverfahren verwendet wird. Wir werden zunächst die beste erhaltene Ordnung extrahieren: Der ar Befehl hat erfolgreich festgestellt, dass unser zugrunde liegendes Zeitreihenmodell ein AR (1) Prozess ist. Wir erhalten dann die Alpha-Parameter (s) Schätzungen: Die MLE-Prozedur hat eine Schätzung erzeugt, Hut 0,523, die etwas niedriger als der wahre Wert von alpha1 0,6 ist. Schließlich können wir den Standardfehler (mit der asymptotischen Varianz) verwenden, um 95 Konfidenzintervalle um den / die zugrunde liegenden Parameter zu konstruieren. Um dies zu erreichen, erstellen wir einfach einen Vektor c (-1.96, 1.96) und multiplizieren ihn dann mit dem Standardfehler: Der wahre Parameter fällt in das 95 Konfidenzintervall, da wir von der Tatsache erwarten, dass wir die Realisierung aus dem Modell spezifisch generiert haben . Wie wäre es, wenn wir die alpha1 -0.6 ändern, können wir wie folgt ein AR (p) - Modell mit ar: Wiederherstellen wir die richtige Reihenfolge des Modells, mit einer sehr guten Schätzung Hut -0.597 von alpha1-0.6. Wir sehen auch, dass der wahre Parameter wieder innerhalb des Konfidenzintervalls liegt. Fügen wir mehr Komplexität zu unseren autoregressiven Prozessen hinzu, indem wir ein Modell der Ordnung 2 simulieren. Insbesondere setzen wir alpha10.666, setzen aber auch alpha2 -0.333. Heres den vollständigen Code, um die Realisierung zu simulieren und zu plotten, sowie das Korrelogram für eine solche Serie: Wie zuvor können wir sehen, dass sich das Korrelogramm signifikant von dem des weißen Rauschens unterscheidet, wie man es erwarten kann. Es gibt statistisch signifikante Peaks bei k1, k3 und k4. Wieder einmal wollten wir den ar-Befehl verwenden, um ein AR (p) - Modell zu unserer zugrundeliegenden AR (2) Realisierung zu passen. Die Prozedur ist ähnlich wie bei der AR (1) - Sitzung: Die korrekte Reihenfolge wurde wiederhergestellt und die Parameterschätzungen Hut 0.696 und Hut -0.395 sind nicht zu weit weg von den wahren Parameterwerten von alpha10.666 und alpha2-0.333. Beachten Sie, dass wir eine Konvergenz-Warnmeldung erhalten. Beachten Sie auch, dass R tatsächlich die arima0-Funktion verwendet, um das AR-Modell zu berechnen. AR (p) - Modelle sind ARIMA (p, 0, 0) - Modelle und somit ein AR-Modell ein Spezialfall von ARIMA ohne Moving Average (MA) - Komponente. Nun auch mit dem Befehl arima, um Konfidenzintervalle um mehrere Parameter zu erstellen, weshalb wir vernachlässigt haben, es hier zu tun. Nachdem wir nun einige simulierte Daten erstellt haben, ist es an der Zeit, die AR (p) - Modelle auf finanzielle Asset-Zeitreihen anzuwenden. Financial Data Amazon Inc. Lets beginnen mit dem Erwerb der Aktienkurs für Amazon (AMZN) mit quantmod wie im letzten Artikel: Die erste Aufgabe ist es, immer den Preis für eine kurze visuelle Inspektion. In diesem Fall auch die täglichen Schlusskurse: Youll bemerken, dass quantmod einige Formatierungen für uns, nämlich das Datum, und ein etwas hübscheres Diagramm als die üblichen R-Diagramme hinzufügt: Wir werden jetzt die logarithmische Rückkehr von AMZN und dann die erste nehmen Um die ursprüngliche Preisreihe von einer nichtstationären Serie auf eine (potentiell) stationäre zu konvertieren. Dies ermöglicht es uns, Äpfel mit Äpfeln zwischen Aktien, Indizes oder anderen Vermögenswerten zu vergleichen, für die Verwendung in späteren multivariaten Statistiken, wie bei der Berechnung einer Kovarianzmatrix. Wenn Sie eine ausführliche Erklärung, warum Protokoll Rückkehr bevorzugen möchten, werfen Sie einen Blick auf diesen Artikel über bei Quantivity. Erstellt eine neue Serie, amznrt. Um unsere differenzierten Logarithmen zurückzuhalten: Wieder einmal können wir die Serie darstellen: In diesem Stadium wollen wir das Korrektramm zeichnen. Sie suchten, um zu sehen, ob die differenzierte Reihe wie weißes Rauschen aussieht. Wenn es nicht dann gibt es unerklärliche serielle Korrelation, die durch ein autoregressives Modell erklärt werden könnte. Wir bemerken einen statistisch signifikanten Peak bei k2. Daher gibt es eine vernünftige Möglichkeit der unerklärlichen seriellen Korrelation. Seien Sie sich jedoch bewusst, dass dies aufgrund der Stichprobe. Als solches können wir versuchen, ein AR (p) - Modell an die Serie anzupassen und Konfidenzintervalle für die Parameter zu erzeugen: Die Anpassung des ar-autoregressiven Modells an die erste Reihe differenzierte Serien von Logarithmen erzeugt ein AR (2) - Modell mit Hut -0,0278 Und hat -0.0687. Ive auch die aysmptotische Varianz, so dass wir berechnen können Standard-Fehler für die Parameter und erzeugen Vertrauen Intervalle. Wir wollen sehen, ob null Teil des 95 Konfidenzintervalls ist, als ob es ist, es reduziert unser Vertrauen, dass wir ein echtes zugrunde liegendes AR (2) - Verfahren für die AMZN-Serie haben. Um die Konfidenzintervalle auf der 95-Ebene für jeden Parameter zu berechnen, verwenden wir die folgenden Befehle. Wir nehmen die Quadratwurzel des ersten Elements der asymptotischen Varianzmatrix auf, um einen Standardfehler zu erzeugen, dann erstellen Sie Konfidenzintervalle, indem wir sie mit -1,96 bzw. 1,96 für die 95-Ebene multiplizieren: Beachten Sie, dass dies bei Verwendung der Arima-Funktion einfacher wird , Aber gut bis Teil 2 warten, bevor es richtig eingeführt. Somit können wir sehen, dass für alpha1 Null innerhalb des Konfidenzintervalls enthalten ist, während für alpha2 Null nicht im Konfidenzintervall enthalten ist. Daher sollten wir sehr vorsichtig sein, wenn wir denken, dass wir tatsächlich ein zugrundeliegendes generatives AR (2) - Modell für AMZN haben. Insbesondere berücksichtigen wir, dass das autoregressive Modell nicht das Volatilitäts-Clustering berücksichtigt, was zu einer Clusterbildung der seriellen Korrelation in finanziellen Zeitreihen führt. Wenn wir die ARCH - und GARCH-Modelle in späteren Artikeln betrachten, werden wir dies berücksichtigen. Wenn wir kommen, um die volle Arima-Funktion in den nächsten Artikel verwenden, werden wir Vorhersagen der täglichen Log-Preis-Serie, um uns zu ermöglichen, Trading-Signale zu schaffen. SampP500 US Equity Index Zusammen mit einzelnen Aktien können wir auch den US Equity Index, den SampP500, berücksichtigen. Lets alle vorherigen Befehle zu dieser Serie und produzieren die Plots wie zuvor: Wir können die Preise: Wie zuvor, erstellen Sie auch die erste Ordnung Differenz der Log-Schlusskurse: Wieder einmal können wir die Serie plotten: Es ist klar Aus diesem Diagramm, dass die Volatilität nicht in der Zeit stationär ist. Dies spiegelt sich auch in der Darstellung des Korrelogramms wider. Es gibt viele Peaks, einschließlich k1 und k2, die statistisch signifikant über ein weißes Rauschmodell hinausgehen. Darüber hinaus sehen wir Hinweise auf Langzeitgedächtnisprozesse, da es einige statistisch signifikante Peaks bei k16, k18 und k21 gibt: Letztendlich benötigen wir ein komplexeres Modell als ein autoregressives Modell der Ordnung p. Allerdings können wir in diesem Stadium noch versuchen, ein solches Modell anzupassen. Wir sehen, was wir bekommen, wenn wir dies tun: Mit ar erzeugt ein AR (22) - Modell, dh ein Modell mit 22 Nicht-Null-Parametern Was bedeutet dies sagen uns Es ist bezeichnend, dass es wahrscheinlich viel mehr Komplexität in der seriellen Korrelation als Ein einfaches lineares Modell der vergangenen Preise kann wirklich erklären. Jedoch wussten wir dies bereits, weil wir sehen können, dass es eine signifikante serielle Korrelation in der Volatilität gibt. Betrachten wir zum Beispiel die sehr volatile Periode um 2008. Dies motiviert den nächsten Satz von Modellen, nämlich den Moving Average MA (q) und den autoregressiven Moving Average ARMA (p, q). Nun lernen Sie über diese beiden in Teil 2 dieses Artikels. Wie wir immer wieder erwähnen, werden diese letztlich zur ARIMA - und GARCH-Modellfamilie führen, die beide eine viel bessere Anpassung an die serielle Korrelationskomplexität des Samp500 bieten. Dadurch können wir unsere Prognosen signifikant verbessern und letztendlich rentabler gestalten. Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Unterlassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Darüber hinaus kann diese Website erhalten finanzielle Entschädigung von den Unternehmen erwähnt durch Werbung, Affiliate-Programme oder auf andere Weise. Preise und Angebote von Inserenten auf dieser Website ändern sich häufig, manchmal ohne Vorankündigung. Während wir uns bemühen, rechtzeitige und genaue Informationen aufrechtzuerhalten, können Angebot Details veraltet sein. Besucher sollten daher die Bedingungen dieser Angebote vor der Teilnahme an ihnen überprüfen. Der Autor und sein Herausgeber haften nicht für die Aktualisierung der Informationen und haften nicht für Inhalte, Produkte und Dienstleistungen von Drittanbietern, auch wenn sie über Hyperlinks und Anzeigen auf dieser Website aufgerufen werden. GEOS 585A, Angewandte Zeitreihenanalyse Telefon: (520) 621-3457 Fax : (520) 621-8229 Sprechzeiten Mittwoch, 1: 30-5 PM (bitte per E-Mail an Besprechungstermine) Kursbeschreibung Analysewerkzeuge im Zeit - und Frequenzbereich werden im Rahmen von Stichproben-Zeitreihen eingeführt. Ich benutze einen Datensatz von Beispiel Zeitreihen, um Methoden zu veranschaulichen, und ändern Sie den Datensatz jedes Semester der Kurs angeboten wird. Dieses Beispiel stammt aus einem NSF-Projekt zur Schneedecke-Variabilität im amerikanischen Flussgebiet von Kalifornien. Dieser Datensatz umfasst Baumring-Chronologien, Klima-Indizes, Stromfluss-Aufzeichnungen und Zeitreihen von Schnee-Wasser-Äquivalenten gemessen an Schneestatus-Stationen. Sie werden Ihre eigenen Zeitreihen für den Einsatz im Kurs zusammenstellen. Diese können aus Ihrem eigenen Forschungsprojekt stammen. Zurück zum Seitenanfang Dies ist ein Einführungskurs mit Schwerpunkt auf praktischen Aspekten der Zeitreihenanalyse. Methoden werden hierarchisch eingeführt - beginnend mit Terminologie und explorativen Grafiken, Umzug in deskriptive Statistiken, und endet mit grundlegenden Modellierung Verfahren. Zu den Themen gehören Detrending, Filtering, autoregressive Modellierung, Spektralanalyse und Regression. Sie verbringen die ersten zwei Wochen damit, Matlab auf Ihrem Laptop zu installieren, eine grundlegende Einführung in Matlab zu erhalten und Ihren Datensatz der Zeitreihen für den Kurs zusammenzustellen. Dann werden zwölf Themen oder Lektionen abgedeckt, die jeweils einer Woche oder zwei Unterrichtsstunden zugewiesen sind. Zwölf Klassenzuordnungen gehen mit den Themen einher. Zuordnungen bestehen darin, Methoden anzuwenden, indem man vorgefertigte Matlab-Skripte (Programme) auf Ihrer Zeitreihe ausführt und die Ergebnisse interpretiert. Der Kurs 3 Credits für Studenten auf dem Campus an der Universität von Arizona in Tucson, und 1 Kredit für Online-Studenten. Jede Zeitreihe mit einem konstanten Zeitinkrement (z. B. Tag, Monat, Jahr) ist ein Kandidat für den Kurs. Beispiele sind tägliche Niederschlagsmessungen, saisonale Gesamtströmung, Sommermitteltemperatur, Jahresindizes des Baumwachstums, Indizes der Meeresoberflächentemperatur und die tägliche Höhenzunahme eines Strauches. Als Ergebnis der Einnahme des Kurses sollten Sie: verstehen grundlegende Zeitreihen Konzepte und Terminologie in der Lage sein, Zeitreihen Methoden auswählen, um Ziele in der Lage sein kritisch zu bewerten wissenschaftliche Literatur mit der Zeitreihe Methoden umfassen ein verbessertes Verständnis der Zeitreihe Eigenschaften Ihrer Eigener Datensatz in der Lage, Ergebnisse der Zeitreihenanalyse prägnant in schriftlicher Form zusammenzufassen Voraussetzungen Ein einführender Statistikkurs Zugang zu einem Laptop-Computer, auf dem Matlab installiert werden kann Erlaubnis des Instruktors (Studenten und Studenten) Weitere Voraussetzungen Wenn Sie an einer Universität sind Arizona (UA) Schüler auf dem Campus in Tucson, haben Sie Zugang zu Matlab und erforderlichen Toolboxes durch eine UA-Site-Lizenz als keine Kosten-Software. Keine vorherige Erfahrung mit Matlab ist erforderlich, und Computer-Programmierung ist nicht Teil des Kurses. Wenn Sie ein on-line, nicht auf Campus an der UA sind, können Sie den Kurs im Frühjahr 2017 Semester als iCourse nehmen. Sie müssen sicherstellen, dass Sie Zugriff auf Matlab und die erforderlichen Toolboxes (siehe unten) an Ihrem Standort haben. Zugang zum Internet. Es gibt keinen Papieraustausch im Kurs. Anmerkungen und Abtretungen werden elektronisch ausgetauscht und abgeschlossene Aufträge werden elektronisch über das System der Universität von Arizona Desire2Learn (D2L) übermittelt. Matlab Ausführung. Ich aktualisiere Scripts und Funktionen jetzt und dann mit dem aktuellen Standlizenz-Release von Matlab, und die Updates können Matlab-Funktionen verwenden, die in früheren Matlab-Versionen nicht verfügbar sind. Für 2017 verwende ich Matlab Version 9.1.0.441655 (R2016b). Wenn Sie eine frühere Version verwenden, stellen Sie sicher, dass es Matlab Release 2007b oder höher ist. Zusätzlich zum Haupt-Matlab-Paket werden vier Toolboxen verwendet: Statistik, Signalverarbeitung, Systemidentifikation und entweder Spline (Matlab Release 2010a oder früher) oder Curve Fitting (Matlab Release 2010b oder höher) Verfügbarkeit Der Kurs wird im Frühjahrssemester angeboten Jedes Jahr (2015, 2017, usw.). Es ist offen für Absolventen Studenten und kann auch von Studenten absolviert werden Senioren mit Genehmigung des Instruktors. Die Einschreibung der gebietsansässigen UA-Studenten ist für das Frühjahrssemester 2017 auf 18 begrenzt. Eine kleine Anzahl von Online-Schülern wurde in der Regel auch auf verschiedene Weise unterrichtet. Der Weg ist jetzt der iCourse Veranstaltungsort oben beschrieben. Zurück zum Seitenanfang Kursdarstellung (Lektionen) Der Zeitplan erlaubt in der Regel etwa zwei Wochen, um Daten zu sammeln und mit Matlab vertraut zu werden. Danach wird eine Woche (zwei Unterrichtsstunden) jedem der 12 Lektionen oder Themen gewidmet. Klasse trifft sich am Dienstag und Donnerstag. Ein neues Thema wird am Dienstag eingeführt und am folgenden Donnerstag fortgesetzt. Donnerstags Klasse endet mit einer Zuweisung und eine Demonstration der Ausführung des Skripts auf meine Beispieldaten. Die Abtretung ist fällig (muss von Ihnen an D2L hochgeladen werden) vor Kurs am folgenden Dienstag. Die erste 12 Stunden dieser Dienstage Klasse wird für die geführte Selbsteinschätzung und Einstufung der Zuweisung und das Hochladen von bewerteten (abgestuften) Aufgaben an D2L verwendet. Die restlichen 45 Minuten werden verwendet, um das nächste Thema einzuführen. Sie müssen Ihren Laptop zur Klasse am Dienstag mitbringen. Die 12 Lektionen oder Themen, die in dem Kurs abgedeckt werden, sind in der Klasse skizziert. Online-Studenten werden erwartet, dass sie den gleichen Zeitplan der Einreichung Aufgaben als die ansässigen Studenten folgen, haben aber keinen Zugang zu den Vorlesungen. Eingereichte Zuordnungen von Online-Studenten werden nicht selbst bewertet, sondern von mir abgestuft. Online-Studenten sollten Zugriff auf D2L für die Einreichung von Aufgaben haben. Frühjahr 2017 Semester. Klasse trifft zweimal pro Woche für 75 Minuten Sitzungen, 9: 00-10: 15 Uhr TTh, im Raum 424 (Konferenzraum) von Bryant Bannister Tree-Ring Building (Gebäude 45B). Der erste Tag der Klasse ist Jan 12 (Do). Der letzte Tag der Klasse ist der 2. Mai (Di). Es gibt keine Klasse während der Woche des Spring Break (Mar 11-19). Sie analysieren die Daten der eigenen Wahl in den Klassenzuordnungen. Wie in der Kursübersicht angegeben. Gibt es viel Flexibilität in der Wahl der Zeitreihen. Ich werde einen Katalog von geeigneten Zeitreihen zur Verfügung stellen, aber es ist am besten, den Kurs auf Ihren eigenen Datensatz zu fokussieren. Die erste Aufgabe besteht darin, ein Skript auszuführen, in dem die Daten und Metadaten gespeichert werden, die Sie in der mat-Datei, dem nativen Format von Matlab, gesammelt haben. Nachfolgende Zuordnungen zeichnen Daten aus der Matte-Datei für die Zeitreihenanalyse. Aufgaben Die 12 Themen werden nach dem Semester, das ca. 15 Wochen umfasst, nacheinander angesprochen. Über die ersten zwei Wochen (4-5 Klasse Meetings) werden für einige einleitende Material verwendet, die Entscheidung über und das Sammeln Ihrer Zeitreihen, und bereitet Matlab auf Ihrem Laptop. Jede Woche danach wird einem der 12 Kursthemen gewidmet. Jede Aufgabe besteht darin, ein Kapitel von Notizen zu lesen und ein zugehöriges Matlab-Skript auszuführen, das ausgewählte Methoden der Zeitreihenanalyse auf Ihre Daten anwendet und Ihre Interpretation der Ergebnisse schreibt. Zuordnungen erfordern das Verständnis der Vortragsthemen sowie die Fähigkeit, den Computer und die Software zu benutzen. Sie übermitteln Aufgaben, indem Sie sie an D2L vor der Dienstag-Klasse, wenn das nächste Thema eingeführt wird. Die erste halbe Stunde dieser Dienstagsklasse wird für die geführte Selbstbewertung der Aufgabe verwendet, darunter das Hochladen von selbstabgestuften pdfs zu D2L. Ich überprüfe eine oder mehrere der Self-graded Aufgaben pro Woche (durch zufällige Auswahl), und kann die Note ändern. Um auf Zuordnungen zuzugreifen, klicken Sie auf Zuordnungsdateien. Die Lesungen bestehen aus Klassennoten. Es gibt zwölf Sätze. pdf Anmerkungsakten. Eine für jeden der Kursthemen. Diese. pdf-Dateien können über das Web zugegriffen werden. Weitere Informationen zu den verschiedenen Themen des Kurses finden Sie am Ende eines jeden Kapitels der Notizen. Die Noten basieren ausschließlich auf den Leistungen, die jeweils 10 Punkte wert sind. Es gibt keine Prüfungen. Die Gesamtzahl der möglichen Punkte für die 12 Themen beträgt 12 x 10 120. Eine Note von A benötigt 90-100 Prozent der möglichen Punkte. Eine Klasse von B erfordert 80-90 Prozent. Eine Klasse von C erfordert 70-80 Prozent und so weiter. Die Noten werden durch Selbsteinschätzung geleitet von einer von mir in der Klasse präsentierten Rubrik im Kontext meiner Analyse des Beispieldatensatzes zugeordnet. Die Anzahl der verdienten Punkte sollte am Anfang jeder abgestuften Aufgabe angegeben werden. Mar. Ihre Markierung der Aufgabe sollte die Annotation von Abschlägen unter Bezugnahme auf einen in der Klasse verzeichneten Rubrikpunkt (z. B. -0,5, rp3) enthalten. Aufgaben dieses Semesters werden am Donnerstag durchgeführt und am darauffolgenden Dienstag in der Klasse bewertet. Dies ergibt 4 Tage, um die Zuweisung an D2L abzuschließen und hochzuladen. D2L verfolgt die Zeit, zu der die Zuweisung hochgeladen wurde, und es wird keine Strafe veranschlagt, solange sie vor 9.00 Uhr am Dienstag die Selbstbewertung vorgenommen wird. Wenn Sie geplant sind, von der Klasse entfernt zu sein (zB Teilnahme an einer Konferenz), sind Sie verantwortlich für das Hochladen Ihrer Aufgabe vor 9.00 Uhr am Dienstag ist es, und für das Hochladen der selbst-eingestuften Version von 10.15 Uhr am selben Tag. Mit anderen Worten, der Zeitplan ist der gleiche wie für die Schüler, die in der Klasse sind. Wenn ein Notfall auftaucht (z. B. erhalten Sie die Grippe) und kann nicht die Zuweisung oder Beurteilung im Zeitplan, senden Sie mir bitte eine E-Mail und ich werde eine Unterkunft vorschlagen. Andernfalls wird eine Strafe von 5 Punkten (die Hälfte der insgesamt verfügbaren Punkte für die Übung) beurteilt. Einführung in die Zeitreihen, die Daten für die Analyse organisieren Eine Zeitreihe ist weitgehend definiert als jede Serie von Messungen, die zu verschiedenen Zeiten aufgenommen wurden. Einige grundlegende beschreibende Kategorien von Zeitreihen sind 1) lange vs kurze, 2) gleichmäßige Zeit-vs unebene Zeit-Schritt, 3) diskrete vs kontinuierliche, 4) periodische vs aperiodischen, 5) stationären vs nichtstationären und 6) univariaten vs multivariaten . Diese Eigenschaften sowie die zeitliche Überlappung mehrerer Reihen müssen bei der Auswahl eines Datensatzes für die Analyse in diesem Kurs berücksichtigt werden. Sie analysieren Ihre eigenen Zeitreihen im Kurs. Die ersten Schritte sind, diese Reihen auszuwählen und sie in Strukturen in einer Matte-Datei zu speichern. Gleichförmigkeit in der Lagerung am Anfang ist für diese Klasse bequem, so dass Aufmerksamkeit dann auf das Verständnis Zeitreihen Methoden eher Debugging Computer-Code, um die Daten für die Analyse bereit. Eine Struktur ist eine Matlab-Variable ähnlich einer Datenbank, in der der Inhalt durch Textfeldbezeichner aufgerufen wird. Eine Struktur kann Daten von verschiedenen Formen speichern. Zum Beispiel kann ein Feld eine numerische Zeitreihenmatrix sein, ein anderes kann ein Text sein, der die Datenquelle beschreibt usw. In der ersten Zuweisung werden Sie ein Matlab-Skript ausführen, das Ihre Zeitreihen und Metadaten aus ascii-Textdateien liest, die Sie vorher vorbereiten Speichert die Daten in Matlab-Strukturen in einer einzigen Matte-Datei. In nachfolgenden Zuordnungen werden Zeitreihenmethoden auf die Daten angewendet, indem Sie Matlab-Skripts und Funktionen ausführen, die die Matte-Datei laden und auf diese Strukturen arbeiten. Wählen Sie Beispieldaten, die für Zuweisungen während des Kurses verwendet werden sollen Lesen Sie: (1) Notes1.pdf, (2) Erste Schritte, auf die über das MATLAB-Hilfe-Menü zugegriffen werden kann Antwort: Führen Sie das Skript geosa1.m aus und beantworten Sie die Fragen in der Datei in a1.pdf Wie Sie die Kategorien von Zeitreihen unterscheiden können So starten und beenden Sie MATLAB So geben Sie MATLAB-Befehle an der Eingabeaufforderung ein So erstellen Sie Zahlen im Bildfenster Wie Sie Daten in Ihren Textverarbeiter exportieren Unterschied zwischen MATLAB-Skripten und Funktionen Scripts und Funktionen ausführen Die Form einer MATLAB-Strukturvariable Wie man das Skript geosa1.m anwendet, um einen Satz von Zeitreihen und Metadaten in MATLAB-Strukturen zu erhalten Die Wahrscheinlichkeitsverteilung einer Zeitreihe beschreibt die Wahrscheinlichkeit, dass eine Beobachtung in einen bestimmten Wertebereich fällt. Eine empirische Wahrscheinlichkeitsverteilung für eine Zeitreihe kann durch Sortieren und Rangieren der Werte der Reihe erreicht werden. Quantile und Perzentile sind nützliche Statistiken, die direkt aus der empirischen Wahrscheinlichkeitsverteilung gewonnen werden können. Viele parametrische statistische Tests gehen davon aus, dass die Zeitreihe eine Stichprobe aus einer Population mit einer bestimmten Populationswahrscheinlichkeitsverteilung ist. Oft wird die Bevölkerung als normal angenommen. Dieses Kapitel enthält einige grundlegende Definitionen, Statistiken und Diagramme in Bezug auf die Wahrscheinlichkeitsverteilung. Zusätzlich wird ein Test (Lilliefors-Test) eingeführt, um zu testen, ob eine Probe aus einer Normalverteilung mit nicht spezifiziertem Mittelwert und Varianz stammt. Antwort: Führen Sie das Skript geosa2.m aus und beantworten Sie die in der Datei aufgeführten Fragen in a2.pdf Begriffsbestimmungen: Zeitreihen, Stationarität, Wahrscheinlichkeitsdichte, Verteilungsfunktion, Quantil, Streubreite, Lage, Mittelwert, Standardabweichung und Schiefe Die wertvollste Graphik in der Zeitreihenanalyse - der Zeitreihenplot Wie man das Kastenplot, das Histogramm und das Normalwahrscheinlichkeitsdiagramm interpretiert Parameter und Form der Normalverteilung Lilliefors - Test auf Normalität: grafische Beschreibung, Annahmen, Null - und alternative Hypothesen Caveat on Interpretation von Bedeutung von statistischen Tests, wenn Zeitreihen nicht zufällig in der Zeit Wie geos2.m angewendet werden, um die Verteilungseigenschaften einer Zeitreihe zu überprüfen und die Serie auf Normalität zu testen Autokorrelation bezieht sich auf die Korrelation einer Zeitreihe mit ihren eigenen Vergangenheits - und Zukunftswerten. Autokorrelation wird manchmal auch als verzögerte Korrelation oder serielle Korrelation bezeichnet. Die sich auf die Korrelation zwischen Mitgliedern einer Reihe von Zahlen in der Zeit angeordnet. Positive Autokorrelation kann als eine spezifische Form der Persistenz betrachtet werden. Eine Tendenz eines Systems, von einer Beobachtung zur nächsten in demselben Zustand zu bleiben. Zum Beispiel ist die Wahrscheinlichkeit von morgen regnerisch, wenn heute regnerisch ist, als wenn heute trocken ist. Geophysikalische Zeitreihen werden häufig aufgrund von Trägheits - oder Verschleppungsprozessen im physikalischen System autokorreliert. Zum Beispiel könnten die sich langsam entwickelnden und sich bewegenden Niederdrucksysteme in der Atmosphäre dem täglichen Regenfall Beharrlichkeit verleihen. Oder die langsame Entwässerung der Grundwasservorkommen könnte eine Verbindung mit den aufeinanderfolgenden jährlichen Flüssen eines Flusses vermitteln. Oder gespeicherte Photosynthate können eine Korrelation zu aufeinanderfolgenden Jahreswerten von Baumringindizes vermitteln. Autokorrelation kompliziert die Anwendung von statistischen Tests durch die Verringerung der Anzahl der unabhängigen Beobachtungen. Die Autokorrelation kann auch die Identifikation einer signifikanten Kovarianz oder Korrelation zwischen Zeitreihen (z. B. Fällung mit einer Baumringreihe) komplizieren. Autokorrelation kann für Vorhersagen ausgenutzt werden: eine autokorrelierte Zeitreihe ist vorhersehbar, probabilistisch, weil zukünftige Werte von aktuellen und vergangenen Werten abhängen. Drei Werkzeuge zur Beurteilung der Autokorrelation einer Zeitreihe sind (1) das Zeitreihenplot, (2) das verzögerte Scatterplot und (3) die Autokorrelationsfunktion. Antwort: Führen Sie das Skript geosa3.m aus und beantworten Sie die Fragen in der Datei in a3.pdf Definitionen: Autokorrelation, Persistenz, serielle Korrelation, Autokorrelationsfunktion (acf), Autokovarianzfunktion (acvf), effektive Stichprobengröße Erkennen der Autokorrelation in der Zeitreihe Plot Wie benutzt man verzögerte Scatterplots um die Autokorrelation zu beurteilen Wie interpretiert man die geplottete acf Wie man die Stichprobengröße für Autokorrelation anpasst Mathematische Definition der Autokorrelationsfunktion Begriffe, die die Breite des berechneten Konfidenzbandes der ACF beeinflussen Der Unterschied zwischen einem einseitigen und zwei - sided-Test der signifikanten Lag-1 Autokorrelation Wie geos3.m anwenden, um die Autokorrelation einer Zeitreihe zu untersuchen Das Spektrum einer Zeitreihe ist die Verteilung der Varianz der Serie als Funktion der Frequenz. Aufgabe der Spektralanalyse ist es, das Spektrum abzuschätzen und zu untersuchen. Das Spektrum enthält keine neuen Informationen darüber hinaus in der Autokovarianzfunktion (acvf), und tatsächlich kann das Spektrum mathematisch durch Transformation der acvf berechnet werden. Aber das Spektrum und acvf präsentieren die Informationen über die Varianz der Zeitreihe aus komplementären Gesichtspunkten. Die acf fasst die Informationen im Zeitbereich und das Spektrum im Frequenzbereich zusammen. Antwort: Führen Sie das Skript geosa4.m aus und beantworten Sie die in der Datei aufgeführten Fragen in a4.pdf Definitionen: Frequenz, Periode, Wellenlänge, Spektrum, Nyquistfrequenz, Fourierfrequenzen, Bandbreite Gründe für die Analyse eines Spektrums Wie interpretiert man ein gezeichnetes Spektrum in Bezug auf die Verteilung? Der Varianz Die Differenz zwischen einem Spektrum und einem normierten Spektrum Definition des Lagfensters, wie es bei der Schätzung des Spektrums durch die Blackman-Tukey-Methode verwendet wird Wie die Wahl des Verzögerungsfensters die Bandbreite und die Varianz des geschätzten Spektrums beeinflusst Wie definiere ich ein weißes Rauschspektrum? Und autoregressive Spektrum Wie skizzieren Sie einige typische Spektralformen: weißes Rauschen, autoregressive, quasi-periodische, niederfrequente, hochfrequente Wie anwenden geosa4.m, um das Spektrum einer Zeitreihe durch die Blackman-Tukey-Methode Autoregressive-Moving zu analysieren Durchschnittliche (ARMA) Modellierung Autoregressive Moving Average (ARMA) Modelle sind mathematische Modelle der Persistenz, oder Autokorrelation, in einer Zeitreihe. ARMA-Modelle sind weit verbreitet in der Hydrologie, Dendrochronologie, Ökonometrie und anderen Bereichen eingesetzt. Es gibt mehrere mögliche Gründe für die Anpassung von ARMA-Modellen an Daten. Modellierung kann dazu beitragen, das physische System zu verstehen, indem sie etwas über den physikalischen Prozess, der Persistenz in der Serie baut aufzudecken. Beispielsweise kann ein einfaches physikalisches Wasserbilanzmodell mit Begriffen für Niederschlagseingabe, Verdunstung, Infiltration und Grundwasserspeicherung gezeigt werden, um eine Stromflussreihe zu erhalten, die einer bestimmten Form des ARMA-Modells folgt. ARMA-Modelle können auch verwendet werden, um das Verhalten einer Zeitreihe aus vergangenen Werten allein vorherzusagen. Eine solche Vorhersage kann als Basislinie verwendet werden, um die mögliche Bedeutung anderer Variablen für das System zu bewerten. ARMA-Modelle sind weit verbreitet für die Vorhersage der wirtschaftlichen und industriellen Zeitreihen. ARMA-Modelle können auch verwendet werden, um Persistenz zu entfernen. In der Dendrochronologie wird beispielsweise die ARMA-Modellierung routinemäßig angewendet, um Rest-Zeithorizonte Zeitreihen des Ringbreitenindex ohne Abhängigkeit von vergangenen Werten zu erzeugen. Dieser Vorgang, der Prewhitening genannt wird, soll die biologisch bedingte Persistenz aus der Reihe entfernen, so dass das Residuum besser geeignet ist, den Einfluss von Klima und anderen äußeren Umweltfaktoren auf das Wachstum des Baumes zu untersuchen. Antwort: Führen Sie das Skript geosa5.m aus und beantworten Sie die Fragen in der Datei in a5.pdf Die funktionale Form der einfachsten AR - und ARMA-Modelle Warum solche Modelle als autoregressiver oder gleitender Durchschnitt bezeichnet werden Die drei Schritte in der ARMA-Modellierung Die Diagnosemuster der Autokorrelation und partielle Autokorrelationsfunktionen für eine AR (1) Zeitreihe Definition des endgültigen Vorhersagefehlers (FPE) und wie das FPE verwendet wird, um ein bestes ARMA-Modell auszuwählen Definition der Portmanteau-Statistik und wie es und die acf der Residuen sein können Um zu untersuchen, ob ein ARMA-Modell die Persistenz in einer Reihe effektiv modelliert. Wie das Prinzip der Parsimonie bei der ARMA-Modellierung angewendet wird Definition des Prewhitening Wie Prewhitening (1) das Auftreten einer Zeitreihe und (2) das Spektrum einer Zeitreihe beeinflusst Wie man geosa5.m auf ARMA-Modell eine Zeitreihe anwendet Spektrale Analyse - geglättete Periodogrammmethode Es gibt viele Methoden, um das Spektrum einer Zeitreihe abzuschätzen. In Lektion 4 betrachteten wir die Blackman-Tukey-Methode, die auf der Fourier-Transformation der geglätteten, abgeschnittenen Autokovarianz-Funktion basiert. Das geglättete Periodogrammverfahren umgibt die Transformation der acf durch direkte Fourier-Transformation der Zeitreihen und Berechnung des Rohperiodogramms, eine Funktion, die erstmals in den 1800er Jahren zum Studium von Zeitreihen eingeführt wurde. Das Rohperiodogramm wird durch Anwenden von Kombinationen oder Spannen eines oder mehrerer Filter geglättet, um das geschätzte Spektrum zu erzeugen. Die Glätte, Auflösung und Varianz der Spektralschätzungen wird durch die Wahl der Filter gesteuert. Eine akzentuierte Glättung des Rohperiodogramms erzeugt ein zugrundeliegendes, glatt variierendes Spektrum oder Nullkontinuum, gegen das spektrale Peaks auf Signifikanz geprüft werden können. Dieser Ansatz ist eine Alternative zu der Spezifikation einer funktionalen Form des Nullkontinuums (z. B. AR-Spektrum). Antwort: Führen Sie das Skript geosa6.m aus und beantworten Sie die Fragen, die in der Datei in a6.pdf aufgeführt sind. Definitionen: rohes Periodogramm, Daniell-Filter, Filterspanne, Nullkontinuumsglätte, Stabilität und Auflösung der Spektrumverjüngung, Polsterung, Leckage Die vier Hauptschritte bei der Schätzung Das Spektrum durch das geglättete Periodogramm Wie die Auswirkung der Filterauswahl auf die Glätte, Stabilität und Auflösung des Spektrums reicht Wie das Nullkontinuum bei der Prüfung auf Signifikanz der Spektralpeaks verwendet wird Wie kann geosa6.m angewendet werden, um das Spektrum einer Zeit abzuschätzen Serie durch das geglättete Periodogrammverfahren und Testen auf Periodizität bei einer spezifizierten Frequenz Tendenz in einer Zeitreihe ist eine langsame, allmähliche Änderung in irgendeiner Eigenschaft der Reihe über das gesamte Intervall, das untersucht wird. Der Trend ist manchmal lose definiert als eine langfristige Veränderung im Mittel (Abbildung 7.1), kann sich aber auch auf Veränderungen in anderen statistischen Eigenschaften beziehen. Beispielsweise haben die Baumring-Reihen der gemessenen Ringbreite häufig einen Trend in der Varianz sowie im Mittel (Abbildung 7.2). In der traditionellen Zeitreihenanalyse wurde eine Zeitreihe in Trend-, Saison - oder periodische Komponenten und irreguläre Fluktuationen zerlegt, und die verschiedenen Teile wurden getrennt untersucht. Moderne Analysentechniken behandeln die Reihe häufig ohne eine solche routinemäßige Zersetzung, aber eine getrennte Betrachtung des Trends ist immer noch oft erforderlich. Detrending ist die statistische oder mathematische Operation der Entfernung von Trend aus der Serie. Detrending wird oft angewendet, um ein Merkmal zu entfernen, das dazu gedacht ist, die Beziehungen des Interesses zu verzerren oder zu verdecken. In der Klimatologie beispielsweise könnte ein Temperaturverlauf aufgrund einer städtischen Erwärmung eine Beziehung zwischen Trübheit und Lufttemperatur verdecken. Detrending wird auch manchmal als Vorverarbeitungsschritt verwendet, um Zeitreihen für die Analyse durch Verfahren vorzubereiten, die Stationarität übernehmen. Viele alternative Methoden stehen zur Detrending zur Verfügung. Ein einfacher linearer Trend im Mittel kann durch Subtrahieren einer Gerade mit der kleinsten Quadrate entfernt werden. Kompliziertere Trends können unterschiedliche Verfahren erfordern. Beispielsweise wird der kubische Glättungsspline üblicherweise in der Dendrochronologie zum Anpassen und Entfernen von Ring-Breiten-Tendenzen verwendet, die nicht linear oder nicht sogar monoton zunehmend oder mit der Zeit abnehmen können. Bei der Untersuchung und Beseitigung der Tendenz ist es wichtig, den Effekt der Detrierung auf die spektralen Eigenschaften der Zeitreihen zu verstehen. Dieser Effekt kann durch den Frequenzgang der Detrending-Funktion zusammengefasst werden. Antwort: Führen Sie das Skript geosa7.m aus und beantworten Sie die Fragen, die in der Datei in a7.pdf aufgelistet sind. Definitionen: Frequenzgang, Spline, Kubischglättung Spline Pro und Contra des Verhältnisses vs Unterschiedsverzerrung Interpretation der Ausdrücke in der Gleichung für den Splineparameter Spline interaktiv vom erwünschten Frequenzgang Wie das Spektrum durch Detrending beeinflusst wird Wie die Bedeutung der Trendkomponente in einer Zeitreihe zu messen ist Wie man geosa7.m anwendet, um interaktiv eine Spline-Detrending-Funktion zu wählen und eine Zeitreihe zu trennen Das geschätzte Spektrum einer Zeit Reihe gibt die Verteilung der Varianz als eine Funktion der Frequenz. Je nach dem Zweck der Analyse können einige Frequenzen von größerem Interesse sein als andere, und es kann hilfreich sein, die Amplitude der Schwankungen bei anderen Frequenzen zu reduzieren, indem man sie statistisch filtert, bevor man die Serie betrachtet und analysiert. Zum Beispiel können die hochfrequenten (Jahres-zu-Jahr-) Schwankungen in einer gemessenen Entladungsaufzeichnung einer Wasserscheide relativ unwichtig für die Wasserversorgung in einem Becken mit großen Reservoirs sein, die mehrere Jahre des mittleren Jahresabflusses speichern können. Wo niederfrequente Schwankungen von Interesse sind, ist es wünschenswert, die Entladungsaufzeichnung zu glätten, um kurzzeitige Fluktuationen zu eliminieren oder zu reduzieren, bevor die Entladungsaufzeichnung verwendet wird, um die Wichtigkeit von klimatischen Variationen der Wasserversorgung zu untersuchen. Die Glättung ist eine Form der Filterung, die eine Zeitreihe erzeugt, in der die Wichtigkeit der Spektralkomponenten bei hohen Frequenzen verringert wird. Elektrotechniker nennen diesen Filtertyp einen Tiefpaßfilter, da die niederfrequenten Schwankungen durch das Filter hindurchgehen können. In einem Tiefpaßfilter werden die niederfrequenten (langperiodischen) Wellen kaum durch die Glättung beeinflußt. Es ist auch möglich, eine Serie so zu filtern, dass die niederfrequenten Schwankungen reduziert werden und die hochfrequenten Schwankungen unbeeinflusst bleiben. Dieser Filtertyp wird als Hochpaßfilter bezeichnet. Detrending ist eine Form der Hochpaßfilterung: Die eingebaute Trendlinie verfolgt die niedrigsten Frequenzen, und die Residuen aus der Trendlinie haben diese niedrigen Frequenzen entfernt. Eine dritte Art von Filterung, die Bandpaßfilterung genannt wird, verringert oder filtert sowohl hohe als auch tiefe Frequenzen und lässt ein gewisses Zwischenfrequenzband relativ unberührt. In dieser Lektion decken wir mehrere Methoden der Glättung oder Tiefpassfilterung. Wir haben bereits diskutiert, wie der kubische Glättungsspline für diesen Zweck nützlich sein könnte. Vier andere Arten von Filtern werden hier diskutiert: 1) einfacher gleitender Durchschnitt, 2) binomialer, 3) gaußscher und 4) fensterartiger (Hamming-Verfahren). Überlegungen bei der Auswahl eines Typs eines Tiefpassfilters sind der gewünschte Frequenzgang und die Spanne oder Breite des Filters. Antwort: Führen Sie das Skript geosa8.m aus und beantworten Sie die Fragen, die in der Datei in a8.pdf aufgeführt sind. Definitionen: Filter, Filtergewichte, Filterspanne, Tiefpaßfilter, Hochpaßfilter, Bandpassfilter Frequenzgang eines Filters Wie der Gaußsche Filter bezieht sich auf die Gaußsche Verteilung Wie man einen einfachen Binomialfilter manuell (ohne den Computer) aufbaut Wie man die Frequenzantwortfunktion in Bezug auf ein System mit sinusförmigem Eingang und Ausgang beschreibt Wie man geosa8.m anwendet, um interaktiv ein Gauß-Binomial zu entwerfen Oder Hamming-Fenster-Tiefpassfilter für eine Zeitreihe Der Pearson-Produkt-Moment-Korrelationskoeffizient ist wahrscheinlich die einzige am häufigsten verwendete Statistik zur Zusammenfassung der Beziehung zwischen zwei Variablen. Statistische Signifikanz und Vorbehalte der Interpretation des Korrelationskoeffizienten, wie sie auf Zeitreihen angewandt werden, sind Themen dieser Lektion. Unter bestimmten Voraussetzungen hängt die statistische Signifikanz eines Korrelationskoeffizienten nur von der Stichprobengröße ab, die als Anzahl unabhängiger Beobachtungen definiert ist. Wenn die Zeitreihen autokorreliert werden, sollte eine effektive Probengröße, die niedriger ist als die tatsächliche Probengröße, bei der Bewertung der Signifikanz verwendet werden. Vorübergehende oder falsche Beziehungen können bedeutende Korrelation für einige Perioden und nicht für andere ergeben. Die Zeitvariation der Stärke der linearen Korrelation kann mit Korrelationskurven untersucht werden, die für ein Schiebefenster berechnet werden. Wenn jedoch viele Korrelationskoeffizienten gleichzeitig ausgewertet werden, sollten die Konfidenzintervalle angepasst werden (Bonferroni-Anpassung), um die erhöhte Wahrscheinlichkeit, hohe Korrelationen zu beobachten, wo keine Beziehung existiert, zu kompensieren. Die Interpretation von Gleitkorrelationen kann auch durch Zeitvariationen von Mittelwert und Varianz der Reihe kompliziert werden, da die Gleitkorrelation die Kovariation in Form von standardisierten Abweichungen von Mitteln in dem Zeitfenster von Interesse reflektiert, die sich von den langfristigen Mitteln unterscheiden können. Schließlich ist zu betonen, dass der Pearson-Korrelationskoeffizient die Stärke der linearen Beziehung misst. Scatterplots sind nützlich, um zu überprüfen, ob die Beziehung linear ist. Antwort: Führen Sie das Skript geosa9.m ​​aus und beantworten Sie die Fragen in der Datei in a9.pdf Mathematische Definition des Korrelationskoeffizienten Annahmen und Hypothesen zur Signifikanzprüfung des Korrelationskoeffizienten Berechnung des Signifikanzniveaus des Korrelationskoeffizienten und Anpassung des Signifikanzniveaus für Autokorrelation in Die einzelnen Zeitreihen Caveats zur Interpretation des Korrelationskoeffizienten Bonferroni-Anpassung an Signifikanzniveau der Korrelation unter mehreren Vergleichen Inflation der Varianz des geschätzten Korrelationskoeffizienten, wenn Zeitreihe autokorreliert Mögliche Effekte der Datentransformation auf Korrelation Wie Interpretation von Diagrammen von Gleitkorrelationen Anwendung von geosa9. M, um Korrelationen und Gleitkorrelationen zwischen Paaren von Zeitreihen zu analysieren Lagged Beziehungen sind charakteristisch für viele natürliche physikalische Systeme. Die verzögerte Korrelation bezieht sich auf die Korrelation zwischen zwei zeitlich relativ zueinander verschobenen Zeitreihen. Eine verzögerte Korrelation ist wichtig, um die Beziehung zwischen den Zeitreihen aus zwei Gründen zu untersuchen. Zuerst kann eine Reihe eine verzögerte Antwort auf die andere Reihe haben, oder vielleicht eine verzögerte Antwort auf einen gemeinsamen Stimulus, der beide Reihen beeinflusst. Zweitens kann die Reaktion einer Reihe auf die andere Reihe oder einen äußeren Reiz zeitlich verschmiert werden, so dass ein auf eine Beobachtung beschränkter Reiz eine Reaktion bei mehreren Beobachtungen hervorruft. Zum Beispiel kann wegen der Lagerung in Stauseen, Gletschern usw. die Volumenentladung eines Flusses in einem Jahr von dem Niederschlag in den mehreren vorhergehenden Jahren abhängen. Oder wegen der Veränderungen in der Kronendichte und der Photosynthatlagerung kann die Breite eines Baumringes in einem Jahr vom Klima mehrerer vorhergehender Jahre abhängen. Der einfache Korrelationskoeffizient zwischen den beiden Reihen, der rechtzeitig ausgerichtet ist, ist unzureichend, um die Beziehung in solchen Situationen zu charakterisieren. Nützliche Funktionen, die wir als Alternative zum einfachen Korrelationskoeffizienten untersuchen, sind die Kreuzkorrelationsfunktion und die Impulsantwortfunktion. Die Kreuzkorrelationsfunktion ist die Korrelation zwischen den Serien, die in Abhängigkeit von der Anzahl der Beobachtungen des Versatzes gegeneinander verschoben sind. Wenn die einzelnen Serien autokorreliert werden, kann die geschätzte Kreuzkorrelationsfunktion als Maß für die verzögerte Beziehung verzerrt und irreführend sein. Wir werden zwei Ansätze zur Klärung des Musters von Kreuzkorrelationen untersuchen. Eines ist, die Persistenz von der Reihe vor der Kreuzkorrelationsschätzung einzeln zu entfernen oder vorzubereiten. Dabei werden die beiden Serien im wesentlichen gleichberechtigt betrachtet. Eine Alternative ist der Systemansatz: Betrachten Sie die Serie als dynamisches lineares System - eine Reihe der Eingang und die andere - und schätzen Sie die Impulsantwortfunktion. Die Impulsantwortfunktion ist die Antwort des Ausgangs auf aktuelle und zukünftige Zeiten auf einen hypothetischen Impuls des Eingangs, der auf die aktuelle Zeit beschränkt ist. Antwort: Führen Sie das Skript geosa10.m aus und beantworten Sie die in der Datei aufgeführten Fragen in a10.pdf Definitionen: Kreuzkovarianzfunktion, Kreuzkorrelationsfunktion, Impulsantwortfunktion, verzögerte Korrelation, kausal, linear Wie Autokorrelation das Muster von Kreuzkorrelationen verzerren kann and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of aa pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip -- not yet updated for Spring Semester 2017 The Matlab class scripts and user-written functions are zipped in a downloadable file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script.

No comments:

Post a Comment