Tuesday, 13 June 2017

Moving Average Mse Excel


Spreadsheet-Implementierung saisonaler Anpassung und exponentieller Glättung Es ist einfach, saisonale Anpassungen durchzuführen und exponentielle Glättungsmodelle mit Excel zu platzieren. Die Bildschirmbilder und - diagramme werden aus einer Tabellenkalkulation entnommen, die eingerichtet wurde, um multiplikative saisonale Anpassung und lineare exponentielle Glättung auf den folgenden vierteljährlichen Verkaufsdaten von Outboard Marine zu veranschaulichen: Um eine Kopie der Tabellenkalkulation selbst zu erhalten, klicken Sie hier. Die Version der linearen exponentiellen Glättung, die hier für die Demonstration verwendet wird, ist die Brown8217s-Version, nur weil sie mit einer einzigen Spalte von Formeln implementiert werden kann und es gibt nur eine Glättungskonstante zu optimieren. Normalerweise ist es besser, Holt8217s Version zu verwenden, die getrennte Glättungskonstanten für Niveau und Tendenz hat. Der Prognoseprozess verläuft wie folgt: (i) Zuerst werden die Daten saisonbereinigt (ii) dann werden die Prognosen für die saisonbereinigten Daten über lineare exponentielle Glättung erzeugt und (iii) schließlich werden die saisonbereinigten Prognosen quittiert, um Prognosen für die ursprüngliche Serie zu erhalten . Der saisonale Anpassungsprozess wird in den Spalten D bis G durchgeführt. Der erste Schritt der saisonalen Anpassung besteht darin, einen zentrierten gleitenden Durchschnitt zu berechnen (hier in Spalte D durchgeführt). Dies kann getan werden, indem man den Durchschnitt von zwei einjährigen Mittelwerten annimmt, die um eine Periode relativ zueinander versetzt sind. (Eine Kombination von zwei Offset-Mittelwerten anstatt ein einzelner Durchschnitt wird für Zentrierungszwecke benötigt, wenn die Anzahl der Jahreszeiten gleich ist.) Der nächste Schritt ist, das Verhältnis zum gleitenden Durchschnitt zu berechnen - i. e. Die ursprünglichen Daten geteilt durch den gleitenden Durchschnitt in jeder Periode - die hier in Spalte E durchgeführt wird. Dies wird auch als quottrend-Zyklusquote des Musters bezeichnet, insofern als Trend - und Konjunktureffekte als all das betrachtet werden könnten Bleibt nach der Wertung über einen ganzen Jahr Wert von Daten. Natürlich, Monate-zu-Monat-Änderungen, die nicht aufgrund der Saisonalität könnte durch viele andere Faktoren bestimmt werden, aber die 12-Monats-Durchschnitt glättet über sie zu einem großen Teil Der geschätzte saisonale Index für jede Saison wird berechnet, indem zuerst alle Verhältnisse für die jeweilige Jahreszeit gemittelt werden, was in den Zellen G3-G6 unter Verwendung einer AVERAGEIF-Formel durchgeführt wird. Die Durchschnittsverhältnisse werden dann neu skaliert, so dass sie zu genau 100mal die Anzahl der Perioden in einer Jahreszeit oder 400 in diesem Fall, die in den Zellen H3-H6 durchgeführt wird, summieren. Unterhalb der Spalte F werden die VLOOKUP-Formeln verwendet, um den entsprechenden saisonalen Indexwert in jede Zeile der Datentabelle einzufügen, entsprechend dem Viertel des Jahres, das es darstellt. Der zentrierte gleitende Durchschnitt und die saisonbereinigten Daten scheinen so auszusehen: Beachten Sie, dass der gleitende Durchschnitt typischerweise wie eine glattere Version der saisonbereinigten Serie aussieht und an beiden Enden kürzer ist. Ein weiteres Arbeitsblatt in der gleichen Excel-Datei zeigt die Anwendung des linearen exponentiellen Glättungsmodells auf die saisonbereinigten Daten, beginnend in Spalte G. Ein Wert für die Glättungskonstante (alpha) wird über der Prognosespalte (hier in Zelle H9) und eingetragen Zur Bequemlichkeit erhält man den Bereichsnamen quotAlpha. quot (Der Name wird mit dem Befehl quotInsertNameCreatequot zugewiesen.) Das LES-Modell wird initialisiert, indem die ersten beiden Prognosen gleich dem ersten Istwert der saisonbereinigten Serie gesetzt werden. Die Formel, die hier für die LES-Prognose verwendet wird, ist die reine rekursive Form des Brown8217s-Modells: Diese Formel wird in die Zelle eingegeben, die der dritten Periode entspricht (hier Zelle H15) und von dort aus kopiert wird. Beachten Sie, dass die LES-Prognose für die aktuelle Periode auf die beiden vorhergehenden Beobachtungen und die beiden vorangegangenen Prognosefehler sowie auf den Wert von alpha bezieht. So bezieht sich die Prognoseformel in Zeile 15 nur auf Daten, die in Zeile 14 und früher verfügbar waren. (Natürlich, wenn wir einfach anstelle einer linearen exponentiellen Glättung verwenden wollten, könnten wir stattdessen die SES-Formel ersetzen. Wir könnten auch Holt8217s anstelle von Brown8217s LES-Modell verwenden, was zwei weitere Spalten von Formeln benötigt, um das Level und den Trend zu berechnen Die in der Prognose verwendet werden.) Die Fehler werden in der nächsten Spalte (hier Spalte J) durch Subtrahieren der Prognosen aus den Istwerten berechnet. Der Wurzel-Mittelquadratfehler wird als Quadratwurzel der Varianz der Fehler plus dem Quadrat des Mittelwerts berechnet. (Dies folgt aus der mathematischen Identität: MSE VARIANCE (Fehler) (AVERAGE (Fehler)) 2) Bei der Berechnung des Mittelwertes und der Varianz der Fehler in dieser Formel sind die ersten beiden Perioden ausgeschlossen, weil das Modell eigentlich nicht mit der Prognose beginnt Die dritte Periode (Zeile 15 auf der Kalkulationstabelle). Der optimale Wert von alpha kann entweder durch manuelles Ändern von alpha gefunden werden, bis das minimale RMSE gefunden wird, oder Sie können den quotSolverquot verwenden, um eine exakte Minimierung durchzuführen. Der Wert von alpha, den der Solver gefunden hat, wird hier gezeigt (alpha0.471). Es ist in der Regel eine gute Idee, die Fehler des Modells (in transformierten Einheiten) zu skizzieren und auch zu berechnen und ihre Autokorrelationen bei Verzögerungen von bis zu einer Saison zu zeichnen. Hier ist eine Zeitreihenfolge der (saisonbereinigten) Fehler: Die Fehlerautokorrelationen werden mit der CORREL () - Funktion berechnet, um die Korrelationen der Fehler mit sich selbst zu berechnen, die von einer oder mehreren Perioden verzögert sind - Details werden im Tabellenkalkulationsmodell angezeigt . Hier ist eine Handlung der Autokorrelationen der Fehler bei den ersten fünf Verzögerungen: Die Autokorrelationen bei den Verzögerungen 1 bis 3 sind sehr nahe bei null, aber die Spitze bei Verzögerung 4 (deren Wert 0,35 ist) ist etwas lästig - es deutet darauf hin, dass die Der saisonale Anpassungsprozess war nicht ganz erfolgreich. Allerdings ist es eigentlich nur geringfügig signifikant. 95 Signifikanzbänder zum Testen, ob Autokorrelationen signifikant von Null verschieden sind, sind etwa plus-oder-minus 2SQRT (n-k), wobei n die Stichprobengröße und k die Verzögerung ist. Hierbei ist n 38 und k von 1 bis 5, so dass die Quadratwurzel-von-n-minus-k für alle von ihnen etwa 6 ist und daher die Grenzen für die Prüfung der statistischen Signifikanz von Abweichungen von Null ungefähr plus - Oder-minus 26 oder 0,33. Wenn Sie den Wert von alpha von Hand in diesem Excel-Modell variieren, können Sie den Effekt auf die Zeitreihen und Autokorrelationsdiagramme der Fehler sowie auf den root-mean-squared-Fehler beobachten, der nachfolgend dargestellt wird. Am unteren Rand der Kalkulationstabelle wird die Prognoseformel in die Zukunft durch die bloße Substitution von Prognosen für Istwerte an der Stelle, an der die tatsächlichen Daten ausgehen, ausgedrückt. Wo quotthe futurequot beginnt. (Mit anderen Worten, in jeder Zelle, in der ein zukünftiger Datenwert auftreten würde, wird eine Zellenreferenz eingefügt, die auf die für diesen Zeitraum vorgenommene Prognose hinweist.) Alle anderen Formeln werden einfach von oben kopiert: Beachten Sie, dass die Fehler für Prognosen von Die Zukunft wird alle berechnet, um Null zu sein. Das bedeutet nicht, dass die tatsächlichen Fehler null sein werden, sondern vielmehr nur die Tatsache, dass für die Zwecke der Vorhersage wir davon ausgehen, dass die zukünftigen Daten die Prognosen im Durchschnitt entsprechen werden. Die daraus resultierenden LES-Prognosen für die saisonbereinigten Daten sehen so aus: Mit diesem besonderen Wert von alpha, der für Ein-Perioden-Vorhersagen optimal ist, ist der prognostizierte Trend leicht nach oben gerichtet und spiegelt den lokalen Trend wider, der in den letzten 2 Jahren beobachtet wurde oder so. Für andere Werte von alpha könnte eine sehr unterschiedliche Trendprojektion erhalten werden. Es ist in der Regel eine gute Idee zu sehen, was mit der langfristigen Trendprojektion passiert, wenn Alpha abwechslungsreich ist, denn der Wert, der für kurzfristige Prognosen am besten ist, wird nicht unbedingt der beste Wert für die Vorhersage der weiter entfernten Zukunft sein. Zum Beispiel ist hier das Ergebnis, das erhalten wird, wenn der Wert von alpha manuell auf 0,25 gesetzt wird: Der projizierte Langzeittrend ist jetzt eher negativ als positiv Mit einem kleineren Wert von alpha, setzt das Modell mehr Gewicht auf ältere Daten in Die Einschätzung des aktuellen Niveaus und der Tendenz sowie die langfristigen Prognosen spiegeln den in den letzten 5 Jahren beobachteten Abwärtstrend und nicht den jüngsten Aufwärtstrend wider. Diese Tabelle verdeutlicht auch deutlich, wie das Modell mit einem kleineren Wert von Alpha langsamer ist, um auf Quotturning Points in den Daten zu antworten und neigt daher dazu, für viele Perioden in einer Reihe einen Fehler des gleichen Vorzeichens zu machen. Die pro-Schritt-Prognosefehler sind im Durchschnitt größer als die zuvor erhaltenen (RMSE von 34,4 statt 27,4) und stark positiv autokorreliert. Die Lag-1-Autokorrelation von 0,56 übersteigt deutlich den oben berechneten Wert von 0,33 für eine statistisch signifikante Abweichung von Null. Als Alternative zum Anreißen des Alpha-Wertes, um mehr Konservatismus in langfristige Prognosen einzuführen, wird dem Modell manchmal ein quottrend dämpfungsfaktor hinzugefügt, um den projizierten Trend nach einigen Perioden abzubauen. Der letzte Schritt beim Aufbau des Prognosemodells besteht darin, die LES-Prognosen durch Multiplikation mit den entsprechenden saisonalen Indizes zu berechnen. So sind die reseasonalisierten Prognosen in Spalte I einfach das Produkt der saisonalen Indizes in Spalte F und der saisonbereinigten LES-Prognosen in Spalte H. Es ist relativ einfach, Konfidenzintervalle für einstufige Prognosen dieses Modells zu berechnen: erstens Berechnen Sie den RMSE (root-mean-squared error, der nur die Quadratwurzel des MSE ist) und berechnen Sie dann ein Konfidenzintervall für die saisonbereinigte Prognose durch Addition und Subtraktion von zweimal dem RMSE. (Im Allgemeinen ist ein 95-Konfidenzintervall für eine Prognose von einer Periode vorausgehend gleich der Punktprognose plus-oder-minus-zweimal der geschätzten Standardabweichung der Prognosefehler, vorausgesetzt, die Fehlerverteilung ist annähernd normal und die Stichprobengröße Ist groß genug, sagen wir, 20 oder mehr. Hier ist die RMSE anstatt der Stichproben-Standardabweichung der Fehler die beste Schätzung der Standardabweichung der zukünftigen Prognosefehler, weil es Bias sowie zufällige Variationen berücksichtigt.) Die Vertrauensgrenzen Für die saisonbereinigte prognose werden dann neu geschrieben. Zusammen mit der Prognose, indem sie mit den entsprechenden saisonalen Indizes multipliziert werden. In diesem Fall ist die RMSE gleich 27,4 und die saisonbereinigte Prognose für die erste zukünftige Periode (Dez-93) beträgt 273,2. So dass das saisonbereinigte 95 Konfidenzintervall von 273,2-227,4 218,4 bis 273,2227,4 328,0 liegt. Multiplikation dieser Grenzen durch Dezembers Saisonindex von 68,61. Wir erhalten niedrigere und obere Konfidenzgrenzen von 149,8 und 225,0 um die Dez-93-Punkt-Prognose von 187,4. Vertrauensgrenzen für Prognosen, die mehr als eine Periode im Vorfeld sind, werden sich im Allgemeinen mit dem Unsicherheitsgrad über das Niveau und den Trend sowie die saisonalen Faktoren erweitern, aber es ist schwierig, sie im Allgemeinen durch analytische Methoden zu berechnen. (Der richtige Weg, um die Vertrauensgrenzen für die LES-Prognose zu berechnen, ist die Verwendung der ARIMA-Theorie, aber die Unsicherheit in den saisonalen Indizes ist eine andere Sache.) Wenn Sie ein realistisches Konfidenzintervall für eine Prognose von mehr als einer Periode haben möchten, nehmen Sie alle Quellen von Fehler in Rechnung, Ihre beste Wette ist es, empirische Methoden zu verwenden: Zum Beispiel, um ein Konfidenzintervall für eine 2-Schritt voraus Prognose zu erhalten, könnten Sie eine weitere Spalte auf der Kalkulationstabelle erstellen, um eine 2-Schritt-Prognose für jeden Zeitraum zu berechnen ( Durch bootstrapping der one-step-ahead-prognose). Dann berechnen Sie die RMSE der 2-Schritt-voraus Prognose Fehler und verwenden Sie diese als Grundlage für ein 2-Schritt-Ahead-Konfidenz Intervall. Excel für die statistische Datenanalyse Dies ist eine Webtext-Companion-Website von Business Statistics USA Site Para mis visitantes del mundo De habla hispana, este sitio se encuentra disponible en espaol de: Sitio Espejo para Amrica Latina Sitio de los EEUU Excel ist das weit verbreitete statistische Paket, das als Werkzeug dient, um statistische Konzepte und Berechnungen zu verstehen, um Ihre handgearbeitete Berechnung bei der Lösung Ihrer Hausaufgaben zu überprüfen. Die Website bietet eine Einführung in die Grundlagen der Arbeit und die Arbeit mit dem Excel. Das Wiederholen der dargestellten numerischen Beispiele auf dieser Seite wird dazu beitragen, Ihre Vertrautheit zu verbessern und dadurch die Effektivität und Effizienz Ihres Prozesses in der Statistik zu erhöhen. Um die Seite zu durchsuchen. Versuche E dit F ind in Seite Strg f. Geben Sie ein Wort oder eine Phrase in die Dialogbox ein, z. B. Wenn das erste Erscheinungsbild der Wortphrase nicht das ist, was du suchst, versuche F Ind weiter. Einleitung Diese Seite bietet illustrative Erfahrung in der Verwendung von Excel für Datenzusammenfassung, Präsentation und für andere grundlegende statistische Analyse. Ich glaube, die beliebte Verwendung von Excel ist auf den Bereichen, wo Excel wirklich übertreffen kann. Dazu gehören die Organisation von Daten, d. h. grundlegende Datenverwaltung, Tabellierung und Grafiken. Für eine reale statistische Analyse muss man mit den professionellen kommerziellen statistischen Paketen wie SAS und SPSS lernen. Microsoft Excel 2000 (Version 9) bietet eine Reihe von Datenanalyse-Tools namens Analysis ToolPak, die Sie verwenden können, um Schritte zu speichern, wenn Sie komplexe statistische Analysen entwickeln. Sie liefern die Daten und Parameter für jede Analyse das Werkzeug verwendet die entsprechenden statistischen Makro-Funktionen und zeigt dann die Ergebnisse in einer Ausgabetabelle. Einige Werkzeuge erzeugen zusätzlich zu den Ausgangstabellen Diagramme. Wenn der Befehl Datenanalyse im Menü Extras auswählbar ist, wird das Analysis ToolPak auf Ihrem System installiert. Wenn sich der Befehl Datenanalyse jedoch nicht im Menü Extras befindet, müssen Sie den Analysis ToolPak installieren, indem Sie Folgendes tun: Schritt 1: Klicken Sie im Menü Extras auf Add-Ins. Wenn Analysis ToolPak nicht im Dialogfeld Add-Ins aufgeführt ist, klicken Sie auf Durchsuchen und suchen Sie das Laufwerk, den Ordnernamen und den Dateinamen für das Analysis ToolPak Add-In Analys32.xll, das sich normalerweise im Ordner "Programme FilesMicrosoft OfficeOfficeLibraryAnalysis" befindet. Sobald Sie die Datei gefunden haben, wählen Sie sie aus und klicken Sie auf OK. Schritt 2: Wenn Sie die Datei Analys32.xll nicht finden, müssen Sie sie installieren. Legen Sie Ihre Microsoft Office 2000 Disk 1 in das CD-ROM-Laufwerk ein. Wählen Sie im Windows-Startmenü die Option Ausführen aus. Durchsuchen und wählen Sie das Laufwerk für Ihre CD aus. Wählen Sie Setup. exe aus, klicken Sie auf Öffnen und klicken Sie auf OK. Klicken Sie auf die Schaltfläche "Features hinzufügen oder entfernen". Klicken Sie auf die nächste Microsoft Excel für Windows. Klicken Sie auf Add-Ins. Klicken Sie auf den Abwärtspfeil neben Analysis ToolPak. Wählen Sie Ausführen von Arbeitsplatz aus. Wählen Sie die Schaltfläche Jetzt aktualisieren. Excel aktualisiert nun Ihr System um Analysis ToolPak. Excel starten Klicken Sie im Menü Extras auf Add-Ins. - und wähle das Kontrollkästchen Analysis ToolPak. Schritt 3: Das Analysis ToolPak Add-In ist nun installiert und Datenanalyse. Wird nun im Menü Extras auswählbar. Microsoft Excel ist ein leistungsfähiges Kalkulationstabellenpaket für Microsoft Windows und den Apple Macintosh. Spreadsheet-Software wird verwendet, um Informationen in Spalten und Zeilen zu speichern, die dann organisiert und verarbeitet werden können. Spreadsheets sind entworfen, um gut mit Zahlen zu arbeiten, aber häufig auch Text. Excel organisiert Ihre Arbeit in Arbeitsmappen, in denen jede Arbeitsmappe viele Arbeitsblätter enthalten kann. Arbeitsblätter werden verwendet, um Daten aufzulisten und zu analysieren. Excel ist auf allen öffentlich zugänglichen PCs verfügbar (d. h. jene, z. B. in der Bibliothek und PC Labs). Es kann entweder durch Start von Programmen - Microsoft Excel oder durch Klicken auf den Excel Short Cut, der entweder auf Ihrem Desktop oder auf jedem PC oder auf der Office Tool Bar ist, geöffnet werden. Öffnen eines Dokuments: Klicken Sie auf Datei-Öffnen (CtrlO), um eine vorhandene Arbeitsmappe zu öffnen. Ändern Sie den Verzeichnisbereich oder das Laufwerk, um nach Dateien an anderen Orten zu suchen Um eine neue Arbeitsmappe zu erstellen, klicken Sie auf Datei-Neu-Unbeschriftetes Dokument. Speichern und Schließen eines Dokuments: Um das Dokument mit seinem aktuellen Dateinamen, dem Speicherort und dem Dateiformat zu speichern, klicken Sie auf Datei - Speichern. Wenn Sie zum ersten Mal speichern, klicken Sie auf File-Save choosetype einen Namen für Ihr Dokument und klicken Sie dann auf OK. Verwenden Sie auch File-Save, wenn Sie eine andere Datei speichern möchten. Wenn Sie mit der Arbeit an einem Dokument fertig sind, sollten Sie es schließen. Gehen Sie zum Menü Datei und klicken Sie auf Schließen. Wenn du seit dem letzten Speichern irgendwelche Änderungen vorgenommen hast, wirst du gefragt, ob du sie speichern möchtest. Der Excel-Bildschirm Arbeitsmappen und Arbeitsblätter: Wenn Sie Excel starten, wird ein leeres Arbeitsblatt angezeigt, das aus einem Mehrfachraster von Zellen mit nummerierten Zeilen auf der Seite und alphabetisch gezeichneten Spalten über die Seite besteht. Jede Zelle wird durch ihre Koordinaten referenziert (z. B. wird A3 verwendet, um sich auf die Zelle in Spalte A und Zeile 3 zu beziehen. B10: B20 wird verwendet, um sich auf den Bereich von Zellen in Spalte B und Zeilen 10 bis 20 zu beziehen). Ihre Arbeit wird in einer Excel-Datei gespeichert, die als Arbeitsmappe bezeichnet wird. Jede Arbeitsmappe kann mehrere Arbeitsblätter und Charts enthalten - das aktuelle Arbeitsblatt wird als aktives Blatt bezeichnet. Um ein anderes Arbeitsblatt in einer Arbeitsmappe anzuzeigen, klicken Sie auf die entsprechende Registerkarte. Sie können Befehle direkt aus dem Hauptmenü aufrufen und ausführen, oder Sie können auf eine der Symbolleistenschaltflächen zeigen (das Anzeigefeld, das unterhalb der Schaltfläche erscheint, wenn Sie den Cursor darüber platzieren, die Namensänderung der Schaltfläche anzeigt) und einmal klicken. Um das Arbeitsblatt umzusetzen: Es ist wichtig, dass wir das Arbeitsblatt effektiv bewegen können, weil man nur Daten an der Position des Cursors eingeben oder ändern kann. Sie können den Cursor mit den Pfeiltasten bewegen oder indem Sie die Maus in die gewünschte Zelle bewegen und klicken. Sobald die Zelle ausgewählt ist, wird die Zelle zur aktiven Zelle und wird durch eine dicke Grenze identifiziert, nur eine Zelle kann zu einer Zeit aktiv sein. Um von einem Arbeitsblatt zu einem anderen zu wechseln, klicken Sie auf die Registerkarten. (Wenn Ihre Arbeitsmappe viele Blätter enthält, klicken Sie mit der rechten Maustaste auf die Registerkarten-Schaltflächen und klicken Sie dann auf das gewünschte Blatt.) Der Name des aktiven Blatts ist fett dargestellt. Bewegen zwischen Zellen: Hier ist eine Tastenkombination, um die aktive Zelle zu bewegen: Home - zieht in die erste Spalte in der aktuellen Zeile CtrlHome - bewegt sich in die obere linke Ecke des Dokuments Ende dann Home - wechselt zur letzten Zelle im Dokument To Zwischen Zellen auf einem Arbeitsblatt verschieben, auf eine beliebige Zelle klicken oder die Pfeiltasten verwenden. Um einen anderen Bereich des Blattes zu sehen, verwenden Sie die Bildlaufleisten und klicken Sie auf die Pfeile oder den Bereich oberhalb der Scroll-Box in den vertikalen oder horizontalen Bildlaufleisten. Beachten Sie, dass die Größe eines Scroll-Felds den proportionalen Betrag des verwendeten Bereichs des Blattes anzeigt, der im Fenster sichtbar ist. Die Position eines Scroll-Felds zeigt die relative Position des sichtbaren Bereichs innerhalb des Arbeitsblatts an. Daten eingeben Ein neues Arbeitsblatt ist ein Raster aus Zeilen und Spalten. Die Zeilen sind mit Zahlen versehen und die Spalten sind mit Buchstaben gekennzeichnet. Jeder Schnittpunkt einer Zeile und einer Spalte ist eine Zelle. Jede Zelle hat eine Adresse. Das ist der Spaltenbrief und die Zeilennummer. Der Pfeil auf dem Arbeitsblatt rechts zeigt auf die Zelle A1, die aktuell hervorgehoben wird. Dass es sich um eine aktive Zelle handelt. Eine Zelle muss aktiv sein, um dort Informationen einzugeben. Um eine Zelle hervorzuheben (auszuwählen), klicken Sie darauf. Um mehr als eine Zelle auszuwählen: Klicken Sie auf eine Zelle (z. B. A1) und halten Sie dann die Umschalttaste gedrückt, während Sie auf eine andere (z. B. D4) klicken, um alle Zellen zwischen A1 und D4 auszuwählen. Klicken Sie auf eine Zelle (zB A1) und ziehen Sie die Maus über den gewünschten Bereich, indem Sie auf eine andere Zelle (zB D4) klicken, um alle Zellen zwischen A1 und D4 auszuwählen. Um mehrere Zellen auszuwählen, die nicht benachbart sind, drücken Sie die Steuerung und klicken Sie auf Die Zellen, die du auswählen möchtest. Klicken Sie auf eine Zahl oder einen Buchstaben, der eine Zeile oder Spalte markiert, um die gesamte Zeile oder Spalte auszuwählen. Ein Arbeitsblatt kann bis zu 256 Spalten und 65.536 Zeilen haben, also ist es eine Weile, bevor du nicht mehr rauskommst. Jede Zelle kann ein Etikett enthalten. Wert . Logischer Wert. Oder Formel. Etiketten können beliebige Kombination aus Buchstaben, Zahlen oder Symbolen enthalten. Werte sind Zahlen. Nur Werte (Zahlen) können in Berechnungen verwendet werden. Ein Wert kann auch ein Datum oder ein timeLogical Werte sind true oder false. Formulas automatisch Berechnungen auf die Werte in anderen angegebenen Zellen und zeigen das Ergebnis in der Zelle, in der die Formel eingegeben wird (z. B. können Sie diese Zelle D3 angeben Ist die Summe der Zahlen in B3 und C3 zu enthalten, die in D3 angezeigte Zahl wird dann eine Funktion der in B3 und C3 eingegebenen Zahlen sein). Um Informationen in eine Zelle einzugeben, markieren Sie die Zelle und beginnen mit der Eingabe. Beachten Sie, dass bei der Eingabe von Informationen in die Zelle die eingegebenen Informationen auch in der Formelleiste angezeigt werden. Sie können auch Informationen in die Formelleiste eingeben und die Informationen werden in der ausgewählten Zelle angezeigt. Wenn Sie mit der Eingabe des Etiketts oder Wertes fertig sind, drücken Sie die Eingabetaste, um zur nächsten Zelle zu gelangen (in diesem Fall A2). Drücken Sie die Tabulatortaste, um zur nächsten Zelle nach rechts zu gelangen (in diesem Fall B1) Es Eingabe von Etiketten Wenn die von Ihnen eingegebenen Informationen nicht als Wert oder als Formel formatiert werden, interpretiert Excel es als Label und setzt standardmäßig den Text auf der linken Seite der Zelle aus. Wenn Sie ein langes Arbeitsblatt erstellen und Sie die gleichen Etiketteninformationen in vielen verschiedenen Zellen wiederholen, können Sie die AutoVervollständigen-Funktion verwenden. Diese Funktion schaut auf andere Einträge in derselben Spalte und versucht, einen vorherigen Eintrag mit Ihrem aktuellen Eintrag zu übernehmen. Zum Beispiel, wenn Sie bereits Wesleyan in eine andere Zelle eingegeben haben und Sie W in eine neue Zelle eingeben, wird Excel automatisch Wesleyan eingeben. Wenn du beabsichtigst, Wesleyan in die Zelle zu geben, ist deine Aufgabe fertig und du kannst zur nächsten Zelle weitergehen. Wenn Sie beabsichtigen, etwas anderes einzugeben, z. B. Williams, in die Zelle, einfach weiter eingeben, um den Begriff eingeben. Um die AutoComplete-Funktion einzuschalten, klicken Sie in der Menüleiste auf Extras, wählen Sie dann Optionen, dann wählen Sie Bearbeiten und klicken Sie, um ein Kontrollkästchen in das Feld neben Aktivieren von AutoVervollständigen für Zellenwerte einzufügen. Ein weiterer Weg, um schnell wiederholt Etiketten eingeben, ist die Auswahlliste Feature verwenden. Klicken Sie mit der rechten Maustaste auf eine Zelle und wählen Sie dann aus der Liste. Dies gibt Ihnen ein Menü aller anderen Einträge in Zellen in dieser Spalte. Klicken Sie auf ein Element im Menü, um es in die aktuell ausgewählte Zelle einzugeben. Ein Wert ist eine Zahl, ein Datum oder eine Uhrzeit, plus ein paar Symbole, falls nötig, um die Zahlen weiterzugeben. - () 93. Zahlen werden als positiv angenommen, um eine negative Zahl einzugeben, ein Minuszeichen zu verwenden - oder die Zahl in Klammern () einzuschließen. Termine werden als MMDDYYYY gespeichert, aber du musst es nicht genau in diesem Format eingeben. Wenn Sie jan 9 oder jan-9 eingeben, wird Excel es am 9. Januar des laufenden Jahres erkennen und es als 192002 speichern. Geben Sie das vierstellige Jahr für ein Jahr außer dem laufenden Jahr ein (z. B. 9, 1999). Um das aktuelle Tagesdatum einzugeben, drücken Sie die Steuerung und gleichzeitig. Times Default auf eine 24-Stunden-Uhr. Verwenden Sie a oder p, um an oder pm anzugeben, wenn Sie eine 12-Stunden-Uhr verwenden (z. B. 8:30 Uhr wird als 20:30 Uhr interpretiert). Um die aktuelle Uhrzeit einzugeben, drücken Sie gleichzeitig die Steuerung und: (Shift-Semikolon). Ein Eintrag, der als Wert interpretiert wird (Nummer, Datum oder Uhrzeit), ist auf der rechten Seite der Zelle ausgerichtet, um einen Wert neu zu formatieren. Abrunden von Zahlen, die spezifizierte Kriterien erfüllen: Um Farben auf maximale und minimale Werte anzuwenden: Wählen Sie eine Zelle in der Region aus und drücken Sie StrgShift (in Excel 2003, drücken Sie diese oder CtrlA), um den aktuellen Bereich auszuwählen. Wählen Sie im Menü Format die Option Bedingte Formatierung. In Bedingung 1 wählen Sie Formel Is und geben Sie MAX (F: F) F1 ein. Klicken Sie auf Format, wählen Sie die Registerkarte Schriftart aus, wählen Sie eine Farbe aus und klicken Sie dann auf OK. In Bedingung 2 wählen Sie Formel Is und geben Sie MIN (F: F) F1 ein. Wiederholen Sie Schritt 4, wählen Sie eine andere Farbe als Sie für Bedingung 1 ausgewählt haben, und klicken Sie dann auf OK. Hinweis: Achten Sie darauf, zwischen absoluter Referenz und relativer Referenz zu unterscheiden, wenn Sie die Formeln eingeben. Rounding Numbers, die das angegebene Kriterium erfüllen Problem: Rundung aller Zahlen in Spalte A auf Null Dezimalstellen, mit Ausnahme derjenigen, die 5 in der ersten Dezimalstelle haben. Lösung: Verwenden Sie die Funktionen IF, MOD und ROUND in der folgenden Formel: IF (MOD (A2,1) 0,5, A2, ROUND (A2,0)) Kopieren und Einfügen aller Zellen in einem Blatt Wählen Sie die Zellen im Blatt aus Durch Drücken von CtrlA (in Excel 2003 wählen Sie eine Zelle in einem leeren Bereich aus, bevor Sie CtrlA drücken oder aus einer ausgewählten Zelle in einem Current RegionList-Bereich CtrlAA drücken). ODER Klicken Sie auf Alle an der oberen linken Kreuzung von Zeilen und Spalten auswählen. Drücken Sie Strg. Drücken Sie CtrlPage Down, um ein anderes Blatt auszuwählen, und wählen Sie dann Zelle A1 aus. Drücken Sie Enter. Um das gesamte Blatt zu kopieren Kopieren des gesamten Blattes bedeutet das Kopieren der Zellen, die Seiteneinstellparameter und die definierten Bereichsnamen. Option 1: Bewegt den Mauszeiger auf eine Registerkarte. Drücken Sie Strg und halten Sie die Maus gedrückt, um das Blatt an einen anderen Ort zu ziehen. Lassen Sie die Maustaste los und die Strg-Taste. Option 2: Klicken Sie mit der rechten Maustaste auf die entsprechende Registerkarte. Wählen Sie im Kontextmenü die Option Verschieben oder Kopieren. Im Dialogfeld Verschieben oder Kopieren können Sie das Blatt entweder an einen anderen Ort in der aktuellen Arbeitsmappe oder in eine andere Arbeitsmappe kopieren. Achten Sie darauf, das Kontrollkästchen Kopie erstellen zu markieren. Option 3: Wählen Sie im Menü "Fenster" die Option "Anordnen". Wählen Sie Kacheln, um alle geöffneten Arbeitsmappen im Fenster zu kacheln. Verwenden Sie Option 1 (Ziehen des Blattes, während Sie Strg drücken), um ein Blatt zu kopieren oder zu verschieben. Sortierung nach Spalten Die Voreinstellung für die Sortierung in auf - oder absteigender Reihenfolge ist nacheinander. Nach Spalten sortieren: Wählen Sie im Menü Daten die Option Sortieren und dann Optionen. Wählen Sie die Schaltfläche Nach links nach rechts und klicken Sie auf OK. Wählen Sie im Feld Sortieren nach der Option Sortieren die Zeilennummer aus, mit der die Spalten sortiert werden sollen, und klicken Sie auf OK. Beschreibende Statistik Die Datenanalyse ToolPak verfügt über ein deskriptives Statistik-Tool, mit dem Sie eine einfache Möglichkeit zur Berechnung von Zusammenfassungsstatistiken für einen Satz von Beispieldaten erhalten können. Zusammenfassungsstatistik enthält Mittelwert, Standardfehler, Median, Modus, Standardabweichung, Abweichung, Kurtosis, Schiefe, Reichweite, Minimum, Maximum, Summe und Count. Dieses Tool eliminiert die Notwendigkeit, einzelne Funktionen einzugeben, um jedes dieser Ergebnisse zu finden. Excel enthält aufwändige und anpassbare Symbolleisten, zum Beispiel die Standard-Symbolleiste, die hier gezeigt wird: Einige der Icons sind nützliche mathematische Berechnungen: Ist das Autosum-Symbol, das die Formel sum () einträgt, um eine Reihe von Zellen hinzuzufügen. Ist das FunctionWizard-Symbol, mit dem Sie auf alle verfügbaren Funktionen zugreifen können. Ist das IconWizard-Symbol, das Zugriff auf alle verfügbaren Grafiktypen ermöglicht, wie in dieser Anzeige gezeigt: Excel kann verwendet werden, um Standort - und Variabilitätsmaße für eine Variable zu generieren. Angenommen, wir möchten beschreibende Statistiken für eine Beispieldaten finden: 2, 4, 6 und 8. Schritt 1. Wählen Sie das Pulldown-Menü Werkzeuge aus, wenn Sie Datenanalyse sehen, klicken Sie auf diese Option, andernfalls klicken Sie auf Add-In . Option, um das Analyse-Tool pak zu installieren. Schritt 2. Klicken Sie auf die Datenanalyse-Option. Schritt 3. Wählen Sie Beschreibende Statistik aus Analysetools-Liste. Schritt 4. Wenn das Dialogfenster erscheint: Geben Sie im Feld Eingabebereich A1: A4 ein, A1 ist ein Wert in Spalte A und Zeile 1. In diesem Fall ist dieser Wert 2. Mit der gleichen Technik geben Sie andere VALUES, bis Sie die letzte erreichen. Wenn ein Sample aus 20 Ziffern besteht, können Sie zB A1, A2, A3 usw. als Eingangsbereich wählen. Schritt 5. Wählen Sie einen Ausgabebereich. In diesem Fall B1. Klicken Sie auf Summary Statistics, um die Ergebnisse zu sehen. Wenn Sie auf OK klicken. Sie sehen das Ergebnis im ausgewählten Bereich. Wie Sie sehen werden, ist der Mittelwert der Probe 5, der Median ist 5, die Standardabweichung ist 2.581989, die Stichprobenvarianz ist 6.666667, die Reichweite ist 6 und so weiter. Jeder dieser Faktoren könnte bei der Berechnung der verschiedenen statistischen Verfahren wichtig sein. Normalverteilung Betrachten Sie das Problem, die Wahrscheinlichkeit zu finden, weniger als einen bestimmten Wert unter einer normalen Wahrscheinlichkeitsverteilung zu erhalten. Als ein anschauliches Beispiel wollen wir annehmen, dass die SAT-Scores bundesweit normalerweise mit einer mittleren und Standardabweichung von 500 bzw. 100 verteilt sind. Beantworten Sie die folgenden Fragen auf der Grundlage der gegebenen Informationen: A: Was ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Schülerpartitur weniger als 600 Punkte beträgt B: Was ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Schülerpartitur 600 Punkte übersteigt: Was ist die Wahrscheinlichkeit Dass eine zufällig ausgewählte Schülerwertung zwischen 400 und 600 liegen wird. Hinweis: Mit Excel können Sie die Wahrscheinlichkeit finden, einen Wert zu erhalten, der ungefähr kleiner oder gleich einem gegebenen Wert ist. In einem Problem, wenn der Mittelwert und die Standardabweichung der Bevölkerung gegeben sind, müssen Sie den gesunden Menschenverstand verwenden, um unterschiedliche Wahrscheinlichkeiten zu finden, die auf der Frage basieren, da Sie den Bereich unter einer normalen Kurve kennen. 1. Wählen Sie im Arbeitsblatt die Zelle, wo die Antwort erscheinen soll. Angenommen, Sie wählten die Zelle Nummer eins, A1. Von den Menüs aus wählen Sie quotinsert pull-downquot. Schritte 2-3 Wählen Sie aus den Menüs einfügen aus und klicken Sie dann auf die Funktion Funktion. Schritt 4. Nach dem Klicken auf die Funktion Funktion erscheint das Dialogfeld Einfügen aus der Funktionskategorie. Wählen Sie Statistisch und dann NORMDIST aus dem Feld Funktionsname. Klicken Sie auf OK Schritt 5. Nach dem Klicken auf OK erscheint das Verteilungsfeld NORMDIST: i. Geben Sie 600 in X ein (das Wertfeld) ii. Geben Sie 500 in das mittlere Feld ein. Iii. Geben Sie 100 in die Standardabweichung ein. Iv. Geben Sie quottruequot in das kumulative Feld ein, und klicken Sie dann auf OK. Wie Sie sehen, erscheint der Wert 0.84134474 in A1 und zeigt die Wahrscheinlichkeit an, dass eine zufällig ausgewählte Schülerwertung unter 600 Punkte liegt. Mit dem gesunden Menschenverstand können wir Teilquotquot beantworten, indem wir 0.84134474 von 1 subtrahieren. Also ist die Teil-Quotch-Antwort 1- 0.8413474 oder 0.158653. Dies ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Schülerpartitur größer als 600 Punkte ist. Um Teil-Quoten zu beantworten, verwenden Sie die gleichen Techniken, um die Wahrscheinlichkeiten oder den Bereich in den linken Seiten der Werte 600 und 400 zu finden. Da sich diese Bereiche oder Wahrscheinlichkeiten gegenseitig überlappen, um die Frage zu beantworten, sollten Sie die kleinere Wahrscheinlichkeit von der größeren Wahrscheinlichkeit subtrahieren. Die Antwort entspricht 0.84134474 - 0.15865526 ​​das heißt, 0.68269. Der Screenshot sollte wie folgt aussehen: Berechnen des Wertes einer zufälligen Variablen, die oft als Quantenwert bezeichnet wird. Sie können NORMINV aus dem Funktionsfeld verwenden, um einen Wert für die Zufallsvariable zu berechnen - wenn die Wahrscheinlichkeit auf der linken Seite dieser Variablen gegeben ist. Eigentlich sollten Sie diese Funktion verwenden, um verschiedene Perzentile zu berechnen. In diesem Problem könnte man fragen, was ist die Punktzahl eines Schülers, dessen Perzentil 90 ist. Das bedeutet, dass etwa 90 Schülerzahlen kleiner sind als diese Zahl. Auf der anderen Seite, wenn wir gebeten wurden, dieses Problem von Hand zu machen, hätten wir den x-Wert mit der Normalverteilungsformel x m zd berechnen müssen. Jetzt können wir Excel verwenden, um P90 zu berechnen. In der Paste-Funktion klicken Sie auf statistisch, dann klicken Sie auf NORMINV. Der Screenshot würde wie folgt aussehen: Wenn Sie NORMINV sehen, erscheint das Dialogfenster. ich. Geben Sie 0,90 für die Wahrscheinlichkeit ein (dies bedeutet, dass etwa 90 der Schüler Punkte kleiner ist als der Wert, den wir suchen) ii. Geben Sie 500 für den Mittelwert ein (dies ist der Mittelwert der Normalverteilung in unserem Fall) iii. Geben Sie 100 für die Standardabweichung ein (dies ist die Standardabweichung der Normalverteilung in unserem Fall) Am Ende dieses Bildschirms sehen Sie das Formelergebnis, das etwa 628 Punkte beträgt. Das bedeutet, dass die Top 10 der Schüler besser als 628 erzielten. Vertrauensintervall für die Mittlere Annahme, wir wünschen uns, ein Konfidenzintervall für den Mittelwert einer Population zu schätzen. Depending on the size of your sample size you may use one of the following cases: Large Sample Size (n is larger than, say 30): The general formula for developing a confidence interval for a population means is: In this formula is the mean of the sample Z is the interval coefficient, which can be found from the normal distribution table (for example the interval coefficient for a 95 confidence level is 1.96). S is the standard deviation of the sample and n is the sample size. Now we would like to show how Excel is used to develop a certain confidence interval of a population mean based on a sample information. As you see in order to evaluate this formula you need quotthe mean of the samplequot and the margin of error Excel will automatically calculate these quantities for you. The only things you have to do are: add the margin of error to the mean of the sample, Find the upper limit of the interval and subtract the margin of error from the mean to the lower limit of the interval. To demonstrate how Excel finds these quantities we will use the data set, which contains the hourly income of 36 work-study students here, at the University of Baltimore. These numbers appear in cells A1 to A36 on an Excel work sheet. After entering the data, we followed the descriptive statistic procedure to calculate the unknown quantities. The only additional step is to click on the confidence interval in the descriptive statistics dialog box and enter the given confidence level, in this case 95. Here is, the above procedures in step-by-step: Step 1. Enter data in cells A1 to A36 (on the spreadsheet) Step 2. From the menus select Tools Step 3. Click on Data Analysis then choose the Descriptive Statistics option then click OK . On the descriptive statistics dialog, click on Summary Statistic. After you have done that, click on the confidence interval level and type 95 - or in other problems whatever confidence interval you desire. In the Output Range box enter B1 or what ever location you desire. Now click on OK . The screen shot would look like the following: As you see, the spreadsheet shows that the mean of the sample is 6.902777778 and the absolute value of the margin of error 0.231678109. This mean is based on this sample information. A 95 confidence interval for the hourly income of the UB work-study students has an upper limit of 6.902777778 0.231678109 and a lower limit of 6.902777778 - 0.231678109. On the other hand, we can say that of all the intervals formed this way 95 contains the mean of the population. Or, for practical purposes, we can be 95 confident that the mean of the population is between 6.902777778 - 0.231678109 and 6.902777778 0.231678109. We can be at least 95 confident that interval 6.68 and 7.13 contains the average hourly income of a work-study student. Smal Sample Size (say less than 30) If the sample n is less than 30 or we must use the small sample procedure to develop a confidence interval for the mean of a population. The general formula for developing confidence intervals for the population mean based on small a sample is: In this formula is the mean of the sample. is the interval coefficient providing an area of in the upper tail of a t distribution with n-1 degrees of freedom which can be found from a t distribution table (for example the interval coefficient for a 90 confidence level is 1.833 if the sample is 10). S is the standard deviation of the sample and n is the sample size. Now you would like to see how Excel is used to develop a certain confidence interval of a population mean based on this small sample information. As you see, to evaluate this formula you need quotthe mean of the samplequot and the margin of error Excel will automatically calculate these quantities the way it did for large samples. Again, the only things you have to do are: add the margin of error to the mean of the sample, , find the upper limit of the interval and to subtract the margin of error from the mean to find the lower limit of the interval. To demonstrate how Excel finds these quantities we will use the data set, which contains the hourly incomes of 10 work-study students here, at the University of Baltimore. These numbers appear in cells A1 to A10 on an Excel work sheet. After entering the data we follow the descriptive statistic procedure to calculate the unknown quantities (exactly the way we found quantities for large sample). Here you are with the procedures in step-by-step form: Step 1. Enter data in cells A1 to A10 on the spreadsheet Step 2. From the menus select Tools Step 3. Click on Data Analysis then choose the Descriptive Statistics option. Click OK on the descriptive statistics dialog, click on Summary Statistic, click on the confidence interval level and type in 90 or in other problems whichever confidence interval you desire. In the Output Range box, enter B1 or whatever location you desire. Now click on OK . The screen shot will look like the following: Now, like the calculation of the confidence interval for the large sample, calculate the confidence interval of the population based on this small sample information. The confidence interval is: 6.8 0.414426102 or 6.39 7.21. We can be at least 90 confidant that the interval 6.39 and 7.21 contains the true mean of the population. Test of Hypothesis Concerning the Population Mean Again, we must distinguish two cases with respect to the size of your sample Large Sample Size (say, over 30): In this section you wish to know how Excel can be used to conduct a hypothesis test about a population mean. We will use the hourly incomes of different work-study students than those introduced earlier in the confidence interval section. Data are entered in cells A1 to A36. The objective is to test the following Null and Alternative hypothesis: The null hypothesis indicates that the average hourly income of a work-study student is equal to 7 per hour however, the alternative hypothesis indicates that the average hourly income is not equal to 7 per hour. I will repeat the steps taken in descriptive statistics and at the very end will show how to find the value of the test statistics in this case, z, using a cell formula. Step 1. Enter data in cells A1 to A36 (on the spreadsheet) Step 2. From the menus select Tools Step 3. Click on Data Analysis then choose the Descriptive Statistics option, click OK . On the descriptive statistics dialog, click on Summary Statistic. Select the Output Range box, enter B1 or whichever location you desire. Now click OK . (To calculate the value of the test statistics search for the mean of the sample then the standard error. In this output, these values are in cells C3 and C4.) Step 4. Select cell D1 and enter the cell formula (C3 - 7)C4. The screen shot should look like the following: The value in cell D1 is the value of the test statistics. Since this value falls in acceptance range of -1.96 to 1.96 (from the normal distribution table), we fail to reject the null hypothesis. Small Sample Size (say, less than 30): Using steps taken the large sample size case, Excel can be used to conduct a hypothesis for small-sample case. Lets use the hourly income of 10 work-study students at UB to conduct the following hypothesis. The null hypothesis indicates that average hourly income of a work-study student is equal to 7 per hour. The alternative hypothesis indicates that average hourly income is not equal to 7 per hour. I will repeat the steps taken in descriptive statistics and at the very end will show how to find the value of the test statistics in this case quottquot using a cell formula. Step 1. Enter data in cells A1 to A10 (on the spreadsheet) Step 2. From the menus select Tools Step 3. Click on Data Analysis then choose the Descriptive Statistics option. Click OK . On the descriptive statistics dialog, click on Summary Statistic. Select the Output Range boxes, enter B1 or whatever location you chose. Again, click on OK . (To calculate the value of the test statistics search for the mean of the sample then the standard error, in this output these values are in cells C3 and C4.) Step 4. Select cell D1 and enter the cell formula (C3 - 7)C4. The screen shot would look like the following: Since the value of test statistic t -0.66896 falls in acceptance range -2.262 to 2.262 (from t table, where 0.025 and the degrees of freedom is 9), we fail to reject the null hypothesis. Difference Between Mean of Two Populations In this section we will show how Excel is used to conduct a hypothesis test about the difference between two population means assuming that populations have equal variances. The data in this case are taken from various offices here at the University of Baltimore. I collected the hourly income data of 36 randomly selected work-study students and 36 student assistants. The hourly income range for work-study students was 6 - 8 while the hourly income range for student assistants was 6-9. The main objective in this hypothesis testing is to see whether there is a significant difference between the means of the two populations. The NULL and the ALTERNATIVE hypothesis is that the means are equal and the means are not equal, respectively. Referring to the spreadsheet, I chose A1 and A2 as label centers. The work-study students hourly income for a sample size 36 are shown in cells A2:A37 . and the student assistants hourly income for a sample size 36 is shown in cells B2:B37 Data for Work Study Student: 6, 6, 6, 6, 6, 6, 6, 6.5, 6.5, 6.5, 6.5, 6.5, 6.5, 7, 7, 7, 7, 7, 7, 7, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 8, 8, 8, 8, 8, 8, 8, 8, 8. Data for Student Assistant: 6, 6, 6, 6, 6, 6.5, 6.5, 6.5, 6.5, 6.5, 7, 7, 7, 7, 7, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 8, 8, 8, 8, 8, 8, 8, 8.5, 8.5, 8.5, 8.5, 8.5, 9, 9, 9, 9. Use the Descriptive Statistics procedure to calculate the variances of the two samples. The Excel procedure for testing the difference between the two population means will require information on the variances of the two populations. Since the variances of the two populations are unknowns they should be replaced with sample variances. The descriptive for both samples show that the variance of first sample is s 1 2 0.55546218 . while the variance of the second sample s 2 2 0.969748 . To conduct the desired test hypothesis with Excel the following steps can be taken: Step 1. From the menus select Tools then click on the Data Analysis option. Step 2. When the Data Analysis dialog box appears: Choose z-Test: Two Sample for means then click OK Step 3. When the z-Test: Two Sample for means dialog box appears: Enter A1:A36 in the variable 1 range box (work-study students hourly income) Enter B1:B36 in the variable 2 range box (student assistants hourly income) Enter 0 in the Hypothesis Mean Difference box (if you desire to test a mean difference other than 0, enter that value) Enter the variance of the first sample in the Variable 1 Variance box Enter the variance of the second sample in the Variable 2 Variance box and select Labels Enter 0.05 or, whatever level of significance you desire, in the Alpha box Select a suitable Output Range for the results, I chose C19 . then click OK. The value of test statistic z-1.9845824 appears in our case in cell D24. The rejection rule for this test is z 1.96 from the normal distribution table. In the Excel output these values for a two-tail test are z 1.959961082. Since the value of the test statistic z-1.9845824 is less than -1.959961082 we reject the null hypothesis. We can also draw this conclusion by comparing the p-value for a two tail - test and the alpha value. Since p-value 0.047190813 is less than a0.05 we reject the null hypothesis. Overall we can say, based on the sample results, the two populations means are different. Small Samples: n 1 OR n 2 are less than 30 In this section we will show how Excel is used to conduct a hypothesis test about the difference between two population means. - Given that the populations have equal variances when two small independent samples are taken from both populations. Similar to the above case, the data in this case are taken from various offices here at the University of Baltimore. I collected hourly income data of 11 randomly selected work-study students and 11 randomly selected student assistants. The hourly income range for both groups was similar range, 6 - 8 and 6-9. The main objective in this hypothesis testing is similar too, to see whether there is a significant difference between the means of the two populations. The NULL and the ALTERNATIVE hypothesis are that the means are equal and they are not equal, respectively. Referring to the spreadsheet, we chose A1 and A2 as label centers. The work-study students hourly income for a sample size 11 are shown in cells A2:A12 . and the student assistants hourly income for a sample size 11 is shown in cells B2:B12 . Unlike previous case, you do not have to calculate the variances of the two samples, Excel will automatically calculate these quantities and use them in the calculation of the value of the test statistic. Similar to the previous case, but a bit different in step 2, to conduct the desired test hypothesis with Excel the following steps can be taken: Step 1. From the menus select Tools then click on the Data Analysis option. Step 2. When the Data Analysis dialog box appears: Choose t-Test: Two Sample Assuming Equal Variances then click OK Step 3 When the t-Test: Two Sample Assuming Equal Variances dialog box appears : Enter A1:A12 in the variable 1 range box (work-study student hourly income) Enter B1:B12 in the variable 2 range box (student assistant hourly income) Enter 0 in the Hypothesis Mean Difference box(if you desire to test a mean difference other than zero, enter that value) then select Labels Enter 0.05 or, whatever level of significance you desire, in the Alpha box Select a suitable Output Range for the results, I chose C1, then click OK. The value of the test statistic t-1.362229828 appears, in our case, in cell D10. The rejection rule for this test is t 2.086 from the t distribution table where the t value is based on a t distribution with n 1 - n 2 -2 degrees of freedom and where the area of the upper one tail is 0.025 ( that is equal to alpha2). In the Excel output the values for a two-tail test are t 2.085962478. Since the value of the test statistic t-1.362229828, is in an acceptance range of t 2.085962478, we fail to reject the null hypothesis. We can also draw this conclusion by comparing the p-value for a two-tail test and the alpha value. Since the p-value 0.188271278 is greater than a0.05 again . we fail to reject the null hypothesis. Overall we can say, based on sample results, the two populations means are equal. Enter data in an Excel work sheet starting with cell A2 and ending with cell C8. The following steps should be taken to find the proper output for interpretation. Step 1. From the menus select Tools and click on Data Analysis option. Step 2. When data analysis dialog appears, choose Anova single-factor option enter A2:C8 in the input range box. Select labels in first row. Step3. Select any cell as output(in here we selected A11). OK klicken. The general form of Anova table looks like following: Source of Variation Suppose the test is done at level of significance a 0.05, we reject the null hypothesis. This means there is a significant difference between means of hourly incomes of student assistants in these departments. The Two-way ANOVA Without Replication In this section, the study involves six students who were offered different hourly wages in three different department services here at the University of Baltimore. The objective is to see whether the hourly incomes are the same. Therefore, we can consider the following: Treatment: Hourly payments in the three departments Blocks: Each student is a block since each student has worked in the three different departments The general form of Anova table would look like: Source of Variation Degrees of freedom To find the Excel output for the above data the following steps can be taken: Step 1. From the menus select Tools and click on Data Analysis option. Step2. When data analysis box appears: select Anova two-factor without replication then Enter A2: D8 in the input range. Select labels in first row. Step3. Select an output range (in here we selected A11) then OK. Source of Variation NOTE: FMSTMSE 0.9805560.497222 1.972067 F 3.33 from table (5 numerator DF and 10 denominator DF) Since 1.972067 Goodness-of-Fit Test for Discrete Random Variables The CHI-SQUARE distribution can be used in a hypothesis test involving a population variance. However, in this section we would like to test and see how close a sample results are to the expected results. Example: The Multinomial Random Variable In this example the objective is to see whether or not based on a randomly selected sample information the standards set for a population is met. There are so many practical examples that can be used in this situation. For example it is assumed the guidelines for hiring people with different ethnic background for the US government is set at 70(WHITE), 20(African American) and 10(others), respectively. A randomly selected sample of 1000 US employees shows the following results that is summarized in a table. EXPECTED NUMBER OF EMPLOYEES OBSERVED FROM SAMPLE As you see the observed sample numbers for groups two and three are lower than their expected values unlike group one which has a higher expected value. Is this a clear sign of discrimination with respect to ethnic background Well depends on how much lower the expected values are. The lower amount might not statistically be significant. To see whether these differences are significant we can use Excel and find the value of the CHI-SQUARE. If this value falls within the acceptance region we can assume that the guidelines are met otherwise they are not. Now lets enter these numbers into Excel spread - sheet. We used cells B7-B9 for the expected proportions, C7-C9 for the observed values and D7-D9 for the expected frequency. To calculate the expected frequency for a category, you can multiply the proportion of that category by the sample size (in here 1000). The formula for the first cell of the expected value column, D7 is 1000B7. To find other entries in the expected value column, use the copy and the paste menu as shown in the following picture. These are important values for the chi-square test. The observed range in this case is C7: C9 while the expected range is D7: D9. The null and the alternative hypothesis for this test are as follows: H A . The population proportions are not P W 0.70, P A 0.20 and P O 0.10 Now lets use Excel to calculate the p-value in a CHI-SQUARE test. Step 1. Select a cell in the work sheet, the location which you like the p value of the CHI-SQUARE to appear. We chose cell D12. Step 2. From the menus, select insert then click on the Function option, Paste Function dialog box appears. Step 3. Refer to function category box and choose statistical . from function name box select CHITEST and click on OK . Step 4. When the CHITEST dialog appears: Enter C7: C9 in the actual-range box then enter D7: D9 in the expected-range box, and finally click on OK . The p-value will appear in the selected cell, D12. As you see the p value is 0.002392 which is less than the value of the level of significance (in this case the level of significance, a 0.10). Hence the null hypothesis should be rejected. This means based on the sample information the guidelines are not met. Notice if you type CHITEST(C7:C9,D7:D9) in the formula bar the p-value will show up in the designated cell. NOTE: Excel can actually find the value of the CHI-SQUARE. To find this value first select an empty cell on the spread sheet then in the formula bar type CHIINV(D12,2). D12 designates the p-Value found previously and 2 is the degrees of freedom (number of rows minus one). The CHI-SQUARE value in this case is 12.07121. If we refer to the CHI-SQUARE table we will see that the cut off is 4.60517 since 12.071214.60517 we reject the null. The following screen shot shows you how to the CHI-SQUARE value. Test of Independence: Contingency Tables The CHI-SQUARE distribution is also used to test and see whether two variables are independent or not. For example based on sample data you might want to see whether smoking and gender are independent events for a certain population. The variables of interest in this case are smoking and the gender of an individual. Another example in this situation could involve the age range of an individual and his or her smoking habit. Similar to case one data may appear in a table but unlike the case one this table may contains several columns in addition to rows. The initial table contains the observed values. To find expected values for this table we set up another table similar to this one. To find the value of each cell in the new table we should multiply the sum of the cell column by the sum of the cell row and divide the results by the grand total. The grand total is the total number of observations in a study. Now based on the following table test whether or not the smoking habit and gender of the population that the following sample taken from are independent. On the other hand is that true that males in this population smoke more than females You could use formula bar to calculate the expected values for the expected range. For example to find the expected value for the cell C5 which is replaced in c11 you could click on the formula bar and enter C6D5D6 then enter in cell C11. Step 1. Observed Range b4:c5 Smoking and gender So the observed range is b4:c5 and the expected range is b10:c11. Step 3. Click on fx (paste function) Step 4. When Paste Function dialog box appears, click on Statistical in function category and CHITEST in the function name then click OK. When the CHITEST box appears, enter b4:c5 for the actual range, then b10:c11 for the expected range. Step 5. Click on OK (the p-value appears). 0.477395 Conclusion: Since p-value is greater than the level of significance (0.05), fails to reject the null. This means smoking and gender are independent events. Based on sample information one can not assure females smoke more than males or the other way around. Step 6. To find the chi-square value, use CHINV function, when Chinv box appears enter 0.477395 for probability part, then 1 for the degrees of freedom. Degrees of freedom(number of columns-1)X(number of rows-1) Test Hypothesis Concerning the Variance of Two Populations In this section we would like to examine whether or not the variances of two populations are equal. Whenever independent simple random samples of equal or different sizes such as n 1 and n 2 are taken from two normal distributions with equal variances, the sampling distribution of s 1 2 s 2 2 has F distribution with n 1 - 1 degrees of freedom for the numerator and n 2 - 1 degrees of freedom for the denominator. In the ratio s 1 2 s 2 2 the numerator s 1 2 and the denominator s 2 2 are variances of the first and the second sample, respectively. The following figure shows the graph of an F distribution with 10 degrees of freedom for both the numerator and the denominator. Unlike the normal distribution as you see the F distribution is not symmetric. The shape of an F distribution is positively skewed and depends on the degrees of freedom for the numerator and the denominator. The value of F is always positive. Now let see whether or not the variances of hourly income of student-assistant and work-study students based on samples taken from populations previously are equal. Assume that the hypothesis test in this case is conducted at a 0.10. The null and the alternative are: Rejection Rule: Reject the null hypothesis if Flt F 0.095 or Fgt F 0.05 where F, the value of the test statistic is equal to s 1 2 s 2 2. with 10 degrees of freedom for both the numerator and the denominator. We can find the value of F .05 from the F distribution table. If s 1 2 s 2 2. we do not need to know the value of F 0.095 otherwise, F 0.95 1 F 0.05 for equal sample sizes. A survey of eleven student-assistant and eleven work-study students shows the following descriptive statistics. Our objective is to find the value of s 1 2 s 2 2. where s 1 2 is the value of the variance of student assistant sample and s 2 2 is the value of the variance of the work study students sample. As you see these values are in cells F8 and D8 of the descriptive statistic output. To calculate the value of s 1 2 s 2 2. select a cell such as A16 and enter cell formula F8D8 and enter. This is the value of F in our problem. Since this value, F1.984615385, falls in acceptance area we fail to reject the null hypothesis. Hence, the sample results do support the conclusion that student assistants hourly income variance is equal to the work study students hourly income variance. The following screen shoot shows how to find the F value. We can follow the same format for one tail test(s). Linear Correlation and Regression Analysis In this section the objective is to see whether there is a correlation between two variables and to find a model that predicts one variable in terms of the other variable. There are so many examples that we could mention but we will mention the popular ones in the world of business. Usually independent variable is presented by the letter x and the dependent variable is presented by the letter y. A business man would like to see whether there is a relationship between the number of cases of sold and the temperature in a hot summer day based on information taken from the past. He also would like to estimate the number cases of soda which will be sold in a particular hot summer day in a ball game. He clearly recorded temperatures and number of cases of soda sold on those particular days. The following table shows the recorded data from June 1 through June 13. The weatherman predicts a 94F degree temperature for June 14. The businessman would like to meet all demands for the cases of sodas ordered by customers on June 14. Now lets use Excel to find the linear correlation coefficient and the regression line equation. The linear correlation coefficient is a quantity between -1 and 1. This quantity is denoted by R . The closer R to 1 the stronger positive (direct) correlation and similarly the closer R to -1 the stronger negative (inverse) correlation exists between the two variables. The general form of the regression line is y mx b. In this formula, m is the slope of the line and b is the y-intercept. You can find these quantities from the Excel output. In this situation the variable y (the dependent variable) is the number of cases of soda and the x (independent variable) is the temperature. To find the Excel output the following steps can be taken: Step 1. From the menus choose Tools and click on Data Analysis. Step 2. When Data Analysis dialog box appears, click on correlation. Step 3. When correlation dialog box appears, enter B1:C14 in the input range box. Click on Labels in first row and enter a16 in the output range box. Click on OK. As you see the correlation between the number of cases of soda demanded and the temperature is a very strong positive correlation. This means as the temperature increases the demand for cases of soda is also increasing. The linear correlation coefficient is 0.966598577 which is very close to 1. Now lets follow same steps but a bit different to find the regression equation. Step 1. From the menus choose Tools and click on Data Analysis Step 2 . When Data Analysis dialog box appears, click on regression . Step 3. When Regression dialog box appears, enter b1:b14 in the y-range box and c1:c14 in the x-range box. Click on labels . Step 4. Enter a19 in the output range box . Note: The regression equation in general should look like Ym X b. In this equation m is the slope of the regression line and b is its y-intercept. Adjusted R Square The relationship between the number of cans of soda and the temperature is: Y 0.879202711 X 9.17800767 The number of cans of soda 0.879202711(Temperature) 9.17800767. Referring to this expression we can approximately predict the number of cases of soda needed on June 14. The weather forecast for this is 94 degrees, hence the number of cans of soda needed is equal to The number of cases of soda0.879202711(94) 9.17800767 91.82 or about 92 cases. Moving Average and Exponential Smoothing Moving Average Models: Use the Add Trendline option to analyze a moving average forecasting model in Excel. You must first create a graph of the time series you want to analyze. Select the range that contains your data and make a scatter plot of the data. Once the chart is created, follow these steps: Click on the chart to select it, and click on any point on the line to select the data series. When you click on the chart to select it, a new option, Chart, s added to the menu bar. From the Chart menu, select Add Trendline. The following is the moving average of order 4 for weekly sales: Exponential Smoothing Models: The simplest way to analyze a timer series using an Exponential Smoothing model in Excel is to use the data analysis tool. This tool works almost exactly like the one for Moving Average, except that you will need to input the value of a instead of the number of periods, k. Once you have entered the data range and the damping factor, 1- a. and indicated what output you want and a location, the analysis is the same as the one for the Moving Average model. Applications and Numerical Examples Descriptive Statistics: Suppose you have the following, n 10, data: 1.2, 1.5, 2.6, 3.8, 2.4, 1.9, 3.5, 2.5, 2.4, 3.0 Type your n data points into the cells A1 through An. Click on the Tools menu. (At the bottom of the Tools menu will be a submenu Data Analysis. , if the Analysis Tool Pack has been properly installed.) Clicking on Data Analysis. will lead to a menu from which Descriptive Statistics is to be selected. Select Descriptive Statistics by pointing at it and clicking twice, or by highlighting it and clicking on the Okay button. Within the Descriptive Statistics submenu, a. for the input range enter A1:Dn, assuming you typed the data into cells A1 to An. b. click on the output range button and enter the output range C1:C16. C. click on the Summary Statistics box d. finally, click on Okay. The Central Tendency: The data can be sorted in ascending order: 1.2, 1.5, 1.9, 2.4, 2.4, 2.5, 2.6, 3.0, 3.5, 3.8 The mean, median and mode are computed as follows: (1.2 1.5 2.6 3.8 2.4 1.9 3.5 2.5 2.4 3.0) 10 2.48 The mode is 2.4, since it is the only value that occurs twice. The midrange is (1.2 3.8) 2 2.5. Note that the mean, median and mode of this set of data are very close to each other. This suggests that the data is very symmetrically distributed. Variance: The variance of a set of data is the average of the cumulative measure of the squares of the difference of all the data values from the mean. The sample variance-based estimation for the population variance are computed differently. The sample variance is simply the arithmetic mean of the squares of the difference between each data value in the sample and the mean of the sample. On the other hand, the formula for an estimate for the variance in the population is similar to the formula for the sample variance, except that the denominator in the fraction is (n-1) instead of n. However, you should not worry about this difference if the sample size is large, say over 30. Compute an estimate for the variance of the population . given the following sorted data: 1.2, 1.5, 1.9, 2.4, 2.4, 2.5, 2.6, 3.0, 3.5, 3.8 mean 2.48 as computed earlier. An estimate for the population variance is: s 2 1 (10-1) (1.2 - 2.48) 2 (1.5 - 2.48) 2 (1.9 - 2.48) 2 (2.4 -2.48) 2 (2.4 - 2.48) 2 (2.5 - 2.48) 2 (2.6 - 2.48) 2 (3.0 - 2.48) 2 (3.5 -2.48) 2 (3.8 - 2.48) 2 (1 9) (1.6384 0.9604 0.3364 0.0064 0.0064 0.0004 0.0144 0.2704 1.0404 1.7424) 0.6684 Therefore, the standard deviation is s ( 0.6684 ) 12 0.8176 Probability and Expected Values: Newsweek reported that average take for bank robberies was 3,244 but 85 percent of the robbers were caught. Assuming 60 percent of those caught lose their entire take and 40 percent lose half, graph the probability mass function using EXCEL. Calculate the expected take from a bank robbery. Does it pay to be a bank robber To construct the probability function for bank robberies, first define the random variable x, bank robbery take. If the robber is not caught, x 3,244. If the robber is caught and manages to keep half, x 1,622. If the robber is caught and loses it all, then x 0. The associated probabilities for these x values are 0.15 (1 - 0.85), 0.34 (0.85)(0.4), and 0.51 (0.85)(0.6). After entering the x values in cells A1, A2 and A3 and after entering the associated probabilities in B1, B2, and B3, the following steps lead to the probability mass function: Click on ChartWizard. The ChartWizard Step 1 of 4 screen will appear. Highlight Column at ChartWizard Step 1 of 4 and click Next. At ChartWizard Step 2 of 4 Chart Source Data, enter B1:B3 for Data range, and click column button for Series in. A graph will appear. Click on series toward the top of the screen to get a new page. At the bottom of the Series page, is a rectangle for Category (X) axis labels: Click on this rectangle and then highlight A1:A3. At Step 3 of 4 move on by clicking on Next, and at Step 4 of 4, click on Finish. The expected value of a robbery is 1,038.08. E(X) (0)(0.51)(1622)(0.34) (3244)(0.15) 0 551.48 486.60 1038.08 The expected return on a bank robbery is positive. On average, bank robbers get 1,038.08 per heist. If criminals make their decisions strictly on this expected value, then it pays to rob banks. A decision rule based only on an expected value, however, ignores the risks or variability in the returns. In addition, our expected value calculations do not include the cost of jail time, which could be viewed by criminals as substantial. Discrete Continuous Random Variables: Binomial Distribution Application: A multiple choice test has four unrelated questions. Each question has five possible choices but only one is correct. Thus, a person who guesses randomly has a probability of 0.2 of guessing correctly. Draw a tree diagram showing the different ways in which a test taker could get 0, 1, 2, 3 and 4 correct answers. Sketch the probability mass function for this test. What is the probability a person who guesses will get two or more correct Solution: Letting Y stand for a correct answer and N a wrong answer, where the probability of Y is 0.2 and the probability of N is 0.8 for each of the four questions, the probability tree diagram is shown in the textbook on page 182. This probability tree diagram shows the branches that must be followed to show the calculations captured in the binomial mass function for n 4 and 0.2. For example, the tree diagram shows the six different branch systems that yield two correct and two wrong answers (which corresponds to 4(22) 6. The binomial mass function shows the probability of two correct answers as P(x 2 n 4, p 0.2) 6(.2)2(.8)2 6(0.0256) 0.1536 P(2) Which is obtained from excel by using the BINOMDIST Command, where the first entry is x, the second is n, and the third is mass (0) or cumulative (1) that is, entering BINOMDIST(2,4,0.2,0) IN ANY EXCEL CELL YIELDS 0.1536 AND BINOMDIST(3,4,0.2,0) YIELDS P(x3n4, p 0.2) 0.0256 BINOMDIST(4,4,0.2,0) YIELDS P(x4n4, p 0.2) 0.0016 1-BINOMDIST(1,4,0.2,1) YIELDS P(x 179 2 n 4, p 0.2) 0.1808 Normal Example: If the time required to complete an examination by those with a certain learning disability is believed to be distributed normally, with mean of 65 minutes and a standard deviation of 15 minutes, then when can the exam be terminated so that 99 percent of those with the disability can finish Solution: Because the average and standard deviation are known, what needs to be established is the amount of time, above the mean time, such that 99 percent of the distribution is lower. This is a distance that is measured in standard deviations as given by the Z value corresponding to the 0.99 probability found in the body of Appendix B, Table 5,as shown in the textbook OR the commands entered into any cell of Excel to find this Z value is NORMINV(0.99,0,1) for 2.326342. The closest cumulative probability that can be found is 0.9901, in the row labeled 2.3 and column headed by .03, Z 2.33, which is only an approximation for the more exact 2.326342 found in Excel. Using this more exact value the calculation with mean m and standard deviation s in the following formula would be Z ( X - m ) s That is, Z ( x - 65)15 Thus, x 65 15(2.32634) 99.9 minutes. Alternatively, instead of standardizing with the Z distribution using Excel we can simply work directly with the normal distribution with a mean of 65 and standard deviation of 15 and enter NORMINV(0.99,65,15). In general to obtain the x value for which alpha percent of a normal random variables values are lower, the following NORMINV command may be used, where the first entry is a. the second is m. and the third is s. Another Example: In the early 1980s, the Toro Company of Minneapolis, Minnesota, advertised that it would refund the purchase price of a snow blower if the following winters snowfall was less than 21 percent of the local average. If the average snowfall is 45.25 inches, with a standard deviation of 12.2 inches, what is the likelihood that Toro will have to make refunds Solution: Within limits, snowfall is a continuous random variable that can be expected to vary symmetrically around its mean, with values closer to the mean occurring most often. Thus, it seems reasonable to assume that snowfall (x) is approximately normally distributed with a mean of 45.25 inches and standard deviation of 12.2 inches. Nine and one half inches is 21 percent of the mean snowfall of 45.25 inches and, with a standard deviation of 12.2 inches, the number of standard deviations between 45.25 inches and 9.5 inches is Z: Z ( x - m ) s (9.50 - 45.25)12.2 -2.93 Using Appendix B, Table 5, the textbook demonstrates the determination of P(x 163 9.50) P(z 163 -2.93) 0.17, the probability of snowfall less than 9.5 inches. Using Excel, this normal probability is obtained with the NORMDIST command, where the first entry is x, the second is mean m. the third is standard deviation s, and the fourth is CUMULATIVE (1). Entering NORMDIST(9.5,45.25,12.2,1), Gives P( x 163 9.50) 0.001693. Sampling Distribution and the Central Limit Theorem : A bakery sells an average of 24 loaves of bread per day. Sales (x) are normally distributed with a standard deviation of 4. If a random sample of size n 1 (day) is selected, what is the probability this x value will exceed 28 If a random sample of size n 4 (days) is selected, what is theprobability that xbar 179 28 Why does the answer in part 1 differ from that in part 2 1. The sampling distribution of the sample mean xbar is normal with a mean of 24 and a standard error of the mean of 4. Thus, using Excel, 0.15866 1-NORMDIST(28,24,4,1). 2. The sampling distribution of the sample mean xbar is normal with a mean of 24 and a standard error of the mean of 2 using Excel, 0.02275 1-NORMDIST(28,24,2,1). Regression Analysis: The highway deaths per 100 million vehicle miles and highway speed limits for 10 countries, are given below: (Death, Speed) (3.0, 55), (3.3, 55), (3.4, 55), (3.5, 70), (4.1, 55), (4.3, 60), (4.7, 55), (4.9, 60), (5.1, 60), and (6.1, 75). From this we can see that five countries with the same speed limit have very different positions on the safety list. For example, Britain. with a speed limit of 70 is demonstrably safer than Japan, at 55. Can we argue that, speed has little to do with safety. Use regression analysis to answer this question. Solution: Enter the ten paired y and x data into cells A2 to A11 and B2 to B11, with the death rate label in A1 and speed limits label in B1, the following steps produce the regression output. Choose Regression from Data Analysis in the Tools menu. The Regression dialog box will will appear. Note: Use the mouse to move between the boxes and buttons. Click on the desired box or button. The large rectangular boxes require a range from the worksheet. A range may be typed in or selected by highlighting the cells with the mouse after clicking on the box. If the dialog box blocks the data, it can be moved on the screen by clicking on the title bar and dragging. For the Input Y Range, enter A1 to A11, and for the Input X Range enter B1 to B11. Because the Y and X ranges include the Death and Speed labels in A1 and B1, select the Labels box with a click. Click the Output Range button and type reference cell, which in this demonstration is A13. To get the predicted values of Y (Death rates) and residuals select the Residuals box with a click. Your screen display should show a Table, clicking OK will give the SUMMARY OUTPUT, ANOVA AND RESIDUAL OUTPUT The first section of the EXCEL printout gives SUMMARY OUTPUT. The Multiple R is the square root of the R Square the computation and interpretation of which we have already discussed. The Standard Error of estimate (which will be discussed in the next chapter) is s 0.86423, which is the square root of Residual SS 5.97511 divided by its degrees of freedom, df 8, as given in the ANOVA section. We will also discuss the adjusted R-square of 0.21325 in the following chapters. Under the ANOVA section are the estimated regression coefficients and related statistics that will be discussed in detail in the next chapter. For now it is sufficient to recognize that the calculated coefficient values for the slope and y intercept are provided (b 0.07556 and a -0.29333). Next to these coefficient estimates is information on the variability in the distribution of the least-squares estimators from which these specific estimates were drawn: the column titled Std. Error contains the standard deviations (standard errors) of the intercept and slope distributions the t-ratio and p columns give the calculated values of the t statistics and associated p-values. As shown in Chapter 13, the t statistic of 1.85458 and p-value of 0.10077, for example, indicates that the sample slope (0.07556) is sufficiently different from zero, at even the 0.10 two-tail Type I error level, to conclude that there is a significant relationship between deaths and speed limits in the population. This conclusion is contrary to assertion that speed has little to do with safety. SUMMARY OUTPUT: Multiple R 0.54833, R Square 0.30067, Adjusted R Square 0.21325, Standard Error 0.86423, Observations 10 ANOVA df SS MS F P-value Regression 1 2.56889 2.56889 3.43945 0.10077 Residual 8 5.97511 0.74689 Total 9 8.54400 Coeffs. Estimate Std. Error T Stat P-value Lower 95 Upper 95 Intercept -0.29333 2.45963 -0.11926 0.90801 -5.96526 5.37860 Speed 0.07556 0.04074 1.85458 0.10077 -0.01839 0.16950 Predicted Residuals 3.86222 -0.86222 3.86222 -0.56222 3.86222 -0.46222 4.99556 -1.49556 3.86222 0.23778 4.24000 0.06000 3.86222 0.83778 4.24000 0.66000 4.24000 0.86000 5.37333 0.72667 Microsoft Excel Add-Ins Forecasting with regression requires the Excel add-in called Analysis ToolPak , and linear programming requires the Excel add-in called Solver . How you check to see if these are activated on your computer, and how to activate them if they are not active, varies with Excel version. Here are instructions for the most common versions. If Excel will not let you activate Data Analysis and Solver, you must use a different computer. Excel 20022003: Start Excel, then click Tools and look for Data Analysis and for Solver. If both are there, press Esc (escape) and continue with the respective assignment. Otherwise click Tools, Add-Ins, and check the boxes for Analysis ToolPak and for Solver, then click OK. Click Tools again, and both tools should be there. Excel 2007: Start Excel 2007 and click the Data tab at the top. Look to see if Data Analysis and Solver show in the Analysis section at the far right. If both are there, continue with the respective assignment. Otherwise, do the following steps exactly as indicated: - click the 8220Office Button8221 at top left - click the Excel Options button near the bottom of the resulting window - click the Add-ins button on the left of the next screen - near the bottom at Manage Excel Add-ins, click Go - check the boxes for Analysis ToolPak and Solver Add-in if they are not already checked, then click OK - click the Data tab as above and verify that the add-ins show. Excel 2010: Start Excel 2010 and click the Data tab at the top. Look to see if Data Analysis and Solver show in the Analysis section at the far right. If both are there, continue with the respective assignment. Otherwise, do the following steps exactly as indicated: - click the File tab at top left - click the Options button near the bottom of the left side - click the Add-ins button near the bottom left of the next screen - near the bottom at Manage Excel Add-ins, click Go - check the boxes for Analysis ToolPak and Solver Add-in if they are not already checked, then click OK - click the Data tab as above and verify that the add-ins show. Solving Linear Programs by Excel Some of these examples can be modified for other types problems Computer-assisted Learning: E-Labs and Computational Tools My teaching style deprecates the plug the numbers into the software and let the magic box work it out approach. Personal computers, spreadsheets, e. g. Excel. professional statistical packages (e. g. such as SPSS), and other information technologies are now ubiquitous in statistical data analysis. Without using these tools, one cannot perform any realistic statistical data analysis on large data sets. The appearance of other computer software, JavaScript Applets. Statistical Demonstrations Applets. and Online Computation are the most important events in the process of teaching and learning concepts in model-based statistical decision making courses. These tools allow you to construct numerical examples to understand the concepts, and to find their significance for yourself. Use any or online interactive tools available on the WWW to perform statistical experiments (with the same purpose, as you used to do experiments in physics labs to learn physics) to understand statistical concepts such as Central Limit Theorem are entertaining and educating. Computer-assisted learning is similar to the experiential model of learning. The adherents of experiential learning are fairly adamant about how we learn. Learning seldom takes place by rote. Learning occurs because we immerse ourselves in a situation in which we are forced to perform and think. You get feedback from the computer output and then adjust your thinking-process if needed. A SPSS-Example . SPSS-Examples . SPSS-More Examples . (Statistical Package for the Social Sciences) is a data management and analysis product. It can perform a variety of data analysis and presentation functions, including statistical analyses and graphical presentation of data. SAS (Statistical Analysis System) is a system of software packages some of its basic functions and uses are: database management inputting, cleaning and manipulating data, statistical analysis, calculating simple statistics such as means, variances, correlations running standard routines such as regressions. Available at: SPSSSAS Packages on Citrix (Installing and Accessing ) Use your email ID and Password: Technical Difficulties OTS Call Center (401) 837-6262 Excel Examples. Excel More Examples It is Excellent for Descriptive Statistics, and getting acceptance is improving, as computational tool for Inferential Statistics. The Value of Performing Experiment: If the learning environment is focused on background information, knowledge of terms and new concepts, the learner is likely to learn that basic information successfully. However, this basic knowledge may not be sufficient to enable the learner to carry out successfully the on-the-job tasks that require more than basic knowledge. Thus, the probability of making real errors in the business environment is high. On the other hand, if the learning environment allows the learner to experience and learn from failures within a variety of situations similar to what they would experience in the real world of their job, the probability of having similar failures in their business environment is low. This is the realm of simulations-a safe place to fail. The appearance of statistical software is one of the most important events in the process of decision making under uncertainty. Statistical software systems are used to construct examples, to understand the existing concepts, and to find new statistical properties. On the other hand, new developments in the process of decision making under uncertainty often motivate developments of new approaches and revision of the existing software systems. Statistical software systems rely on a cooperation of statisticians, and software developers. Beside the professional statistical software Online statistical computation . and the use of a scientific calculator is required for the course. A Scientific Calculator is the one, which has capability to give you, say, the result of square root of 5. Any calculator that goes beyond the 4 operations is fine for this course. These calculators allow you to perform simple calculations you need in this course, for example, enabling you to take square root, to raise e to the power of say, 0.36. and so on. These types of calculators are called general Scientific Calculators. There are also more specific and advanced calculators for mathematical computations in other areas such as Finance, Accounting, and even Statistics. The last one, for example, computes mean, variance, skewness, and kurtosis of a sample by simply entering all data one-by-one and then pressing any of the mean, variance, skewness, and kurtosis keys. Without a computer one cannot perform any realistic statistical data analysis. Students who are signing up for the course are expected to know the basics of Excel. As a starting point, you need visiting the Excel Web site created for this course. If you are challenged by or unfamiliar with Excel, you may seek tutorial help from the Academic Resource Center at 410-837-5385, E-mail. What and How to Hand-in My Computer Assignment For the computer assignment I do recommend in checking your hand computation homework, and checking some of the numerical examples from your textbook. As part of your homework assignment you don not have to hand in the printout of the computer assisted learning, however, you must include within your handing homework a paragraph entitled Computer Implementation describing your (positive or negative) experience. Interesting and Useful Sites The Copyright Statement: The fair use, according to the 1996 Fair Use Guidelines for Educational Multimedia. of materials presented on this Web site is permitted for non-commercial and classroom purposes only. This site may be mirrored intact (including these notices), on any server with public access. All files are available at home. ubalt. eduntsbarshBusiness-stat for mirroring. Kindly e-mail me your comments, suggestions, and concerns. Vielen Dank. EOF: CopyRights 1994-2015.Smoothing and filtering are two of the most commonly used time series techniques for removing noise from the underlying data to help reveal the important features and components (e. g. trend, seasonality, etc.). However, we can also use smoothing to fill in missing values andor conduct a forecast. In this issue, we will discuss five (5) different smoothing methods: weighted moving average (WMA i ), simple exponential smoothing, double exponential smoothing, linear exponential smoothing, and triple exponential smoothing. Why should we care Smoothing is very often used (and abused) in the industry to make a quick visual examination of the data properties (e. g. trend, seasonality, etc.), fit in missing values, and conduct a quick out-of-sample forecast. Why do we have so many smoothing functions As we will see in this paper, each function works for a different assumption about the underlying data. For instance, simple exponential smoothing assumes the data has a stable mean (or at least a slow moving mean), so simple exponential smoothing will do poorly in forecasting data exhibiting seasonality or a trend. In this paper, we will go over each smoothing function, highlight its assumptions and parameters, and demonstrate its application through examples. Weighted Moving Average (WMA) A moving average is commonly used with time series data to smooth out short-term fluctuations and highlight longer-term trends or cycles. A weighted moving average has multiplying factors to give different weights to data at different positions in the sample window. The weighted moving average has a fixed window (i. e. N) and the factors are typically chosen to given more weight to recent observations. The window size (N) determines the number of points averaged at each time, so a larger windows size is less responsive to new changes in the original time series and a small window size can cause the smoothed output to be noisy. For out of sample forecasting purposes: Example 1: Lets consider monthly sales for Company X, using a 4-month (equal-weighted) moving average. Note that the moving average is always lagging behind the data and the out-of-sample forecast converges to a constant value. Lets try to use a weighting scheme (see below) which gives more emphasis to the latest observation. We plotted the equal-weighted moving average and WMA on the same graph. The WMA seems more responsive to recent changes and the out-of sample forecast converges to the same value as the moving average. Example 2: Lets examine the WMA in the presence of trend and seasonality. For this example, well use the international passenger airline data. The moving average window is 12 months. The MA and the WMA keep pace with the trend, but the out-of-sample forecast flattens. Furthermore, although the WMA exhibits some seasonality, it is always lagging behind the original data. (Browns) Simple Exponential Smoothing Simple exponential smoothing is similar to the WMA with the exception that the window size if infinite and the weighting factors decrease exponentially. As we have seen in the WMA, the simple exponential is suited for time series with a stable mean, or at least a very slow moving mean. Example 1: Lets use the monthly sales data (as we did in the WMA example). In the example above, we chose the smoothing factor to be 0.8, which begs the question: What is the best value for the smoothing factor Estimating the best value from the data Using the TSSUB function (to compute the error), SUMSQ, and Excel data tables, we computed the sum of the squared errors (SSE) and plotted the results: The SSE reaches its minimum value around 0.8, so we picked this value for our smoothing. (Holt-Winters) Double Exponential Smoothing Simple exponential smoothing does not do well in the presence of a trend, so several method devised under the double exponential umbrella are proposed to handle this type of data. NumXL supports Holt-Winters double exponential smoothing, which take the following formulation: Example 1: Lets examine the international passengers airline data We chose an Alpha value of 0.9 and a Beta of 0.1. Please note that although double smoothing traces the original data well, the out-of-sample forecast is inferior to the simple moving average. How do we find the best smoothing factors We take a similar approach to our simple exponential smoothing example, but modified for two variables. We compute the sum of the squared errors construct a two-variable data table, and pick the alpha and beta values that minimize the overall SSE. (Browns) Linear Exponential Smoothing This is another method of double exponential smoothing function, but it has one smoothing factor: Browns double exponential smoothing takes one parameter less than Holt-Winters function, but it may not offer as good a fit as that function. Example 1: Lets use the same example in Holt-Winters double exponential and compare the optimal sum of the squared error. The Browns double exponential does not fit the sample data as well as the Holt-Winters method, but the out-of sample (in this particular case) is better. How do we find the best smoothing factor ( ) We use the same method to select the alpha value that minimizes the sum of the squared error. For the example sample data, the alpha is found to be 0.8. (Winters) Triple Exponential Smoothing The triple exponential smoothing takes into account seasonal changes as well as trends. This method requires 4 parameters: The formulation for triple exponential smoothing is more involved than any of the earlier ones. Please, check our online reference manual for the exact formulation. Using the international passengers airline data, we can apply winters triple exponential smoothing, find optimal parameters, and conduct an out-of sample forecast. Obviously, the Winters triple exponential smoothing is best applied for this data sample, as it tracks the values well and the out-of sample forecast exhibits seasonality (L12). How do we find the best smoothing factor ( ) Again, we need to pick the values that minimize the overall sum of the squared errors (SSE), but the data tables can be used for more than two variables, so we resort to the Excel solver: (1) Setup the minimization problem, with the SSE as the utility function (2) The constraints for this problem Conclusion support Files

No comments:

Post a Comment