Gute effektgrößen psychologie

Statistische Signifikanz besagt, ob ein Ergebnis unter Berücksichtigung eines Restrisikos noch durch Zufall zustande gekommen sein kann, oder nicht. Nicht jedes statistisch signifikante Ergebnis ist jedoch auch praktisch bedeutsam. Je nachdem, wie viele Daten zur Verfügung stehen, welches Datenniveau diese haben und welche Analysemethoden zur Anwendung kommen, sind auch kleine Effekte unter Umständen statistisch signifikant, obwohl sie in der Realität kaum bemerkbar sind.

Im folgenden finden Sie eine Reihe an Berechnungsmöglichkeiten, Umrechnungen zwischen Effektstärken und eine Interpretationstabelle. Bitte klicken Sie den jeweiligen Balken an, um den zugehörigen Rechner auszuklappen:. Dabei wird die gepoolte Standardabweichung zugrunde gelegt. Diese Effektstärke wird beispielsweise bei einem Vergleich zweier verschiedener Gruppen in einem Experiment angewandt.

Für Prä-Post-Designs einer Gruppe empfiehlt sich aufgrund der Abhängigkeit der Daten eher die Verwendung von Rechner 4 oder 5. Sind die Standardabweichungen beider Gruppen sehr unterschiedlich, so schlägt Glass vor, nicht auf die gepoolte Standardabweichung zurückzugreifen, sondern auf die Standardabweichung der Kontrollgruppe. Dahinter steckt die Logik, dass die Standardabweichung der Kontrollgruppe nicht durch eine Intervention beeinflusst wurde.

Sie gibt die Wahrscheinlichkeit an, dass ein zufällig aus der einen Stichprobe gezogener Fall einen höheren Wert hat als als ein zufällig gezogener Fall aus der anderen Stichprobe. In diesem Rechner wird die Wahrscheinlichkeit aus Sicht der Gruppe mit dem höheren Mittelwert berichtet, aber der Bezugspunkt lässt sich umdrehen, indem man die Gegenwahrscheinlichekit 1 - CLES berechnet.

Eine bessere Herangehensweise für den Nachweis von Effekten bei Interventionsstudien liegt im Vergleich der Effekte in der Experimental- und einer Kontrollgruppe z. Wartelistenkontrollgruppe oder Alternativbehandlung. Analog zu 1. In der Literatur wird dieser Effekt sehr häufig ebenfalls als d Cohen bezeichnet siehe auch Anmerkung unterhalb der Tabelle.

Sie gibt die Wahrscheinlichkeit an, dass ein zufällig aus der einen Stichprobe gezogener Fall einen höheren Wert hat als ein zufällig gezogener Fall aus der anderen Stichprobe. In der Regel wird der Effekt aber ebenfalls schlicht mit dem Buchstaben d versehen. Bei einer Interventionsstudie wird die Entwicklung von mindestens zwei verschiedenen Gruppen i.

Es gibt dabei verschiedene Möglichkeiten, wie mit Vortestunterschiedenen und unterschiedlichen Varianzen umgegangen werden kann. Klauer schlägt vor, die Effektstärken der Prä- und Postmessung mittels Hedges g zu berechnen und die beiden Effektstärken voneinander abzuziehen. Zudem werden verschiedene Gewichtungsfaktoren berücksichtigt.

Das folgende Formular ermöglicht beide Berechnungsvarianten, die beide in den meisten Fällen zu sehr ähnlichen Ergebnissen kommen. Der Nachteil beider Vorgehensweisen liegt darin, dass die verschiedenen Messzeitpunkte als unabhängige Gruppen betrachtet werden. Bitte beachten Sie deshalb auch Berechnungsvarianten 4 und 5 , um basierend auf den Ergebnissen von Teststatistiken aus Hypothesentests die Abhängigkeiten zwischen Messzeitpunkten zu berücksichtigen.

Während es bei den Abschnitten 1 bis 3 darum ging, die Werte unabhängiger Gruppen miteinander zu vergleichen, geht es v. Morris und DeShon , p. In den Korrekturfaktor geht die Korrelation zwischen Prä- und Postmessung ein:. Die Effektstärke wird im Folgenden als d Repeated Measures d RM bezeichnet. Die zweite Effektstärke d Repeated Measures, pooled d RM, pool nutzt die gepoolte und anhand der Korrelation korrigierten Standardabweichung vgl.

Lakens, , formula 8. Weiterhin stellt die einfache Mittelung der Standardabweichung einen häufig in der metaanalytischen Forschung genutzten Kennwert dar, der nach Cumming als d av bezeichnet wird und bei dem die Korrelation zwischen den Gruppen nicht berücksichtigt wird. Vielen Dank an Sven van As für den Hinweis zu d RM und an Tobias Richter für den Hinweis zu d av und der Publikation von Lakens Effektstärken können nicht alleine nur aus Rohdaten, sondern auch aus Teststatistiken von Hypothesentests wie z.

Handelt es sich um unabhängige Gruppen, so ergeben sich im wesentlichen die gleichen Effektstärken wie bei Berechnungsvariante 2. Beim abhängigen Testen von Hypothesen z. Zwillingen oder gematchten Personen. Entsprechend wird auch bei der Berechnung von Effektstärken mehr Information berücksichtigt. Geben Sie für den abhängigen Test zusätzlich die Anzahl an Fällen und die Korrelation zwischen beiden Variablen an.

Die Berechnung erfolgt nach Borenstein , S. Dieser Anteil lässt sich auch in d umrechen. Sind die Mittelwerte der verschiedenen Gruppen einer Varianzanalyse bekannt, so lassen sich hieraus die Effektstärken f und d berechnen Cohen, , S. Allerdings muss hierfür selbst ein bisschen gerechnet werden: Bestimmten Sie zunächst die Gruppen mit dem maximalen und dem minimalen Mittelwert.

Weiterhin muss entschieden werden, wie stark die Bandbreite der Mittelwerte variieren: Wählen Sie "minimale Variation", wenn die Gruppenmittelwerte mit Ausnahme des minimalen und maximalen Wertes nahe am Gesamtmittelwert liegen. Wählen Sie "maximale Variation", wenn sich die Gruppenmittelwerte nahe am minimalen und maximalen Mittelwert liegen, in der Mitte jedoch kaum.

Effektstärken wie d oder Korrelationen sind oftmals nicht leicht zu kommunizieren. Wenn die entsprechenden Interpretationen nicht bekannt sind, so verdichtet sich der Eindruck, eine Intervention sei erfolglos. Aber auch kleine Effekte können sehr bedeutsam sein, insbesondere wenn es um existenzielle Fragen geht. Zwei Beispiele vgl. In der Folge sterben jedoch 34 von Personen weniger an Herzinfarkten.

Trotzdem retten sie vielen Frauen das Leben. Rosenthal und Rubin schlagen deshalb vor, die Effektivität von Interventionen über die Zunahme von Erfolgen auszudrücken. Die Vorgehensweise ist geeignet für 2x2-Kontingenztabellen, bei denen in den Zeilen die verschiedenen Gruppen Interventionsgruppe versus Kontrollgruppe und in den Spalten die Fallzahlen für Erfolg versus Misserfolg z.

Der BESD wird berechnet, indem man die Erfolgswahrscheinlichkeit der Behandlungsgruppe von der Erfolgswahrscheinlichkeit der Kontrollgruppe abzieht. Number Needed to Treat. Dieses veranschaulicht, wie viele Personen man in der Behandlungsgruppe benötigen würde, um im Vergleich zur Kontrollgruppe mindestens einen zusätzlichen Fall mit günstigem Ausgang beobachten zu können.

Ist der Wert negativ, so spricht man von Number Needed to Harm , also von einer schädigenden Wirkung. Bitte tragen Sie bei der Interventions- und der Kontrollgruppe die Fallzahlen für Erfolg und für Misserfolg ein:. Eine Konvertierung zwischen NNT und anderen Effektstärken wie Cohen's d ist nicht ohne weiteres möglich. Im obigen Beispiel wird versucht, die Effektstärke d über die punkt-biserale Korrelation r phi zu schätzen.

Alternative Herangehensweisen vgl. Die Ergebnisse stimmen innerhalb eines mittleren Bereichs von Wenn es in einer Studie darum geht, ob ein Ereignis z. Heilung eintritt und ob sich zwei Gruppen in der Häufigkeit dieses Ereignisses unterscheiden, dann greift man in der Regel auf Odds Ratios, Risk Ratios und Risk Difference zurück vgl. Borenstein et al. Wahrscheinlichkeiten, z.

Odds Ratio oder Quotenverhältnis : Das Odds Ratio ist mit dem relativen Risiko vergleichbar, nur dass hier Quoten berechnet werden. Ein Beispiel: Wenn es darum geht, zu untersuchen, wie viele Menschen versterben, dann teilt man nicht die Anzahl an Verstorbenen durch die Gesamtzahl der Personen einer Gruppe, sondern man berechnet das Verhältnis aus Verstorbenen und Überlebenden in der Gruppe.

Für viele Menschen sind Odds Ratios weniger intuitiv verständlich, verglichen mit dem relativen Risiko. Risk Difference oder Risikodifferenz : Hierbei handelt es sich einfach nur um die Differenz des Risikos in beiden Gruppen. Anders als beim relativen Risiko wird also nicht das Verhältnis des Risikos zwischen den Gruppen berechnet, sondern beide Werte werden voneinander abgezogen.

In Metaanalysen muss beim Aggregieren von Werten auf die logarithmierten Ratios zurückgegriffen werden. Erst am Ende werde diese wieder delogarithmiert. Cohen , S. Bei dieser Vorgehensweise werden die beiden Korrelationen Fisher-Z-transformiert und von einander abgezogen. Cohen schlägt als Interpretation von q die folgende Einteilung vor:.

Insbesondere bei Metaanalysen ist es häufig notwendig, Korrelationen zu mitteln oder Signifikanztests mit Korrelationen Testung auf unterschiedlichkeit, Testung auf Verschiedenheit von Auf der Seite Signifikanztests bei Korrelationen finden Sie entsprechende Online-Rechner. Werden diese nicht erfüllt, wie z. Geben Sie bei Kruskal-Wallis-H zusätzlich die Anzahl an Gruppen an.

Es wird diskutiert, ob eine Imputation in diesem Fall möglich und ratsam ist. Andererseits wird die Aussagekraft der Analysen reduziert, wenn zu viele Studien nicht einbezogen werden können, was wiederum die Repräsentativität der Ergebnisse verzerrt. Peterson und Brown , S. Hier ein kleines Hilfsmittel, inkl. Bitte geben Sie zunächst die Anzah an Gruppen an.

Die Umrechnung erfolgt nach Cohen , Rosenthal , S. Spezifizieren Sie zusätzlich das N. Hier sehen Sie noch einmal im Überlick die Interpretation der Effektstärken nach Cohen und Hattie S. Hattie legt seiner Einstufung real erreichbare Effekte im Bildungssystem zugrunde und kommt deshalb zu einer etwas milderen Einstufung.

Dort wo die Intervallgrenzen nicht exakt in die tabellarische Auflistung passten, wurde jeweils zur nächsten Intervallgrenze der Angabe der Effektstärke d gerundet. Borenstein Effect sizes for continuous data. Cooper, L. Valentine Eds. New York: Russell Sage Foundation. Borenstein, M. Introduction to Meta-Analysis, Chapter 7: Converting Among Effect Sizes.

Chichester, West Sussex, UK: Wiley. Cohen, J.