0 votes
in Datenauswertung by s093182 (210 points)

Hallo Ihr Lieben,

nachdem ich schon Personen anhand der Qualitätsindikatoren und unrealistischer Angaben entfernt habe, soll ich jetzt Extremwerte rausschmeißen, die kleiner sind als der Wert Q1 − 3 ∙ IQA bzw. größer sind als der Wert Q3 + 3 ∙ IQA.

-> wie funktioniert das in R?
-> Mache ich das für jede Variable einzeln?

Danke! :)

1 Answer

0 votes
by SoSci Survey (302k points)

Datenbereinigung ist kein Prozess, den man in jeder Erhebung immer nach dem exakt gleichen Schema durchführen kann. Die Ausfüllzeit als Qualitätsindikator ist oftmals hilfreich, aber wenn Sie z.B. Experten befragen, die schnell antworten können, dann kann dieser Indikator ebenso konraproduktiv sein.

Daher empfehle ich, dass Sie sich gerade die Fälle an der "Grenze" gründlich ansehen. Gibt es dort weitere Indikatoren, dass der Fall wirklich nicht sinnvoll ausgefüllt wurde?

soll ich jetzt Extremwerte rausschmeißen

Diese wiederum haben nicht unbedingt etewas mit sinnlosen Daten zu tun. Es kann sich hierbei durchaus um valide Antworten von untypischen Teilnehmern handeln.

Ausreißer muss man bei vielen statistischen Verfahren entfernen, die mit Mittelwerten und/oder Varianzen rechnen. Regression, Korrelation, t-Test ... weil sie das Ergebnis dort überproportional verzerren. Mest findet man Ausreißer nur bei offenen Fragen: In geschlossen abgefragten Skalen muss man schon sehr auffällig antworten, um zum statistischen Ausreißer zu werden.

That said: Die IQR berechnen Sie in R mit quantiles() - ich vermute, das meinen Sie mit Q1/Q3. Aber was genau meinen Sie mit der Abkürzung IQA?

by s093182 (210 points)
IQA steht für Interquartilabstand :)
Diese "Formel" kommt aus Statistikbüchern.
Meine Professorin sagt, diese Regel soll ich benutzen, um Ausreißer/Extremwerte  zu entfernen.
by SoSci Survey (302k points)
Wenn man normalverteiler Daten hat, dann betrachtet man üblicherweise alle Fälle, die mehr als 3 Standardabweichungen vom Mittelwert entfernt sind als Extremfälle/Ausreißer.

Wenn Sie dies auf den Interquartilsabstand (engl. IQR) übertragen möchten, dann gilt für ene Normalverteilung folgende Formel:

IQR = 1,34896 x Standardabweichung

Drei Standardabweichungen entsprechen also 4 IQRs. Für nicht-normalverteilte Daten verwendet man daher den Median plus/minus 4 IQRs als Grenzen für "normale" Fälle.
by s093182 (210 points)
Okay, wenn ich keine Normalverteilung vorliegen habe und mein IQR z.b 1,9 beträgt und mein Median bei 4,6 liegt, rechne ich:
4,6 + / - 1,9 x 4?

ich komme mir nur so unprofessionell vor, wenn ich das in meiner Bachelor Arbeit so mache, dachte es gibt irgendwas in R direkt, mit dem man Ausreißer identifizieren kann (Außerhalb vom Streudiagramm - das möchte meine Professorin nicht - oder Boxplot - das zeigt leider nur alles über 1,5 x IQR an..

In Eid und Gollwitzer steht folgendes:
Ein Extremwert ist dadurch definiert, dass er kleiner ist als der Wert Q1 − 3 ∙ IQR
bzw. größer ist als der Wert Q3 + 3 ∙ IQR.
by SoSci Survey (302k points)
> dachte es gibt irgendwas in R direkt, mit dem man Ausreißer identifizieren kann

Dazu verweise ich auf meine Hinweise oben: Ausreißer sind etwas, das man sich genau ansehen muss. Streudiagramm, in die Daten schauen ... nichts, was man einfach mit einer fertigen Funktion (die es vermutlich auch in irgend einem Paket gäbe) webzaubert.

> In Eid und Gollwitzer steht folgendes:

Na, wenn die 3 IQR nehmen, dann können sie auch 3 nehmen und das belegen. Es ist m.e. nur schwer zu argumentieren, warum man in einigen Fällen 3 SD nimmt, hier aber 2,3 SD nehmen würde, hätte man normalverteilte Daten...

Willkommen im Online-Support von SoSci Survey.

Hier bekommen Sie schnelle und fundierte Antworten von anderen Projektleitern und direkt von SoSci Survey.

→ Eine Frage stellen


Welcome to the SoSci Survey online support.

Simply ask a question to quickly get answers from other professionals, and directly from SoSci Survey.

→ Ask a Question

...