Paneldaten - kategorische abhängige Variablen

Question

Paneldaten - kategorische abhängige Variablen

asked Jun 8, 2023 in Datenauswertung by s222544 (710 points)

Hallo SoSci Survey Online Support,

mithilfe von SoSci Survey habe ich Daten erhoben (bis jetzt ca. 200 Probanden), wie Probanden pro Experiment (Fragebogen) in vier unterschiedlichen Runden (jeweils pro Runde 4) Entscheidungen treffen; deshalb habe ich rund 800 Observations.

Die 4 Entscheidungen sind derzeit als 0 kodiert, wenn falsch entschieden wurde und 1, wenn richtig entschieden wurde. Die 4 Entscheidungen pro Runde werden in einer "Overall" Variable geführt - kodiert 1, nur wenn alle 4 Entscheidungen in der Runde 1 sind.

Jetzt möchte ich analysieren, wie sich die Probanden pro Runde verhalten. Dazu denke ich die vier Sub-entscheidungen als kategorische Variablen zu haben und mithilfe von folgenden unabhängigen Variablen zu erklären: EG/KG (kategorisch), Geschlecht (kategorisch), % der bereits früher genannten richtigen Entscheidungen (aus einem anderen Experiment) (fortlaufend), Risikogruppe (kategorisch).

Dazu habe ich folgende Fragen und wäre sehr dankbar für Ihre Unterstützung:

1) Wie kann ich 4 kategorische Variablen gleichzeitig als abhängige Variablen analysieren?
2) Ist es möglich zu analysieren, wie sich das Verhalten der Probanden verändert - werden in späteren Runden bessere Entscheidungen getroffen - tritt ein Lerneffekt auf?

Als Zusatzinfos, die vielleicht relevant sind: Die Einteilung nach EG/KG erfolgt am Anfang des Experimentes und verändert sich nicht - habe deshalb "random effects" in früheren Analysen benutzt - anstatt von fixed effects.

Die Standard Errors werden auf individueller Ebene geclustert.

Vielen Dank im Voraus für Ihre Hilfe!

1 Answer

Answer 1 · 2023-06-08T09:28:17+0000

answered Jun 8, 2023 by SoSci Survey (348k points)

1) Wie kann ich 4 kategorische Variablen gleichzeitig als abhängige Variablen analysieren?

Im Zweifelsfall in 4 getrennten Analysen.

Die Frage ist aber eher, wie Ihre Hypothesen lauten. Daraus (und aus den Skalenniveaus) lässt sich in aller Regel ableiten, welches statistische Verfahren sich eignet.

Natürlich kann man die 4 Kategorien (da es dichotome Variablen sind) auch zusammenfassen. Entweder wie Sie es getan haben als "alle richtig" oder als Summenwert (Anzahl richtige).

Es gibt auch ein paar Verfahren, die mehrere AVs erlauben. Aber nachdem dichotome Variablen als AVs nicht ganz trivial sind (s. logistische Regression), muss das statistische Modell da evtl. noch optimiert werden. Fragen in dieser Richtung wären aber auf Cross Validated besser aufgehoben als im Online-Support zu SoSci Survey.

2) Ist es möglich zu analysieren, wie sich das Verhalten der Probanden verändert

Dafür werden Sie die Nummer der Runde als Variable kodieren müssen. Wenn Sie das nicht ohnehin schon haben, müssen Sie sich evtl. an der CASE-Nummer orientieren.

commented Jun 8, 2023 by s222544 (710 points)

Vielen Dank für Ihre Antwort!

Die Hypothesen lauten: 1) Die Probanden entscheiden sich sowohl in niedrig-Risiko (risk=1 (auch kategorisch) als auch in hoch-Risiko (risk=4) Situationen falsch.

2) Es gibt keinen Lerneffekt, d.h auch in späteren Runden (also Runden 3 und 4) entscheiden sich die Probanden eher falsch.

3) Die EG sollte eher zu richtigeren Entscheidungen führen.

4) Früherer Erfolg (in %) führt eher zu richtigeren Entscheidungen.

>> Zu Ihrem Kommentar zum Zusammenfassen: Ich befürchte, ich verliere an Informationen, wenn die Einzelentscheidungen zusammenfasse (da nicht mehr genau gesagt werden kann, wodurch der Effekt verursacht wird).

>> Zu Ihrem Kommentar zur logistischen Regression, es scheint, dass die Modelle immer nur eine abhängige Variable erlauben.

Vielen Dank für Ihre Unterstützung!

commented Jun 8, 2023 by SoSci Survey (348k points)

Die Hypothese 1 ist schwer (fast nicht) falsifizierbar. Geht es um den Unterschied zwischen den Situationen? Dann sollten Sie es anders formulieren.

> 2) Es gibt keinen Lerneffekt, d.h auch in späteren Runden

Kein-Effekt-Hypothesen können statistisch nur sehr schwer getestet werden, z.B. durch einen Äquivalenztest. Die Hypothese, wie sie formuliert ist, würde man eher als Nullhypothese verwenden.

> 3) Die EG sollte eher zu richtigeren Entscheidungen führen.

Hier könnte man einen Summenindex für die Anzahl korrekter Kreuzchen wählen und anschließend einen t-Test rechnen.

> 4) Früherer Erfolg (in %) führt eher zu richtigeren Entscheidungen.

Anspruchsvoller - dafür müssten Sie die Daten noch so umstrukturieren, dass sie eine Variable ergänzen, welche den "früheren Erfolg" kodiert. Das könnte z.B. der Anteil korrekter Antworten in (allen) früheren Runden enthalten.

Die voin Ihnen oben angerissene Cluster-Lösung beachtet nicht die Reihenfolge, sondern kontrolliert die generelle Leistung einer Person. Dies dürfte in starke Konkurrenz zu der Hypothese 4 treten.

> Ich befürchte, ich verliere an Informationen, wenn die Einzelentscheidungen zusammenfasse

Zweifelsohne. Die Frage ist, ob diese Information wichtig ist. Wenn sich die 4 Kategorien inhaltlich unterscheiden, dann ja.

Eine Lösung wären (wie geschrieben) 4 separate Analysen.

Eine andere Lösung wäre, dass Sie die Daten so umstrukturieren, dass Sie 4-mal so viele Fälle bekommmen, einen pro Kategorie (long format). Die Kategorie ist dann eine weitere kategoriale UV. Multilevel-Cluster nicht vergessen!

commented Jun 8, 2023 by s222544 (710 points)

Vielen Dank für Ihre ausführliche Antwort!

Zu >> Die Hypothese 1 ist schwer (fast nicht) falsifizierbar. Geht es um den Unterschied zwischen den Situationen? Dann sollten Sie es anders formulieren.

Jede der vier Runden beinhaltet unterschiedliche Informationen, kurz kodiert als Risiko. Wobei Runde 1 nicht immer Risikoklasse 1 entspricht. Die Hypothese/Überlegung ist hier, dass bei niedrigem und hohen Risiko (jeweils 1 und 4) falsch entschieden wird.

Zu >>Es gibt keinen Lerneffekt, d.h auch in späteren Runden

Sie empfehlen, die Hypothese wie folgt zu ändern: In späteren Runden tritt ein Lerneffekt auf (d.h. in Runden 1 und 2 wird falsch entschieden, in Runden 3 und 4 jedoch richtig). Wenn dies rejected wird (durch den t-test), dann gibt es keinen Lerneffekt, richtig?

Zu >> Hier könnte man einen Summenindex für die Anzahl korrekter Kreuzchen wählen und anschließend einen t-Test rechnen.

Darf man denn t-tests rechnen, wenn es um kategorische Variablen geht? Dachte, die Normalverteilung ist nicht mehr gegeben, weshalb ich die ganzen logit/probit/ multivariate Analysen überhaupt erst durchführen muss..

Zu >> Anspruchsvoller - dafür müssten Sie die Daten noch so umstrukturieren, dass sie eine Variable ergänzen, welche den "früheren Erfolg" kodiert. Das könnte z.B. der Anteil korrekter Antworten in (allen) früheren Runden enthalten.

Genau, die ist schon vorhanden, nur meinen Sie die Variable sollte nicht "continuous" sein, sondern eher kategorisch?

Zu >> Die voin Ihnen oben angerissene Cluster-Lösung beachtet nicht die Reihenfolge, sondern kontrolliert die generelle Leistung einer Person. Dies dürfte in starke Konkurrenz zu der Hypothese 4 treten.

Vielen Dank! Sehr guter Hinweis!

Zu >> Wenn sich die 4 Kategorien inhaltlich unterscheiden, dann ja.

Es sind pro Runde immer die gleichen 4 Entscheidungen, aber die Runden unterscheiden sich vom Risiko.
Die Entscheidungen sind immer die Aufteilung eines bestimmten Budgets auf vier gleiche Kategorien (die vier Sub-Entscheidungen).

Zu >> Sie 4-mal so viele Fälle bekommmen

Genau, das habe ich bereits umgesetzt mit dem reshape long command (in Stata). Die Daten aus dem csv file waren ja ein Proband pro Zeile im wide Format. Der reshape command hat dann CASE 1 vier mal untereinander und in jeder Zeile jeweils eine Runde (mit zugehöriger Risikoklasse) und jeweils die Entscheidungen pro Runde. Zusätzlich steht dann in jeder Zeile, ob für jede der vier Entscheidungen pro Runde richtig entschieden wurde oder nicht (1 und 0).

Verstehe ich Sie richtig, dass ich zusätzlich zum CASE Cluster noch einen Multi-level cluster benötige, weil jetzt ein CASE vier Zeilen in Anspruch nimmt und das meine Analyse erneut komplizierter macht?

Vielen Dank!

commented Jun 8, 2023 by SoSci Survey (348k points)

> Wenn dies rejected wird (durch den t-test), dann gibt es keinen Lerneffekt, richtig?

Nein. Wir widerlegen Hypothesen, indem wir zeigen, dass die Wahrscheinlichkeit, dass sie wahr sind (obwohl wir empirische Daten haben, die davon abweichen) geringer als z.B. 5 % ist. Es gibt reichtlich Situationen, wo man weder beweisen kann, dass eine Hypothese falsch ist, noch dass sie richtig ist. Zur Orientierung: Um zu zeigen, dass ein Effekt nicht existiert (bzw. dass er kleiner als z.B. d=0,20 ist) braucht man schnell mal Stichproben im Bereich N=3000.

> Genau, die ist schon vorhanden, nur meinen Sie die Variable sollte nicht "continuous" sein, sondern eher kategorisch?

Ich meinte, dass Sie pro Befragter 4x4=16 (!) Fälle haben, also Runde x Entscheidung.

Sie haben dann nur noch eine Variable, die 0/1-kodiert ist. Darauf könnten Sie logistische Modelle anwenden.

commented Jun 9, 2023 by s222544 (710 points)

Paneldaten - kategorische abhängige Variablen

Please log in or register to add a comment.

Please log in or register to answer this question.

1 Answer

Please log in or register to add a comment.

Categories