Sinn und Unsinn der Rotation

Question

Sinn und Unsinn der Rotation

asked Jul 2, 2019 in SoSci Survey (dt.) by s051613 (140 points)

Lieber Support-Team,

ich habe eine (vermutlich) etwas unübliche Frage: Ich beschäftige mich gerade mit der Frage, ob es im Rahmen meines Experiments notwendig/sinnvoll ist, das Stimulusmaterial zu rotieren. Ich bin zunächst davon ausgegangen, dass ich dies auf jeden Fall tun sollte, um Reihenfolgeeffekte zu vermeiden. Nun habe ich im Benutzerhandbuch den Abschnitt zu "Sinn und Unsinn der Rotation" gelesen (vielen Dank dafür!), und bin verunsichert, ob eine Rotation in meinem Fall sinnvoll ist.

Ich habe leider noch keine Antwort darauf gefunden. Um eine informierte Entscheidung zu treffen, würde mich gerne näher mit den Vorteilen/Nachteilen der Rotation bzw. Fällen, in denen eine Rotation sinnvoll/nicht sinnvoll ist, auseinandersetzen. Allerdings habe ich nach einer Internet- und Literaturrecherche keine Artikel oder Buchkapitel zu dieser Frage finden können. Der einzige Eintrag, den ich finden konnte, ist der Abschnitt im SoSci-Benutzerhandbuch!

Deshalb meine Frage: Hätten Sie vielleicht Hinweise auf weiterführende Literatur/Links für mich? Ich weiss nicht, wie ich meine Entscheidung treffen soll :-(

1 Answer

Answer 1 · 2019-07-02T19:25:36+0000

answered Jul 2, 2019 by SoSci Survey (376k points)

Vielleicht könnten Sie ein paar Sätze zu Ihrem experimentellen Design schreiben? Ich vermute, wenn Sie über Rotation nachdenken, haben Sie min. einen within-subject Faktor?

Mit der Rotation machen SIe ja nichts anderes als die Reihenfolge zu mischen. Die Idee dahinter ist, dass die Reihenfolge (v.a. der vorhergehende Stimulus) einen Einfluss darauf hat, wie ein Stimulus wahrgenommen und bewertet wird (Reihenstellungseffekte). Fakt ist, dass diese Effekte sehr stark sein können - deutlich stärker als man erwarten würde.

Diese Verzerrung bekommen Sie nur weg, wenn Sie between-subject erheben, und selbst dann bringen die Teilnehmer ihre eigenen Kontexte mit, sodass Sie die Verzerrungen dann eben als Messrauschen in den Daten steckt.

Wenn ich in einem within-subject-Experiment drei oder vier Stimuli miteinander vergleiche, dann muss ich natürlich dafür sorgen, dass keiner systematisch bevorzugt oder benachteiligt wird. In diesem Fall wäre eine Rotation unerlässlich. Ich würde sogar noch einen Schritt weiter gehen und systematisch (z.B. mit einem Zufallsgenerator) rotieren, sodass ich alle Abfolgen der Stimuli gleich häufig habe. Und dann würde ich ehrlich gesagt auch den Vorgänger-Stimulus als weiteren Faktor im Regressionsmodell mitnehmen, um die (mit bekannte) Verzerrung zu kontrollieren.

Anders sieht es auch, wenn ich die Fragen oder Items einer Skalenbatterie rotiere. Dort will ich die Items in aller Regle nicht (!) miteinander vergleichen, sondern einen Skaleninde pro Teilnehmer berechnen. Und weil ich für jeden Teilnehmer die gleiche Messung haben möchte, rate ich in diesem Fall von einer Rotation dringend ab. Denn wenn ich die Skalenitems mische, dann verändere ich jede einzelne Messung - und damit sind die Messungen zwischen den Teilnehmern nicht mehr sauber vergleichbar. Ich variiere ja auch nicht zufällig die Hintergrundfarbe des Fragebogens, um mögliche Farbeffekte zu egalisieren...

Literatur zu dem Thema kann ich spontan nicht empfehlen. In den 70ern wurden viele gute Methodenbücher verfasst ... was auch ein Grund ist, warum jeder heute viele Fragen der Methodik als alt-bekannt und trivial betrachtet. Inklusive der Fehlinterpretationen und urban legends, die sich im Laufe der Zeit eingeschlichen haben :)

commented Jul 3, 2019 by s051613 (140 points)
edited Jul 3, 2019 by s051613

Vielen Dank für die schnelle Antwort und die zusätzlichen Ausführungen! Mein Problem liegt darin, dass ich aktuell beides rechtfertigen könnte.

Zu meinem experimentellen Design: Ich verwende ein 2 (within-factor: pre- vs. post) x 3 (between-factor: Experimentalgruppe) design. In der «pre-phase» haben alle Teilnehmenden (in allen 3 Experimentalgruppen) die Möglichkeit, an zwei verschiedenen Aufgaben zu arbeiten (das Lesen von Informationskarten zum Thema A vs. Thema B, um somit Lotteriepunkte für zwei verschiedene Verlosungen zu sammeln). Das Setting ist somit bei allen Teilnehmenden in der "pre-phase" identisch. Anschliessend folgt dann die between-group Manipulation: Während das Setting bei einer Gruppe unverändert bleibt, arbeiten die anderen Gruppen in der «post-phase» nur noch an einer Aufgabe.

Meine Vorhersagen beziehen sich auf Selbstberichtsmasse, die an 3 Messzeitpunkten in der pre-phase und an 3 Messzeitpunkten in der post-phase erhoben werden. Die Ratings finden immer nach 7 gelesenen Karten statt (also in jeder Phase nach der 7., 14. , und 21. Karte).

Ich interessiere mich für Gruppenunterschiede im Pre-Post-Kontrast. Eine meiner zentralen abhängigen Variablen ist, wie angenehm die Aktivität (sprich: das Lesen der Karten) momentan empfunden wird. Konkret möchte ich für Pre-Post-Unterschiede in der «Aktivitätsvalenz» testen – ich möchte also wissen, ob die Settingveränderung (in 2 der 3 Gruppen) einen Einfluss auf die Aktivitätsvalenzratings hat. Da ich jedoch davon ausgehen muss, dass die Aktivitätsvalenzratings (3 Ratings pro Phase) nicht nur vom "allgemeinen Lesesetting" beeinflusst werden, sondern auch von den konkreten Inhalte der Informationskarten (wie interessant war der Karteninhalt der letzten gelesenen Karten?), frage ich mich, wie ich am besten damit umgehen soll.

Der aktuelle Stand meiner Überlegungen ist Folgender:

Überlegung 1: Da die Karten/die Stimuli an sich für mich nicht von primärem Interesse sind – es geht nicht darum, zu ermitteln, welche Karte am interessantesten ist – scheint eine Rotation in meinem Fall nicht sinnvoll zu sein. Ich möchte die Teilnehmenden (bzw. die Gruppen ) ja miteinander vergleichen. Insofern scheint es sinnvoller zu sein, die Kartensequenzen über die Teilnehmenden möglichst gleich zu halten (volle Kontrolle habe ich nicht, da die Teilnehmenden in der pre-phase jeweils selbst entscheiden, wieviel Karten sie zu welchem Thema lesen möchten). Wenn ich die Informationskarten (innerhalb der Themen) mische und zufällig ziehe, dann wird jede Person ein anderes Set an 7 Karten gelesen haben, bevor sie das Rating abgibt. Wenn ich es richtig verstehe, wäre dies dann der Fall, in dem ich jede einzelne Messung verändere und die Aktivitätsvalenz-Bewertungen somit noch weniger vergleichbar werden?

Überlegung 2: Oder sollte ich die Karten doch mischen, damit allfällige Einflüsse der Karteninhalte auf die Aktivitätsbewertungen – dabei handelt es sich ja um eine idiosynkratische Personen (individuelle Präferenzen) x Karteninhalt Interaktion – in das «Messrauschen» einfliessen? Das war meine ursprüngliche Überlegung.

Sorry, das war recht lang ... ich wäre um jegliche Art von Hinweis sehr dankbar!

commented Jul 3, 2019 by SoSci Survey (376k points)

Wenn ich Sie korrekt verstehe, dann geht es bei der Rotation (Reihenfolge von 7 Karten, die Sie den Teilnehmern im Laufe des Experiments vorlegen) um keinen der beiden experimentellen Faktoren, ist das korrekt?

In dem Fall sehe ich keine Rechtfertigung für die Rotation der Karten, welche ja einfach nur Gegenstand Ihres Fragebogens sind. Sie schreiben dazu:

> Einflüsse der Karteninhalte auf die Aktivitätsbewertungen ... in das «Messrauschen» einfliessen

Wenn Sie Rotieren, dann haben Sie unterschiedliche Einflüsse (=mehr Messrauschen). Wenn Sie nicht rotieren, dann haben Sie für alle Teilnehmer dieselben Einflüsse (=weniger Messrauschen).

In "Überlegung 2" beschreiben Sie m.E. auch kein Argument, welches für eine Rotation sprechen würde.

Sie können es sich ja nochmal exemplarisch an einem konkreten Fall überlegen: Wenn Sie Teilnehmer A die Karten in numerischer Reihenfolge (1..7) vorlegen und Teilnehmer B die Karten (oder andere Karten) in umgekehrter Reihenfolge ... was Sie dann aus dem Experiment herausnehmen ist die von Ihnen willkürlich (evtl. bewusst) festgelegte Reihenfolge der Karten. Gibt es Argumente, warum eine willkürlich festgelegte Reihenfolge einen Einfluss auf das Ergebnis Ihres Hypothesentests (!) haben sollte?

Nur zur Klärung: Dass die Reihenfolge das individuelle Testergebnis ändern wird, ist klar. Aber der Hypothesentest läuft ja i.d.R. auf den Vergleich unterschiedlicher Gruppen hinaus - der generelle Bias durch die Reihenfolge sollte sich durch Berechnung einer Differenz also aufheben.

commented Jul 3, 2019 by s051613 (140 points)
edited Jul 3, 2019 by s051613

Ja genau, das ist korrekt – die Karten sind nur Gegenstand des Fragebogens.

Nochmals vielen Dank für die Ausführung. Ich hätte noch eine (letzte) Nachfrage:

Dass eine willkürlich festgelegte Sequenz bzw. Auswahl an Karten den Vergleich der pre-post-Differenzen der verschiedenen Gruppen (sprich: die between-Gruppen Vergleiche) nicht affiziert, ist für mich nachvollziehbar. Könnte eine fixe Kartensequenz jedoch nicht zu Problemen führen, wenn ich mich auch für within-Gruppen Vergleiche interessiere?

Beispiel: Meine Vorhersage ist, dass sich in den Gruppen 2+3 im Vergleich zur Gruppe 1 eine negativere pre-post-Differenz der Aktivitätsvalenz beobachten lässt (das wäre die between-within-Interaktion). Mich interessiert jedoch auch, ob es in der Gruppe 1 - bei der es keine experimentelle Manipulation zwischen der «pre-phase» und «post-phase» gibt - einen Haupteffekt des within-Faktors "Phase" gibt (im Sinne eines zeitbezogenen Trends in der Aktivitätsvalenz – bleibt diese stabil, nimmt sie ab oder gar zu?). Dieser within-gruppen Kontrast wäre – falls ich mir für eine fixe Sequenz/Auswahl entscheide – mit dem Karteninhalt konfundiert, ist das richtig? Wenn ich dann z.B. in der Gruppe 1 eine Abnahme in der Aktivitätsvalenz beobachte, weiss ich nicht, ob dies (1) auf einen zeitbezogenen Trend hinweist oder (2) auf einen Materialeffekt (die Karten der «pre-phase» waren interessanter als die Karten der «post-phase»). Wäre eine Rotation empfehlenswert, um (1) und (2) zu dissoziieren? Sprich: Wäre eine Rotation dann empfehlenswert, wenn auch within-Kontraste von Interesse sind?

commented Jul 3, 2019 by SoSci Survey (376k points)

> Haupteffekt des within-Faktors "Phase" gibt (im Sinne eines zeitbezogenen Trends in der Aktivitätsvalenz

Das verstehe ich nicht genau: Welche Messungen möchten Sie heir vergleichen?

> Wenn ich dann z.B. in der Gruppe 1 eine Abnahme in der Aktivitätsvalenz beobachte, weiss ich nicht, ob dies (1) auf einen zeitbezogenen Trend hinweist oder (2) auf einen Materialeffekt

Sie hatten geschrieben:

> Die Ratings finden immer nach 7 gelesenen Karten statt (also in jeder Phase nach der 7., 14. , und 21. Karte).

Wenn Sie Phase 7 und 14 vergleichen möchten, dann haben Sie bei Phase 7 den Effekt der Karten 1-7 und bei Phase 14 den Effekt der Karten 8-14 (plus Priming mit 1-7).

Wenn Sie also die Phasen vergleichen möchten, dann sprechen wir hier von einem within-subject-Faktor (den Sie so im obigen Design glaube ich nicht mitgezählt haben). Und dann würde ich Ihnen zustimmen, dass Sie die Abfolge der Karten randomisieren oder - viel besser noch - systematisch variieren müssten, um das sauber abzubilden und von der Phase zu trennen.

Aber nehmen wir nur mal für einen Moment an, Sie würden systematisch variieren. Und nehmen wir der Einfachheit halber mal an, Sie verwenden 3 feste Blöcke aus jeweils 7 Karten, welche die Position wechseln (macht 6 mögliche Abfolgen). Dann haben Sie kein 2x3-Design mehr, sondern ein 2x3x6-Design und die "6" ist between-subject. Heißt, die Anzahl der benötigten Teilnehmer für das komplette Design schnellt in die Höhe.

Wenn Sie jetzt argumentieren, dass Sie ja genau deshalb randomisieren möchten, dann entgege ich: Das ändert nichts am Einfluss des Faktors. Und wenn Sie den Einfluss nicht einmal kontrollieren möchten, dann fügen Sie der AV eine Menge unerklärter Varianz hinzu. Mit entsprechenden Auswirkungen auf die Zusammenhangsmaße.

Experimente sind ja auf ein hohes Maß an Kontrolle ausgelegt. Ich empfehle, für einen Vergleich zwischen den Phasen zumindest die "Kosten" zu betrachten: Wenn Sie 6-mal so viele Teilnehmer problemlos stemmen können, ist es natürlich schön, das mit aufzunehmen. Aber man ist halt sonst schnell verleitet zu denken, dass man die Probleme mit zufälligem Randomisieren mal eben unter den Teppich des Messrauschens schieben kann.

Kann man auch, aber die Qualität des Experiments leidet dadurch genaus stark also würde man den zusätzlichen Faktor mit einbeziehen, nicht aber die Anzahl der Teilnehmer erhöhen.

Ich habe das Ganze wahrlich nicht komplett durchgerechnet und Sie kennen das Design deutlich besser als ich. Lassen Sie sich von mir also nicht zu viel reinreden :) Aber ich habe das Gefühl, dass viele Kollegen zu schnell zur Rotation greifen, ohne den Verlust an experimenteller Kontrolle zu betrachten, den sie sich damit einhandeln.

commented Jul 4, 2019 by s051613 (140 points)
edited Jul 4, 2019 by s051613

Vielen Dank für Ihre Antwort - Ihre Ausführungen sind für meine Überlegungen sehr hilfreich!

> Das verstehe ich nicht genau: Welche Messungen möchten Sie heir vergleichen?

Verzeihung, ich habe das etwas unglücklich beschrieben: Genau, ich habe einen within-subject Faktor (Phase) mit zwei "levels" (pre-treatment und post-treatment) und einen between-subject Faktor (3 Gruppen). Innerhalb der pre- und post-treatment Phase habe ich quasi noch 3 «Subphasen», nämlich das Lesen der 7 Karten und anschliessend das Ausfüllen der Selbstberichtsmasse. Also 3 Subphasen innerhalb der pre- und post-Phase (je nach 7, 14, 21) – insgesamt also 6 Subphasen im Experiment.

Ich würde mir einerseits gerne Gruppenunterschieden in den Pre-Post-Differenzen anschauen. Da der Hypothesentest hier auf den Vergleich verschiedener Gruppen hinausläuft, wäre eine Randomisierung der Karten nicht sinnvoll. Nun würde ich mit gerne *zusätzlich* neben diesem fokalen Hypothesentest auch den zeitlichen Verlauf der AV anschauen – also die 6 Messzeitpunkte (Subphasen) miteinander vergleichen. Oder auf aggregierter Ebene den Durchschnitt der 3 Erhebungen in der pre-treatment Phase (pre-score) mit dem Durchschnitt der 3 Erhebungen in der post-treatment Phase vergleichen (post-score).

Ich habe jetzt verstanden, dass ich das experimentelle Design nicht für *beides» optimieren kann. Das war mir vorher so nicht klar. Ich fasse meine Erkenntnisse nochmal zusammen (falls jemand einmal eine ähnliche Frage hat und das hier liest :-):

Um den Vergleich *zwischen Personen/Gruppen* zu optimieren wäre es besser, die Kartensequenzen gleich zu halten (aus den Gründen, die Sie oben und im Benutzerhandbuch beschrieben haben). Dann werde ich allerdings nicht in der Lage sein, einen möglichen Haupteffekt des within-subject Faktors Phase (bzw. Subphase) sauber von einem Materialeffekt zu trennen. Mögliche Unterschiede zwischen Phasen/Subphasen könnten dann entweder auf zeitbezogene Trends zurückzuführen sein oder eben auf das Stimulimaterial (hier: die jeweilige Kartenauswahl 1-7 vs. 8-14 vs. 15-21 etc.). Man also nicht beides optimieren - wenn ich die between-person/Gruppen Vergleiche möglichst "vergleichbar" halten möchte, geht das auf Kosten der Interpretierbarkeit der within-person Vergleiche, denn ich muss eine Konfundierung von Messzeitpunkt und Stimulusmaterial in Kauf nehmen.

Falls ich – z.B. in einer anderen, zusätzlichen Studie – den within-Person Vergleich optimieren möchte (also z.B. Materialeffekte von zeitbezogenen Trends sauber trennen will, sollte ich Folgendes beachten: Eine Randomisierung der Stimuli/Karten bei einem within-person Vergleich ist - aus den Gründen, die Sie oben beschrieben haben - keine «Magic Bullet», obwohl dies oftmals so propagiert wird. Das war mir nicht klar, ich hatte das einfach (relativ) unreflektiert so übernommen .....

Sinn und Unsinn der Rotation

Please log in or register to add a comment.

Please log in or register to answer this question.

1 Answer

Please log in or register to add a comment.

Categories