0 votes
in Datenauswertung by s082238 (125 points)
edited by s082238

Hallo zusammen,

ich habe mir für meine Auswertung unter Interpretation bzgl. einer Clusteranalyse diverse Kreuztabellen mit dem Chi Koeffizienten ausgeben lassen.

Gehe ich nun richtig vor, wenn ich
1) davon ausgehe, dass die H0 besagt, dass es keinen Zusammenhang gibt und die H1 besagt, dass es einen Zusammenhang zwischen den Variablen gibt?

2) bei einem Chi Quadrat nach Pearson (Spalte Asymptotische Signifikanz zweiseitig) mit einem Wert kleiner 0,05 (Alpha = 5%) die H0 verwerfe und einen Zusammenhang der beiden Variable bzw. die H1 annehme?

3) ich diese unterschiedlich skalierten Variablen (metrisch, ordinal, nominal) auf diese Weise prüfe und mit den gebildeten Clustertypen in Verbinung setzen möchte?

4) sollte ich mich bei der Ausprägung der Variablen, welche ich in Bezug auf die Clustertypen prüfe, jeweils auf den höchsten %-Wert beziehen oder kann/darf ich bei zwei sehr hohen Werten diese Ausprägungen der Variablen auch zusammenfassen?

Vielen Dank im voraus!

1 Answer

0 votes
by SoSci Survey (327k points)

Bei (1) und (2) kann ich uneingeschränkt zustimmen.

Was (3) angeht: Die Kreuztabelle "sieht" alle Variablen als nominal skaliert. Wenn Sie prüfen möchten, ob eine intervallskalierte Variable mit dem Cluster zusammenhängt, ist eine ANOVA u.U. akkurater. Prinzipiell kann man aber auch den Chi²-Test verwenden.

Die Darstellung (4) ist eine Frage der persönlichen Stils und der konkreten Aussage. Wenn man in einem Cluster zwei sehr starke Ausprägungen hat (z.B. 30 Fällle mit Ausprägung A und 29 Fälle mit Ausprägung B), dann wäre die Nennung nur einer Ausprägung sicherlich nicht ganz angemessen.

by s082238 (125 points)
Super, vielen Dank, dann lag ich ja gar nicht so falsch. :)

Zwei Fragen bzgl. der Interpretation habe ich noch, dann müsste ich es auch haben und kann mich an die Verschriftlichung meiner Auswertung setzen.

1) Meinen clusterbildenden Variablen liegen u.a. Mittelwertindizes latenter Konstrukten zugrunde. Sprich, ich habe basierend auf 8 Items für jedes Konstrukt einen Mittelwertindex für jede Person gebildet. Dieser ist als neue Variable dann in die Clusterung eingeflossen. Somit hat jedes Cluster wiederum einen Mittelwert für das Konstrukt. Es sei nun Cluster 1, welches bzgl. dieses Konstrukts einen Mittelwert von 3,59 hat. Wie gehe ich an die Interpretation heran? Sage ich, basierend auf der vorherigen Antwortskala von 1-5, dass 3,59 in Richtung Antwort 4 = "ich stimme eher zu" geht und die Personen in dem Cluster auf diesem Konstrukt somit eher hoch ausgebildet sind? Oder gehe ich basierend auf einem Mittelwert von 3 (da bei 5 Ausprägungen 1+2+3+4+5=15/5=3) vor und sage, dass 3,59 nahe dem Mittelwert von 3 liegt und das Cluster daher eine mittlere Ausprägung in diesem Konstrukt hat?

2) Ähnlich habe ich es z.B. bei der Variable "Alter". Diese habe ich in 6 Stufen unterteilt, wobei z.B. Stufe 3=30-39 Jahre darstellt. Wenn hier nun ein Cluster den Wert 3,2 hat, kann ich dann sagen, dass das Cluster durchschnittlich Anfang 30 ist und die Personen eines Clusters mit dem Wert 4,47 (4=40-49 Jahre) etwa im Alter von Mitte 40 sind?

Oder sind solche Aussagen nicht korrekt? Anders wüsste ich die Werte jedoch auch nicht zu interpretieren...

Viele Grüße und vielen herzlichen Dank!!
by SoSci Survey (327k points)
Falls Sie nicht sehr gut validierte Skalen mit einem Norm-Mittelwert bei 3 verwendet haben, sollten Sie den theoretischen Skalenmittelwert gar nicht über-interpretieren. Beschreiben Sie die Cluster lieber im Vergleich zueinander: Wo weichen die einzelnen Cluster besonders stark voneinander ab?

Was das Alter angeht: Im Großen und Ganzen ja. Aber vermutlich würde Sie auch hier nicht zu sehr mit absoluten Zahl spielen. Besser: Die Teilnehmer in Cluster 2 sind deutlich älter (M=40) als die in Cluster 1 und 3 (M1=30, M2=31).
by s082238 (125 points)
Vielen Dank!

Leider würde ich gerne etwas "genauere" Aussagen treffen, da ich für mein Auftraggeber-Unternehmen eine Kundentypologie verfassen soll. Die einzelnen Typen würden methodisch zwar genauer beschrieben auf diese Weise, aber ich denke, dass es für das Unternehmen eher komisch ist, Typologien zu haben, in denen "nur" steht, Gruppe 1 ist älter, Gruppe 3 auf dem Konstrukt höher ausgeprägt als Gruppe 2 etc. Schöner wäre es ja hier, ich könnte sagen, Gruppe 1 ist 35 bis 45 Jahre alt, hoch ausgeprägt auf dem Konstrukt etc...

Ich denke, dass ein Unternehmen damit mehr anfangen kann, weil die Aussagen dann zwar methodisch ungenauer, aber für deren Arbeit jedoch "präziser" sind.

Nur will ich in meiner Bachelorarbeit natürlich nicht methodisch ungenau interpretieren.

Zu den Skalen: Wie bekäme ich denn diesen Norm-Mittelwert von 3?
Ich hatte bei 5 Antwortmöglichkeiten und je Konstrukt 8 Items. Somit hat jede Person für jedes Konstrukt einen Mittelwert zwischen 1 und 5. Diesen habe ich über mittels der MEAN Funktion in SPSS gebildet.

Danke und viele Grüße!
by SoSci Survey (327k points)
Nun, natürlich obliegt es Ihnen, wie Sie Ihre Daten darstellen. Wenn Sie eine repräsentative Stichprobe haben, dann können Sie natürlich das Alter direkt angeben. Wenn nicht, würde ich es nur als zusätzliche Information in Klammern ergänzen. Wäre ja blöd, wenn man eine große Werbekampagne für die Altersgruppe 30-35 ausrollt - und später dann merkt, dass es in einem Repräsentativ-Sample eigentlich 40-50 gewesen wäre. Aber wie gesagt: Das ist Ihre Entscheidung.

Was den Norm-Mittelwert angeht: Wenn eine Skala methodisch fundiert entwickelt wird, sollten die Items so formuliert sein, dass eine repräsentative Stichprobe ungefähr einen Mittelwert in der Skalenmitte erreicht. In den meisten Skalen ist das nicht der Fall - und dann sagen die absoluten Werte nicht viel aus, nur die Relation zwischen den Gruppen.
by s082238 (125 points)
Kleines Edit: Ich habe das Mittelwert Problem nun mittels Youtube gelöst.

Mein Problem ist jedoch nach wie vor das Alter. Ich habe vor der Analyse z-Standardisiert. Außer dem Alter lag allen anderen Variablen eine Skala von 1-5 zugrunde, dem Alter eine von 1-6.

Das müsste doch heißen, wenn ich beim Alter zuvor eine Skala von 1-6 (1=u19, 2=20-29, 3=30-39, 4=40-49, 5=50-59, 6=ü60) hatte, dass ich nun wie bei meinen anderen Werten, welche sich zwischen 1-5 bewegen, auch nur Mittelwerte bis max. 5 erhalten könnte, oder?

Leider habe ich keinen, mein höchster liegt bei 4,5. Aber hier würde es bei der Interpretation ja einen Unterschied machen, ob die Werte bis 5 oder 6 gehen. 4,5 wäre demnach bei max. 5 so etwa 45-55 Jahre, bei 6 jedoch eher Mitte 50...

Ich verstehe das nicht so ganz - irgendwie tappe ich hier im dunkeln.
by SoSci Survey (327k points)
Das Alter haben Sie aber nicht z-standardisiert, oder? Dann wären Mittelwerte unter -1 und über +1 nämlich recht unwahrscheintlich, ein MW von 4,5 nahezu ausgeschlossen. Wenn Sie eine Normierung auf den Bereich 1-5 meinen ... nun ja, dann rechnen Sie die Gruppenmittelwerte am einfachsten nochmal mit den unskalierten Original-Variablen nach.

Nur als Warnung: Mit Ordinaldaten (die Sie mit den Randkategorien beim Alter streng genommen haben) dürfen Sie keine Mittelwerte rechnen bzw. Sie müssen an mögliche Artefakte denken (wenn sie von einer näherungsweise intervallskalierten Messung ausgehen).
by s082238 (125 points)
Doch, das Alter habe ich z-Standardisiert... Ich habe es jetzt aber direkt nochmal ohne das Alter als clusterbildende Variable gemacht, um das Alter hinterher via Kreuztabelle in Bezug zu den Clustern zu setzen. Muss ich dann bei der Kreuzvalidierung die Clustervariable sowie das Alter z-standardisieren?

Ich habe mein latentes Konstrukt ebenfalls als clusterbildende Variable genommen. Ihm unterliegt jedoch auch eine Skala von 1-5 ebenso wie den anderen Variablen. Dennoch liegen dem Konstrukt ja Mittelwerte zu Grunde, sodass es unterschiedliche Werte im Maximum und Minimum gibt - bei den allen Variablen nur die runden Werte von 1 bis 5, bei dem Konstrukt Werte zwischen 1 bis 5, jedoch mit Dezimalstellen. Ich habe aufgrund der einheitlichen 5er Skala bei allen Variablen nicht z-standardisiert. Ist das korrekt oder müsste wegen des Konstrukts standardisiert werden, obwohl ihm die gleiche Skala zugrunde liegt?
by SoSci Survey (327k points)
Nun, die Variablen sollten ungefähr die gleiche Standardabweichung haben, wenn sie gleichgewichtig in die Clusterbildung einfließen sollen. Aber prüfen Sie nochmal, ob Sie von einer z-standardisierten Variable wirklich einen MW von 4,x bekommen. Z-Standardisierung sorgt für einen Gesamt-Mittelwert von 0 und eine Standardabweichung von 1.
by s082238 (125 points)
Hallo,

ich habe die Analyse nun noch einmal gemacht. Dabei habe ich im Fenster der Clusteranalyse unter "Werte transformieren" die z-Scores ausgewählt und unter "Maße transformieren" "im Bereich 0-1 skalieren" ausgewählt. Ich hatte zuvor zwar bei einigen Durchgängen z-standardisiert, aber den 0-1er Bereich nicht angeklickt.

Meine Ergebniswerte sind schlüssig wie nie - kann ich davon ausgehen, dass unter den oben genannten Bedingungen "alles" stimmt?
by SoSci Survey (327k points)
Nein, man kann bei einer statistischen Methode niemals davon ausgehen, dass alles stimmt. Sonst bräuchte es ja keinen Menschen mehr vor dem Rechner ;)

Vermutlich verwendet SPSS für die eigentliche Clusterbildung standardisierte Werte und für die Mittelwert-Angabe dann wieder die Original-skalierten Werte. Das wäre sinnvoll, aber Sie müssten wohl einmal in der SPSS-Anleitung nachlesen, was Sache ist. Falls ich recht habe, bezog sich Ihr Mittelwert für das Alter immer auf die Skala 1..6.
by s082238 (125 points)
Dass nicht alles stimmt ist natürlich kein Problem. Dennoch sollte ich wenigstens mit der Ausführung der Methode ins Schwarze treffen. ;) Zumindest wünsche ich mir das.

Unabhängig davon - muss ich denn, wenn ich mein Häkchen bei der z-Standardisierung setze zusätzlich noch bei "Maße transformieren" das Häkchen bei "im Bereich 0-1 skalieren" setzen oder ist das nicht schon durch ersteres Häkchen gegeben? Ich habe jetzt beide Varianten nochmals durchgeführt und erhalte in beiden Fällen die selben Ausreißer, am Ende jedoch unterschiedliche Mittelwerte. Diese sind leicht unterschiedlich und führen zu der selben Interpretation, dennoch weichen sie in manchen Fällen um 0,x voneinander ab. Aus der IBM SPSS Hilfe kann ich das nicht erlesen.
by SoSci Survey (327k points)
Nun, eine z-Standardisierung ist definitiv nicht im Bereich 0..1. Insofern müssen sich die beiden Häkchen auf unterschiedliche Aspekte der Auswertung beziehen. Haben Sie denn nun noch konkrete offene Fragen? Was die Häkchen genau bedeuten, kann ich Ihnen nicht beantworten, da ich derzeit kein SPSS zur Hand habe.
by s082238 (125 points)
Also, ich bin inzwischen schlauer geworden - hoffe ich. :)

Bei "Werte transformieren" kann ich natürlich meine Variablen z-standardisieren.
Die Rubrik "Maße transformieren", bei denen ich 0-1 anklicken wollte, bezieht sich auf das Distanzmaß (hier nutze ich die quadrierte euklidische Distanz). Hier gibt es neben "auf 0-1 skalieren" die Möglichkeit "Vorzeichen ändern" oder "Absolutwerte nutzen".

Ich denke es mir nun so, aber ich bin nicht sicher, ob ich richtig liege: Ich habe ja Variablen, denen eine Antwortskala von 1-5 zugrunde liegt. Demnach bewegen sich auch alle Werte zwischen 1 und 5, dies ist jedoch aufgrund des Mittelwertindex bei der Variable des latenten Konstrukts nicht so. Durch die Verrechnung der 8 einzelnen Itemantworten zu dem Index liegen die Werte hier zwischen 1,56 und 5, d.h. das Minimum hat sich hier verschoben bei dieser Variable. Deshalb denke ich, benötige ich hier eine z-Standardisierung.

Die Transformationen des Maßes, also meiner quadrierten euklidischen Distanz, würde ich weg lassen. Hier finde ich keinerlei Hinweise in meinen Büchern oder im Internet. Ich weiß nicht, ob ich das transformieren muss. Deshalb würde ich mich schlicht dagegen entscheiden, wenn Sie hier keinen Tipp haben?

Gehe ich so vor, also nutze ich nur die z-Standardisierung, habe ich ein inhaltlich nachvollziehbares Ergebnis. Ich würde dann so weiter vorgehen, wie wir es oben bereits besprochen haben, sprich, ich würde meine Cluster nach einer Anova durch Kreuztabellen weiter ausdifferenzieren. Da die Clustervariable dann jedoch z-standardisiert ist, müsste ich auch die passiven Variablen, welche in die Kreuztabellen einfließen, zuvor z-standardisieren, oder?

Dann wäre ich hoffentlich durch - wenn ich jetzt nicht absolut falsch liege. :)
by SoSci Survey (327k points)
Da passive Variablen keinen EInfluss auf die Clusterzuordnung haben, ist es hier für die eigentliche Analyse irrelevant, wie Sie diese Werte transformieren. Nicht-standardisierte Werte sind in aller Regel einfacher zu interpretieren als z-standardisierte Werte.
by s082376 (100 points)
Kann oder vielmehr darf ich denn einfach so standardisierte Variablen mit nicht standardisierten Variablen vergleichen?

Ist es in Ordnung, das Proximitätsmaß nicht zu transformieren?
by SoSci Survey (327k points)
Sie könnten genauso fragen, ob Sie standardisierte Variablen "einfach so" miteinander vergleichen dürfen. Es kommt auf den Kontext an. Ich denke, für Ihren Kontext werden Sie es sich selbst beantworten können. Für meinen Geschmack stehen hier unter der Frage jedenfalls schon deutlich zu viele Comments :)

Willkommen im Online-Support von SoSci Survey.

Hier bekommen Sie schnelle und fundierte Antworten von anderen Projektleitern und direkt von SoSci Survey.

→ Eine Frage stellen


Welcome to the SoSci Survey online support.

Simply ask a question to quickly get answers from other professionals, and directly from SoSci Survey.

→ Ask a Question

...