Da eine dichotome Variable keine Differenzierung kennt, sorgt sie v.a. in einer hierarchischen Clusteranalyse schnell zur "Aufspaltung" in zwei Gruppen. Und weil alle dichotomen Variablen im Großen und Ganzen die selbe Schrittweite (1) haben, ist es weitgehend vom Zufall abhängig, ob in einem Schritt nun nach Variable A oder B getrennt bzw. zusammengefasst wird.
Falls Sie die Variablen vorher z-standardisieren, entscheidet die ursprüngliche Varianz der dichotomen Variablen darüber, die große der Schritt zwischen "nein" und "ja" ist (das könnten dann z.B. die Werte -0,8 und +0,8 sein). Und dies wiederum entscheidet, welche Variablen als erste für die Clusterbildung "ignoriert" werden (welche Fälle also zusammenfallen) und welche später.
Ein weiteres Problem: Wenn sie z.B. 10 dichotome Variablen haben, dann lassen sich daraus nur 1024 mögliche Kombinationen ableiten. Wenn Sie im Sample 200 dieser Kombinationen finden und 30 Personen dieselbe Kombination haben, dann fallen diese sofort in einen Cluster. Und wenn sich die anderen Kombinationen jeweils in 1 oder 2 Variablen unterscheiden, sind diese alle gleichermaßen (un)ähnlich. Was dann hierarchisch geclustert wird, ist mitunter schwer interpretierbar. Metrische Variablen machen da deutlich mehr Freude, weil "Ähnlichkeit" hier viel fassbarer ist.