Wir gehen davon aus, dass die Verarbeitung in R automatisiert erfolgen soll, deshalb werden dabei immer alle Variablen ausgegeben. So hat man einen Datensatz, bei dem man weiß, mit welchen Variablen man rechnen kann.
1) Alle Variablen, die im Projekt angelegt waren, aber letztendlich nicht verwendet, also nicht abgefragt worden sind, sind im Datensatz enthalten.
In R kein großes Problem, weil man diese Variablen mit einer kleinen Schleife schnell aus dem Datensatz entfernen kann - sum(!is.na(...))
ist bei diesen Variablen ja 0. Ich glaube das Script las sich wie folgt:
for (varID in names(ds)) {
if (sum(!is.na(ds[[varID]])) == 0) {
ds[[varID]] = null;
}
}
2) Bei den meisten Variablen wird mir im Datensatz das value label angezeigt und nicht der tatsächlich Wert (also "weiblich" und "männlich" statt 1 und 2).
R arbeitet ja - anders als SPSS - nicht mit numerischen Codes, sondern mit dem Variablentyp factor
. Mit as.numeric()
kann man auch numerische Codes verwenden, aber das ist in R sehr untypisch.
enthält sowohl den Zusatz "useSettings"
Diese Einstellung sollte (lt. Anleitung) nur beim CSV-Export von Relevanz sein.