Falsche Werte im Datensatz

Question

Falsche Werte im Datensatz

2 Answers

Answer 1 · 2022-02-22T15:14:01+0000

answered Feb 22, 2022 by SoSci Survey (375k points)

Nun haben wir zwei Problematiken: 1. tauchen im Datensatz eine Reihe von Nullen bei diesem Items auf, obgleich ja eigentlich keine 0 angelegt war.

Bitte prüfen Sie unter Erhobene Daten -> Daten ansehen, ob dort auch eine 0 auftaucht - wenn nicht, dann liegt das Problem irgendwo zwischen dem Export der Daten aus SoSci Survey und dem Import in die Software, die Sie für die Auswertung verwenden.

Sind die Zustimmungswerte extrem niedrig im Vergleich zu Referenzstudien und der Anteil der Personen, die laut Datensatz die Option 1 "stimmt nicht" gewählt haben, ist extrem hoch.

Sollte es bereits im ersten Punkt Probleme beim Import gegeben haben, ist durchaus naheliegend, dass das Import-Problem auch andere Aspekte betroffen hat. Auch dies sollte anhand von Daten ansehen schnell zu klären sein.

Prüfen Sie zur Sicherheit auch die Kodierung in der Variablen-Übersicht.

Show 10 previous comments

commented Feb 23, 2022 by s140119 (125 points)

Ich schaue es mir gerne auch nochmal an, aber ja. Laut meinen Analysen 1,04.
Bei anderen intervallskalierten Daten hatte ich mir auch schon angeschaut, ob da die Mittelwerte der beiden Gruppen immens voneinander abweichen. Dies ist für die Items, für die ich es kurz geprüft habe, nicht der Fall, was mich erstmal beruhigt hat. Ich bin aber dankbar, wenn Sie auch nochmal drauf schauen.

Dass sich für die Fälle keine Daten für diese Skala finden lassen, dachte ich mir schon fast. Das ist dann so. Wichtig wäre ja wirklich zu wissen, ob die Datenqualität des ganzen Datensatzes angezweifelt werden muss oder, ob es sich nur auf diese Skala bezieht (was ich hingegen auch mehr als merkwürdig finde).

Rein technisch... Ist es möglich, dass in einer Datei, aus der Items importiert werden etwas wie ein Virus versteckt ist?! Ich müsste die Kollegin mal fragen, wie sie die Skala eingepflegt hat, aber so ganz grundsätzlich... Ist so etwas denkbar?

Dass jemand gezielt unsere Erhebung sabotiert, puh. Das halte ich eigentlich für kaum vorstellbar. Wir haben ja Studierende nach Ihren Erfahrungen zum Studium unter Corona Bedingungen befragt. Möglich ist natürlich immer, dass jemand sowas lustig findet, aber mmh. Wenn es eine Art Sabotage wäre, wäre es schon auch sinnvoll diese Skala zu nehmen, gleichzeitig halte ich das für recht unwahrscheinlich. Und hätte in einem solchen Fall nicht auch das System quasi Alarm schlagen müssen?

commented Feb 24, 2022 by SoSci Survey (375k points)

> Ist es möglich, dass in einer Datei, aus der Items importiert werden etwas wie ein Virus versteckt ist?!

Ein Virus - egal ob Informatik oder Biologie - braucht eine Zelle, um zu funktionieren. Also irgend etwas, was das Virus ausführt Bei Makro-Viren in Excel ist das die Makro-Engine, bei klassischen Computerviren ist es der PC selbst, der den Programmcode ausführt. Das einzige, was in SoSci Survey< Code ausführt ist PHP (das betrifft PHP-Code beim Fragebogen zusammenstellen) und JavaScript, was man durchaus böswillig in einer Import-Datei verstecken könnte. Mit SQL (der Datenbank) wäre im Prinzip auch Schindluder möglich, aber das sollte extrem gut abgesichert sein. Und prinzipiell ist natürlich denkbar, dass Malware den Server selbst infiziert, allerdings ist auch dieser sehr gut abgesichert und es gab bisher keinerlei Hinweise auf systemische Probleme.

Insgesamt sehe ich keine Malware-Charakteristiken, zumal es untypisch für eine solche Schadroutine wäre, plötzlich die Arbeit einzustellen.

Das einzige, was direkt die Verarbeitung in SoSci Survey beim Speichern der Daten eingreifen könnte, wäre PHP und SQL. Aber PHP-Code ist in Fragen nicht vorgesehen - und im Fragebogen selbst sah' ich nichts, was die Daten gezielt manipulieren würde. Konkret kein put() o.ä. mit Bezug zur betroffenen Frage.

> Wir haben ja Studierende nach Ihren Erfahrungen zum Studium unter Corona Bedingungen befragt.

Ich dachte jetzt an ein paar wg. Corona gelangweilte Informatiker, die mal ausprobieren wollten, ob man die Ergebnisse der Befragung gezielt verzerren kann. Einfach nur als Herausforderung. Allerdings habe ich dann weiterhin keine Erklärung, wie die Nuller in den Datensatz gekommen wären - denn wenn ich dem Formular manuell eine "0" übermittle, macht die Plausibilitätsprüfung daraus eine -8 (zu sehen etwas an dem zweite Test-Datensatz, den ich gestern noch im Debug-Modus angelegt hatte, am Ende des Datensatzes).

> enn es eine Art Sabotage wäre, wäre es schon auch sinnvoll diese Skala zu nehmen

Ich sehe mir mal die Verteilung der Antworten über die Zeit an. Wenn da jemand "von draußen" gezielt Daten generiert, sollte das über einen Zeitraum recht viel (und recht gleichmäßig) sein - und dann mit einer harten Kante abbrechen. Aber ehrlich gesagt sehen die Antwortzeiten auf en ersten Blick nicht so aus, als ob das ein Bot war. Ich werfe aber nochmal einen zweiten Blick darauf. Einen Bot sollte man (bei Betrachtung der Antwortzeiten auf den einzelnen Seiten) an eine zweigipfligen Verteilung erkennen. Eine Spitze vom Bot (plus Zufallsverzögerung) und eine Spitze von den richtigen Teilnehmer:innen.

> Und hätte in einem solchen Fall nicht auch das System quasi Alarm schlagen müssen?

Nein. Ein Bot sieht aus Perspektive des Servers erstmal ganz genauso aus, wie jede andere Nutzer:in im Internet. Das Internet überträgt nur Anfragen, es zeigt keine Gesichter. Und wenn man sich ein wenig Mühe gibt, kann man einen Bot auch so bauen, dass er selbst bei den Meta-Daten sehr authentisch aussieht.

Die Bot-Überlegung drängt sich deshalb auf weil, um den 28.06.2021 herum keine Änderungen an SoSci Survey durchgeführt wurden, welche den Unterschied erklären könnten, dass es plötzlich keine Fehler mehr gab.

Aber bisher habe ich weder eine Antwort für die Nuller im Datensatz (das spricht für einen technischen Fehler, das könnte z.B. auch ein fehlerhafter Cache-Eintrag spezifisch für diese Frage gewesen sein), es waren in dem Zeitraum keine Auffälligkeiten bei der Server-Last erkennbar und er scheint ja auch Fälle zu geben, wo Daten vorliegen und nur einzelne Nuller auftauchen. Das passt alles nicht zu der Bot-Überlegung.

Aber wie gesagt: Ich werde heute Abend nochmal genauer in die Daten schauen, und auch nochmal im Quelltext von SoSci Survey stöbern, wie es zu den Nullern gekommen sein könnte. Ich werde auch nochmal in ein Backup aus dem fraglichen Zeitraum blicken, ob der Fehler da schon vorlag. Das wird aber ein paar Tage dauern, weil die Datenwiederherstellung recht aufwändig ist.

commented Feb 24, 2022 by SoSci Survey (375k points)
edited Feb 24, 2022 by SoSci Survey

commented Feb 24, 2022 by s140119 (125 points)

Guten Abend!

Danke für die aktuellen Informationen - auch via Mail.
Wir haben nochmal über die Möglichkeit einen Eingriffs von außen via Bot nachgedacht und halten diesen tatsächlich für äußert unwahrscheinlich. Auch, weil wir ja durchaus eine Reihe von Freitexteingaben vorgesehen haben und diese auch in den Fällen vor 2520 zumeist ausgefüllt wurden und dies auch so, dass es inhaltlich Sinn ergibt.

Dass nur wenige Fragen im direkten Vergleich Auffälligkeiten aufweisen, ist ja erst einmal beruhigend.

Ob womöglich der Fragetyp während der Erhebung verändert wurde, müssen wir intern nochmal gegenchecken, ich halte das aber nicht für sonderlich wahrscheinlich. Ich bin gespannt auf Ihre Rückmeldung aus dem Backup und ob dieses nochmal Erkenntnisse liefern kann.

Ansonsten wäre noch die eher pragmatische Frage, was sich aus Ihrer Sicht mit Blick auf die Daten und Metadaten für unseren weiteren Auswertungen und Publikationen mit den Daten ergibt.

commented Feb 24, 2022 by SoSci Survey (375k points)

Answer 2 · 2022-02-24T21:32:54+0000

Rätsel gelöst...

Anhand der Datensicherung vom 19.06.2021 konnte ich das Rätsel um die seltesamen Daten lösen. Zu dem Zeitüpunkt (und vermutlich auch noch bis zum 28.06.2021) wurde für die Frage "SW01" der Fragetyp "Mehrfachauswahlmatrix" verwendet.

Bei diesem Datentyp können mehrere Felder pro Item ausgewählt werden - und entsprechend hat die Frage pro Item 5+1 Variablen. Die Skala, welches die Frage heute ist, hat nur eine Variable pro Item. Die Variable, die Sie jetzt noch im Datensatz sehen, war in der Mehrfachauswahlmatrix die Anzahl der Kreuzchen. Da ist es wenig überraschen, dass Fälle ohne Kruezchen (0) deutlich schnellere Bearbeitungszeiten hatten als Fälle mit Kreuzchen (1 oder 2).

Gute Nachricht 1: SoSci Survey hat die Daten durchweg korrekt erhoben, um die anderen Variablen brauchen Sie sich keine Sorgen zu machen.

Gute Nachricht 2: Sie können die Daten für die älteren Fälle wiederherstellen.

Wenn Sie Ihre Daten heruntergeladen haben und wenn Sie zwei Sicherheitskopien davon gemacht haben (davon eine auf einem Datenträger, der nicht mit dem Internet verbunden ist), dann ändern Sie den Typ der Frage nochmal. Daraufhin erhalten Sie im Datendownload wieder 5+1 Variablen pro Item. Die 1/2-Kodierung können Sie dann in die gewünschte Kodierung umrechen. Wenn die Leute mehrere Kreuzzchen gesetzt haben, müssen Sie halt überlegen, ob Sie diese Antwort verwenden.

Schlechte Nachricht: Sie schulden mir jetzt mehrere Stunden Arbeitszeit ;)

Falsche Werte im Datensatz

Please log in or register to add a comment.

Please log in or register to answer this question.

2 Answers

Please log in or register to add a comment.

Please log in or register to add a comment.

Categories