Falsche Werte im Datensatz

Question

Falsche Werte im Datensatz

2 Answers

Answer 1 · 2022-02-22T15:14:01+0000

answered Feb 22, 2022 by SoSci Survey (306k points)

Nun haben wir zwei Problematiken: 1. tauchen im Datensatz eine Reihe von Nullen bei diesem Items auf, obgleich ja eigentlich keine 0 angelegt war.

Bitte prüfen Sie unter Erhobene Daten -> Daten ansehen, ob dort auch eine 0 auftaucht - wenn nicht, dann liegt das Problem irgendwo zwischen dem Export der Daten aus SoSci Survey und dem Import in die Software, die Sie für die Auswertung verwenden.

Sind die Zustimmungswerte extrem niedrig im Vergleich zu Referenzstudien und der Anteil der Personen, die laut Datensatz die Option 1 "stimmt nicht" gewählt haben, ist extrem hoch.

Sollte es bereits im ersten Punkt Probleme beim Import gegeben haben, ist durchaus naheliegend, dass das Import-Problem auch andere Aspekte betroffen hat. Auch dies sollte anhand von Daten ansehen schnell zu klären sein.

Prüfen Sie zur Sicherheit auch die Kodierung in der Variablen-Übersicht.

commented Feb 22, 2022 by s140119 (125 points)

commented Feb 22, 2022 by SoSci Survey (306k points)

commented Feb 22, 2022 by s140119 (125 points)

commented Feb 22, 2022 by SoSci Survey (306k points)

commented Feb 22, 2022 by s184481 (110 points)

commented Feb 23, 2022 by SoSci Survey (306k points)

Dankeschön. Die Frage SW01 ist eine Skalenbatterie mit den Variablwn SW01_01 bis SW01_10. Nuller finde ich in folgenden Fällen:

239 (alle null)
606 (alle null)
678 (alle null)
696 (SW01_05 null)
738 (Items 3-10 null)
843 (Item 7 fehlt, Item 8 null)
895 (Item 3 null)
975 (alle null)
1033 (alle null)
...
2059 (Item 2 null)
2060 (Items 2-10 null)
2520 (alle null)

In den weiteren 1176 von insg. 3596 Fällen tritt das Phänomen nicht mehr auf. Es scheint also nur der Zeitraum 24.06. bis 28.06.2021 betroffen zu sein.

An Änderungen im Fragebogen selbst dürfte es nicht liegen, denn nach dem 18.06.2021 wurde darin nichts mehr geändert. Auch finde ich Fragebogen keine Hinweise auf PHP-Code, welcher etwas in die Variable geschrieben hätte.

Exemplarisch habe ich mir die Fälle 239, 606, 2059, 2060 und 2520 näher angesehen. Die Bearbeitungszeiten für Seite 29 waren hier 4, 9, 47, 16 und 4 Sekunden. Das ist deutlich weniger als die typische Bearbeitungszeit (Median) für die Seite von 56 Sekunden. Und selbst das scheint mir sehr wenig für 10 Items. Wenn die 10 Items sorgfältig gelesen und beantwortet werden, würde ich mit einer typischen Bearbeitungszeit von 60 bis 100 Sekunden rechnen.

Der anteil fehlender Antworten liegt bei 16, 94, 7, 19 und 66 Prozent und damit deutlich höher als in der Gesamtstichprobe. Der Fall 2059 ist in beiden Statistiken ein Ausreißer, was dazu passt, dass hier nur ein Itemd en Wert 0 hatte.

Meine erste Vermutung wäre gewesen, dass ein Bot gezielt falsche Daten übermittelt hätte und SoSci Survey die 0 bis zu einem Update nicht unterbunden hätte. Allerdings wären dann im weiteren Verlauf Fehlercodes (-8) zu beobachten. Ich muss nochmal heraussuchen, ob und wann sich die Werteprüfung bei der Skala geändert hat - aber wahrscheinlich liegt es nicht daran, dass die Nullen plötzlich aufhörten.

Pragmatische Antwort 1: Es spricht vieles dafür, dass die Fälle mit den Nullern nicht nur inhaltlich, sondern auch von den Metadaten her auffällig sind (niemand beantwortet 10 Items in 20 Sekunden und liest dabei auch noch deren Wortlaut) und daher wohl ohnehin aus der Analyse entfernt werden müssen.

Pragmatische Antwort 2: Das Problem scheint nur in einem engen Zeitfenster aufgetreten zu sein, ich kann nicht ausschließen, dass in diesem Zeitraum eine technische Fehrfunktion vorlag. Am wahrscheinlichsten wäre, dass zeitweise die -9 (keine Antwort) fälschlicherweise als 0 kodiert wurde.

Technische Antwort: Ob die o.g. Erklärung zutrifft, muss ich zunächst noch anhand der Versionskontrolle überprüfen. Aber ich sehe keine Hinweise darauf, dass gültige Kodierungen(1-4 in diesem Fall) von dem Problem in Mitleidenschaft gezogen worden wären.

Ich würde Sie um folgendes bitten: Entfernen Sie einmal alle Fälle mit unrealistischen Antwortzeiten. Definieren Sie die 0 als zusätzlichen fehlenden Wert. Prüfen Sie bitte anschließend, ob sie die Skalenmittelwerte für SW01 in den Fällen 239 bis 2520 deutlich von jenen im Bereich 2521 bis 6469 unterscheiden. Falls nicht, würde ich davon ausgehen, dass SoSci Survey bei den Codes 1-4 die korrekten Daten gespeichert hat.

commented Feb 23, 2022 by s140119 (125 points)

commented Feb 23, 2022 by SoSci Survey (306k points)

commented Feb 23, 2022 by s140119 (125 points)

Ich habe nun einmal den von Ihnen vorgeschlagenen Prozess vollzogen: "Ich würde Sie um folgendes bitten: Entfernen Sie einmal alle Fälle mit unrealistischen Antwortzeiten. Definieren Sie die 0 als zusätzlichen fehlenden Wert. Prüfen Sie bitte anschließend, ob sie die Skalenmittelwerte für SW01 in den Fällen 239 bis 2520 deutlich von jenen im Bereich 2521 bis 6469 unterscheiden."

Als unrealistische Antwortzeit für die Seite habe ich mal alles kleiner/gleich 30 Sekunden gesetzt, was ja immer noch sehr wenig ist, aber gut. Zudem habe ich 0 als weiteren fehlenden Wert definiert und die beiden Gruppen wie von Ihnen vorgeschlagen verglichen. Die Mittelwertunterschiede sind dabei immens. Während diese bei den Fällen 239-2520 ziemlich genau bei 1 liegen (1,04 -1,06) liegen sie bei den Fällen 2521-6469 bei 2,38-3,20.

commented Feb 23, 2022 by SoSci Survey (306k points)

> Die Mittelwertunterschiede sind dabei immens.

Das spricht in der Tat dafür, dass in dem ersten Zeitraum irgend etwas massiv schief gelaufen ist. Wobei ... wirklich 1,04? Das würde ja bedeuten, dass fast nur der Code 1 verwendet wurde. Das spricht definitiv gegen die These, dass in dem Zeitraum alles ohne Nuller in Ordnung sei.

Ich muss mir die Daten da nochmal genauer ansehen. Vor allem, ob auch andere Variablen betroffen sind.

Allerdings - das muss ich jetzt schon vorausschicken - habe ich wenig Hoffnung, dass sich für die Fälle noch andere Daten finden lassen.

Vielleicht können Sie mir noch ein wenig zur Stichprobe verraten. Wer wurde denn da auf welchem Wege rekrutiert? Subtext: Ist es denkbar und plausibel, dass jemand einen kleinen Bot gebastelt hat, um die Erhebung zu sabotieren?

commented Feb 23, 2022 by s140119 (125 points)

Ich schaue es mir gerne auch nochmal an, aber ja. Laut meinen Analysen 1,04.
Bei anderen intervallskalierten Daten hatte ich mir auch schon angeschaut, ob da die Mittelwerte der beiden Gruppen immens voneinander abweichen. Dies ist für die Items, für die ich es kurz geprüft habe, nicht der Fall, was mich erstmal beruhigt hat. Ich bin aber dankbar, wenn Sie auch nochmal drauf schauen.

Dass sich für die Fälle keine Daten für diese Skala finden lassen, dachte ich mir schon fast. Das ist dann so. Wichtig wäre ja wirklich zu wissen, ob die Datenqualität des ganzen Datensatzes angezweifelt werden muss oder, ob es sich nur auf diese Skala bezieht (was ich hingegen auch mehr als merkwürdig finde).

Rein technisch... Ist es möglich, dass in einer Datei, aus der Items importiert werden etwas wie ein Virus versteckt ist?! Ich müsste die Kollegin mal fragen, wie sie die Skala eingepflegt hat, aber so ganz grundsätzlich... Ist so etwas denkbar?

Dass jemand gezielt unsere Erhebung sabotiert, puh. Das halte ich eigentlich für kaum vorstellbar. Wir haben ja Studierende nach Ihren Erfahrungen zum Studium unter Corona Bedingungen befragt. Möglich ist natürlich immer, dass jemand sowas lustig findet, aber mmh. Wenn es eine Art Sabotage wäre, wäre es schon auch sinnvoll diese Skala zu nehmen, gleichzeitig halte ich das für recht unwahrscheinlich. Und hätte in einem solchen Fall nicht auch das System quasi Alarm schlagen müssen?

commented Feb 24, 2022 by SoSci Survey (306k points)

> Ist es möglich, dass in einer Datei, aus der Items importiert werden etwas wie ein Virus versteckt ist?!

Ein Virus - egal ob Informatik oder Biologie - braucht eine Zelle, um zu funktionieren. Also irgend etwas, was das Virus ausführt Bei Makro-Viren in Excel ist das die Makro-Engine, bei klassischen Computerviren ist es der PC selbst, der den Programmcode ausführt. Das einzige, was in SoSci Survey< Code ausführt ist PHP (das betrifft PHP-Code beim Fragebogen zusammenstellen) und JavaScript, was man durchaus böswillig in einer Import-Datei verstecken könnte. Mit SQL (der Datenbank) wäre im Prinzip auch Schindluder möglich, aber das sollte extrem gut abgesichert sein. Und prinzipiell ist natürlich denkbar, dass Malware den Server selbst infiziert, allerdings ist auch dieser sehr gut abgesichert und es gab bisher keinerlei Hinweise auf systemische Probleme.

Insgesamt sehe ich keine Malware-Charakteristiken, zumal es untypisch für eine solche Schadroutine wäre, plötzlich die Arbeit einzustellen.

Das einzige, was direkt die Verarbeitung in SoSci Survey beim Speichern der Daten eingreifen könnte, wäre PHP und SQL. Aber PHP-Code ist in Fragen nicht vorgesehen - und im Fragebogen selbst sah' ich nichts, was die Daten gezielt manipulieren würde. Konkret kein put() o.ä. mit Bezug zur betroffenen Frage.

> Wir haben ja Studierende nach Ihren Erfahrungen zum Studium unter Corona Bedingungen befragt.

Ich dachte jetzt an ein paar wg. Corona gelangweilte Informatiker, die mal ausprobieren wollten, ob man die Ergebnisse der Befragung gezielt verzerren kann. Einfach nur als Herausforderung. Allerdings habe ich dann weiterhin keine Erklärung, wie die Nuller in den Datensatz gekommen wären - denn wenn ich dem Formular manuell eine "0" übermittle, macht die Plausibilitätsprüfung daraus eine -8 (zu sehen etwas an dem zweite Test-Datensatz, den ich gestern noch im Debug-Modus angelegt hatte, am Ende des Datensatzes).

> enn es eine Art Sabotage wäre, wäre es schon auch sinnvoll diese Skala zu nehmen

Ich sehe mir mal die Verteilung der Antworten über die Zeit an. Wenn da jemand "von draußen" gezielt Daten generiert, sollte das über einen Zeitraum recht viel (und recht gleichmäßig) sein - und dann mit einer harten Kante abbrechen. Aber ehrlich gesagt sehen die Antwortzeiten auf en ersten Blick nicht so aus, als ob das ein Bot war. Ich werfe aber nochmal einen zweiten Blick darauf. Einen Bot sollte man (bei Betrachtung der Antwortzeiten auf den einzelnen Seiten) an eine zweigipfligen Verteilung erkennen. Eine Spitze vom Bot (plus Zufallsverzögerung) und eine Spitze von den richtigen Teilnehmer:innen.

> Und hätte in einem solchen Fall nicht auch das System quasi Alarm schlagen müssen?

Nein. Ein Bot sieht aus Perspektive des Servers erstmal ganz genauso aus, wie jede andere Nutzer:in im Internet. Das Internet überträgt nur Anfragen, es zeigt keine Gesichter. Und wenn man sich ein wenig Mühe gibt, kann man einen Bot auch so bauen, dass er selbst bei den Meta-Daten sehr authentisch aussieht.

Die Bot-Überlegung drängt sich deshalb auf weil, um den 28.06.2021 herum keine Änderungen an SoSci Survey durchgeführt wurden, welche den Unterschied erklären könnten, dass es plötzlich keine Fehler mehr gab.

Aber bisher habe ich weder eine Antwort für die Nuller im Datensatz (das spricht für einen technischen Fehler, das könnte z.B. auch ein fehlerhafter Cache-Eintrag spezifisch für diese Frage gewesen sein), es waren in dem Zeitraum keine Auffälligkeiten bei der Server-Last erkennbar und er scheint ja auch Fälle zu geben, wo Daten vorliegen und nur einzelne Nuller auftauchen. Das passt alles nicht zu der Bot-Überlegung.

Aber wie gesagt: Ich werde heute Abend nochmal genauer in die Daten schauen, und auch nochmal im Quelltext von SoSci Survey stöbern, wie es zu den Nullern gekommen sein könnte. Ich werde auch nochmal in ein Backup aus dem fraglichen Zeitraum blicken, ob der Fehler da schon vorlag. Das wird aber ein paar Tage dauern, weil die Datenwiederherstellung recht aufwändig ist.

commented Feb 24, 2022 by SoSci Survey (306k points)
edited Feb 24, 2022 by SoSci Survey

commented Feb 24, 2022 by s140119 (125 points)

Guten Abend!

Danke für die aktuellen Informationen - auch via Mail.
Wir haben nochmal über die Möglichkeit einen Eingriffs von außen via Bot nachgedacht und halten diesen tatsächlich für äußert unwahrscheinlich. Auch, weil wir ja durchaus eine Reihe von Freitexteingaben vorgesehen haben und diese auch in den Fällen vor 2520 zumeist ausgefüllt wurden und dies auch so, dass es inhaltlich Sinn ergibt.

Dass nur wenige Fragen im direkten Vergleich Auffälligkeiten aufweisen, ist ja erst einmal beruhigend.

Ob womöglich der Fragetyp während der Erhebung verändert wurde, müssen wir intern nochmal gegenchecken, ich halte das aber nicht für sonderlich wahrscheinlich. Ich bin gespannt auf Ihre Rückmeldung aus dem Backup und ob dieses nochmal Erkenntnisse liefern kann.

Ansonsten wäre noch die eher pragmatische Frage, was sich aus Ihrer Sicht mit Blick auf die Daten und Metadaten für unseren weiteren Auswertungen und Publikationen mit den Daten ergibt.

commented Feb 24, 2022 by SoSci Survey (306k points)

Answer 2 · 2022-02-24T21:32:54+0000

Rätsel gelöst...

Anhand der Datensicherung vom 19.06.2021 konnte ich das Rätsel um die seltesamen Daten lösen. Zu dem Zeitüpunkt (und vermutlich auch noch bis zum 28.06.2021) wurde für die Frage "SW01" der Fragetyp "Mehrfachauswahlmatrix" verwendet.

Bei diesem Datentyp können mehrere Felder pro Item ausgewählt werden - und entsprechend hat die Frage pro Item 5+1 Variablen. Die Skala, welches die Frage heute ist, hat nur eine Variable pro Item. Die Variable, die Sie jetzt noch im Datensatz sehen, war in der Mehrfachauswahlmatrix die Anzahl der Kreuzchen. Da ist es wenig überraschen, dass Fälle ohne Kruezchen (0) deutlich schnellere Bearbeitungszeiten hatten als Fälle mit Kreuzchen (1 oder 2).

Gute Nachricht 1: SoSci Survey hat die Daten durchweg korrekt erhoben, um die anderen Variablen brauchen Sie sich keine Sorgen zu machen.

Gute Nachricht 2: Sie können die Daten für die älteren Fälle wiederherstellen.

Wenn Sie Ihre Daten heruntergeladen haben und wenn Sie zwei Sicherheitskopien davon gemacht haben (davon eine auf einem Datenträger, der nicht mit dem Internet verbunden ist), dann ändern Sie den Typ der Frage nochmal. Daraufhin erhalten Sie im Datendownload wieder 5+1 Variablen pro Item. Die 1/2-Kodierung können Sie dann in die gewünschte Kodierung umrechen. Wenn die Leute mehrere Kreuzzchen gesetzt haben, müssen Sie halt überlegen, ob Sie diese Antwort verwenden.

Schlechte Nachricht: Sie schulden mir jetzt mehrere Stunden Arbeitszeit ;)

Falsche Werte im Datensatz

Please log in or register to add a comment.

Please log in or register to answer this question.

2 Answers

Please log in or register to add a comment.

Please log in or register to add a comment.

Categories