> Ist es möglich, dass in einer Datei, aus der Items importiert werden etwas wie ein Virus versteckt ist?!
Ein Virus - egal ob Informatik oder Biologie - braucht eine Zelle, um zu funktionieren. Also irgend etwas, was das Virus ausführt Bei Makro-Viren in Excel ist das die Makro-Engine, bei klassischen Computerviren ist es der PC selbst, der den Programmcode ausführt. Das einzige, was in SoSci Survey< Code ausführt ist PHP (das betrifft PHP-Code beim Fragebogen zusammenstellen) und JavaScript, was man durchaus böswillig in einer Import-Datei verstecken könnte. Mit SQL (der Datenbank) wäre im Prinzip auch Schindluder möglich, aber das sollte extrem gut abgesichert sein. Und prinzipiell ist natürlich denkbar, dass Malware den Server selbst infiziert, allerdings ist auch dieser sehr gut abgesichert und es gab bisher keinerlei Hinweise auf systemische Probleme.
Insgesamt sehe ich keine Malware-Charakteristiken, zumal es untypisch für eine solche Schadroutine wäre, plötzlich die Arbeit einzustellen.
Das einzige, was direkt die Verarbeitung in SoSci Survey beim Speichern der Daten eingreifen könnte, wäre PHP und SQL. Aber PHP-Code ist in Fragen nicht vorgesehen - und im Fragebogen selbst sah' ich nichts, was die Daten gezielt manipulieren würde. Konkret kein put() o.ä. mit Bezug zur betroffenen Frage.
> Wir haben ja Studierende nach Ihren Erfahrungen zum Studium unter Corona Bedingungen befragt.
Ich dachte jetzt an ein paar wg. Corona gelangweilte Informatiker, die mal ausprobieren wollten, ob man die Ergebnisse der Befragung gezielt verzerren kann. Einfach nur als Herausforderung. Allerdings habe ich dann weiterhin keine Erklärung, wie die Nuller in den Datensatz gekommen wären - denn wenn ich dem Formular manuell eine "0" übermittle, macht die Plausibilitätsprüfung daraus eine -8 (zu sehen etwas an dem zweite Test-Datensatz, den ich gestern noch im Debug-Modus angelegt hatte, am Ende des Datensatzes).
> enn es eine Art Sabotage wäre, wäre es schon auch sinnvoll diese Skala zu nehmen
Ich sehe mir mal die Verteilung der Antworten über die Zeit an. Wenn da jemand "von draußen" gezielt Daten generiert, sollte das über einen Zeitraum recht viel (und recht gleichmäßig) sein - und dann mit einer harten Kante abbrechen. Aber ehrlich gesagt sehen die Antwortzeiten auf en ersten Blick nicht so aus, als ob das ein Bot war. Ich werfe aber nochmal einen zweiten Blick darauf. Einen Bot sollte man (bei Betrachtung der Antwortzeiten auf den einzelnen Seiten) an eine zweigipfligen Verteilung erkennen. Eine Spitze vom Bot (plus Zufallsverzögerung) und eine Spitze von den richtigen Teilnehmer:innen.
> Und hätte in einem solchen Fall nicht auch das System quasi Alarm schlagen müssen?
Nein. Ein Bot sieht aus Perspektive des Servers erstmal ganz genauso aus, wie jede andere Nutzer:in im Internet. Das Internet überträgt nur Anfragen, es zeigt keine Gesichter. Und wenn man sich ein wenig Mühe gibt, kann man einen Bot auch so bauen, dass er selbst bei den Meta-Daten sehr authentisch aussieht.
Die Bot-Überlegung drängt sich deshalb auf weil, um den 28.06.2021 herum keine Änderungen an SoSci Survey durchgeführt wurden, welche den Unterschied erklären könnten, dass es plötzlich keine Fehler mehr gab.
Aber bisher habe ich weder eine Antwort für die Nuller im Datensatz (das spricht für einen technischen Fehler, das könnte z.B. auch ein fehlerhafter Cache-Eintrag spezifisch für diese Frage gewesen sein), es waren in dem Zeitraum keine Auffälligkeiten bei der Server-Last erkennbar und er scheint ja auch Fälle zu geben, wo Daten vorliegen und nur einzelne Nuller auftauchen. Das passt alles nicht zu der Bot-Überlegung.
Aber wie gesagt: Ich werde heute Abend nochmal genauer in die Daten schauen, und auch nochmal im Quelltext von SoSci Survey stöbern, wie es zu den Nullern gekommen sein könnte. Ich werde auch nochmal in ein Backup aus dem fraglichen Zeitraum blicken, ob der Fehler da schon vorlag. Das wird aber ein paar Tage dauern, weil die Datenwiederherstellung recht aufwändig ist.