Primärdaten
Wichtige Vorabbemerkung:
Vor Beginn einer wissenschaftlichen Arbeit im Bereich der Medizin ("Forschung am Menschen", also Forschung am lebenden Menschen und an Körpern Verstorbener, an menschlichem Biomaterial, an Daten von Menschen und Vorhaben epidemiologischer Forschung mit personenbezogenen Daten) ist in aller Regel eine (berufs-)ethische und rechtliche Beratung und Genehmigung notwendig (siehe auch "Hinweise zur Planung, Durchführung, Auswertung und Veröffentlichung von Studien").
Bei fast allen Forschungsvorhaben werden personenbezogene Daten erfasst und verarbeitet. Auch pseudonymisierte Probanden- oder Patientendaten gelten grundsätzlich als personenbezogene Daten. Sie unterliegen den jeweiligen datenschutzrechtlichen Vorschriften. Zudem müssen geeignete technische und organisatorische Maßnahmen zur Datensicherheit getroffen werden - weitere Informationen hierzu z. B. unter Forschungsdatenschutz auf den Seiten der Datenschutzbeauftragten der Universität zu Köln.
Empfehlungen zur Struktur und der Erfassung von Primärdaten
Die folgenden Anmerkungen sollen als Empfehlung bei Erfassung und Strukturierung von Rohdaten verstanden werden. Eine Nichtbeachtung kann bei der EDV-gestützten Dateneingabe sowohl zu merklichem Mehraufwand führen als auch die spätere Auswertung der Daten erheblich komplizieren. Bei inhaltlichen Problem können Sie statistische Beratung erhalten.
Ein Kurzfassung dieses Dokuments steht Ihnen hier zum Download zur Verfügung: Empfehlung Primärdaten (PDF-Datei) sowie "gute" und "schlechte" Datenbeispiele (xls-Datei).
Datenstruktur
Die gängigen statistischen Auswertungsprogramme (v. a. die bevorzugten Programmpakete IBM SPSS® Statistics und SAS®) setzen voraus, dass die zu verarbeitenden Rohdaten in einer "rechteckigen" Datenstruktur angeordnet sind. Darunter versteht man, dass die erhobenen Daten für jeden Fall (d. h. für die Beobachtungseinheiten wie z. B. Patienten) in genau der gleichen Abfolge und Zahl von Merkmalen aufgelistet sind. Die zu einem Fall gehörigen Variablen werden zeilenweise zusammengefasst, wobei die Anzahl der Zeilen der Anzahl der Fälle entspricht. Jedem Merkmal wird dabei ein "Feld" mit geeignet vielen Schreibstellen zum Eintragen der Messungen des Merkmals in der Zeile zugeordnet, so dass die Zahl der Felder pro Zeile genau der Zahl der pro Fall erhobenen Merkmale entspricht. Die Länge der Felder kann von Merkmal zu Merkmal unterschiedlich sein, muss aber so gewählt werden, dass jede denkbare Messung des Merkmals erfasst werden kann. So ließe sich etwa das Merkmal "Körpergröße in [cm]" für Patienten in einem Feld mit drei Stellen für alle denkbaren Messergebnisse erfassen, nicht jedoch in einem Feld mit nur zwei Stellen.
Eine so strukturierte Datei enthält je Fall (= Beobachtungseinheit) eine "Zeile". Die ersten Felder jeder Zeile sind üblicherweise solchen Variablen zugeordnet, mit denen sich die jeweiligen Beobachtungseinheiten pseudo- bzw. anonymisiert eindeutig unterscheiden lassen. Wenn als Beobachtungseinheiten die Patienten einer Stichprobe anzusehen sind, könnten dies etwa die Variablen "Pseudonymisierte Identifikationsnummer", "Alter", "Geschlecht" usw. sein. Daran schließen sich die Felder an, in denen die Messungen weiterer Merkmale erfasst werden.
Werden einzelne Merkmale für jede Beobachtungseinheit zu verschiedenen Zeitpunkten wiederholt erhoben, wie etwa bei Messung des systolischen Blutdrucks unmittelbar vor und zwei Stunden nach Gabe eines Medikamentes, so muss für dieses Merkmal für jeden Messzeitpunkt ein "eigenes" Feld und somit eine gesonderte Variable zugeordnet werden. Im genannten Beispiel also etwa die Variablen "systolischer Blutdruck vorher" bzw. "systolischer Blutdruck nachher".
Pat_ID | Alter | SysRR_1 | SysRR_2* | Gewicht |
---|---|---|---|---|
971265 | 25 | 124 | 110 | 76,0 |
975621 | 30 | 140 | 142 | 56,1 |
984528 | 54 | 134 | 9999 | 84,3 |
*) fehlender Wert: 9999
Werden alle Merkmale pro Beobachtungseinheit mehr als einmal erhoben, bietet es sich an, diese Erhebungen zeilenweise zu erfassen. Dann werden zwei verschiedene Identifikations-Codes vergeben: einer für jede Beobachtungseinheit (z. B. die Patienten-ID) und einer pro Erhebung (z. B. die Nummer der Untersuchung). Je nach der Art der geplanten statistischen Auswertung ist abzuwägen, in welcher Form Messwiederholungen erfasst werden (Hilfestellung bietet hier der/die statistische Betreuer/in).
Pat_ID | U_Nr | Alter* | Puls | Gewicht* |
---|---|---|---|---|
970001 | 1 | 38 | 85 | 65,1 |
970001 | 2 | 9999 | 90 | 66,2 |
975454 | 1 | 35 | 73 | 72,5 |
961111 | 1 | 44 | 68 | 83,5 |
961111 | 2 | 9999 | 60 | 9999 |
961111 | 3 | 9999 | 72 | 91,5 |
*) fehlender Wert: 9999
Die resultierende Dateistruktur entspricht anschaulich der Sammlung von Daten als "Karteikasteninhalt", wobei jedem Fall eine Karteikarte (= "Zeile") und jedem erhobenen Merkmal ein festes Feld auf den Karteikarten mit von Fall zu Fall (= von Karte zu Karte) variablem Inhalt (= "Variable") entsprechen.
Außerdem gilt:
- Neben der eigentlichen Rohdatendatei ist eine vollständige Liste der Variablen und des jeweiligen Wertebereichs sinnvoll (sogenannte Datenbeschreibung).
- Personendaten anonymisieren oder (zumindest) pseudonymisieren; keine Klarnamen erfassen/übermitteln!
- Unbedingt sind in diesem Zusammenhang die rechtlichen Regularien zu beachten - Hinweise dazu unter anderem auf den Seiten der jeweilig zuständigen Datenschutzbeauftragten sowie berufsrechtliche Vorgaben bzw. bereichsspezifische Gesetze (siehe auch z. B. Hinweise zur Planung, Durchführung, Auswertung und Veröffentlichung von Studien).
Datenerfassung
Für die Auswertung mit dem Programmpaket IBM SPSS® Statistics besteht die Möglichkeit, die Rohdaten auch mit dem Dateneditor von IBM SPSS® Statistics zu erfassen. Sollten die Rohdaten jedoch mit anderen Programmen (z. B. Microsoft Excel®) erfasst werden, sind folgende Hinweise zu beachten:
- Variablennamen dürfen maximal 64 Zeichen lang sein, müssen mit einem Buchstaben (A-Z, a-z) beginnen und dürfen keine Umlaute, kein ß und keine Sonderzeichen (z. B. ! % # - usw.) außer dem Unterstrich (_) enthalten.
- Fehlende Werte ("missing values") sind durch einen speziellen Code zu kennzeichnen.
- Kalenderdaten dürfen nicht als Textfelder (z. B. Juni 97) eingegeben werden.
- Klartext ist unter keinen Umständen unmittelbar auswertbar und muss deshalb sinnvoll kodiert werden (z. B. Kinderkrankheiten: 1 = Masern, 2 = Röteln, ...)
- Felder mit numerischen Variablen dürfen nur Ziffern, das Vorzeichen "+" oder "-" sowie Dezimalpunkt oder -komma enthalten.
- Können Variablenwerte nicht nur Ziffern, sondern auch alphanumerische Zeichen enthalten (also Zeichenketten wie z. B. "T1a" oder "X1y3"), so dürfen darin nur die Standard-ASCII-Zeichen, also keine Umlaute und kein ß enthalten sein, um die Dateien störungsfrei übertragen zu können.
Als System-Dateien werden Dateien bezeichnet, die nicht direkt als Textdatei (z. B. im ASCII-Format) lesbar sind, sondern nur von dem jeweiligen speziellen Programmpaket interpretiert werden können. Liegen die Rohdaten als System-Dateien vor, die keinem der am IMSB unterstützten Standardformate entsprechen, müssen die Daten vor Weiterverarbeitung mit IBM SPSS® Statistics aus den jeweiligen Programmen in portable Dateien transformiert (sog. Exportfiles) oder als ASCII-Dateien ausgegeben werden. Für einen Import von ASCII-Dateien nach IBM SPSS® Statistics müssen folgende Punkte sorgfältig beachtet und vorsichtshalber schon vor der Datenerfassung in dem jeweiligen System hinsichtlich ihrer Erfüllbarkeit überprüft werden:
- Fehlende Werte (missings) müssen so kodiert werden, dass die portierten Daten von IBM SPSS® Statistics fehlerfrei interpretiert werden können.
- Die Variablenwerte jedes Falles müssen entweder durch eine freie Stelle, das Tabulatorzeichen oder ein Sonderzeichen getrennt sein oder jeweils in der gleichen Spalte beginnen.
- Enthält die Datei alphanumerische oder Datums-Variablen, die Sonder- oder Leerzeichen enthalten oder teilweise fehlen, so muss die Anordnung in festen Spalten erfolgen. Die Dateien dürfen außer den Variablenwerten keine weiteren Inhalte (wie z. B. Kopf-, Leer- oder Ergebniszeilen) enthalten.
Die Verwendung eines Tabellenkalkulationsprogramms wie z. B. Microsoft Excel® zur Datenauswertung kann nicht empfohlen werden, da für diese Zwecke leistungsfähige Statistikpakete zur Verfügung stehen. Zur Datenerfassung siehe "gute" und "schlechte" Datenbeispiele (xls-Datei).
Wichtige Hinweise
Die Verantwortung für die Daten (formale bzw. inhaltliche Korrektheit der Daten, Datensicherung, Datenschutz) liegt bei den Promovierenden bzw. bei der klinischen Betreuung. Insbesondere verweisen wir ausdrücklich auf die
- Leitlinien der Universität zu Köln zur guten wissenschaftlichen Praxis
- Leitlinie zum Umgang mit Forschungsdaten an der Universität zu Köln
- Informationen zur Wissenschaftlichen Integrität an der Universität zu Köln
- DFG-Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“
- Hinweise zur Studienplanung/-durchführung/-auswertung und Publikation
Bitte informieren Sie sich über die für Sie relevanten Dokumente.