zum Inhalt springen

Medizinische Forschungsdaten

Primärdaten

 

Wichtige Vorabbemerkung:

Vor Beginn einer wissenschaftlichen Arbeit im Bereich der Medizin ("Forschung am Menschen", also Forschung am lebenden Menschen und an Körpern Verstorbener, an menschlichem Biomaterial, an Daten von Menschen und Vorhaben epidemiologischer Forschung mit personenbezogenen Daten) ist in aller Regel eine (berufs-)ethische und rechtliche Beratung und Genehmigung notwendig (siehe auch  "Hinweise zur Planung, Durchführung, Auswertung und Veröffentlichung von Studien").

Bei fast allen Forschungsvorhaben werden personenbezogene Daten erfasst und verarbeitet. Auch pseudonymisierte Probanden- oder Patientendaten gelten grundsätzlich als personenbezogene Daten. Sie unterliegen den jeweiligen datenschutzrechtlichen Vorschriften. Zudem müssen geeignete technische und organisatorische Maßnahmen zur Datensicherheit getroffen werden - weitere Informationen hierzu z. B. unter Forschungsdatenschutz auf den Seiten des Datenschutzbeauftragten der Universität zu Köln.

Empfehlungen zur Struktur und der Erfassung von Primärdaten

Die folgenden Anmerkungen sollen als Empfehlung bei Erfassung und Strukturierung von Rohdaten verstanden werden. Eine Nichtbeachtung kann bei der EDV-gestützten Dateneingabe sowohl zu merklichem Mehraufwand führen als auch die spätere Auswertung der Daten erheblich komplizieren.

Ein Kurzfassung dieses Dokuments steht Ihnen hier zum Download zur Verfügung: Empfehlung Primärdaten (PDF-Datei) sowie "gute" und "schlechte" Datenbeispiele (xls-Datei).

Datenstruktur

Die gängigen statistischen Auswertungsprogramme (v. a. die bevorzugten Programmpakete IBM SPSS® Statistics und SAS®) setzen voraus, dass die zu verarbeitenden Rohdaten in einer "rechteckigen" Datenstruktur angeordnet sind. Darunter versteht man, dass die erhobenen Daten für jeden Fall (d. h. für die Beobachtungseinheiten wie z. B. Patienten) in genau der gleichen Abfolge und Zahl von Merkmalen aufgelistet sind. Die zu einem Fall gehörigen Variablen werden zeilenweise zusammengefasst, wobei die Anzahl der Zeilen der Anzahl der Fälle entspricht. Jedem Merkmal wird dabei ein "Feld" mit geeignet vielen Schreibstellen zum Eintragen der Messungen des Merkmals in der Zeile zugeordnet, so dass die Zahl der Felder pro Zeile genau der Zahl der pro Fall erhobenen Merkmale entspricht. Die Länge der Felder kann von Merkmal zu Merkmal unterschiedlich sein, muss aber so gewählt werden, dass jede denkbare Messung des Merkmals erfasst werden kann. So ließe sich etwa das Merkmal "Körpergröße in [cm]" für Patienten in einem Feld mit drei Stellen für alle denkbaren Messergebnisse erfassen, nicht jedoch in einem Feld mit nur zwei Stellen.

Eine so strukturierte Datei enthält je Fall (= Beobachtungseinheit) eine "Zeile". Die ersten Felder jeder Zeile sind üblicherweise solchen Variablen zugeordnet, mit denen sich die jeweiligen Beobachtungseinheiten pseudo- bzw. anonymisiert eindeutig unterscheiden lassen. Wenn als Beobachtungseinheiten die Patienten einer Stichprobe anzusehen sind, könnten dies etwa die Variablen "Pseudonymisierte Identifikationsnummer", "Alter", "Geschlecht" usw. sein. Daran schließen sich die Felder an, in denen die Messungen weiterer Merkmale erfasst werden.

Werden einzelne Merkmale für jede Beobachtungseinheit zu verschiedenen Zeitpunkten wiederholt erhoben, wie etwa bei Messung des systolischen Blutdrucks unmittelbar vor und zwei Stunden nach Gabe eines Medikamentes, so muss für dieses Merkmal für jeden Messzeitpunkt ein "eigenes" Feld und somit eine gesonderte Variable zugeordnet werden. Im genannten Beispiel also etwa die Variablen "systolischer Blutdruck vorher" bzw. "systolischer Blutdruck nachher".

 Pat_ID Alter SysRR_1 SysRR_2* Gewicht
971265 25 124 110 76,0
975621 30 140 142 56,1
984528 54 134 9999 84,3

*) fehlender Wert: 9999

Werden alle Merkmale pro Beobachtungseinheit mehr als einmal erhoben, bietet es sich an, diese Erhebungen zeilenweise zu erfassen. Dann werden zwei verschiedene Identifikations-Codes vergeben: einer für jede Beobachtungseinheit (z. B. die Patienten-ID) und einer pro Erhebung (z. B. die Nummer der Untersuchung). Je nach der Art der geplanten statistischen Auswertung ist abzuwägen, in welcher Form Messwiederholungen erfasst werden (Hilfestellung bietet hier der/die statistische Betreuer/in).

Pat_ID U_Nr Alter* Puls Gewicht*
970001 1 38 85 65,1
970001 2 9999 90 66,2
975454 1 35 73 72,5
961111 1 44 68 83,5
961111 2 9999 60 9999
961111 3 9999 72 91,5

*) fehlender Wert: 9999

Die resultierende Dateistruktur entspricht anschaulich der Sammlung von Daten als "Karteikasteninhalt", wobei jedem Fall eine Karteikarte (= "Zeile") und jedem erhobenen Merkmal ein festes Feld auf den Karteikarten mit von Fall zu Fall (= von Karte zu Karte) variablem Inhalt (= "Variable") entsprechen.

Außerdem gilt:

  • Neben der eigentlichen Rohdatendatei ist eine vollständige Liste der Variablen und des jeweiligen Wertebereichs sinnvoll (sogenannte Datenbeschreibung).
  • Personendaten anonymisieren oder (zumindest) pseudonymisieren; keine Klarnamen erfassen/übermitteln!
  • Unbedingt sind in diesem Zusammenhang die rechtlichen Regularien zu beachten - Hinweise dazu unter anderem auf den Seiten der jeweilig zuständigen Datenschutzbeauftragten sowie berufsrechtliche Vorgaben bzw. bereichsspezifische Gesetze (siehe auch z. B. Hinweise zur Planung, Durchführung, Auswertung und Veröffentlichung von Studien).

Datenerfassung

Für die Auswertung mit dem Programmpaket IBM SPSS® Statistics besteht die Möglichkeit, die Rohdaten auch mit dem Dateneditor von IBM SPSS® Statistics zu erfassen. Sollten die Rohdaten jedoch mit anderen Programmen (z. B. Microsoft Excel®) erfasst werden, sind folgende Hinweise zu beachten:

  • Variablennamen dürfen maximal 64 Zeichen lang sein, müssen mit einem Buchstaben (A-Z, a-z) beginnen und dürfen keine Umlaute, kein ß und keine Sonderzeichen (z. B. ! % # - usw.) außer dem Unterstrich (_) enthalten.
  • Fehlende Werte ("missing values") sind durch einen speziellen Code zu kennzeichnen.
  • Kalenderdaten dürfen nicht als Textfelder (z. B. Juni 97) eingegeben werden.
  • Klartext ist unter keinen Umständen unmittelbar auswertbar und muss deshalb sinnvoll kodiert werden (z. B. Kinderkrankheiten: 1 = Masern, 2 = Röteln, ...)
  • Felder mit numerischen Variablen dürfen nur Ziffern, das Vorzeichen "+" oder "-" sowie Dezimalpunkt oder -komma enthalten.
  • Können Variablenwerte nicht nur Ziffern, sondern auch alphanumerische Zeichen enthalten (also Zeichenketten wie z. B. "T1a" oder "X1y3"), so dürfen darin nur die Standard-ASCII-Zeichen, also keine Umlaute und kein ß enthalten sein, um die Dateien störungsfrei übertragen zu können.

Als System-Dateien werden Dateien bezeichnet, die nicht direkt als Textdatei (z. B. im ASCII-Format) lesbar sind, sondern nur von dem jeweiligen speziellen Programmpaket interpretiert werden können. Liegen die Rohdaten als System-Dateien vor, die keinem der am IMSB unterstützten Standardformate entsprechen, müssen die Daten vor Weiterverarbeitung mit IBM SPSS® Statistics aus den jeweiligen Programmen in portable Dateien transformiert (sog. Exportfiles) oder als ASCII-Dateien ausgegeben werden. Für einen Import von ASCII-Dateien nach IBM SPSS® Statistics müssen folgende Punkte sorgfältig beachtet und vorsichtshalber schon vor der Datenerfassung in dem jeweiligen System hinsichtlich ihrer Erfüllbarkeit überprüft werden:

  • Fehlende Werte (missings) müssen so kodiert werden, dass die portierten Daten von IBM SPSS® Statistics fehlerfrei interpretiert werden können.
  • Die Variablenwerte jedes Falles müssen entweder durch eine freie Stelle, das Tabulatorzeichen oder ein Sonderzeichen getrennt sein oder jeweils in der gleichen Spalte beginnen.
  • Enthält die Datei alphanumerische oder Datums-Variablen, die Sonder- oder Leerzeichen enthalten oder teilweise fehlen, so muss die Anordnung in festen Spalten erfolgen. Die Dateien dürfen außer den Variablenwerten keine weiteren Inhalte (wie z. B. Kopf-, Leer- oder Ergebniszeilen) enthalten.

Die Verwendung eines Tabellenkalkulationsprogramms wie z. B. Microsoft Excel® zur Datenauswertung kann nicht empfohlen werden, da für diese Zwecke leistungsfähige Statistikpakete zur Verfügung stehen. Zur Datenerfassung siehe "gute" und "schlechte" Datenbeispiele (xls-Datei).

Wichtige Hinweise

Die Verantwortung für die Daten (formale bzw. inhaltliche Korrektheit der Daten, Datensicherung, Datenschutz) bleibt beim Doktoranden bzw. beim medizinischen Betreuer. Insbesondere verweisen wir auf die "Ordnung der Universität zu Köln zur Sicherung guter wissenschaftlicher Praxis und zum Umgang mit wissenschaftlichem Fehlverhalten". In § 4 heißt es unter anderem, dass die oder der für ein Forschungsprojekt Verantwortliche sicherzustellen hat, dass Primärdaten als Grundlage für Veröffentlichungen auf haltbaren und gesicherten Trägern zehn Jahre in der Institution, in der sie entstanden sind, aufbewahrt werden.

Zudem wird auf die "Leitlinien zur Sicherung guter wissenschaftlicher Praxis" der Deutschen Forschungsgemeinschaft (DFG) sowie auf die "Leitlinie zum Umgang mit Forschungsdaten" an der Universität zu Köln, den universitätsweiten "Research Code of Conduct" und die Gremien zur  Wissenschaftlichen Integrität der Universität zu Köln ausdrücklich hingewiesen.
Weitere nützliche Links finden Sie auch auf unserer Seite mit Hinweisen zur Planung, Durchführung, Auswertung und Veröffentlichung von Studien. Bitte informieren Sie sich über die für Sie relevanten Dokumente.