Nie wieder Ärger beim Datenimport – so legst du deinen Datensatz richtig an!
Du hast deine Daten gesammelt und möchtest nun wissen, wie du deinen Datensatz in Excel aufbereitest, damit die spätere statistische Analyse deiner Dissertationsdaten reibungslos abläuft?
Dann bist du hier genau richtig!
Bevor es losgeht:
Öffne deinen Datensatz in Excel und arbeite die folgenden Punkte Schritt für Schritt durch!
Lade dir vorab unsere Vorlage für deinen Datensatz herunter und lerne direkt am Beispiel die Do’s and Don’ts der Dateneingabe!
Hast du alle Punkte abgehakt, sollte das Einlesen deines Datensatzes fehlerfrei funktionieren und die weitere Datenanalyse deutlich leichter gelingen!
Inhalt
Schritt 1: Kontrolliere deinen Datensatz auf Störzeichen
Schritt 2: Die richtige Struktur deines Datensatzes
Schritt 3: Variablentypen richtig editieren
Schritt 4: Leg dir ein Codebook an
Schritt 5: Fehlende Werte richtig codiert?
Schritt 6: Säubere deinen finalen Datensatz
Schritt 7: Lese deinen Datensatz ein und starte deine Datenanalyse
Inhalt
Schritt 1: Kontrolliere deinen Datensatz auf Störzeichen
Schritt 2: Die richtige Struktur deinen Datensatzes
Schritt 3: Variablentypen richtig editieren
Schritt 4: Leg dir ein Codebook an
Schritt 5: Fehlende Werte richtig codiert?
Schritt 6: Säubere deinen finalen Datensatz
Schritt 7: Lese deinen Datensatz ein und starte deine Datenanalyse
Eine wichtige Info vorab:
Patientennamen, Adressen oder andere Informationen, mit denen außenstehende Personen deine Studienteilnehmer identifizieren können, müssen aus dem Datensatz entfernt werden!
In den meisten Studien liegen schon passende ID-Variablen vor, falls nicht kannst du selbst eine Variable erstellen.
Die Paarung zwischen deiner neuen ID und dem Patientennamen musst du in einer zweiten, nicht zugänglichen Excel-Liste abspeichern!
Schritt 1: Kontrolliere deinen Datensatz auf Störzeichen
Datenanalyseprogramme sind manchmal schwer von Kapee. Jede kleinste Störung kann eine Fehlermeldung erzeugen. Daher müssen wir deinen Datensatz von Störern säubern. Kontrolliere, ob folgende Zeichen in deinem Datensatz vorhanden sind und entferne sie. Sonst wird der Datenimport nicht reibungslos funktionieren:
• Leerzeichen
• Sonderzeichen
• Umlaute
Die Suche per Hand ist dir zu aufwendig?
Kleiner Trick: Falls dein Datensatz sehr groß ist nutze die Suchfunktion von Excel, um die jeweiligen Zeichen zu finden! Das funktioniert sogar für Leerzeichen!
Excel-Vorlage
Aufbau deines Datensatzes
Schritt 2: Die richtige Struktur deines Datensatzes
Datensätze haben einen einheitlichen Aufbau, an den du dich immer halten kannst! Baue deinen Datensatz nach der folgenden Struktur auf, dann erkennen R und SPSS deine Variablen sofort:
- Datensätze unterteilen sich in Spalten und Zeilen. Jede Spalte stellt eine Variable dar, jede Zeile einen Patienten. Auf diese Weise kannst du pro Patienten alle relevanten Merkmale in einer Zeile übersichtlich darstellen.
- Die oberste Zeile (Zeile 1) enthält IMMER die Variablennamen, alle folgenden Zeilen die Daten der einzelnen Patienten
- Verschiedene Messzeitpunkte werden in einer separaten Variablen abgelegt. So nimmt jeder Patient trotz mehrerer Zeitpunkte weiterhin immer nur 1 Zeile im Datensatz ein (= Wide-Format)!
- Jeder Variablenname muss kurz und prägnant sein und darf keine Leerzeichen, Sonder- oder Satzzeichen enthalten! Unterstriche sind erlaubt.
Beispiel: „Gewicht_in_kg_prae_op“ ist korrekt, „Gewicht (kg) prä op“ ist falsch - Verwende keine übergeordneten Zeilenbeschriftungen („alle Kreislaufparameter“, „alle Variablen prä-OP“, etc), um Variablen zu gruppieren.
Es darf immer nur eine Zeile mit Variablennamen geben, niemals zwei!
Übernehme die richtige Struktur deines Datensatzes am besten direkt aus unserer Vorlage, dann kann nichts schiefgehen!
Schritt 3: Variablentypen richtig editieren
In jedem Datensatz gibt es 4 verschiedene Variablentypen – metrische, ordinale und nominale Variablen, sowie Variablen mit weiteren Infos, wie Datumsangaben oder Textfeldern.
Mit Textfeldern, wie z.B. Kommentaren können Datenanalyseprogramme nicht rechnen, sie werden daher einfach als Zeichenfolgen deklariert und haben die Tendenz dir das Leben schwer zu machen.
Wenn du auf permanente Fehlermeldungen im Rahmen deiner Datenanalyse keine Lust hast, achte penibel auf die folgenden Punkte:
Metrische Variablen
Metrische Variablen sind das Gold deines Datensatzes. Mit ihnen kannst du die besten Analysen rechnen. Bereite Sie daher gut auf, damit sie dir später keinen Ärger machen:
- metrische Variablen sind numerisch und dürfen daher niemals Textzeichen in den Datenfeldern enthalten
- Maßeinheiten gehören in den Variablennamen (Gewicht_in_kg) oder in das Codebook, nicht in die Wertefelder
- Ausnahme R: Fehlende Werte dürfen als Textzeichen „NA“ codiert werden
Ordinalskalierte Variablen
- Ordinalskalierte Variablen sind rangbasiert. D.h. ihre Ausprägungen drücken eine klare Reihenfolge aus, also ein mehr oder weniger.
- Je nach Inhalt werden sie im täglichen Gebrauch als Zeichenfolge dargestellt (z.B. „UICC Stadium“) oder als Zahl codiert (VAS-Skalen).
- Am einfachstes ist es wenn du ordinalskalierte Variablen in deinem Datensatz numerisch codierst und erst später im Rahmen der weiteren Datenanalyse Wertelabel zuordnest, die dir zeigen wofür die Zahlen stehen. So hast du keinerlei Probleme beim Import deiner Daten.
- Die Codierung einer ordinalskalierten Variablen muss dabei die Ränge ihrer Ausprägungen widerspiegeln:
- „UICC 0“, „UICC I“, „UICC II“, „UICC III“ codierst du als 0, 1, 2, 3 und nicht als 3, 0, 2, 1! Nur auf diese Weise werden deine statistischen Tests später sinnvolle Ergebnisse liefern
Nominalskalierte Variablen
Nominalskalierte Variablem (auch kategoriale Variablen genannt) dürfen in R, aber nicht in SPSS als Zeichenfolge codiert werden. Dabei solltest du so wenig Zeichen wie möglich verwenden. Die Codierung einer Ausprägung muss dabei immer gleich bleiben!
- Codiere deine Variablen sparsam (Geschlecht: „m“ / „w“ oder 0 / 1 statt „männlich“ / „weiblich“). So bleibt dein Datensatz übersichtlich.
- Wähle immer dieselbe Codierung pro Variablenstufe! Wechsele nicht hin und her! Kontrollgruppe = CG und nicht manchmal CG, manchmal TAU (treatment as usual). Ansonsten werden sie später bei der Datenanalyse verschiedenen Gruppen zugeordnet!
Datumsvariablen
Datumsvariablen werden am besten mit einem typischen Datumsformat angegeben (z.B. 01.02.2023). Behalte dabei immer das gleiche Format für die verschiedenen Datumsvariablen bei!
Schritt 4: Leg dir ein Codebook an
Mit Codierungen wird dein Datensatz klar und übersichtlich, was alles massiv vereinfacht! Außerdem klappen viele Prozesse innerhalb deiner Datenanalyse reibungsloser. Zuerst mag dich eine Datenmatrix aus Zahlen verwirren, aber keine Angst! Im Laufe deiner Datenanalyse wirst du den Codes wieder ihre ursprünglichen Label zuordnen, und dir so die spätere Interpretation und Darstellung deiner Ergebnisse erleichtern.
Erstelle daher ein Codebook, das für jede Variable Codierungen und Wertelabel zusammenführt!
In unserem Beispieldatensatz haben wir schon eine Vorlage für dein Codebook erstellt!
Schritt 5: Fehlende Werte richtig codiert?
Fehlende Werte sind ganz normal, sollten aber als solche auch gekennzeichnet werden, damit R oder SPSS wissen, womit sie es zu tun haben.
Fehlende Werte solltest du daher immer labeln:
- in R immer als NA (not available)
- in SPSS: leer lassen oder -999 (oder eine andere für diese Variablen sehr unwahrscheinliche Ausprägung auswählen)
Tipp: Nach dem Datenimport musst du R und SPSS natürlich sagen, wie dein fehlender Wert gelabelt ist. Wir zeigen dir in unserem Grundlagenkurs wie das geht!
Schritt 6: Säubere deinen finalen Datensatz
Datenanalyseprogramme sind echte Diven. Sie lesen am liebsten klarstrukturierte Datensätze ohne überflüssigen Schnickschnack ein. Du musst also unbedingt darauf achten alles Überflüssige zu entfernen!
Dazu zählen:
- Kommentare oder unnötige Variablen,
- Subauswertungen unter dem Datensatz (Vorauswertungen in Excel, wie Mittelwerte, die du vorab berechnet hast),
- interne Formeln / Zellenbezüge / Querverweise. Excel hat hier viele Möglichkeiten dein spätere Datenanalyse zu stören, entferne sie also unbedingt und ersetze sie durch reine Zahlen (kopiere dazu das entsprechende Zahlenfeld und füge es als reine Zahl wieder ein (rechte Maustaste Einfügeoption „123“).
Extra-Tipp:
Speichere dir verschiedene Versionen deines Datensatzes ab! Den großen mit Informationen, die dir vielleicht noch einmal nützlich sein werden und den finalen für deine Datenanalyse. So hast du im Zweifelsfall alle Infos parat!
Schritt 7: Lese deinen Datensatz ein und starte deine Datenanalyse
Nun hast du es geschafft, dein Datensatz steht!
Doch wie geht es nun weiter?
Als nächstes werden wir deinen Datensatz gemeinsam in R einlesen und mit der statistischen Analyse deiner Daten beginnen!
Wie du das machst und was zu tun ist, wenn du keine Ahnung von den Grundlagen der medizinischen Datenanalyse hast, zeigen wir dir in unserem Grundlagenkurs „Statistik für Mediziner“.
Los geht’s!