Sprachwissenschaftliche Daten in Tabellenkalkulationen (Stand 12.05.2023)
Use Case
In einer Linguistischen Untersuchung werden alte Texte auf bestimmte sprachliche Merkmale untersucht. Die Fundstellen werden mit werden in einem Tabellenkalkulationsprogramm (Calc, Excel oder ähnliches) gesammelt, klassifiziert und codiert.
Kontext
- Tabelle
- Annotationen
- Sprachwissenschaft
Empfohlenes Vorgehen
Für die Organisation und Auswertung der Daten wurde ein gängigen Tabellenkalkulationsprogramm genutzt. Insofern in einer solchen Tabelle keine Formatierungen, mathematische Formeln oder Makros für eine spätere Verwendung der Daten essentiell sind, wird empfohlen diese im CSV-Format (Comma-separated values) zu speichern.
Unter Formatierungen fällt beispielsweise die Nutzung von Farben (Einfärben von Zellen, Textfarbe), um Informationen zu speichern. Idealerweise sollten Farben nur zur besseren Visualisierung für den Menschen, aber nicht als alleiniger Informationsträger verwendet werden. Statt dessen bietet sich das anlegen eienr zusätzlcihe Spalte für den Infomationsinhalt an.
Grund
Für die Langzeitverfügbarkeit von Daten sollten grundsätzlich offene, nicht-proprietäre Dateiformate gewählt werden. Bei etwa Microsoft Office wird für Tabellenkalkulationen das Format XLSX verwendet. Das Format ist grundsätzlich nach dem Office Open XML Standard gestaltet, aus diesem sehr komplexen Standard lassen sich aber ohne die entsprechenden Programme nur mit Aufwand die Daten extrahieren. Das CSV-Format hingegen kann sowohl mithilfe verschiedener Tabellenkalkulationsprogramme als auch mit jedem einfachen Texteditor gelesen und bearbeitet werden.
Konsequenzen / Kosten
Für die nähere Zukunft werden auch Dateien im XLSX-Format weiterhin zugänglich und damit lesbar sein. Im Sinne der Langzeitverfügbarkeit erschweren komplexe Dateiformate (wozu auch das XLSX-Format gehört) eine dauerhafte Verfügbarkeit und Kuratierung. In diesen Fällen kann deshalb möglicherweise nur eine technische Erhaltung der Daten sichergestellt werden.
Für eine Speicherung im CSV-Format entstehen keine weiteren Kosten und nur minimaler Zeitaufwand, da CSV-Dateien beispielsweise direkt aus Microsoft Excel heraus gespeichert werden können.
Nach der Speicherung und vor dem Import in ein Langzeitarchivierungssystem sollten die Daten unbedingt visuell auf Vollständigkeit und vor allem auf die Korrektheit der darin enthaltenen Daten überprüft werden, um möglicherweise auftretende Formatierungsfehler beheben zu können.