Diskriminierungssensible Metadatenpraxis

Moritz Mähr; Noëlle Schnegg

doi:TBD

Zusammenfassung

Dieses Handbuch bietet eine praxisorientierte Anleitung für die diskriminierungssensible Auszeichnung von Metadaten zu historischen Quellen und Forschungsdaten. Es richtet sich an Historiker*innen, Archivar*innen, Bibliothekar*innen und Daten-Kurator*innen und verbindet theoretische Reflexionen zu Normativität, Bias und Oppression mit konkreten Handlungsempfehlungen für den gesamten Forschungsdatenlebenszyklus. Das Handbuch behandelt sowohl technische Aspekte der Metadatenmodellierung als auch ethische Fragen der Repräsentation marginalisierter Gruppen. Durch die Kombination von Theorie und Praxis unterstützt es Fachleute dabei, Diskriminierung in der Metadatenpraxis zu erkennen und diskriminierungssensible Alternativen zu entwickeln.

Vorabversion

Dies ist eine Vorabversion des Handbuchs, die kontinuierlich weiterentwickelt wird. Feedback, Korrekturen und Anregungen sind herzlich willkommen via E-Mail oder GitHub. Die aktuelle veröffentlichte Version ist verfügbar unter https://maehr.github.io/diskriminierungsfreie-metadaten/.

Warnung

Dieses Dokument enthält Abbildungen von historischen Quellen, die diskriminierende Sprache, Bilder oder Darstellungen enthalten. Sie sind Ausdruck von Vorurteilen, Stereotypen oder Gewalt gegen bestimmte Gruppen in der Vergangenheit.

Vorwort zur zweiten Auflage

Diskriminierungssensible Metadatenpraxis. Ein Handbuch zur ethischen Auszeichnung historischer Quellen und Forschungsdaten liegt nun in einer überarbeiteten, zweiten Auflage vor. Dieses Handbuch ist neu in zwei Teile gegliedert: Der theoretische Teil bietet begriffliche und konzeptionelle Überlegungen zu Sprache, Klassifikation, Repräsentation und Macht. Im Praxisteil finden sich Anleitungen, Checklisten und Beispiele für die Erstellung und Pflege von Metadaten. Somit können Leser*innen wahlweise mit der konzeptionellen Rahmung oder mit der direkten Anwendung beginnen. Beide Teile verweisen aufeinander und können im Zusammenspiel genutzt werden.

Die erste Fassung des Handbuchs entstand 2023 im Rahmen des Forschungsprojekts Stadt.Geschichte.Basel als Hilfestellung zur Auszeichnung von Objekten auf der Forschungsdatenplattform und erschien am 3. Juni 2024. Diskussionen, Workshops und Rückmeldungen aus der Community machten jedoch deutlich, dass der ursprüngliche Anspruch, zu diskriminierungsfreien Metadaten anzuleiten, nicht einlösbar war. In der zweiten Auflage korrigieren wir diesen Anspruch: Im Zentrum steht nun die Anleitung zu einem diskriminierungssensiblen Umgang mit Machtverhältnissen und Kontexten.

Zugleich haben wir den Praxisteil deutlich ausgebaut und klar vom theoretischen Teil getrennt. Stadt.Geschichte.Basel bleibt ein wichtiges Fallbeispiel, steht jedoch nicht mehr im Zentrum des Handbuchs. Unser Zielpublikum sind historische Forschungsprojekte im gesamten deutschsprachigen Raum: von universitären Editionsvorhaben bis hin zu digital zugänglichen Sammlungen von GLAM-Institutionen.

Wir laden alle Leser*innen ein, dieses “Living Document” mit uns gemeinsam weiterzuentwickeln und durch Feedback, Ergänzungen oder Fallbeispiele zu bereichern.

Basel, 8. September 2025

Moritz Mähr & Noëlle Sarah Schnegg

Einleitung

Dieses Handbuch ist eine praxisorientierte Anleitung für die diskriminierungssensible Auszeichnung von Metadaten zu historischen Quellen und Forschungsdaten. Es richtet sich an forschende Historiker*innen, Archivar*innen, Bibliothekar*innen und Daten-Kurator*innen an Universitäten sowie in GLAM-Institutionen (Galleries, Libraries, Archives, Museums). Das Handbuch adressiert sowohl Einsteiger*innen als auch erfahrene Fachleute und stellt Best Practices bereit.

Warum Metadaten? In einer zunehmend digital vermittelten Welt machen Metadaten historische Bestände auffindbar, zugänglich, interoperabel und nachnutzbar. Frei zugängliche, maschinenlesbare Metadaten ermöglichen die Integration in Suchmaschinen, Datenportale und virtuelle Forschungsumgebungen. Dadurch verändert sich, wie Historiker*innen Quellen erforschen, interpretieren und verstehen.

Screenshot einer Webseite mit einem Abstimmungsplakat von 1959 gegen das Frauenstimmrecht in der Schweiz. Das Plakat zeigt die schwarze Silhouette einer Frau, die von mehreren grauen Händen mit der Aufschrift "Partei" bedrängt wird. Daneben stehen Informationen zur Sammlung, Datierung, Urheber und Technik. — Screenshot aus der Plakatsammlung Basel: Abstimmungsplakat “Frauenstimmrecht, Nein” zur eidgenössischen Abstimmung vom 1. Februar 1959, entworfen von Werner Nänny im Auftrag des Basler Frauenkomitees gegen das Frauenstimmrecht, gedruckt von Wassermann AG, Basel.

Ein Blick in die deutschsprachige Archive zeigt, dass vielerorts bereits auf die -Prinzipien bei Metadaten geachtet wird. Eine diskriminierungssensible Metadatenpraxis bleibt jedoch meist aus. Oft fehlen kontextualisierende Beschreibungen, in denen Diskriminierungsformen explizit benannt und in ihren jeweiligen historischen Kontext eingeordnet werden. Im Online-Katalog der “Plakatsammlung der Schule für Gestaltung” beschränkt sich die Beschreibung des Plakats “Frauenstimmrecht, Nein” auf sachliche Angaben: “Eidgenössische Abstimmung, 1. Februar 1959”. Hinweise auf den historischen, politischen und insbesondere den sexistischen Kontext fehlen.

Mit diesem Handbuch setzen wir uns für eine diskriminierungssensible Metadatenpraxis ein. Wir erkennen an, dass Diskriminierung tief in gesellschaftlichen und institutionellen Strukturen verankert ist und sich nicht allein durch eine wohlüberlegte Begriffswahl vermeiden lässt.

Diskriminierungssensibilität bedeutet, aufmerksam zu bleiben für Veränderungen von Normen, die Vielfalt von Diskriminierungserfahrungen und die Unabgeschlossenheit von Dekolonisierungsprozessen. Sie fordert uns auf, unsere eigene Positionierung und bestehende Machtverhältnisse kritisch zu hinterfragen und zu reflektieren.

Im Handbuch verwenden wir bewusst eine breite Definition von Diskriminierung, um möglichst viele Anwendungsfälle abzudecken. Unter Diskriminierung verstehen wir schwerwiegende Formen der Benachteiligung. Eine Benachteiligung wird zu einer Diskriminierung, wenn sie in einem unmittelbaren Zusammenhang mit der tatsächlichen oder zugeschriebenen Zugehörigkeit zu einer bestimmten Gruppe oder einem Merkmal steht. Zu diesen Gruppenzugehörigkeiten oder Merkmalen zählen die soziale Stellung, das biologische und soziale Geschlecht sowie die Geschlechtsidentität, die ethnische Herkunft, diskriminierende Fremdzuschreibungen, die Religionszugehörigkeit, die Weltanschauung und politische Überzeugungen, die Sprache, eine Behinderung oder chronische Erkrankung, eine genetische Disposition, das Lebensalter, die sexuelle Orientierung, das Körpergewicht und die Lebensform (zum Beispiel Fahrende). Diskriminierungen entstehen laufend, weil gesellschaftliche Werte und Normen bestimmte Gruppen stigmatisieren.

Der Band gliedert sich in zwei Teile: Im ersten Teil definieren wir die theoretischen und technischen Schlüsselbegriffe und verknüpfen sozial- und informationswissenschaftliche Perspektiven. Wir behandeln Normativität, Formen der Diskriminierung, Bias und Oppression sowie Grundlagen zu Forschungs- und Metadaten, Metadatenstandards und //.

Im zweiten Teil behandeln wir den diskriminierungssensiblen Umgang mit Metadaten entlang des gesamten Forschungsdatenlebenszyklus(Higgins 2008):

Planung und Konzeption: Konzeptionelle Grundentscheidungen, Auswahl von Standards, Rollen, ethische und rechtliche Aspekte, Fokus auf Einwilligung und Schutz vulnerabler Gruppen.
Datensammlung und Quellenkritik: Datenerzeugung und -sammlung, Nutzung offener Formate und normierter Begrifflichkeiten zur Interoperabilität sowie Kontextualisierung der Quellen.
Datenverarbeitung und Anreicherung: Datenaufbereitung, Metadatenanreicherung, Dokumentation, frühzeitige Standardisierung.
Speicherung und Verwaltung: Strukturiertes, sicheres Speichern, Zugriffskontrolle, Pflege, Versionierung, diskriminierungssensible Zugangsregelungen.
Veröffentlichung und Zugang: Zugänglichmachung über Repositorien, Persistente Identifikatoren, Lizenzen, /-Prinzipien.
Nachnutzung und Wiederverwendung: Recherchierbarkeit, Interoperabilität, Kontextinformation zur Vermeidung von Fehlinterpretationen.
Archivierung und Löschung: Auswahl von Archivierungsstandards und Speicherorten, rechtliche und ethische Vorgaben.

flowchart TD
    A[1 Planung und Konzeption] --> B[2 Datensammlung und Quellenkritik]
    B --> C[3 Datenverarbeitung und Anreicherung]
    C --> D[4 Speicherung und Verwaltung]
    D --> E[5 Veröffentlichung und Zugang]
    E --> F[6 Nachnutzung und Wiederverwendung]
    F --> G[7 Archivierung und Löschung]
    G -.-> B

Abbildung 1: Darstellung des Datenlebenszyklus nach dem Curation Lifecycle Model (DCC), adaptiert in sieben linearen Phasen von der Planung bis zur Archivierung bzw. Löschung.

Quelle: Article Notebook

Das Ziel dieses Handbuchs ist es, anhand konkreter Beispiele, Methoden und Strategien Hilfestellungen zu bieten, die es der Leser*in erlauben sollen, Diskriminierung in der Metadatenpraxis zu erkennen und Entscheidungen in Bezug auf den eigenen Forschungskontext und auf die zur Verfügung stehenden Ressourcen fällen zu können. Zudem greifen wir konkrete Beispiele aus der deutschsprachigen, geschichtswissenschaftlichen Forschungspraxis auf, um auf wiederkehrende Stolperfallen hinzuweisen. Zur Orientierung im Handbuch dient folgende Entscheidungshilfe:

flowchart LR
  Q{"Was möchte ich tun?"}

  Q --> NEU["Metadaten neu erstellen"]
  Q --> ZUG["Zugang/Präsentation verbessern"]
  Q --> REUSE["Bestehende Metadaten nachnutzen"]
  Q --> FACH["Begriffe/Standards klären"]

  NEU --> P13["Phase 1–3: Planung • Sammlung • Verarbeitung"]
  P13 --> R13["Praxis §1–3"]

  ZUG --> P5["Phase 5: Veröffentlichung & Zugang"]
  P5 --> R5["Praxis §5"]

  REUSE --> P6["Phase 6: Nachnutzung & Wiederverwendung"]
  P6 --> R6["Praxis §6"]

  FACH --> THEO["Theorie & Glossar"]
  THEO --> R0["Schlüsselbegriffe • Bias • FAIR/CARE"]

Abbildung 2: Entscheidungshilfe zur Orientierung im Handbuch. Die Startfrage ‘Was möchte ich tun??’ verzweigt in vier Pfade—Metadaten neu erstellen; Zugang/Präsentation verbessern; Bestehende Metadaten nachnutzen; Begriffe/Standards klären—mit Verweisen auf zugehörige Phasen, Praxisabschnitte und Checklisten.

Die Autor*innen bringen unterschiedliche fachliche und persönliche Hintergründe in das Handbuch ein. Moritz Mähr (weisser cis Mann) ist promovierter Historiker. Noëlle Schnegg (weisse cis Frau) studiert Geschichte und Nahoststudien. Beide sind in der Schweiz aufgewachsen und verfügen über privilegierte gesellschaftliche Rahmenbedingungen, wobei sich individuelle Erfahrungen, beispielsweise hinsichtlich Sexismus, unterscheiden. Diese Offenlegung dient der Transparenz und Einordnung der Perspektiven im Handbuch.

Wir orientieren uns am Contributor Covenant und verpflichten uns, diskriminierende Inhalte klar zu kennzeichnen und kontextualisiert aufzuarbeiten. Reproduktion problematischer Inhalte erfolgt ausschliesslich zu notwendigen Analysezwecken.

Als Living Document lebt dieses Handbuch von der Community. Antidiskriminierungsarbeit ist ein nie endender gesellschaftlicher Prozess, weshalb auch dieses Handbuch niemals abgeschlossen sein wird. Vielmehr erfordert es kontinuierliche, kritische Reflexion, Überarbeitung und Anpassung. Verbesserungsvorschläge können via Email oder als Kommentar auf GitHub eingereicht werden.

Danksagung

Wir danken allen Personen und Institutionen, die zur Erarbeitung der ersten Auflage 2024 und zur laufenden Überarbeitung dieses Handbuchs beigetragen haben. Ihre Hinweise, Kritik und Praxisperspektiven haben Terminologie, Beispiele, -Mapping, Versionierung und Leitlinien zu - und -Prinzipien geschärft.

Besonderer Dank gilt Levyn Bürki für die substanziellen Beiträge zur Neustrukturierung und Weiterentwicklung des Handbuchs. Seine Mitarbeit von September 2024 bis Juni 2025 umfasste zentrale konzeptionelle Entscheidungen und die massgebliche Ausarbeitung wesentlicher Inhalte.

Für die aufmerksame Lektüre und konstruktiven Rückmeldungen zur ersten Auflage 2024 danken die Autor*innen Eric Decker, Céline Hug, Lucie Kolb, Jonas Lendenmann, Noah Regenass und Stephanie Willi. Für inhaltliche Hinweise und Korrekturen nach der Veröffentlichung danken wir Esther Ernst-Mombelli (-Redaktion, Universitätsbibliothek Basel), Marc Bayard (-Redaktion, Universitätsbibliothek Bern), Philipp Messner (Plakatsammlung SfG Basel), Elias Zimmermann (Universität Zürich/Genf), Karin Lackner (Universitätsbibliothek Graz) sowie Roberta Flora Spano (ETH-Bibliothek Zürich, Sammlungen und Archive).

Das Handbuch profitierte von Diskussionen in folgenden Foren und Fachcommunitys: dem Roundtable “FAIR and CARE” der DARIAH-CH Study Days (22. November 2024, FHNW) mit Beiträgen von Iolanda Pensa, Elena Chestnova, Lucie Kolb und Linda Ludwig; dem Workshop “Grosse Anforderungen an kleine Textfelder – Ethische Fragen an Metadaten historischer Quellen” am Herder-Institut (21.–22. November 2024, Marburg), wo Noëlle Schnegg und Levyn Bürki Erfahrungen aus dem Handbuchprojekt vorstellten; dem Panel “Die unsichtbaren Anforderungen der digitalen Geschichtswissenschaft” an den 7. Schweizerischen Geschichtstagen (8.–11. Juli 2025, Universität Luzern) mit einem Impuls von Noëlle Schnegg und Beiträgen aus Gedächtnisinstitutionen wie Bundesarchiv, ETH-Bibliothek, histify, Personenportal SH, SAMARA, Nationalbibliothek, Wirtschaftsarchiv, SSRQ, swisstopo und Transcriptiones; der Einladung zum 9. Bibliothekskongress (24.–27. Juni 2025, Wien); sowie dem Panel “Diskriminierungssensible Metadaten für historische Sammlungen” an der Digital-Humanities-Konferenz 2025 (16. Juli 2025, Universidade NOVA de Lisboa) mit Beiträgen von Levyn Bürki, Joris Burla, Peggy Große, Mario Kliewer, Jonas Lendenmann, Lisa Quade, Moritz Mähr, Noëlle Schnegg und Elias Zimmermann. Für die Einladung zum SODa-Forum “Das Handbuch zur Erstellung diskriminierungsfreier Metadaten aus Perspektive der Universitätssammlungen” (11. September 2025), zum Workshop “Relativieren oder limitieren? Zum Umgang mit Dark Heritage in Sammlungen und Archiven” (13. und 14. November; Dresden) und zum Workshop “Metadaten in den Humanities” (4. und 5. Dezember, Zürich) danken wir den Organisator*innen; die dortigen Rückmeldungen fliessen in die fortlaufende Überarbeitung ein.

Das Handbuch ist ein “Living Document”. Wir laden die Communities der Digital Humanities, der Gedächtnisinstitutionen und der Forschung ein, weitere Hinweise, Praxisbeispiele und Korrekturen beizusteuern. Für verbleibende Unschärfen und Fehler tragen die Autor*innen die Verantwortung.

Theorie: Schlüsselbegriffe und Konzepte

Die Entwicklung und Anwendung einer diskriminierungssensiblen Metadatenpraxis setzt ein gemeinsames Verständnis zentraler Begriffe und Konzepte voraus. Dieses Kapitel definiert und kontextualisiert die theoretischen und technischen Schlüsselbegriffe, die den Rahmen des Handbuchs bilden. Im Fokus stehen Begriffe wie Normativität, Diskriminierung, Bias und Oppression, die sowohl aus geistes- und kulturwissenschaftlicher als auch aus informations-, bibliotheks- und archivwissenschaftlicher Perspektive diskutiert werden. Neben diesen kritischen Grundbegriffen werden auch technische Termini wie Metadatenstandard, Normdaten und Datenwertstandard eingeführt, um die Brücke zwischen inhaltlicher Reflexion und technischer Implementierung zu schlagen.

Dieses Kapitel bestimmt die Begriffe so, dass sie sowohl analytisch tragfähig als auch praktisch operationalisierbar sind. Die Auswahl und Definition der Begriffe orientiert sich an internationalen Menschenrechtsstandards (humanrights.ch o. J.) und interdisziplinären Ansätzen wie Data Feminism, Data Justice und Critical Data Studies (Mehrabi u. a. 2021; Loukissas 2019; D’Ignazio und Klein 2020). Damit bildet dieses Kapitel die konzeptionelle und terminologische Grundlage für alle weiteren Analysen und Empfehlungen im Handbuch.

Diskriminierung in und durch Daten

Daten sind nicht neutral (Normativität)

Screenshot einer Wikidata-Seite mit dem Eintrag Crimea (Q7835). Sichtbar sind der Titel "Crimea", eine kurze Beschreibung der Halbinsel als umstrittenes Gebiet zwischen Ukraine und Russland sowie Sprachangaben (Englisch, Deutsch, Alemannisch, Französisch) mit verschiedenen Labels und Synonymen. Darunter der Abschnitt "Statements" mit dem Hinweis "instance of: peninsula." — Screenshot des Wikidata-Eintrags zu Crimea (Q7835), der die Halbinsel Krim beschreibt. Angezeigt werden Sprachvarianten (u. a. Englisch, Deutsch, Französisch), alternative Bezeichnungen sowie die Beschreibung als “Eastern European peninsula, in the Black Sea and Sea of Azov, disputed between Ukraine (de jure) and Russia (de facto)”.

Daten und Metadaten erscheinen auf den ersten Blick als objektive Repräsentationen der Wirklichkeit, doch sind sie stets in historisch gewachsene Machtverhältnisse und normative Ordnungen eingebettet. Das Beispiel der Krim in Wikidata Q7835 und die beigefügte Karte der Halbinsel illustrieren anschaulich, wie scheinbar neutrale Darstellungen in Metadaten inhärent Stellung beziehen und politische Konfliktlagen spiegeln.

Karte der Krim mit eingezeichneten Städten, Strassen, Eisenbahnlinien und Landschaftsmerkmalen. Zu sehen sind Simferopol, Sewastopol, Jalta, Feodossija, Kertsch und Jewpatorija sowie Gebirge, Küstenlinien und angrenzende Regionen der Ukraine und Russlands. — Politische Karte der Krim mit Städten, Verkehrswegen und geografischen Bezeichnungen. Die Karte zeigt die Halbinsel im Schwarzen Meer, angrenzend an die Ukraine und Russland.

Die Karte präsentiert die Krim als “Autonome Republik Krim” und zeigt damit explizit eine völkerrechtlich orientierte, pro ukrainische Perspektive: Die Benennung und farbliche Abgrenzung der Krim als Teil der Ukraine (“Oblast”, “Autonome Republik”) betont den de-jure-Status nach ukrainischem Recht und den internationalen Menschenrechtsstandards. Es werden zentrale Orte wie Sewastopol oder Kertsch mit ihrer ukrainischen Transkription aufgeführt. Die Grenze zu Russland ist klar als Staatsgrenze markiert. In der Detaildarstellung (oben rechts) wird die Krim deutlich der Ukraine zugeordnet, wodurch der umstrittene völkerrechtliche Status als Teil Russlands nicht gleichwertig visualisiert wird.

Dieses kartografische Beispiel steht paradigmatisch für die normativen Setzungen, die auch digital kodierten Datenstrukturen wie Wikidata zugrunde liegen. So wird die Krim dort sowohl als Teil der Ukraine (“de jure”) als auch Russlands (“de facto”) geführt, jedoch übernehmen viele verknüpfte Objekte wie Städte oder administrative Einheiten diese Mehrdeutigkeit nicht konsistent oder bilden einzig die ukrainische Perspektive ab. Die Karte operiert dabei mit einem klaren Framing zugunsten der ukrainischen Souveränität und blendet alternative Klassifikationsoptionen, wie etwa die Bezeichnung “Republik Krim” als Teil Russlands, weitgehend aus.

Dies verdeutlicht, dass jede Form von Daten- und Metadatenmodellierung – sei sie visuell, textuell oder strukturell – auf normativen Entscheidungen beruht, die oft unsichtbar bleiben. Die Auswahl von Bezeichnungen, die Sichtbarkeit von Grenzen oder die Hierarchisierung von Souveränitätsansprüchen spiegeln und stabilisieren bestehende Machtasymmetrien und wirken als “invisible hand of classification” (Bowker und Star 1999a). Für Nutzer*innen entsteht der Eindruck technischer Neutralität, obwohl sowohl die Karte als auch digitale Datenbanken politische Aushandlungsprozesse und Interessen materialisieren.

Eine diskriminierungssensible Metadatenpraxis setzt daher an der Schnittstelle von Technik und Gesellschaft an: Sie verlangt die konsequente Offenlegung und Reflexion der eigenen Klassifikationsschemata, Entscheidungslogiken und Datenstrukturen. In der Umsetzung heisst das: transparente Dokumentation von Modellierungsentscheidungen (Schema, Version, Geltungsbereich), parallele Felder für Mehrperspektivität (de jure/de facto, Selbst- und Fremdbezeichnungen), überprüfbare Quellen- und Provenienzangaben sowie die explizite, maschinenlesbare Markierung von Konflikten und Unsicherheiten in den Metadaten (Status, Zeitraum, räumliche Gültigkeit). Die Beschreibung durch Metadaten und ihre Repräsentation in digitalen Datenbanken sind bewusst gestaltete, nachvollziehbare Praktiken, die nie lediglich “abbilden”, sondern normativ wirken.

Direkte Diskriminierung

Die Begriffsbestimmung von Diskriminierung erfolgt in der Einleitung (QUERVERWEIS Abschnitt “Definition von Diskriminierung”). In diesem Kapitel operationalisieren wir direkte Diskriminierung für die Metadatenpraxis: Eine Regel, Entscheidung oder Handlung ist direkt diskriminierend, wenn sie Personen aufgrund eines geschützten Merkmals ungleich behandelt und diese Ungleichbehandlung nicht durch einen legitimen, verhältnismässigen Zweck gedeckt ist. Im Fokus stehen Mechanismen, Indikatoren und Gegenmassnahmen.

Beispiele

Zugangsbeschränkungen in Archiven
- Mechanismus: Normative Ausschlussregeln nach Geschlecht, Konfession oder Stand.
- Effekt: Systematische Tilgung von Stimmen aus der historischen Überlieferung.
- Indikatoren: Explizite Zutrittsordnungen, fehlende Nutzungsprotokolle für ausgeschlossene Gruppen.
- Gegenmassnahmen: Retrospektive Dokumentation von Ausschlüssen, Priorisierung von Erschliessungslücken, inklusionsorientierte Benutzungsordnungen.
Staatliche Register
- Mechanismus: Kategorisierung nach “Rasse”, “Stamm”, “Religion” zur Hierarchisierung.
- Effekt: Ungleichbehandlung durch Verwaltung und Recht.
- Indikatoren: Kategorien mit sanktions- oder leistungsrelevanter Wirkung.
- Gegenmassnahmen: Historisierung und Kontextualisierung problematischer Kategorien, Schutzkennzeichnungen, restriktive Nachnutzungsbedingungen.
Berufsrollen in amtlichen Dokumenten
- Mechanismus: Erfassung von Frauen nur relational (“Frau des Schmieds”) statt als eigenständige Akteurinnen.
- Effekt: Unsichtbarmachung ökonomischer Tätigkeit.
- Indikatoren: Geringer Anteil eigenständiger Berufsangaben bei Frauen.
- Gegenmassnahmen: Nachträgliche Normalisierung, alternatives Namens- und Rollenmodell, Varianten als gleichwertige Identifikatoren pflegen.

Indirekte Diskriminierung

Indirekte Diskriminierung liegt vor, wenn formal neutrale Kriterien, Methoden oder Regelungen zur Erhebung, Auswahl, Beschreibung oder Interpretation historischer Daten in ihrer Wirkung systematisch bestimmte Gruppen benachteiligen. Das betrifft zum Beispiel unterdokumentierte Gruppen oder Praktiken, die durch etablierte Routineprozesse weiter marginalisiert werden.

Beispiele

Alphabetische Namensregister
- Mechanismus: Ordnung nach Familiennamen mit Relationen über Haushaltsvorstände; Witwen unter Namen des Ehemannes.
- Effekt: Systematische Unauffindbarkeit von Frauen, Kindern und Menschen aus Kulturen ohne Familiennamen.
- Indikatoren: Hoher Anteil von “siehe”-Verweisen statt eigener Einträge.
- Gegenmassnahmen: Sekundärregister nach Vornamen/Rollen, relationale Verknüpfungen, Namensvarianten als Primärschlüssel.
Sprachliche Dokumentation
- Mechanismus: Dominanz von Amtssprachen (Latein, Französisch, Hochdeutsch) in der Überlieferung.
- Effekt: Geringe Sichtbarkeit von Minderheitensprachen und -praktiken.
- Indikatoren: Anteil nicht erfasster bzw. nicht indexierter Sprachvarietäten.
- Gegenmassnahmen: Mehrsprachige Erschliessung, Community-basierte Übersetzungen, -Labels (Simple Knowledge Organization System) pro Sprachvarietät.
Digitale Volltextsuche
- Mechanismus: Auswahl- und Digitalisierungsbias; / bevorzugt standardisierte Drucke.
- Effekt: Unterrepräsentation von Frauen, Arbeiter*innen, Handschriften.
- Indikatoren: / nach Schrift/Medium; Recall-Differenzen in Korpora.
- Gegenmassnahmen: Stratifizierte Digitalisierung, gezieltes , ausgleichendes Ranking, .
Zensuskategorien
- Mechanismus: Erfassung nur von Haushaltsvorständen.
- Effekt: Statistische Unsichtbarkeit von Frauen, Kindern und anderen Haushaltsangehörigen.
- Indikatoren: Fehlende Individualdatensätze für Nicht-Vorstände.
- Gegenmassnahmen: Rekonstruktion von Haushalten, Metadaten zu Erhebungsdesigns, methodische Gewichtung in Analysen.

Strukturelle Diskriminierung

Strukturelle Diskriminierung bezeichnet Benachteiligungen, die in etablierten Praktiken der Sammlung, Dokumentation, Bewahrung und Zugänglichmachung verankert sind. Ordnungen des Archivierens, Katalogisierens und Kuratierens reproduzieren häufig patriarchale, koloniale und heteronormative Sichtweisen. Diese wirken sich auf Auswahlprozesse, die Sprache der Erschliessung und institutionelle Routinen aus. Zahlreiche digitale Infrastrukturen orientieren Sprache, Usability und Standards primär an westlichen Forschungstraditionen; indigene und nicht-westliche Perspektiven bleiben dadurch marginalisiert.

Beispiele

Eurozentrische Normdaten und kontrollierte Vokabulare
- Mechanismus: Normdaten privilegieren westliche Taxonomien; indigene Konzepte werden “gemappt”.
- Effekt: Semantische Asymmetrien, Fehlklassifikation, schlechteres .
- Indikatoren: Hoher Anteil unscharfer Schlagwörter; geringe Mehrsprachigkeit in skos:prefLabel/altLabel.
- Gegenmassnahmen: Community-kuratiertes Vokabular, Mehrsprachigkeit, präzise skos:exactMatch/closeMatch, dokumentierte Provenienz.
Binäre Personen- und Geschlechtermodelle in Metadatenstandards
- Mechanismus: Pflichtfelder erzwingen binäre Geschlechter, patronymische Hauptformen.
- Effekt: Unsichtbarkeit nicht-binärer Identitäten und eigenständiger Rollen.
- Indikatoren: Anteil Datensätze ohne Felder für Selbstbezeichnung; Normalisierungszwang in Normdaten.
- Gegenmassnahmen: Kontrolliert-offene Felder (genderIdentity, role), Varianten als gleichwertige Identifikatoren, versionsgeführte Entscheidungsprotokolle.
Digitale -Bias: Auswahl, / und Ranking
- Mechanismus: Kanonzentrierte Auswahl; Trainingsdaten für dominante Schriften/Sprachen; Indexgewichte bevorzugen gut erkannten Text.
- Effekt: Höhere Fehlerraten und schlechtere Auffindbarkeit für Minderheitensprachen und Handschriften.
- Indikatoren: / nach Schrift/Varietät; Recall-Differenzen; Abdeckung pro Segment.
- Gegenmassnahmen: Stratifizierte Auswahlpläne, publizierte Fehlerbilanzen, für unterrepräsentierte Schriften, re-ranking, CLIR.
Kanon- und Metrikgetriebene implizite Priorisierung
- Mechanismus: Mittelvergabe nach Nutzung und Zitation.
- Effekt: Sichtbarkeitsspirale zugunsten von Eliten und Zentren.
- Indikatoren: Budget- und Seitenzahlen pro Gruppe/Region; “Anfragen vs. unerschlossene Bestände”.
- Gegenmassnahmen: Equity-Buckets, Social-Impact-KPIs, kooperative Digitalisierung, transparente Trade-offs.

Institutionelle Diskriminierung

Institutionelle Diskriminierung entsteht, wenn interne Ordnungen und Routinen von einer spezifischen Gedächtnisinstitution systematisch bestimmte Gruppen benachteiligen. Sie verschränkt sich oft mit struktureller Diskriminierung. QUERVERWEIS

Beispiele

Digitalisierungspriorisierung nach Kanon
- Mechanismus: Auswahlkriterien privilegieren stark nachgefragte Bestände.
- Effekt: Quellen marginalisierter Gruppen bleiben analog.
- Indikatoren: Disparitäten zwischen Anfragevolumen und Erschliessungsgrad pro Community.
- Gegenmassnahmen: Quoten für unterrepräsentierte Bestände, partizipative Auswahlprozesse.
Katalogisierungsrichtlinien mit normativen Kategorien
- Mechanismus: obligatorische Felder wie “männlich/weiblich”; beschränkte Auswahl von kolonial geprägten Schlagwörter.
- Effekt: Fehlklassifikation, Reproduktion diskriminierender Vokabulare.
- Indikatoren: Anteil problematischer Pflichtfelder, Korrekturhistorien.
- Gegenmassnahmen: Revision von Richtlinien, optionale Felder, Governance für Vokabularänderungen.
Lizenz- und Gebührenpolitik
- Mechanismus: Hohe Reproduktionskosten, restriktive Lizenzen.
- Effekt: Erschwerte Nachnutzung für Forscher*innen ohne starke institutionelle Einbindung, besonders in ressourcenärmeren Ländern und Regionen.
- Indikatoren: Anteil Open-Access-Objekte; Gebühren pro Nutzungstyp.
- Gegenmassnahmen: OA-First-Policy, gestaffelte Gebühren, -kompatible Zugangsmodelle.
Metadatenstandards ohne Mehrsprachigkeit
- Mechanismus: bewusste Zulassung nur dominanter Amtssprachen oder standardisierter Umschriften.
- Effekt: Unsichtbarkeit von Namen, Toponymen und Konzepten in Minderheitensprachen.
- Indikatoren: Sprachenabdeckung in Feldern und Indizes.
- Gegenmassnahmen: Mehrsprachige Felder, lokale Namensformen als gleichberechtigte Labels, Such-Unterstützung für Varianten.

Statistische Diskriminierung

Statistische Diskriminierung bezeichnet die Benachteiligung von Individuen, wenn unter unvollständiger Information Entscheidungen auf gruppenbezogenen Durchschnittswerten beruhen.

Kernelemente

Informationsasymmetrie: Über Einzelne liegen weniger, über Gruppen mehr Information vor. Entscheidungen werden auf Gruppenstatistiken gestützt.
Gruppenzuschreibung: Wahrscheinlichkeiten oder Durchschnitte werden auf einzelne Personen übertragen.
Effekt: Benachteiligung von Personen, die nicht dem Gruppenprofil entsprechen.

Beispiele

Automatisches Geschlechter-Mapping in Normdaten
- Mechanismus: Imputation (das heisst Schätzung fehlender Werte) von gender aus Namensstatistiken oder Sprachmodellen.
- Effekt: Systematische Fehlzuordnung bei nicht-westlichen, historischen oder trans Namen.
- Indikatoren: Häufung von Zuweisungen nahe dem Klassifikationsschwellenwert; überproportionale Korrekturen nach Herkunftsregion.
- Gegenmassnahmen: Enthaltungsregel bei Unsicherheit; separate Felder für Selbstangaben und Quellen; kalibrierte Schwellen; aktive Nachannotation.
nach Produktivität
- Mechanismus: Zusammenführung häufiger Namen auf den produktivsten Normdatensatz.
- Effekt: False Merges löschen weniger sichtbare Personen; Zitationen und Werke werden fehlgeleitet.
- Indikatoren: Unplausible Sprünge in Grad- und Zitationsverteilungen; Cluster mit hoher Namensähnlichkeit und heterogener Provenienz.
- Gegenmassnahmen: Konservative Blocking-Regeln (Vorabfilter in Record-Linkage-Verfahren, um Vergleichsmenge einzuschränken); zeit- und ortsgebundene harte Constraints; gezieltes Review kleiner oder minorisierter Cluster; vollständige Provenienzspeicherung.
Historische Geokodierung mit modernen Gazetteers
- Mechanismus: Ambige Toponyme werden auf heutige Mehrheitsorte gemappt. Gazetteers sind strukturierte Ortsnamendatenbanken, die meist gegenwärtige Ortsinformationen priorisieren.
- Effekt: Verdrängung historischer Minderheitensiedlungen; Fehlkontexte in Karten.
- Indikatoren: Hoher Anteil Default-Zuordnungen ohne Jahrgang; Dominanz grosser Orte bei kurzen Ortsnamen.
- Gegenmassnahmen: Zeitgeslicte Gazetteers (d. h. nach historischen Epochen getrennt); Unsicherheitsgeometrien; “unresolved” statt Zwangszuordnung; expliziter Quellenhinweis im Datensatz.
Digitisierungsauswahl nach Zitationsmetriken
- Mechanismus: Auswahl via globalem Impact-Score als Proxy für “Wert”.
- Effekt: Periphere Stimmen bleiben analog; selbstverstärkende Sichtbarkeit etablierter Kanons.
- Indikatoren: Schiefe Verteilungen zugunsten kanonisierter Autorinnen und Autoren sowie Orte; geringe Diversität an den Sample-Rändern.
- Gegenmassnahmen: Stratifizierte Sampling-Pläne; Equity-Buckets (gezielt definierte Auswahlkategorien, um Diversität sicherzustellen); Offenlegung der Auswahlfunktion; Simulation und Vergleich alternativer Auswahlregeln.

Spezifische Diskriminierungen in historischen Quellen und Forschungsdaten

Diskriminierung kann bei der Arbeit mit historischen Quellen und Forschungsdaten in mehreren Formen auftreten:

Diskriminierende Aussagen über marginalisierte Gruppen produzieren oder reproduzieren, sei es durch eigene Formulierungen oder durch unterkomplexe Weitergabe von Forschungsdaten.
Marginalisierte Gruppen systematisch von Entscheidungsprozessen ausschliessen oder unterrepräsentieren bzw. solche Zustände fortschreiben.
Marginalisierte Gruppen in Archiven oder der Geschichtsschreibung aktiv unsichtbar machen oder diese Unsichtbarkeit unreflektiert bestehen lassen.
Die Verletzbarkeit marginalisierter Gruppen bei der Präsentation von Daten in Kauf nehmen, zum Beispiel ohne oder Sensibilitätshinweise.
Den Zugang zu Daten, Archiven und Ergebnissen erschweren, zum Beispiel durch unzureichende Findmittel, barrierearme Sprache, oder technische Hürden.

Verzerrungen und Fehler (Bias)

Unter einem Bias wird eine Verzerrung – eine systematische Abweichung einer objektiven Darstellung – verstanden. Technisch kann ein Bias in Forschungsdaten etwa durch eine unausgewogene Datenauswahl, eine stereotypisierende Begriffsauswahl oder durch algorithmische Vorannahmen entstehen. Inhaltlich äussert sich ein Bias in verschiedenen Formen wie in der Auswahl dessen, was überhaupt als erzählenswert gilt, in der Art und Weise der Beschreibung historischer Ereignisse oder in den moralischen oder interpretativen Bewertungen, die Historiker*innen vornehmen. Diese Voreingenommenheit ist nicht nur ein Fehler, sondern ergibt sich aus der grundlegenden Tatsache, dass jede historische Darstellung selektiv und perspektivisch ist. In der Metadatenerstellung ist oftmals ein Bias in den Beschreibungstexten zu finden. So werden beispielsweise Frauen in historischen Quellen oftmals auf ihr äusseres Erscheinungsbild reduziert, während bei Männern häufig zuerst ihre beruflichen Tätigkeiten erwähnt werden. Diese Reduktion der Frau auf ihr äusseres Erscheinungsbild steht in einer langen Tradition der Objektivierung weiblicher Körper. Wenn im Kontext der Überarbeitung der Metadaten nicht nur der Bias kritisch reflektiert wird, sondern der Fehler als Reproduktion von Geschlechterstereotypen dargestellt wird, werden diskriminierende Strukturen sichtbar und können so schrittweise abgebaut werden. Hier setzt das Konzept der Oppression (Unterdrückung) an. Es geht über die Bias-Kritik hinaus, indem es diesen als Ausdruck struktureller Machtverhältnisse deutet und in grössere gesellschaftliche Zusammenhänge einordnet.

Verzerrung und Fehler in Daten (Data Bias)

Messfehler (Measurement Bias)

Bias, der durch fehlerhafte, unvollständige oder inadäquate Messung von Variablen entsteht.

Beispiel 1: In digitalen Editionen historischer Texte wird “Bedeutung” oft über die Häufigkeit bestimmter Begriffe erfasst, doch fehlerhafte -Erkennung - etwa wenn das historische “ſ” nicht als “s” erkannt wird – oder uneinheitliches Tagging führen leicht zu systematischen Verzerrungen.

Beispiel 2: Erfassung von Geschlecht in historischen Volkszählungen: “Beruf: Haushaltsvorstand” wird in digitalen Datenbanken oft als “männlich” codiert, was weibliche Haushaltsvorstände systematisch ausschliesst.

Auslassungsfehler (Omitted Variable Bias)

Entsteht, wenn relevante Variablen im Modell fehlen, was zu verzerrten Ergebnissen führt.

Beispiel: Eine digitale Netzwerkanalyse historischer Korrespondenz lässt informelle Kommunikationswege (zum Beispiel persönliche Treffen, mündliche Überlieferung) aus, was zu verzerrten Interpretationen von Kommunikationsnetzwerken führt.

Repräsentationsfehler (Representation Bias)

Bias durch nicht-repräsentative Stichproben, zum Beispiel geografische oder demografische Unterrepräsentation im Datensatz.

Beispiel: Digitalisierte Zeitungsarchive decken meist nur bestimmte (oft bürgerliche oder urbane) Presse ab; Arbeiterzeitungen, marginalisierte Gruppen oder nicht-deutschsprachige Publikationen fehlen und werden in der Forschung unsichtbar.

Aggregationsfehler (Aggregation Bias)

Fehlerhafte Verallgemeinerung von Gruppenergebnissen auf Individuen oder Subgruppen.

Simpson’s Paradox: Aggregierte Trends können täuschen, weil sich Zusammenhänge auf Subgruppenebene ins Gegenteil verkehren.

Beispiel: Eine Methode scheint insgesamt erfolgreicher, ist aber in allen Teilgruppen weniger erfolgreich, die Aggregation verschleiert dies.

Modifiable Areal Unit Problem (MAUP): Ergebnisse hängen von der gewählten räumlichen Aggregation ab.

Beispiel: Zusammenfassung von unterschiedlichen Sozialstrukturen (zum Beispiel alle “Arbeiter” im 19. Jh.) überdeckt regionale Unterschiede – etwa zwischen Textilarbeiterinnen im Ruhrgebiet und Landarbeitern in Ostpreussen.

Stichprobenfehler (Sampling Bias)

Bias durch nicht-zufällige Auswahl von Stichproben führt zu mangelnder Generalisierbarkeit.

Beispiel: Oral History-Projekte, die ausschliesslich mit Zeitzeugen arbeiten, die aktiv Kontakt zu Forscher*innen aufnehmen, erfassen tendenziell eher politisch engagierte oder bildungsnahe Akteur*innen.

Längsschnittfehler (Longitudinal Data Fallacy)

Fehlschluss durch Vermischung von Kohorten in Querschnittsdaten, anstatt echte zeitliche Entwicklung zu betrachten.

Beispiel: Analyse von Wikidata-Einträgen zu historischen Persönlichkeiten über Jahrzehnte hinweg, ohne zu berücksichtigen, dass sich die Erfassungsregeln oder Community-Praktiken im Zeitverlauf ändern.

Historische Verzerrung (Historical Bias)

Bias, der bereits in der gesellschaftlichen Realität existiert und sich in den Daten widerspiegelt, auch bei perfekter Stichprobe.

Beispiel: Digitale Repositorien, die historische Demografie abbilden, spiegeln patriarchale Strukturen wider: Die geringe Zahl von “Frauen in Führungspositionen” ist kein Datenfehler, sondern gesellschaftliche Realität.

Populationsfehler (Population Bias)

Unterschiede zwischen Nutzenden der Plattform und der Zielpopulation, zum Beispiel durch Demografie.

Beispiel: Wikidata-Einträge zu Historiker*innen stammen überproportional von männlichen, westlichen Beitragenden, was sich in der Sichtbarkeit und Kategorisierung niederschlägt.

Verzerrungen in und durch Algorithmen (Bias in Algorithms)

Algorithmischer Fehler (Algorithmic Bias)

Bias, der durch algorithmische Designentscheidungen entsteht, unabhängig von Bias in den Daten (zum Beispiel durch Auswahl der Optimierungsfunktion).

Beispiel: von philosophischen Texten ergibt “Themen”, die Resultat von Wortlisten und Stoppwortdefinitionen sind, aber von Nicht-Expert*innen als inhaltlich signifikante Topoi interpretiert werden.

Evaluationsfehler (Evaluation Bias)

Verzerrung durch ungeeignete oder unausgewogene Benchmarks bei der Modellbewertung.

Beispiel: Trainings- und Testsets für -Modelle im Bereich Geschichte verwenden hauptsächlich Quellen des 20. Jahrhunderts. Modelle performen deshalb schlecht bei mittelalterlichen oder frühneuzeitlichen Texten.

Verzerrungen durch Nutzerinteraktion (User Interaction Bias)

Darstellungsfehler (Presentation Bias)

Ungleichgewicht, das durch visuelle, typografische oder layoutbezogene Hervorhebungen entsteht. Interface-Entscheide lenken Aufmerksamkeit und Interpretationsrahmen, bevor inhaltliche Qualität bewertet wird.

Beispiel: Quellen, die ohne Einschränkungen zugänglich sind, werden farblich hervorgehoben im Archivkatalog. Damit werden sie häufiger angeklickt und verdrängen, die weniger zugänglichen Quellen überdurchschnittlich.

Rangfolgenfehler (Ranking Bias)

Systematische Verzerrung durch Sortierlogiken, die Klicks, Zitationszahlen oder Metadatenfülle belohnen. Höhere Position führt zu mehr Aufmerksamkeit, was die ursprüngliche Rangordnung verstärkt, unabhängig von Relevanz.

Beispiel: Museumsportal sortiert nach “Meist betrachtet”. Kolonialzeitliche Exponate mit früher Social-Media-Reichweite dominieren, während neu katalogisierte Objekte aus dem Globalen Süden kaum Sichtbarkeit erhalten.

Popularitätsfehler (Popularity Bias)

Beliebtere Objekte werden häufiger gezeigt und verstärken dadurch ihre Popularität, unabhängig von Qualität.

Beispiel: In Crowdsourcing-Projekten zu alten Handschriften dominieren wenige besonders aktive User, sodass ihre Lesarten überproportional häufig übernommen werden.

Emergenter Fehler (Emergent Bias)

Bias, der erst durch langfristige Interaktion mit Nutzenden oder gesellschaftlichen Wandel entsteht.

Beispiel: Ein digitales Editionsprojekt zu mittelalterlichen Urkunden wird ursprünglich als Forschungsinfrastruktur für Editionsphilologie konzipiert. Mit der Zeit beginnen jedoch genealogische Communities, die Daten für Familienforschung zu nutzen. Dadurch verschiebt sich die Nachfrage in Richtung Namens- und Ortsindexierung. Die Infrastrukturbetreiber passen ihre Metadatenstrukturen und Suchfunktionen an diese Nutzergruppen an, was wiederum philologische Tiefeninformationen (zum Beispiel Variantenkritik) systematisch marginalisiert.

Selbstselektionsverzerrung (Self-Selection Bias)

Bias durch selbstselektierende Teilnehmende, zum Beispiel in Umfragen.

Beispiel: Digitalisierungsprojekte zu Privatarchiven werden eher von Familien mit hohem kulturellem Kapital initiiert, während marginalisierte Familien seltener teilnehmen.

Verhaltensverzerrung (Behavioral Bias)

Unterschiedliches Verhalten von Nutzenden je nach Plattform, Kontext oder Zeit.

Beispiel: Historiker*innen recherchieren systematischer, während Lai*innen häufig nach Familiennamen oder spektakulären Ereignissen suchen. Dies beeinflusst Zugriffszahlen.

Zeitliche Verzerrung (Temporal Bias)

Verzerrungen, die sich aus zeitlichen Veränderungen in Verhalten oder Population ergeben.

Beispiel: Die Häufigkeit von Suchbegriffen in Archiven schwankt mit Debatten (zum Beispiel “Pandemie” 2020/21), was langfristige Analysen verzerrt.

Inhaltsproduktionsfehler (Content Production Bias)

Verzerrungen, die auf Unterschieden in Struktur, Lexik, Semantik und Syntax nutzergenerierter Inhalte beruhen.

Beispiel: Digitale Foren zur Wissenschaftsgeschichte werden auf Englisch dominiert; andere Sprachen sind unterrepräsentiert.

Unterdrückung in Daten (Oppression in Data)

Oppression ist nicht bloss eine einzelne Handlung der Benachteiligung, sondern das Zusammenspiel von Praktiken, Diskursen und Institutionen, die Handlungsspielräume ganzer Gruppen systematisch einengen. In der feministischen Machttheorie wird Unterdrückung als strukturelles “power-over” verstanden: eine dauerhafte, nicht-zufällige Konstellation, in der Institutionen, Normen und symbolische Ordnungen bestimmte Gruppen in ihren Optionen einschränken, während andere privilegiert werden (Young 1990). Unterdrückung wirkt materiell (physisch, ökonomisch), symbolisch (Stigmatisierung, Unsichtbarmachung) und epistemisch (Festlegung dessen, was als Wissen gilt).

Historische Daten- und Metadatenpraktiken können Unterdrückung auf mindestens drei Ebenen reproduzieren: ontologisch, epistemisch und infrastrukturell. Diese Formen wirken kumulativ: Jede einzelne Drahtstrebe, beispielsweise ein kontrolliertes Vokabular, scheint zunächst harmlos. Doch im Zusammenspiel entsteht ein Käfig, der die Bewegungsfreiheit bestimmter Gruppen systematisch einschränkt (Frye 1983).

Ontologische Gewalt

Wirkmechanismus: Erzwingt Kategorien, die der Selbstbeschreibung der Betroffenen widersprechen oder sie auf defizitäre Merkmale reduziert (Bowker und Star 1999a).

Beispiele:

Binarer gndo:gender-Wert (“male”/“female”) löscht nicht-binäre Identitäten.
Koloniale Ethnonyme in Normdaten (“Hottentotte”) perpetuieren rassistische Klassifikationen.

Epistemische Gewalt

Wirkmechanismus: Verunmöglicht Wissen, indem es bestimmte Perspektiven ausschliesst oder als “Rauschen” markiert (Spivak 1988).

Beispiele:

Aggregations-Metadaten, die Briefe von Dienstbotinnen als “miscellaneous” ablegen.
Diplomatenschriftverkehr wird dagegen fein granular erschlossen.

Infrastrukturelle Gewalt

Wirkmechanismus: Fixiert Benachteiligungen durch technische Standards, die schwer veränderbar sind (lock-in) (Rodgers und O’Neill 2012).

Beispiele:

Vorgabefelder in Sammlungssoftware ohne Mehrsprachigkeit erzwingen englischsprachige Schlagwörter und verdrängen indigene Begriffe.
Unveränderbare Feldlängen lassen traditionelle Namen abschneiden.

Daten über Daten

Was sind Forschungsdaten?

Unter Forschungsdaten verstehen wir sämtliche digitale Repräsentationen von physischen und virtuellen Objekte, die Forscher*innen während ihrer Forschung verwenden und produzieren und die als digitale Daten repräsentiert werden können. Dazu gehören Quellen, Transkriptionen oder Reproduktionen, Exzerpte, Zeitreihen, Tabellen, Diagramme, Karten, Modelle, Bilder, Videos, Interviews, Artikel, Sekundärliteratur, Software, Quellcode, , Forschungsprotokolle, Datensätze etc.

Bei historischen Forschungsprojekten stammt ein grosser Teil der Forschungsdaten oft aus den Beständen von Gedächtnisinstitutionen wie Archiven, Bibliotheken und Museen oder steht in publizierter Form in Büchern oder Artikeln zur Verfügung. In vielen Fällen sorgen diese Einrichtungen für die Langzeitarchivierung der Quellen. Dann kann über die DOI oder die Signatur direkt auf die Objekte (sowie auf deren Metadaten) verwiesen werden. Meistens werden in Forschungsprojekten jedoch zusätzliche Metadaten erhoben oder bestehende Metadaten korrigiert. Dabei kann es sich um Quellenannotationen, erweiterte Beschreibungen, korrigierte Angaben etc. handeln. In diesen Fällen empfiehlt es sich, einen neuen, möglichst kompletten Metadatensatz zu erstellen und mit Verweis auf das Original auf einer geeigneten Plattform zur Verfügung zu stellen. Redundanz ist bei Forschungsdaten wünschenswert und erhöht ihre Verfügbarkeit und Auffindbarkeit.

Im Rahmen der Forschung werden oft Daten aus historischen Quellen abgeleitet und zusammengestellt. Dazu gehören etwa Textdaten (zum Beispiel Forschungsprotokolle), Zeitreihen (gegebenenfalls dargestellt als Diagramme oder Tabellen) oder georeferenzierte Karten und Netzwerkdarstellungen (zum Beispiel basierend auf Grabungsdaten oder Briefwechseln).

Da viele textuelle Forschungsdaten nur auf Papier oder in unstrukturierter digitaler Form vorliegen, ist die Extraktion strukturierter Daten aus diesen Materialien oft sehr aufwändig (scannen, bereinigen, annotieren usw.). Neben den für die Forschung relevanten Daten müssen auch die dazugehörigen Prozessinformationen und unterstützenden Daten (Software, Algorithmen, Protokolle, usw.) dokumentiert, archiviert und zugänglich gemacht werden. Diese Informationen sind unerlässlich, um die Nachvollziehbarkeit und Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten.

Was sind Metadaten?

Metadaten enthalten strukturierte Informationen über Objekte, insbesondere über deren Inhalt, Kontext und Struktur. Dabei ermöglichen bzw. erleichtern sie deren Identifikation, Auffindbarkeit, Organisation, Verwaltung, Kontextualisierung und Nutzung. Metadaten sollten so strukturiert sein, dass sie die wichtigsten Attribute des beschriebenen Objekttyps modellieren. Ihre Speicherung erfolgt entweder unabhängig von oder auch zusammen mit den ihnen zugeordneten Daten.

Plakat mit rotem Hintergrund: Drei Männer in bunten Gewändern und Turbanen führen Handarbeiten aus – einer webt, einer hält Schmuck, einer arbeitet mit Tongefässen. Darunter steht gross "KNIE" und kleiner "Völkerschau". — Plakat des Circus Knie für eine “Völkerschau”, Darstellung von stereotypisierten Szenen mit Männern beim Handwerk, Schweiz, 20. Jahrhundert.

Zur Illustration Begrifflichkeiten rund um Metadaten greifen wir auf die Metadaten des Beispiels Knie Völkerschau zurück. Wir haben es ausgewählt, weil es exemplarisch für problematische, kolonial geprägte Darstellungsweisen in populärer Unterhaltungskultur des 20. Jahrhunderts steht und über reichhaltige Metadaten verfügt.

“Metadaten-Tabelle für: *Knie Völkerschau*”
Feld ( / Europeana)	Wert
dc:title	Knie Völkerschau
dc:description	Litografi, flerfarvet tryk : mål: 500 x 350 mm flerfarvet tegning af tre håndværkere ved arbejdet
dc:date	1969?
dc:type	Billede, Todimensionalt billedmateriale Still image, poster
dc:subject	Knie Cirkus Håndværker
dc:identifier	http://www.kb.dk/images/billed/2010/okt/billeder/object488811/en/
dc:rights	Billedet er muligvis beskyttet af loven om ophavsret [CC BY-NC-ND 4.0](http://creativecommons.org/licenses/by-nc-nd/4.0/)
edm:isShownBy	http://kb-images.kb.dk/DAMJP2/DAM/Samlingsbilleder/0000/488/811/PL000012/full/full/0/native.jpg
edm:isShownAt	http://www.kb.dk/images/billed/2010/okt/billeder/object488811/en/
edm:provider	DK-National Aggregation Service
edm:dataProvider	Det Kongelige Bibliotek, Nationalbibliotek og Kobenhavns Universitetsbibliotek
edm:country	Denmark
edm:language	da (Dänisch)
edm:preview	https://api.europeana.eu/thumbnail/v2/url.json?uri=http%3A%2F%2Fkb-images.kb.dk%2FDAMJP2%2FDAM%2FSamlingsbilleder%2F0000%2F488%2F811%2FPL000012%2Ffull%2Ffull%2F0%2Fnative.jpg\&type=IMAGE
Europeana-ID	92023/images_billed_2010_okt_billeder_object488811
Europeana-LandingPage	https://www.europeana.eu/en/item/92023/images\_billed\_2010\_okt\_billeder\_object488811
Manifest	https://iiif.europeana.eu/presentation/92023/images\_billed\_2010\_okt\_billeder\_object488811/manifest

Die Metadaten des Plakats Knie Völkerschau machen deutlich, dass Metadaten sowohl intrinsische (dem Objekt selbst inhärente) als auch extrinsische (dem Objekt zugeschriebene) Informationen enthalten können. So verweist etwa dc:description auf intrinsische Eigenschaften wie Format, Material und Gestaltung des Drucks, während Felder wie dc:subject oder edm:provider extrinsische Klassifikationen und institutionelle Zuschreibungen dokumentieren (forschungsdaten.info 2024).

Darüber hinaus lassen sich die im Beispiel vorliegenden Metadaten verschiedenen Funktionskategorien zuordnen:

Bibliographische Metadaten: Titel (dc:title), Identifier (dc:identifier, Europeana-ID), Rechte (dc:rights).
Administrative Metadaten: Angaben zu Datenprovidern, Aggregationsdiensten und Zugangs-URLs (edm:provider, edm:isShownAt).
Fachspezifisch-inhaltliche Metadaten: thematische Schlagworte (dc:subject) oder die Beschreibung der dargestellten Handwerker-Szenen (dc:description).

Im Kontext der Digitalisierung ist zusätzlich von Paradaten bzw. Prozessmetadaten zu sprechen, die im Europeana-Datensatz implizit mitschwingen, auch wenn sie nicht explizit aufgeführt sind. Dazu gehören etwa Kameraeinstellungen oder Farbprofile, die während der Erstellung des Digitalisats generiert wurden (Hart u. a. 2025).

Das Beispiel illustriert zudem die Differenz zwischen physischen Objekten und deren digitalen Repräsentationen:

Das physische Plakat selbst besitzt Eigenschaften wie Grösse, Material und Zustand.
Das Digitalisat ist als JPEG-Datei mit spezifischer Auflösung verfügbar (edm:isShownBy, edm:preview).
Der Digitalisierungsprozess erzeugt weitere Informationen, etwa zu Perspektive, Bildausschnitt und Farbwiedergabe, die für eine präzise Kontextualisierung entscheidend sind.

Metadatenstandards

Zur Strukturierung von Metadaten existieren verschiedene Standards und Verfahren, die meistens durch eine Fachcommunity entwickelt und gepflegt werden. Sie dienen der Sicherung von Qualität, Konsistenz und Interoperabilität, bringen jedoch auch Herausforderungen wie Standardisierungsdruck, mögliche Auslassungen, und Semantisierungsverluste mit sich. Dabei lassen sich sieben Ebenen oder Typen von Standards unterscheiden, die wir ebenfalls anhand des Beispiels oben illustrieren.

1. Datentypstandard (Feld- oder Attributniveau)

Legt fest, in welchem Format einzelne Werte codiert oder dargestellt sein müssen – zum Beispiel Zahlen, Datumsangaben, Zeichenketten, Booleans (Wahrheitswerte wie wahr oder falsch beziehungsweise 1 und 0).

Am Beispiel Knie Völkerschau zeigt sich, wie einzelne Werte formal typisiert werden:

dc:title ist ein einfacher Textstring in Originalsprache→ xsd:string@de
dc:date enthält den unsicheren Jahreswert "1969?", typisiert als xsd:string, könnte aber in normierten Fällen auch xsd:gYear sein
edm:language verwendet 639-1 Codes ("da" für Dänisch)
dc:identifier oder edm:isShownBy sind URIs → anyURI

2. Wertstandard (Zulässige Werte für Felder)

Enthält normierte, kontrollierte Begriffe oder Referenzen. Diese dienen der Vergleichbarkeit, Suche und Aggregation.

Das Beispiel Knie Völkerschau nutzt sowohl kontrollierte als auch freie Werte:

dc:type enthält "Still image", "Poster" – konform mit dem oder Type Vocabulary
edm:country ist "Denmark" → entspricht 3166-1 Alpha-2
dc:rights verweist auf die CC-Lizenz http://creativecommons.org/licenses/by-nc-nd/4.0/
dc:subject (“Knie”, “Cirkus”, “Håndværker”) könnte auf eine kontrollierte Vokabularquelle wie oder Wikidata gemappt werden

3. Inhaltsstandard (Semantische Bedeutung von Feldern)

Legt fest, welche Informationen in welchen Feldern erfasst werden sollen und was sie semantisch bedeuten. Dabei kann folgende Frage gestellt werden: “Wie befülle ich das Feld?”

Die Belegung der Felder des Beispiels Knie Völkerschau folgt dem Element Set () und dem :

dc:title enthält den Titel des Plakats (“Knie Völkerschau”)
dc:description beschreibt Motiv, Technik und Masse der Lithografie
dc:subject benennt thematische Schlagwörter
dc:rights informiert über urheberrechtliche Bedingungen
edm:isShownBy verweist auf das direkt eingebettete Digitalisat

4. Strukturstandard / Schema (Datenmodellierung)

Definiert die erlaubten Felder und ihre Beziehungen, oft in hierarchischen oder relationalen Strukturen. Ein Schema kann sowohl inhaltlich als auch formal spezifiziert sein.

Oft wird zwischen Strukturstandard und Schema nicht klar unterschieden. Während der Strukturstandard die allgemeine Anordnung und Bedeutung der Felder beschreibt, legt ein Schema konkret fest, wie diese umgesetzt werden; etwa welche Felder verpflichtend sind oder wie oft sie vorkommen dürfen. Ein Schema lässt sich als Bauplan verstehen, der auf einem übergeordneten, abstrakten Modell beruht.

Die Datenstruktur des Beispiels Knie Völkerschau entspricht dem :

ProvidedCHO (Cultural Heritage Object) enthält zum Beipsiel dc:title, dc:date, dc:type
Aggregation verknüpft mit edm:isShownBy, edm:preview, edm:provider
Proxy erlaubt Mehrsprachigkeit, etwa in dc:description (da) und dc:title (de)

5. Formatstandard (maschinenlesbare Serialisierung & Kodierung)

Legt fest, wie der strukturierte Metadatensatz technisch gespeichert oder übertragen wird. Es ist die konkrete Kodierung und Serialisierung der Metadatenstruktur, wie sie vom Computer ausgelesen wird. Der Fokus liegt auf der einfachen und effizienten Lesbarkeit für Maschinen, nicht für Menschen.

Anmerkung: oder sind Struktur- und Formatstandards zugleich, abhängig davon, ob man ihre logische Modellierung oder die Serialisierung betont.

Im Fall von Knie Völkerschau liegen die Metadaten folgenden Formaten vor:

Europeana-API liefert Metadaten im (zum Beispiel via /record/v2/...json)
Exportierbar als / oder Turtle
URIs sind HTTP-resolvable, kodiert in UTF-8

6. Präsentationsstandard (Visualisierung, Darstellung für Menschen)

Definiert die Gestaltung und Darstellung von Metadaten für Endnutzer*innen, zum Beispiel in Web-Interfaces, Katalogsystemen, oder PDFs. Diese Standards betreffen Layout, Labels, Reihenfolge, aber nicht die maschinenlesbare Struktur.

Die Europeana-Oberfläche stellt die Metadaten des Objekts in einer klaren, mehrsprachigen Ansicht dar:

dc:title wird als Titel angezeigt
dc:rights erscheint mit CC-Icons und verlinkter Lizenz
edm:preview zeigt ein Thumbnail, während edm:isShownBy das hochauflösende Bild öffnet
Schlagwörter (aus dc:subject) werden als Filterfacetten nutzbar gemacht

7. Interoperabilitäts- und Austauschstandards (Systemvernetzung)

Ermöglichen den Austausch, Aggregation und Mapping zwischen verschiedenen Standards, Datenmodellen oder Plattformen. Der Fokus liegt wie bereits bei den Formatstandards auf der Maschinenlesbarkeit.

Das Beispiel Knie Völkerschau ist vollständig eingebettet in ein interoperables Framework:

Über die maschinenlesbare Schnittstelle werden die Informationen aus den lokalen Repositorien gesammelt und an einen Aggreator (zum Beispiel Europeana) übermittelt. Die Herkunftsinformation kann im Feld edm:dataProvider eingebettet werden.
Manifest verfügbar für DeepZoom oder Bildannotation
Verlinkung auf Lizenzen, Orte, Konzepte via URI -Prinzipien)
Es sind Mappings in beide Richtungen möglich: von zu und umgekehrt, von zu und umgekehrt sowie von zu EDM und umgekehrt.

Ein Feld, sieben Ebenen

“Metadaten-Tabelle für: *Knie Völkerschau* mit sieben Ebenen”
Metadatum (Feld)	① Datentyp	② Wertstandard	③ Inhaltsstandard	④ Struktur / Schema	⑤ Format	⑥ Präsentation	⑦ Interoperabilität
`dc:title`	`xsd:string@de`	Freitext	: Title	,	, /	UI-Label: Titel	Europeana API,
`dc:description`	`xsd:string@da`	Freitext, gegebenenfalls Getty -Terms	: Description		JSON	Accordion-Feld, Tooltip	,
`dc:date`	`xsd:gYear` oder `xsd:string`	8601, “1969?” (unsicher)	: Date	Timespan,	/,	Formatierter Zeitstempel	`edm:hasMet` + Timeline
`dc:type`	URI / `xsd:string@da`	URI, `poster`, `Still image`	: Type	, + Europeana Vocabularies		Facette: “Medientyp”	Linked Open Data /
`dc:subject`	`xsd:string@da`	/ kontrollierte Schlagwörter	: Subject			Schlagwortliste	, Wikidata, Linked Data
`dc:identifier`	`anyURI`	HTTP-URL	: Identifier	, Aggregation		als anklickbarer Link	persistente URI (PURL/DOI)
`dc:rights`	URI + `xsd:string`	CC URI, `RightsStatements.org`	: Rights	, Rights	,	CC-Logo, Textlink	Interoperables Lizenzsystem
`edm:isShownBy`	`anyURI`	Image Service URI	: isShownBy	Aggregation		Bild-Embed	Image API
`edm:isShownAt`	`anyURI`	Originalquellenlink	: isShownAt	Aggregation		Button “Zur Quelle”	, Europeana Portal
`edm:preview`	Thumbnail URI	-compliant	: preview	Aggregation		Thumbnail-Bild	Presentation API
`edm:dataProvider`	URI + Name (String)	Europeana Org-ID	: dataProvider			Link zur Institution	Europeana Registry / LOD
`edm:language`	639-1 Code	`da`, `en`, `de`, …	: language			Flaggensymbol + Sprachname	Multilingual indexing
`edm:country`	3166-1 Alpha-2	`DK` → Denmark	: country		/	Anzeige Herkunftsland	Europeana-Facettierung

Im Praxisteil dieses Handbuchs gehen wir insbesondere auf Schemas, Inhalts- und Wertstandards ein und beziehen uns dabei vorwiegend auf die Metadata Initiative (DCMI). Eine umfassende Übersicht weiterer verbreiteter Standards liefert etwa Gabay u. a. (2023).

FAIR, CARE und LOUD: Überblick und Zielsetzung

Dieses Kapitel bündelt drei komplementäre Orientierungen der Forschungsdatenpraxis. adressiert Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit als technische und organisatorische Leitlinien (Wilkinson u. a. 2016; Go FAIR Initiative o. J.). rückt kollektiven Nutzen, Kontrollhoheit, Verantwortung und Ethik in den Fokus, insbesondere bei indigenen Daten (Global Indigenous Data Alliance o. J.; Carroll u. a. 2021). verschiebt den Blick von der reinen Bereitstellung hin zur tatsächlichen Nutzbarkeit in Arbeitsabläufen der Geisteswissenschaften. Ziel ist eine lesbare, praxisnahe Ordnung der Prinzipien für historische Forschung und Metadatenarbeit.

Begriffsklärungen: offen, öffentlich, Open Data

“Offen” bezeichnet rechtlich und technisch definierte Nachnutzbarkeit. Offenheit wird durch Lizenzierung, Standards und Dokumentation hergestellt. “Öffentlich” meint faktische Sichtbarkeit ohne Zugangsbeschränkungen. Offenheit ist möglich ohne Öffentlichkeit, etwa bei Zugang auf Antrag bei offener Lizenz und klaren Metadaten; umgekehrt können öffentlich sichtbare Daten nicht offen sein, wenn Lizenz oder Nutzungsbedingungen Nachnutzung verhindern. “Open Data” steht normativ für Daten, die allen zur Verfügung stehen, typischerweise unter Free-Culture-Lizenzen wie CC0, CC BY oder CC BY-SA. Offene Daten senken Zugangshürden und fördern Kollaboration; sie sind jedoch kein Selbstzweck. Sensible Quellen, personenbezogene Metadaten und schutzwürdige Kontexte erfordern abgestufte Zugänge, transparente Bedingungen und sorgfältige Abwägungen. Für Gedächtnisinstitutionen liefern die OpenGLAM-Prinzipien, das 5-Sterne-Modell für Open Data und die Open-Data-Policy-Guidelines zusätzliche Orientierung; zum Gemeinfreiheitsregime in der Schweiz informiert ein Factsheet des IGE.

FAIR: Nachnutzbarkeit als Leitlinie

steht für Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Die Prinzipien wurden 2016 als Leitlinien für eine nachhaltige und maschinenlesbare Datenpraxis formuliert:

Auffindbar: Daten und Personen erhalten persistente Identifikatoren (zum Beispiel DOI, ORCID). Metadaten sind strukturiert, suchbar und beschreibend; minimal gefordert sind ein stabiler Ort und eine Zitierempfehlung.
Zugänglich: Zugänge und Bedingungen sind dokumentiert. Auch wenn Daten nicht öffentlich sind, bleiben Metadaten frei zugänglich und der Weg zum Zugang nachvollziehbar.
Interoperabel: Formate und Schemata folgen Standards; kontrollierte Vokabulare, Normdaten und ermöglichen Verknüpfung und maschinelle Weiterverarbeitung.
Wiederverwendbar: Lizenztexte, Provenienz, Versionierung, Qualitätsangaben und methodische Kontexte ermöglichen kritische Prüfung und Weiterverwendung. verlangt keine vollständige Öffentlichkeit, sondern klare Bedingungen für nachhaltige Nachnutzung.

Praxisbeispiel: Stadt.Geschichte.Basel

Stadt.Geschichte.Basel publiziert und dokumentiert Forschungsdaten mit dem Open Research Data Template, um Open- und -Prinzipien operationell umzusetzen. DOIs via Zenodo sichern Zitierbarkeit und Auffindbarkeit; GitHub und GitHub Pages stellen Repositorium und lesbare Dokumentation bereit. Klare Lizenzierung (zum Beispiel CC BY 4.0 für Daten, AGPL 3.0 für Code), standardisierte Ordner- und Dateistrukturen sowie Automationen erhöhen Interoperabilität. README, CHANGELOG und CITATION.cff, Versionierung und Issue-Vorlagen fördern Transparenz und Wiederverwendbarkeit.

Datenethik und CARE

Konventionelle Datenpraktiken vernachlässigen oft Entstehungskontexte, Machtverhältnisse und Folgewirkungen. steht für Collective Benefit (Kollektiver Nutzen), Authority to Control (Kontrolle über die Daten), Responsibility (Verantwortung), Ethics (Ethik) und schliesst diese Lücke und richtet Datenpraxis an kollektiven Rechten und Pflichten aus:

Kollektiver Nutzen fordert, dass Datenpraxis dem kollektiven Nutzen der betroffenen Gemeinschaften dient und nicht nur externen Forschungsinteressen.
Kontrolle über die Daten sichert Anspruchsgruppen die Hoheit über den gesamten Lebenszyklus von Daten. Ein Beispiel sind Traditional Knowledge (TK) Labels von Local Contexts, die Nutzungsbedingungen sichtbar machen.
Verantwortung betont die Verantwortung von Forscher*innen und Institutionen, Risiken zu minimieren, Transparenz zu sichern und Rechenschaft abzulegen.
Ethik verlangt einen Umgang, der über Rechtskonformität hinausgeht und auf Respekt, kulturelle Sensibilität und Schadensvermeidung zielt.

Die Prinzipien wurden 2018 im Rahmen der International Data Week entworfen und zwischen 2019 und 2020 von der Global Indigenous Data Alliance ausgearbeitet (Global Indigenous Data Alliance o. J.; Carroll u. a. 2021). Gedächtnisinstitutionen agieren dabei zwangsläufig als Gatekeeper; Governance-Modelle sollen Entscheidungsrechte explizit abbilden. In Kanada fassen die OCAP®-Prinzipien Ownership, Control, Access und Possession als konkrete Form indigener Datenhoheit.

LOUD: Nutzungsorientierte Erweiterung

steht für Linked (verknüpft), Open (offen), Usable (nutzbar) Data (Daten) und schliesst die Kluft zwischen abstrakten Datenmodellen und Forschungspraxis:

Verknüpft verlangt eindeutige Referenzen und semantische Verknüpfungen, damit Datensätze anschlussfähig in Wissensnetzen zirkulieren.
Offen steht für rechtlich wie technisch barrierearme Bereitstellung, inklusive offener Formate und Schnittstellen.
Nutzbar betont dokumentierte Provenienz, verständliche Zugänge, einfache Exporte und APIs sowie Qualitätssicherung, damit Forscher*innen ohne Spezialwerkzeuge arbeiten können.
Daten rückt Inhalte in den Mittelpunkt und fordert wiederverwendbare Bereitstellung statt statischer Visualisierungen.

operationalisiert in Richtung Nutzung und bleibt mit kompatibel, weil Nutzungsbedingungen und Rechte modelliert und kommuniziert werden.

Entscheiden, dokumentieren, umsetzen

Für offen lizenzierte Daten und breite Nachnutzung stehen und im Vordergrund; bei sensiblen Beständen bestimmen und gegebenenfalls OCAP® die Zugangs- und Governance-Modelle. In Aggregations- und Vernetzungsprojekten zählen Interoperabilität und Verlinkung, ergänzt um klare Nutzungsregeln. In jedem Fall gilt: Zuständigkeiten, Bedingungen und Grenzen schriftlich fixieren, Identifier und Metadaten konsequent vergeben, Formate und Vokabulare standardisieren, Änderungen versionieren und ethische Anforderungen explizit adressieren.

Literatur

Archives for Black Lives in Philadelphia. Anti-Racist Description Working Group. 2020. «Archives for black lives in philadelphia: Anti-racist description resources». Philadelphia: Archives for Black Lives in Philadelphia. https://archivesforblacklives.files.wordpress.com/2020/10/ardr_202010.pdf.

«Ausgangslage: Inwieweit schützt das aktuelle Recht vor Diskriminierung?» 2025. Antidiskriminierungsgesetz ADG - Dossier. Humanrights.ch. https://www.humanrights.ch/de/ipf/menschenrechte/diskriminierung/antidiskriminierungsgesetz/adg-ausgangslage/.

Baroncini, S., C. Buyken, J. Garzón Rodríguez, I. K. Marino, S. Oberbichler, und C. Petz. 2025. «From access to ethics. Data discussions at the DH2025 conference in lisbon». DH Lab. 1. August 2025. https://dhlab.hypotheses.org/7355.

Baroncini, Sofia. 2025. «From Access to Ethics: Data Discussions at the DH2025 Conference in Lisbon». Billet. DH Lab (blog). 1. August 2025. https://doi.org/10.58079/14gdf.

Basta, Christine, Marta R. Costa-jussà, und Noe Casas. 2019. «Evaluating the Underlying Gender Bias in Contextualized Word Embeddings». arXiv. https://doi.org/10.48550/arXiv.1904.08783.

Berlin (Redaktion), Digital History. 2025. «Wie verändern große Sprachmodelle die Geschichtswissenschaften? Eine studentische Blogreihe zur Anwendung von LLMs in der historischen Forschung.» Billet. Digital History Berlin (blog). 9. Mai 2025. https://doi.org/10.58079/13wcq.

Bowker, Geoffrey C., und Susan Leigh Star. 1999a. Sorting Things Out: Classification and Its Consequences. The MIT Press. https://doi.org/10.7551/mitpress/6352.001.0001.

———. 1999b. Sorting Things Out: Classification and Its Consequences. The MIT Press. https://doi.org/10.7551/mitpress/6352.001.0001.

Budde, Gunilla. 2008. «Quellen, Quellen, Quellen …». In Geschichte.Studium - Wissenschaft - Beruf, herausgegeben von Dagmar Freist und Hilke Günther-Arndt, 52–69. Berlin. https://elearning.uni-oldenburg.de/sendfile.php?type=0&file_id=5435fe2c79f320a9d7465f0f61851ca5&file_name=budde_quellen-quellen-quellen.pdf&set_language=de_DE.

Carroll, Stephanie Russo, Edit Herczog, Maui Hudson, Keith Russell, und Shelley Stall. 2021. «Operationalizing the CARE and FAIR Principles for Indigenous data futures». Scientific Data 8 (1): 108. https://doi.org/10.1038/s41597-021-00892-0.

Costa-Jussà, Marta R., Carlos Escolano, Christine Basta, Javier Ferrando, Roser Batlle, und Ksenia Kharitonova. 2022. «Interpreting gender bias in neural machine translation: Multilingual architecture matters». In Proceedings of the aaai conference on artificial intelligence, 36:11855–63. https://ojs.aaai.org/index.php/AAAI/article/view/21442.

D’Ignazio, Catherine, und Lauren Klein. 2020. «Collect, Analyze, Imagine, Teach». In Data Feminism, 2–41. The MIT Press. https://data-feminism.mitpress.mit.edu/pub/ei7cogfn.

«Debora Nozza». o. J. Debora Nozza. Zugegriffen 14. Juli 2025. https://www.deboranozza.com/.

«Erschließungsmaschine gestartet – blog.dnb.de». o. J. Zugegriffen 9. Juni 2025. https://blog.dnb.de/erschliessungsmaschine-gestartet/.

«Europeana data model. EDM documentation». o. J. Zugegriffen 9. September 2025. https://pro.europeana.eu/page/edm-documentation.

Eynden, Veerle van den. 2011. Managing and Sharing Data: Best Practice for Researchers. 3rd ed., fully rev. Colchester: UK Data Archive.

forschungsdaten.info. 2024. «Metadaten und Metadatenstandards». 25. April 2024. https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/metadaten-und-metadatenstandards/.

Frye, Marilyn. 1983. The politics of reality: Essays in feminist theory. Trumansburg, NY: Crossing Press.

Gabay, Simon, Tobias Hodel, Moritz Mähr, Stefan Nellen, Barbara Roth-Lochner, Pascale Sutter, Andrea Voellmin, und Karin von Wartburg. 2023. «Datenstandards für die historische Forschung – Ein White-Paper der Schweizerischen Gesellschaft für Geschichte». Herausgegeben von Schweizerische Gesellschaft für Geschichte. Whitepaper, November. https://doi.org/10.5281/ZENODO.10122052.

Global Indigenous Data Alliance. o. J. «CARE principles for indigenous data governance». Zugegriffen 9. September 2025. https://www.gida-global.org/care.

Go FAIR Initiative. o. J. «FAIR Principles». Zugegriffen 22. September 2022. https://www.go-fair.org/wp-content/uploads/2022/01/FAIRPrinciples_overview.pdf.

Gooding, Paul, Melissa M. Terras, und Sarah Ames, Hrsg. 2025. Library catalogues as data: research, practice and usage. Place of publication not identified: Facet Publishing.

Hart, Alexander, Graham Reid, Helena Hartmann, Charlotte R. Pennington, Marta Topor, und Flávio Azevedo. 2025. «Paradata (Paradaten)». 7. Februar 2025. https://forrt.org/glossary/german/paradata/.

Higgins, Sarah. 2008. «The DCC Curation Lifecycle Model». International Journal of Digital Curation 3 (1): 134–40. https://doi.org/10.2218/ijdc.v3i1.48.

Hitz, Benjamin, und Beat Stüdli. 2016. «Werkzeugkasten Geschichte. Online-Handbuch für Studium und wissenschaftliches Arbeiten & PDF-Ausgabe». 2016. https://dg.philhist.unibas.ch/de/studium/werkzeugkasten-geschichte/.

humanrights.ch. o. J. «Formen der Diskriminierung». Zugegriffen 8. September 2025. https://www.humanrights.ch/de/ipf/menschenrechte/diskriminierung/diskriminierungsverbot-dossier/juristisches-konzept/formen-der-diskriminierung/.

Jaillant, Lise, Claire Warwick, Paul Gooding, Katherine Aske, Glen Layne-Worthey, und J. Stephen Downie, Hrsg. 2025. Navigating artificial intelligence for cultural heritage organisations. London: UCL Press. https://doi.org/10.14324/111.9781800088375.

Junger, Ulrike, und Frank Scholze. 2021. «Neue Wege und Qualitäten – Die Inhaltserschließungspolitik der Deutschen Nationalbibliothek». In Qualität in der Inhaltserschließung, herausgegeben von Michael Franke-Maier, Anna Kasprzik, Andreas Ledl, und Hans Schürmann, 55–70. De Gruyter Saur. https://doi.org/10.1515/9783110691597-004.

Kaiser, Katja, Ina Heumann, Tahani Nadim, Hagit Keysar, Mareike Petersen, Meryem Korun, und Frederik Berger. 2023. «Promises of mass digitisation and the colonial realities of natural history collections» 11 (Februar): 13–25.

König, Mareike. 2024. «ChatGPT und Co. in den Geschichtswissenschaften – Grundlagen, Prompts und Praxisbeispiele». Billet. Digital Humanities am DHIP (blog). 19. August 2024. https://doi.org/10.58079/126eo.

Loukissas, Yanni Alexander. 2019. All Data Are Local: Thinking Critically in a Data-Driven Society. The MIT Press. https://doi.org/10.7551/mitpress/11543.001.0001.

Mähr, Moritz. 2022. «Konzept „Stadt.Geschichte.Basel digital“: Zusammenfassung des Konzepts (April 2022) und des Zwischenberichts (Dezember 2022)». April 2022. https://dokumentation.stadtgeschichtebasel.ch/products/interna/digitalkonzept/.

———. (2025) 2025. «Dublin Core Metadata Enhancer». Markdown. https://github.com/Stadt-Geschichte-Basel/dublin-core-metadata-enhancer.

Mehrabi, Ninareh, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, und Aram Galstyan. 2021. «A Survey on Bias and Fairness in Machine Learning». ACM Computing Surveys 54 (6): 115:1–35. https://doi.org/10.1145/3457607.

«Metadata Resources | Steven Jack Miller». o. J. Zugegriffen 7. September 2025. https://sites.uwm.edu/mll/metadata-resources/.

Nayak, Shravan, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stańczak, und Aishwarya Agrawal. 2024. «Benchmarking Vision Language Models for Cultural Understanding». arXiv. https://doi.org/10.48550/arXiv.2407.10920.

Net, Francesc, Marc Folia, Pep Casals, Andrew D. Bagdanov, und Lluis Gomez. 2024. «EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections». arXiv. https://doi.org/10.48550/arXiv.2406.02380.

Research Data Alliance International Indigenous Data Sovereignty Interest Group. 2019. «CARE Principles for Indigenous Data Governance». https://static1.squarespace.com/static/5d3799de845604000199cd24/t/5d79c383e904c741c9e9cd86/1568260995760/CARE+Principles+for+Indigenous+Data+Governance_FINAL_Sept+06+2019.pdf.

Rodgers, Dennis, und Bruce O’Neill. 2012. «Infrastructural violence: Introduction to the special issue». Ethnography 13 (4): 401–12. https://doi.org/10.1177/1466138111435738.

Rottmann, Andrea. 2023. «Que/e/r zur Ordnung des Archivs? Queere Geschichte in staatlichen Archiven erforschen». Archiv - Theorie & Praxis 04 (76. Jahrgang): 21–24. https://www.archive.nrw.de/sites/default/files/media/files/Archiv.theoriepraxis23-4-Internet.pdf.

Schopper, Daniel. 2024a. «Einführung in Metadaten und Dokumentation». 2024. https://campus.dariah.eu/resources/hosted/einfuehrung-metadaten.

———. 2024b. «Einführung in Metadaten und Dokumentation». DARIAH-Campus, September. https://campus.dariah.eu/resources/hosted/einfuehrung-metadaten.

Schweiz, Verband der Museen der. o. J. «Webdossier: KI im Museum». museums.ch. Zugegriffen 7. September 2025. https://www.museums.ch/de/unser-engagement/mitteilungen/aktuelles/webdossier-ki-im-museum-6966.html.

Spivak, Gayatri Chakravorty. 1988. «Can the subaltern speak?» In Marxism and the interpretation of culture, herausgegeben von Cary Nelson und Lawrence Grossberg, 271–313. Urbana and Chicago: University of Illinois Press.

Stadt.Geschichte.Basel. 2025. «Datendokumentation. Forschungsdatenplattform Stadt.Geschichte.Basel». 2025. https://forschung.stadtgeschichtebasel.ch/data.html.

Stanczak, Karolina, und Isabelle Augenstein. 2021. «A Survey on Gender Bias in Natural Language Processing». arXiv. https://doi.org/10.48550/arXiv.2112.14168.

«Start der Erschließungsmaschine eMA». o. J. Deutsche Nationalbibliothek. Zugegriffen 9. Juni 2025. https://jahresbericht.dnb.de/Webs/jahresbericht/DE/2022/Hoehepunkte/Erschliessungsmaschine/erschliessungsmaschine_node.html.

The Endings Project Team. 2023. «Endings principles for digital longevity». 3. März 2023. https://endings.uvic.ca/principles.html.

Tóth-Czifra, Erzsébet. 2019. «DARIAH Pathfinder to Data Management Best Practices in the Humanities». DARIAH-Campus, Mai. https://campus.dariah.eu/resources/pathfinders/dariah-pathfinder-to-data-management-best-practices-in-the-humanities.

Trognitz, Martina. 2024a. «Grundlagen des Datenmanagements». DARIAH-Campus, September. https://campus.dariah.eu/resources/hosted/grundlagen-datenmanagement.

———. 2024b. «Langzeitarchivierung». DARIAH-Campus, November. https://campus.dariah.eu/resources/hosted/langzeitarchivierung.

Weitzmann, John H., und Paul Klimpel. 2016. «Rechtliche rahmenbedingungen für digitalisierungsprojekte von gedächtnisinstitutionen». Manual. 3. Auflage, Mai 2016 – Nachdruck Dezember 2016. Almstadtstraße 9/11, 10119 Berlin: digiS – Servicestelle Digitalisierung Berlin, Zuse Institute Berlin / iRights.Law – Anwälte für die digitale Welt. https://doi.org/10.12752/2.0.002.2.

Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, u. a. 2016. «The FAIR Guiding Principles for Scientific Data Management and Stewardship». Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.

Young, Iris Marion. 1990. Justice and the politics of difference. Princeton, NJ: Princeton University Press.

Anhang

Glossar

Term	Definition
AAT	Art & Architecture Thesaurus ist ein strukturiertes Vokabular des Getty Research Institute für Kunst-, Architektur- und Kulturgeschichte. Bietet hierarchisch organisierte Begriffe und mehrsprachige Synonyme für die konsistente Beschreibung kultureller Objekte.
API	Application Programming Interfaces sind Schnittstellen zwischen verschiedenen Softwareanwendungen, die den strukturierten Datenaustausch ermöglichen. In der Metadatenpraxis wichtig für die automatisierte Übertragung und Synchronisation von Datenbeständen.
CARE	Ethische Grundsätze für Forschungsdaten indigener und marginalisierter Gemeinschaften. Collective Benefit (Kollektiver Nutzen), Authority to Control (Kontrollbefugnis), Responsibility (Verantwortung), Ethics (Ethik). Ergänzen die FAIR-Prinzipien um Aspekte der Datensouveränität.
CER	Character Error Rate ist die Fehlerrate bei der automatischen Texterkennung (OCR/HTR), gemessen als Anteil falsch erkannter Zeichen. Wichtige Metrik zur Bewertung der Qualität digitalisierter Texte.
CIDOC-CRM	Conceptual Reference Model ist ein internationaler Standard (ISO 21127) für die konzeptuelle Modellierung von Kulturerbe-Informationen. Ermöglicht die semantische Verknüpfung heterogener Datenquellen aus Museen, Archiven und Bibliotheken.
Content-Note	Freitextfeld zur ergänzenden Beschreibung des Inhalts einer Ressource. Dient der Kontextualisierung und Auffindbarkeit, sollte diskriminierungsfreie und inklusive Sprache verwenden.
Content-Warning	Hinweis auf sensible oder potenziell belastende Inhalte in einer Ressource. Dient dem Schutz vulnerabler Gruppen und der informierten Nutzung von Daten.
Crosswalk	Verfahren zur Zuordnung von Datenelementen zwischen verschiedenen Metadatenstandards. Ermöglicht die Migration und Interoperabilität von Metadaten.
CSV	Comma-Separated Values ist ein einfaches, textbasiertes Dateiformat zur strukturierten Speicherung tabellarischer Daten. Weit verbreitet für den Datenaustausch zwischen verschiedenen Systemen.
Dublin Core	Weit verbreiteter Metadatenstandard mit 15 Kernelementen (Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights) zur grundlegenden Beschreibung digitaler Ressourcen.
EAD	Encoded Archival Description ist ein XML-Standard für die strukturierte Beschreibung von Archivbeständen. Ermöglicht hierarchische Darstellung von Findmitteln und unterstützt komplexe Provenienz- und Kontextinformationen.
EDM	Europeana Data Model ist das Datenmodell der Europeana für die Aggregation und Bereitstellung europäischer Kulturobjekte. Basiert auf Linked Data-Prinzipien und ermöglicht semantische Verknüpfungen zwischen verschiedenen Sammlungen.
EDTF	Extended Date/Time Format ist ein Standard für die Darstellung unsicherer, approximativer oder komplexer Datumsangaben in historischen Quellen. Unterstützt Zeiträume, Unsicherheitsmarkierungen und alternative Kalendersysteme.
Entity-Resolution	Automatisiertes Verfahren zur Identifikation und Zusammenführung von Datensätzen, die sich auf dieselbe Entität (Person, Ort, Organisation) beziehen. Zentral für die Erstellung konsistenter Normdaten.
FAIR	Grundsätze für Forschungsdatenmanagement. Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel), Reusable (Nachnutzbar). Fördern die offene und nachhaltige Nutzung wissenschaftlicher Daten.
Fine-Tuning	Anpassung vortrainierter Machine Learning-Modelle an spezifische Datensätze oder Aufgaben. In der Metadatenpraxis relevant für OCR/HTR-Verbesserung oder Named Entity Recognition.
GND	Gemeinsame Normdatei ist eine kooperativ gepflegte Normdatei deutschsprachiger Bibliotheken für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel. Zentrale Infrastruktur für die Vernetzung bibliographischer Daten.
HTR	Handwritten Text Recognition ist die automatische Erkennung handschriftlicher Texte mittels Machine Learning. Spezialisierte Weiterentwicklung der OCR-Technologie für historische Handschriften und Dokumente.
IIIF	International Image Interoperability Framework sind Standards für die interoperable Bereitstellung von Bildern und audiovisuellen Medien. Ermöglicht einheitliche Darstellung, Annotation und Manipulation digitaler Objekte unabhängig vom Hosting-System.
ISO	International Organization for Standardization ist eine internationale Organisation für Normung, die technische Standards für verschiedene Bereiche entwickelt, einschließlich Informationsmanagement und Dokumentation.
JSON	JavaScript Object Notation ist ein leichtgewichtiges, textbasiertes Datenformat für den strukturierten Datenaustausch. Weit verbreitet in Web-APIs und zunehmend auch für Metadaten verwendet.
JSON-LD	JSON for Linking Data ist eine Erweiterung von JSON für Linked Data-Anwendungen. Ermöglicht die semantische Annotation von JSON-Strukturen durch Verweise auf kontrollierte Vokabulare.
LCSH	Library of Congress Subject Headings ist ein umfangreiches, hierarchisch strukturiertes Schlagwortsystem der Library of Congress. Internationaler Standard für die sachliche Erschließung in Bibliotheken.
LIDO	Lightweight Information Describing Objects ist ein XML-Schema für die Beschreibung von Museumsobjekten. Ermöglicht detaillierte Erfassung von Provenienz, Materialien, Techniken und kulturhistorischen Kontexten.
LOUD	Linked Open Usable Data ist eine Weiterentwicklung der Linked Data-Prinzipien mit Fokus auf praktische Nutzbarkeit. Betont entwicklerfreundliche APIs, JSON-LD-Format und ausführliche Dokumentation.
MARC	Machine-Readable Cataloging ist ein internationaler Standard für die maschinelle Verarbeitung bibliographischer Daten. Grundlage der meisten Bibliothekskataloge, zunehmend durch flexiblere RDF-basierte Formate ergänzt.
METS	Metadata Encoding and Transmission Standard ist ein XML-Schema für die Strukturierung und Verknüpfung von Metadaten digitaler Objekte. Weit verbreitet in digitalen Bibliotheken und Archiven.
Named-Entity-Recognition	Automatisierte Identifikation und Klassifikation von Entitäten (Personen, Orte, Organisationen) in Texten. Wichtig für die Anreicherung von Metadaten und die Verknüpfung mit Normdaten.
OAI-PMH	Open Archives Initiative Protocol for Metadata Harvesting ist ein Protokoll für die automatisierte Sammlung von Metadaten aus verteilten Repositorien. Ermöglicht die Aggregation von Metadaten ohne Duplikation der eigentlichen Inhalte.
OAIS	Open Archival Information System ist ein Referenzmodell für digitale Langzeitarchivierung (ISO 14721). Definiert Rollen, Funktionen und Informationsmodelle für vertrauenswürdige digitale Repositorien.
OCR	Optical Character Recognition ist die automatische Erkennung von Zeichen in digitalisierten Texten. Grundlage für die Volltextsuche in historischen Dokumenten, unterliegt aber systematischen Fehlern bei historischen Schriften.
Ontologie	Formale Beschreibung von Konzepten und ihren Beziehungen in einem bestimmten Wissensbereich. In der Metadatenpraxis Grundlage für semantische Verknüpfungen und automatisierte Inferenzen.
Pipeline	Abfolge automatisierter Verarbeitungsschritte zur Transformation, Anreicherung oder Analyse von Daten. In der Metadatenpraxis häufig genutzt für ETL-Prozesse (Extract, Transform, Load).
PREMIS	Preservation Metadata Implementation Strategies ist ein Datenmodell für Bewahrungsmetadaten in digitalen Archiven. Dokumentiert Herkunft, Authentizität, Bewahrungsaktivitäten und technische Eigenschaften digitaler Objekte.
Query-Expansion	Automatische Erweiterung von Suchanfragen durch semantisch verwandte Begriffe. Verbessert die Vollständigkeit von Suchergebnissen, besonders bei heterogenen Metadaten.
RDF	Resource Description Framework ist ein Standard des World Wide Web Consortium für die strukturierte Beschreibung von Ressourcen. Grundlage des Semantic Web und von Linked Data-Anwendungen.
Retrieval	Prozess der Suche und des Abrufs relevanter Informationen aus Datenbeständen. In der Metadatenpraxis entscheidend für die Nutzerzufriedenheit und Auffindbarkeit von Ressourcen.
SKOS	Simple Knowledge Organization System ist ein Standard für die Repräsentation von Klassifikationssystemen, Thesauri und anderen kontrollierten Vokabularen als Linked Data. Ermöglicht die Verknüpfung verschiedener Begriffssysteme.
TEI	Text Encoding Initiative ist ein internationaler Standard für die digitale Kodierung literarischer und historischer Texte. Basiert auf XML und ermöglicht detaillierte strukturelle und inhaltliche Annotation.
Topic Modeling	Computergestützte Methode zur automatischen Identifikation thematischer Muster in Textsammlungen. Hilfreich für die Analyse großer Korpora, erfordert aber kritische Interpretation der Ergebnisse.
VIAF	Virtual International Authority File ist eine internationale Normdatei, die Normdaten von Nationalbibliotheken weltweit verknüpft. Ermöglicht die eindeutige Identifikation von Personen und Körperschaften über Sprachgrenzen hinweg.
VRA Core	Visual Resources Association Core ist ein Metadatenstandard für die Beschreibung visueller Kulturobjekte. Speziell entwickelt für Bilder, Kunstwerke und architektonische Objekte.
WER	Word Error Rate ist die Fehlerrate bei der automatischen Texterkennung, gemessen als Anteil falsch erkannter Wörter. Ergänzt die Character Error Rate (CER) bei der Bewertung von OCR/HTR-Qualität.
Workflow	Systematische Abfolge von Arbeitsschritten in der Datenverarbeitung. In der Metadatenpraxis wichtig für Qualitätssicherung und Konsistenz.
XML	eXtensible Markup Language ist eine strukturierte Auszeichnungssprache für die plattformunabhängige Darstellung hierarchisch organisierter Daten. Grundlage vieler Metadatenstandards wie METS, EAD und TEI.

Handbücher und Leitfäden

Dieser Entscheidungsbaum hilft bei der Orientierung der Kapitel und verlinkt auf externe Ressourcen.

flowchart LR
    Frage["Ich habe eine fachspezifische Frage"]

    Frage --> SpezMeta["Metadaten"]
    Frage --> SpezForschung["Forschungs- oder Institutionskontexte"]
    Frage --> SpezDisk["Spezifische Diskriminierungsformen"]

    %% Spezifische Fragen an Metadaten
    SpezMeta --> Normdaten["Normdaten"]
    SpezMeta --> OpenData["Open Data / Commons"]
    SpezMeta --> Recht["Recht & Lizenzen"]
    SpezMeta --> Karten["Kartografische Sammlungen"]

    Normdaten --> Breslau["Breslau (2019)"]
    OpenData --> Hahn["Hahn (2016)"]
    Recht --> Weitzmann["Weitzmann & Klimpel (2016)"]
    Karten --> Gasser["Gasser & Hötea (2024)"]

    %% Spezifische Forschungs- oder Institutionskontexte
    SpezForschung --> Kunst["Kunstmuseen"]
    SpezForschung --> UniArchive["Universitätsarchive"]
    SpezForschung --> Kolonial["Kolonialkontexte"]

    Kunst --> Knaus["Knaus (2019)"]
    UniArchive --> Bruckmann["Bruckmann (2024)"]
    Kolonial --> Bruckmann2["Bruckmann (2024)"]

    %% Spezifische Diskriminierungsformen
    SpezDisk --> NSProvenienz["NS-Provenienz"]
    SpezDisk --> Sklaverei["Sklaverei-Archive"]
    SpezDisk --> Rassismus["Rassismus"]

    NSProvenienz --> Baresel["Baresel-Brand (2019)"]
    Sklaverei --> Ahrndt["Ahrndt (2021)"]
    Rassismus --> A4BLiP2020["A4BLiP (2020)"]

Abbildung 3: Hilfestellungen für weiterführende Fragen, die über die behandelten Themen des Handbuchs hinausgehen.

Wiederverwendung

CC BY-SA 4.0

Zitat

Mit BibTeX zitieren:

@report{mähr2025,
  author = {Mähr, Moritz and Schnegg, Noëlle},
  title = {Diskriminierungssensible Metadatenpraxis},
  date = {2025-09-08},
  url = {https://maehr.github.io/diskriminierungsfreie-metadaten/},
  doi = {TBD},
  langid = {de-CH},
  abstract = {Dieses Handbuch bietet eine praxisorientierte Anleitung
    für die diskriminierungssensible Auszeichnung von Metadaten zu
    historischen Quellen und Forschungsdaten. Es richtet sich an
    Historiker\textbackslash*innen, Archivar\textbackslash*innen,
    Bibliothekar\textbackslash*innen und
    Daten-Kurator\textbackslash*innen und verbindet theoretische
    Reflexionen zu Normativität, Bias und Oppression mit konkreten
    Handlungsempfehlungen für den gesamten Forschungsdatenlebenszyklus.
    Das Handbuch behandelt sowohl technische Aspekte der
    Metadatenmodellierung als auch ethische Fragen der Repräsentation
    marginalisierter Gruppen. Durch die Kombination von Theorie und
    Praxis unterstützt es Fachleute dabei, Diskriminierung in der
    Metadatenpraxis zu erkennen und diskriminierungssensible
    Alternativen zu entwickeln.}
}

Bitte zitieren Sie diese Arbeit als:

Mähr, Moritz, and Noëlle Schnegg. 2025. “Diskriminierungssensible Metadatenpraxis.” https://doi.org/TBD.

Vorwort zur zweiten Auflage

Einleitung

Danksagung

Theorie: Schlüsselbegriffe und Konzepte

Diskriminierung in und durch Daten

Daten sind nicht neutral (Normativität)

Direkte Diskriminierung

Indirekte Diskriminierung

Strukturelle Diskriminierung

Institutionelle Diskriminierung

Statistische Diskriminierung

Spezifische Diskriminierungen in historischen Quellen und Forschungsdaten

Verzerrungen und Fehler (Bias)

Verzerrung und Fehler in Daten (Data Bias)

Messfehler (Measurement Bias)

Auslassungsfehler (Omitted Variable Bias)

Repräsentationsfehler (Representation Bias)

Aggregationsfehler (Aggregation Bias)

Stichprobenfehler (Sampling Bias)

Längsschnittfehler (Longitudinal Data Fallacy)

Historische Verzerrung (Historical Bias)

Populationsfehler (Population Bias)

Verzerrungen in und durch Algorithmen (Bias in Algorithms)

Algorithmischer Fehler (Algorithmic Bias)

Evaluationsfehler (Evaluation Bias)

Verzerrungen durch Nutzerinteraktion (User Interaction Bias)

Darstellungsfehler (Presentation Bias)

Rangfolgenfehler (Ranking Bias)

Popularitätsfehler (Popularity Bias)

Emergenter Fehler (Emergent Bias)

Selbstselektionsverzerrung (Self-Selection Bias)

Soziale Verzerrung (Social Bias)

Verhaltensverzerrung (Behavioral Bias)

Zeitliche Verzerrung (Temporal Bias)

Inhaltsproduktionsfehler (Content Production Bias)

Unterdrückung in Daten (Oppression in Data)

Ontologische Gewalt

Epistemische Gewalt

Infrastrukturelle Gewalt

Daten über Daten

Was sind Forschungsdaten?

Was sind Metadaten?

Metadatenstandards

1. Datentypstandard (Feld- oder Attributniveau)

2. Wertstandard (Zulässige Werte für Felder)

3. Inhaltsstandard (Semantische Bedeutung von Feldern)

4. Strukturstandard / Schema (Datenmodellierung)

5. Formatstandard (maschinenlesbare Serialisierung & Kodierung)

6. Präsentationsstandard (Visualisierung, Darstellung für Menschen)

7. Interoperabilitäts- und Austauschstandards (Systemvernetzung)

Ein Feld, sieben Ebenen

FAIR, CARE und LOUD: Überblick und Zielsetzung

Begriffsklärungen: offen, öffentlich, Open Data

FAIR: Nachnutzbarkeit als Leitlinie

Datenethik und CARE

LOUD: Nutzungsorientierte Erweiterung

Entscheiden, dokumentieren, umsetzen

Praxis: Diskriminierungssensibler Umgang mit Metadaten

1. Planung und Konzeption

1.1 Zielsetzung klären

1.2 Ethische und rechtliche Rahmenbedingungen

1.3 Standards und Infrastruktur festlegen

2. Datensammlung und Quellenkritik

2.1 Primärerschliessung vs. Nachnutzung

2.2 Kontextualisierung der Quellen

3. Datenverarbeitung und Anreicherung

3.1 Technische Standards implementieren

3.2 Beschreibung und Verschlagwortung

3.3 KI-Unterstützung und Automatisierung

4. Speicherung und Verwaltung

4.1 Repositorien und Plattformen

4.2 Versionierung und Historisierung

5. Veröffentlichung und Zugang

5.1 Zielgruppe definieren

5.2 Umgang mit sensiblen und diskriminierenden Inhalten

5.3 Technische Strategien

5.4 Transparente Dokumentation

6. Nachnutzung und Wiederverwendung

6.1 Interoperabilität erweitern

6.2 Zitation und Provenienz