This repository contains notes for a German article about quality of data and services for subject indexing (APIs, formats, technical interoperability...) to be published in 2020.
- Titel (vorläufig): Datenqualität als Grundlage qualitativer Inhaltserschließung
- Umfang: Bis zu 35.000 Zeichen (etwa 5.000 Wörter)
- Deadline: Sommer 2020
- Inhaltliche Ausrichtung:
- primär: Qualität des Datensatzes (Standarddatenschemata und -formate, normierte Kennungen, Provenienzangaben)
- sekundär: Qualität des Datenaustauschs (Schnittstellen, Import, Export, Synchronisierung)
- Thema: Der Artikel soll einen Überblick über maßgebliche Verfahren zur Beurteilung der Qualität von Daten zur Inhaltserschließung geben. Der Schwerpunkt liegt dabei nicht auf den Inhalten sondern darauf wie diese in Daten kodiert sind und sich verlässlich verarbeiten lassen (Datenformate und Schnittstellen).
The article will summarize and evaluate data formats and services for subject indexing and content analysis on a technical level (interoperability). The article will neither deal with quality of subject indexing nor with quality of tools to process this data but with formats, specifications, and systems to process subject indexing information.
Quality of tools and algorithms will be covered in another article.
-
data formats
- as part of bibliographic data (e.g. which MARC fields contain subject indexing)
- authority records data (e.g. SKOS)
-
data exchange and reuse
- where is subject indexing data created, stored, exchanged and reused?
- interoperability between data formats
- interoperability between data providers and users
-
services (this needs to be aligned with article about tools)
- to get authority data (dumps, APIs...):
- to get indexing data (both for selected documents and for selected subjects, e.g. BEACON)
- for (semi-)automatic indexing (how to track provenance)
Datenqualität gibt an wie gut Daten geeignet sind, einen bestimmten Zweck zu erfüllen. Dabei muss grundsätzlich unterschieden werden als wass Daten aufgefasst werden:
- Daten als Fakten
- Daten als Beobachtungen
- Daten als digitale Dokumente
Bei der Sicht auf Daten als Fakten ist vor Allem die Korrektheit relevant. Bei der Sicht auf Daten als Beobachten geht es mehr um Konsistenz und Kontext. Bei der Sicht auf Daten als digitale Dokumente geht es um Formate und formale Beschreibungen. Letzteres ist auch die einzige Ebene die automatisch überprüfbar ist.
Feedback is welcome, for instance via https://github.com/jakobib//datenqualitaet-inhaltserschliessung-2020issues!