[Tp-reference] Collection Registry

Marius Hug marius.hug at bbaw.de
Di Jun 14 12:51:18 CEST 2022


Liebe Kollegen der TA Referenzimplementierung,

wie beim letzten Arbeitstreffen angekündigt, mache ich hier einen ersten
Aufschlag für
unsere Abstimmung zu denjenigen Feldern, mit denen wir bereits vorliegende
Sammlungen
der verschiedenen Datenzentren beschreiben mit dem Ziel, diese in einer
noch zu entwickelnden zentralen Collection Registry zu präsentieren.

Ein bisschen Kontext:

- unter Collection Registry verstehen wir in Text+ etwas wie:
https://colreg.de.dariah.eu/colreg-ui/collections/
- das DTA wird dort bspw. mit folgendem Datensatz beschrieben:
https://colreg.de.dariah.eu/colreg-ui/collections/56c0585d7c8dec511be4ccc3
- bislang werden diese Daten händisch eingepflegt
- m.E. wäre es aber mehr als wünschenswert, wenn es zukünftig auch die
Option gäbe,
dass die Registry Sammlungsbeschreibungen von den jeweiligen Institutionen
harvestet
- unabhängig davon sollten wir uns auf eine Auswahl von obligatorischen und
vermutlich auch optionalen Feldern verständigen
- da die Anforderungen der einzelnen Datenzentren sicherlich sehr
unterschiedlich sind,
möge mein Aufschlag bitte nur als Diskussionsgrundlage verstanden werden

Wir haben uns für ein Format entschieden, das leicht manuell zu schreiben,
aber auch einfach maschinell zu parsen, validieren und in andere Formate zu
konvertieren ist: YAML.

Das Ergebnis liegt in einem github-Repository:
https://github.com/deutschestextarchiv/collections

Darin gibt es exemplarisch einen vollständigen Datensatz zur Beschreibung
des DTA-Kernkorpus:
https://github.com/deutschestextarchiv/collections/blob/main/dta/dtak.yml
Und außerdem ein reduziertes Text+-Format. Dieses sollte uns als
Ausgangslage dienen:
https://github.com/deutschestextarchiv/collections/blob/main/textplus/dtak.yml

Im Ordner schemata
(https://github.com/deutschestextarchiv/collections/tree/main/schemata)
liegt für beide Datensätze ein Schema (im Format JSON-Schema,
https://json-schema.org/), das mittels Skript zur Validierung genutzt
werden kann/könnte.

Die YAML-Datei textplus/dtak.yml kann aber natürlich auch automatisch
nach JSON konvertiert werden. Und ebenso die Schemata, die dann mit
einem beliebigen Validator auf die Datensätze angewandt werden können:
https://json-schema.org/implementations.html#validators

Vlt. können alle Mitstreiter bis zu unserem nächsten Treffen am Do
(!), 30.6. schon mal einen kurzen Blick darauf werfen.
Ich kann dazu dann gerne auch noch zwei Sätze sagen.

Mit besten Grüßen,
Marius Hug
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://lists.dnb.de/pipermail/tp-reference/attachments/20220614/8108fd9c/attachment.htm>


Mehr Informationen über die Mailingliste Tp-reference