<div dir="ltr">Liebe Kollegen der TA Referenzimplementierung,<br><br>wie beim letzten Arbeitstreffen angekündigt, mache ich hier einen ersten Aufschlag für<br>unsere Abstimmung zu denjenigen Feldern, mit denen wir bereits vorliegende Sammlungen <br>der verschiedenen Datenzentren beschreiben mit dem Ziel, diese in einer <br>noch zu entwickelnden zentralen Collection Registry zu präsentieren.<br><br>Ein bisschen Kontext:<br><br>- unter Collection Registry verstehen wir in Text+ etwas wie: <a href="https://colreg.de.dariah.eu/colreg-ui/collections/">https://colreg.de.dariah.eu/colreg-ui/collections/</a><br>- das DTA wird dort bspw. mit folgendem Datensatz beschrieben:<br><a href="https://colreg.de.dariah.eu/colreg-ui/collections/56c0585d7c8dec511be4ccc3">https://colreg.de.dariah.eu/colreg-ui/collections/56c0585d7c8dec511be4ccc3</a><br>- bislang werden diese Daten händisch eingepflegt<br>- m.E. wäre es aber mehr als wünschenswert, wenn es zukünftig auch die Option gäbe, <br>dass die Registry Sammlungsbeschreibungen von den jeweiligen Institutionen harvestet<br>- unabhängig davon sollten wir uns auf eine Auswahl von obligatorischen und vermutlich auch optionalen Feldern verständigen<br>- da die Anforderungen der einzelnen Datenzentren sicherlich sehr unterschiedlich sind, <br>möge mein Aufschlag bitte nur als Diskussionsgrundlage verstanden werden<br><br>Wir haben uns für ein Format entschieden, das leicht manuell zu schreiben, <br>aber auch einfach maschinell zu parsen, validieren und in andere Formate zu konvertieren ist: YAML.<br><br>Das Ergebnis liegt in einem github-Repository: <a href="https://github.com/deutschestextarchiv/collections">https://github.com/deutschestextarchiv/collections</a><br><br>Darin gibt es exemplarisch einen vollständigen Datensatz zur Beschreibung des DTA-Kernkorpus: <br><a href="https://github.com/deutschestextarchiv/collections/blob/main/dta/dtak.yml">https://github.com/deutschestextarchiv/collections/blob/main/dta/dtak.yml</a><br>Und außerdem ein reduziertes Text+-Format. Dieses sollte uns als Ausgangslage dienen:<br><a href="https://github.com/deutschestextarchiv/collections/blob/main/textplus/dtak.yml">https://github.com/deutschestextarchiv/collections/blob/main/textplus/dtak.yml</a><br><br>Im Ordner schemata<br>(<a href="https://github.com/deutschestextarchiv/collections/tree/main/schemata">https://github.com/deutschestextarchiv/collections/tree/main/schemata</a>)<br>liegt für beide Datensätze ein Schema (im Format JSON-Schema,<br><a href="https://json-schema.org/">https://json-schema.org/</a>), das mittels Skript zur Validierung genutzt<br>werden kann/könnte.<br><br>Die YAML-Datei textplus/dtak.yml kann aber natürlich auch automatisch<br>nach JSON konvertiert werden. Und ebenso die Schemata, die dann mit<br>einem beliebigen Validator auf die Datensätze angewandt werden können:<br><a href="https://json-schema.org/implementations.html#validators">https://json-schema.org/implementations.html#validators</a><br><br>Vlt. können alle Mitstreiter bis zu unserem nächsten Treffen am Do<br>(!), 30.6. schon mal einen kurzen Blick darauf werfen. <br>Ich kann dazu dann gerne auch noch zwei Sätze sagen.<br><br>Mit besten Grüßen,<br>Marius Hug</div>