[datenformate] Nichtsortierzeichen bei Praefixen in Personennamen via RDF

Thomas Berger ThB at Gymel.com
Wed May 14 14:45:42 CEST 2014


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Lieber Herr Eversberg, liebe Liste,

>> Ob für Daten nun in XML, RDF, JSON, CSV oder in irgend einer anderen
>> Datenstrukturierungssprache kodiert werden ist zweitrangig im
>> Vergleich zur Frage welche konzeptuellen Elemente und Beziehungen
>> durch die Daten ausgedrückt werden. Beispielsweise erfordert die Idee
>> eines ¨Nichtsortierzeichens¨ erstmal einiges an Gehirnverknotung.
> Diese Erfahrung haben wir mit den bisher üblichen Methoden eigentlich
> nicht gemacht.

Dann war Ihre Pflichtausbildung an einer Deutschen Bibliotheksschule
vermutlich besonders erfolgreich... Aber Scherz beiseite: Es ist
bereits ziemlich dialektisch, etwas das offensichtlich da ist als
gleichzeitig irgendwie nicht da seiend aufzufassen. Dazu kommt noch
das Problem, dass man nur positiv formulieren kann, man muss also
(durch die Nichtsortierzeichen) mehr hinschreiben, als "wirklich" da
ist, um auszudruecken, dass man "eigentlich" weniger will. Fuer den
naiven Betrachter (wie z.B. angelsaechsische Bibliothekare) ist es
dann schnell keines von beiden.


>> Da Gehirnzeit in der Regel höher ist als
>> Rechenzeit, ist es günstiger nicht auf Ebene der Kodierung sondern
>> auf der konzeptuellen Ebene zu optimieren.
>>
> Egal wo, man muß entscheiden, ob was markiert wird oder nicht, ich
> sehe da keinen Unterschied im Endeffekt, ob man 2 Byte dafür braucht
> oder 25. Was klar dagegen spricht, 25 zu nehmen.

Verstehe ich nicht: Haben Elektronen jetzt doch eine Halbwertszeit
und werden demnaechst knapp? Vor allem geht es m.E. um die zwischen-
zeitlich stattgehabte Einsicht, dass wir eine unbeschraenkte Anzahl
von Sachverhalten abbilden wollen (d.h. einfach, dass morgen etwas
hinzukommen koennte, und uebermorgen auch), der traditionelle Ansatz
hingegen ist, die zukuenftige Phaenomene und Beduerfnisse abschliessend
festzulegen, praktischerweise dann auch gegliedert, dass man mit den
Zahlen von 000 bis 999 auskommt und den Buchstaben von 1-26.


>> Im Gegensatz zu kryptischen bibliothekarischen Datenformaten
> Das wird immer so behauptet, aber was genau heißt denn kryptisch?

Vermutlich wirklich schwer, das "genau" zu definieren und hinterher
sagen zu koennen, dass die Kryptizitaet von MARC21 einem Wert von
1.8 auf irgendeiner Skala entspricht.

Bibliotheksdatenformate haben es nicht leicht, denn einerseits
sind sie stets ausdruecklich regelwerks-agnostisch (Altdaten aus
anderen Regelwerken muessen sie ja auch beahndeln), andererseits
regeln sie noch viel mehr als die Regelwerke: Und zwar eigentlich stets
durch Syntax. Wie etwa Nichtsortierzeichen (sind praktisch, kommen
aber in keinem Regelwerk vor), oder fuer jedes Feld individuell
definierte Bedeutungen von Indikatoren, oder ganz offensichtlich
bei Codierten Angaben: Die bilden ja meist Sachverhalte ab, die
mit einem bestimmten Regelwerk im Sinn so gegliedert sind, kommen
dort aber in der Form auch nicht vor...
MARC21 ist da sogar noch etwas flexibler als MAB, indem durch die
globalen Unterfelder $2 und $5 Aussagen zur Domaene oder zum
Gueltigkeitsbereich der jeweiligen Hauptaussage im Feld gemacht
werden koennen, ohne staendig neue Felder oder Indikatorbedeutungen
einfuehren zu muessen.

"Kryptisch" wuerde ich selber aber auch an der Stelle sagen, wo
auffaellt dass mittels ISBD-Interpunktion und MARC-Unterfeldern
im Prinzip zwei konkurrierende Standards zur Binnenstrukturierung
von Feldern simultan zum Einsatz kommen. Wie man damit gescheit
umgehen kann, koennen wir heute weniger gut beantworten als vor
vierzig Jahren, und das liegt vermutlich nicht daran, dass wir
insgesamt duemmer geworden sind.


> Dokumentiert ist MARC immerhin so akribisch wie sonst nichts.

Die Bauplaene fuer Ihr Uni-Verwaltungsgebaeude duerften auch als
hochwertige Dokumentation zaehlen. Und dennoch will da niemand
einkaufen gehen...


[...]

> mit Dingen, die wir haben. Sonst hat's keinen Zweck. Sie sehen doch
> gerade am Beispiel des Nichtsortierzeichens, wie unheimlich schwer was
> zu bewegen ist auf dem Gebiet! Letztlich geht es ja um eine bezahlbare
> Migration von tausenden von Systemen mit jeweils einem Rattenschwanz
> von daran hängenden Vor- und Geschäftsgängen und natürlich auch dem
> Knowhow aller damit befaßten Leute bzw. deren Umerziehung. Aber
> vielleicht könnte ja auch nur noch ein revolutionärer Umsturz helfen.
> Wobei vieles und viele auf der Strecke bleiben würden, aber das ist
> nun mal immer so in solchen Fällen. Die jetzt noch bestehende globale
> Einheitlichkeit bibliothekarischer Systeme wäre erat mal für lange Zeit dahin.

Sie denken dabei an das/die Nichtsortierzeichen, wenn Sie "globale
Einheitlichkeit bibliothekarischer Systeme" sagen?


> Realistisch ist, denke ich, daß RDF-Daten etc. für lange Zeit bloße
> Nebenprodukte sein werden, die sich zunächst nur in Marktnischen
> etablieren können. Schon jetzt kann man sie aus Interndaten ableiten,
> das wird ja vielerorts getan. Aber die Interndaten dadurch ersetzen, das
> ist ein ganz anderes Thema. Es wird auf überzeugende Leistungen
> ankommen, aber beiweitem nicht nur das.

Meine urspruengliche Frage zu den Nichtsortierzeichen entsprang ganz
konkreten Ueberlegungen, beim Anflanschen einer "Normdatenkomponente"
an ein Bibliothekssystem (die vorhandenen "Datenfelder" dazu waren ca.
1992 "fertig" ausgedacht und sind danach nie einem Reality Check unter-
zogen worden, nicht zuletzt, weil bereits so erfasste Daten dadurch evtl.
entwertet worden waeren) weder zu versuchen, die komplexen GND/PICA/MARC-
Strukturen 1:1 nachzubilden, noch mich heute darauf festzulegen, welche
Aspekte der Normdaten in Zukunft benoetigt werden (inklusive der Aspekte,
die vielleicht erst morgen in der GND eingefuehrt werden). Sondern - soweit
die groben Ueberlegungen - mit einer Art "RDF-Park-Feld" einfach mal
alles einsammelt, was an Aussagen gemacht wird. [Das klappt natuerlich
nur deswegen, weil die fraglichen RDF-Daten ziemlich trivial strukturiert
sind, der Grund dafuer ist wiederum ihre Herkunft aus den platten
"Internformaten" bibliothekarischer Anwendungen].

Die RDF-Geschichten schreiten m.E. schnell genug voran um fuer gewisse
Anwendungen ernsthaft zu ueberlegen, die MARC-Phase auszulassen, also
das Mesozoikum vorzeitig zu beenden.


viele Gruesse
Thomas Berger
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1
Comment: Using GnuPG with Thunderbird - http://www.enigmail.net/

iJwEAQECAAYFAlNzZXYACgkQYhMlmJ6W47NrLgP/Xe0wmULnbTzOn3n21+gUhogU
xdLxYqNBgaUD/UwqWIKnT93AvLD8ZokNPRrDvqSO6UbBe03vBwu/cOG5DbHQBaQl
mGyHGyYbwpv3sW7iYA0fdLHbjoDQ3O7la008X+33UIEnV49Kx/UEP9XqBNLPsjBm
VTAqZUBMhkY92YhL6hw=
=cydF
-----END PGP SIGNATURE-----


More information about the datenformate mailing list