AW: [datenformate] Diakritische Zeichen in GND RDF

Heuvelmann, Reinhold R.Heuvelmann at dnb.de
Tue Sep 8 17:33:18 CEST 2015


Lieber Herr Schnasse,

bei den RDF-Lieferungen gilt dasselbe, was auch bei den MARC-21-Datenlieferungen zum Zeichensatz beschrieben ist ([1] unter 2.1 "Hinweise zum Zeichensatz"):

"Alle Datenlieferungen der DNB erfolgen im Zeichensatz ISO 10646/Unicode, im Transformationsformat UTF-8. Kombinationen von Zeichen, wie Grundbuchstabe und dazugehörige(s) diakritische(s) Zeichen, werden zerlegt (decomposed) geliefert, also bestehend aus dem Grundbuchstaben und dem/den entsprechenden Diakritikum/Diakritika. Umlaute werden z. B. als Grundbuchstabe und einer verbundenen Diärese (combining diaeresis) ausgeliefert."

Hintergrund und Begruendung ist, dass nach dem Unicode-Standard beide Arten (composed und decomposed) voll gleichwertig ("canonically equivalent") sind, und dass wir in den Datenbanken intern die decomposed-Variante haben, weil sie die groesstmoegliche Flexibilitaet gewaehrleistet.  Es ist in vielen Faellen gar nicht moeglich, eine composed-Version eines Zeichens zu erzeugen, weil keines in Unicode definiert ist.  Statt also einen Mischung aus composed und decomposed zu liefern, was denkbar waere (z.B. die Umlaute composed, alles Andere decomposed), liefern wir einheitlich decomposed.

Weitere Informationen enthaelt z.B. der Unicode Technical Report #15, "Unicode Normalization Forms" unter [2].

Ich hoffe, Ihnen weitergeholfen zu haben.  Falls sich Rueckfragen ergeben, zoegern Sie bitte nicht, uns erneut zu kontaktieren.

Viele Gruesse

Reinhold Heuvelmann

[1] http://nbn-resolving.de/urn:nbn:de:101-2014070111 
[2] http://unicode.org/reports/tr15/tr15-18.html 

--

Reinhold Heuvelmann
Deutsche Nationalbibliothek
Informationsinfrastruktur und Bestandserhaltung 
Arbeitsstelle Datenformate
Adickesallee 1
D-60322 Frankfurt am Main
Telefon: +49 (0) 69 1525-1709
Telefax: +49 (0) 69 1525-1799
mailto:r.heuvelmann at dnb.de
http://www.dnb.de

*** Lesen. Hören. Wissen. Deutsche Nationalbibliothek ***


-----Ursprüngliche Nachricht-----
Von: datenformate-bounces at lists.dnb.de [mailto:datenformate-bounces at lists.dnb.de] Im Auftrag von Jan Schnasse
Gesendet: Dienstag, 8. September 2015 16:57
An: 'Mailingliste Datenformate (frueher mab-list)'
Betreff: [datenformate] Diakritische Zeichen in GND RDF

Liebe Kolleginnen und Kollegen,

mir ist kürzlich aufgefallen, dass die RDF-Darstellung der GND statt
gewöhnlicher Umlaute, Kombinationen von Vokalen und diakritischen
Zeichen enthält. Gibt es dafür einen besonderen Grund? Wäre es nicht
"korrekter" ein "ü" auch tatsächlich als Umlaut zu kodieren? In den
meisten Umgebungen gibt es wohl Bordmittel um die Konvertierung
vorzunehmen, aber mir scheint es eigentlich sinnvoller die
Normalisierung direkt an der Quelle, also bei der DNB vorzunehmen!?

Viele Grüße
Jan Schnasse , hbz

-- 
Jan Schnasse
Kendenicher Str. 82, 50969 Köln
Tel.: 016096241961
PGP: 0xFD586C6F3D425171

_______________________________________________
datenformate mailing list
datenformate at lists.dnb.de
http://lists.dnb.de/mailman/listinfo/datenformate


More information about the datenformate mailing list