[datenformate] Diakritische Zeichen in GND RDF

Jakob Voß Jakob.Voss at gbv.de
Wed Sep 9 08:44:42 CEST 2015


Hallo,

Am 08.09.2015 um 17:33 schrieb Heuvelmann, Reinhold:

> "Alle Datenlieferungen der DNB erfolgen im Zeichensatz ISO
> 10646/Unicode, im Transformationsformat UTF-8. Kombinationen von
> Zeichen, wie Grundbuchstabe und dazugehörige(s) diakritische(s)
> Zeichen, werden zerlegt (decomposed) geliefert, also bestehend aus
> dem Grundbuchstaben und dem/den entsprechenden
> Diakritikum/Diakritika. Umlaute werden z. B. als Grundbuchstabe und
> einer verbundenen Diärese (combining diaeresis) ausgeliefert."

Die Verwendung unterschiedlicher Normalisierungsformen kann bei 
RDF-Daten Probleme verursachen, da nicht jede RDF-Software die 
eigentlich gleichwertigen Formen als identisch ansieht und sich so 
RDF-Daten nicht mehr fehlerfrei mischen lassen. Deshalb ist es 
empfehlenswert beim Import von RDF-Daten diese immer selber auf eine 
einheitliche Form zu bringen (je nach Anwendungsfall NFD oder NFC).

Schöne Grüße
Jakob

-- 
Jakob Voß <jakob.voss at gbv.de>
Verbundzentrale des GBV (VZG) / Common Library Network
Platz der Goettinger Sieben 1, 37073 Göttingen, Germany
+49 (0)551 39-10242, http://www.gbv.de/


More information about the datenformate mailing list