AW: [datenformate] Diakritische Zeichen in GND RDF

Jan Schnasse schnasse at gmx.de
Wed Sep 9 09:16:29 CEST 2015


Lieber Herr Heuvelmann,

vielen Dank für die rasche Antwort. Ich sehe die konzeptuelle Eleganz
ihres Ansatzes.  Wir werden dann wohl selbst eine Umwandlung nach
"composed" durchführen müssen.
Ich bin mir allerdings noch nicht sicher, wie weit das Problem
eigentlich reicht. Ich sehe derzeit folgende Problemfelder.

1. Einige Fonts scheitern - nicht alle Fonts können mit diakritischen
Zeichen umgehen. Zum experimentieren eignet sich diese Seite:

<http://www.fileformat.info/info/unicode/font/fontlist.htm?text=u%CC%88+-+LATIN+SMALL+LETTER+O+WITH+DIAERESIS+%28U%2B00F6%29>

2. "Naiv implementierte" Tools scheitern - z.B. ein strg-f im Firefox
nach "ü" findet keine u+u/0308

Vielleicht gibt es ja den einen oder die andere auf der Liste, die
Erfahrungen beisteuern können? Welche Tools setzt ihr für die
Normalisierung ein, oder sollte man die Daten gar nicht normalisieren?

Vielen Dank an Jakob Voß für den Tipp -> Stichwort "Normalisierung",
welche weiteren Stolperfallen gibt es noch, außer NFD und NFC?

Viele Grüße
Jan Schnasse , hbz

On 09/08/2015 05:33 PM, Heuvelmann, Reinhold wrote:
> Lieber Herr Schnasse,
> 
> bei den RDF-Lieferungen gilt dasselbe, was auch bei den MARC-21-Datenlieferungen zum Zeichensatz beschrieben ist ([1] unter 2.1 "Hinweise zum Zeichensatz"):
> 
> "Alle Datenlieferungen der DNB erfolgen im Zeichensatz ISO 10646/Unicode, im Transformationsformat UTF-8. Kombinationen von Zeichen, wie Grundbuchstabe und dazugehörige(s) diakritische(s) Zeichen, werden zerlegt (decomposed) geliefert, also bestehend aus dem Grundbuchstaben und dem/den entsprechenden Diakritikum/Diakritika. Umlaute werden z. B. als Grundbuchstabe und einer verbundenen Diärese (combining diaeresis) ausgeliefert."
> 
> Hintergrund und Begruendung ist, dass nach dem Unicode-Standard beide Arten (composed und decomposed) voll gleichwertig ("canonically equivalent") sind, und dass wir in den Datenbanken intern die decomposed-Variante haben, weil sie die groesstmoegliche Flexibilitaet gewaehrleistet.  Es ist in vielen Faellen gar nicht moeglich, eine composed-Version eines Zeichens zu erzeugen, weil keines in Unicode definiert ist.  Statt also einen Mischung aus composed und decomposed zu liefern, was denkbar waere (z.B. die Umlaute composed, alles Andere decomposed), liefern wir einheitlich decomposed.
> 
> Weitere Informationen enthaelt z.B. der Unicode Technical Report #15, "Unicode Normalization Forms" unter [2].
> 
> Ich hoffe, Ihnen weitergeholfen zu haben.  Falls sich Rueckfragen ergeben, zoegern Sie bitte nicht, uns erneut zu kontaktieren.
> 
> Viele Gruesse
> 
> Reinhold Heuvelmann
> 
> [1] http://nbn-resolving.de/urn:nbn:de:101-2014070111 
> [2] http://unicode.org/reports/tr15/tr15-18.html 
> 
> --
> 
> Reinhold Heuvelmann
> Deutsche Nationalbibliothek
> Informationsinfrastruktur und Bestandserhaltung 
> Arbeitsstelle Datenformate
> Adickesallee 1
> D-60322 Frankfurt am Main
> Telefon: +49 (0) 69 1525-1709
> Telefax: +49 (0) 69 1525-1799
> mailto:r.heuvelmann at dnb.de
> http://www.dnb.de
> 
> *** Lesen. Hören. Wissen. Deutsche Nationalbibliothek ***
> 
> 
> -----Ursprüngliche Nachricht-----
> Von: datenformate-bounces at lists.dnb.de [mailto:datenformate-bounces at lists.dnb.de] Im Auftrag von Jan Schnasse
> Gesendet: Dienstag, 8. September 2015 16:57
> An: 'Mailingliste Datenformate (frueher mab-list)'
> Betreff: [datenformate] Diakritische Zeichen in GND RDF
> 
> Liebe Kolleginnen und Kollegen,
> 
> mir ist kürzlich aufgefallen, dass die RDF-Darstellung der GND statt
> gewöhnlicher Umlaute, Kombinationen von Vokalen und diakritischen
> Zeichen enthält. Gibt es dafür einen besonderen Grund? Wäre es nicht
> "korrekter" ein "ü" auch tatsächlich als Umlaut zu kodieren? In den
> meisten Umgebungen gibt es wohl Bordmittel um die Konvertierung
> vorzunehmen, aber mir scheint es eigentlich sinnvoller die
> Normalisierung direkt an der Quelle, also bei der DNB vorzunehmen!?
> 
> Viele Grüße
> Jan Schnasse , hbz
> 
> 
> 
> _______________________________________________
> datenformate mailing list
> datenformate at lists.dnb.de
> http://lists.dnb.de/mailman/listinfo/datenformate
> 

-- 
Jan Schnasse
Kendenicher Str. 82, 50969 Köln
Tel.: 016096241961
PGP: 0xFD586C6F3D425171


More information about the datenformate mailing list