[Lds] Diakritische Sonderzeichen im RDF/XML

Jan Schnasse schnasse at gmx.de
Mit Aug 10 12:10:04 CEST 2016


In Java gehe ich mit einem Normalizer über alle GND-Literale. Das sieht
so aus:

java.text.Normalizer.normalize("Hier das zu normalisierende GND-Literal
übergeben", Normalizer.Form.NFKC);

Viele Grüße
Jan Schnasse

On 08/05/2016 02:11 PM, Michael Freiberg wrote:
> Liebe Liste,
> 
> ich wende mich mit einer weiteren Anfrage mit einer separaten Mail an Sie, um die Themen nicht miteinander zu vermengen. Beim Abruf der RDF/XML-Repräsentation des GND-Normdatensatzes von Albrecht Dürer ist mir aufgefallen, dass das 'ü' in der bevorzugten Namensansetzung eine Kombination aus Diakritikum und Buchstaben darstellt, hier also Trema + u.
> 
> Beim Stringmatching sind "Dürer, Albrecht" (Trema + u) und "Dürer, Albrecht" (ü) nicht identisch. Mich würde daher interessieren, wie die GND in dem Punkt Sonderzeichen vorgeht. Werden alle Buchstaben mit einem Diakritikum als kombinierte Zeichen gespeichert oder gibt es Ausnahmen? Kennt vielleicht jemand von Ihnen eine Möglichkeit, die kombinierten Zeichen auf das entsprechende UTF8-Einzelzeichen abzubilden?
> 
> Vielen Dank im Voraus für Antworten
> und nochmals viele Grüße,
> 
> Michael Freiberg
> 
> --
> 
> Michael Freiberg
> 
> Bildarchiv Foto Marburg
> Biegenstraße 11
> 35037 Marburg
> 
> Tel: +49 (0)6421 - 28 22435
> Fax: +49 (0)6421 - 28 28931
> E-Mail: michael.freiberg at fotomarburg.de
> 
> 
> 
> 
> 
> _______________________________________________
> lds mailing list
> lds at lists.dnb.de
> http://lists.dnb.de/mailman/listinfo/lds
> 

-- 
Jan Schnasse
Kendenicher Str. 84a, 50969 Köln
Tel.: 016096241961
PGP: 0xFD586C6F3D425171