[mab-list] Zeichenkonkordanz MAB2-Zeichensatz - Unicode / ISO 10646

Juergen Kemminer J.Kemminer at UB.Uni-Bielefeld.DE
Mon Sep 22 15:15:55 CEST 2003


Reinhard Heuvelmann schrieb am 18.9.2003:
> Sehr geehrte Damen und Herren,
> liebe Kolleginnen und Kollegen der Mailingliste mab-list at ddb.de,
> 
> [...]
> Auf den Informationsseiten Der Deutschen Bibliothek zu MAB ist
> jetzt die "Zeichenkonkordanz MAB2-Zeichensatz - Unicode / ISO
> 10646" zugaenglich.
> Es handelt sich um eine Tabelle, die den MAB-Zeichensatz ISO
> 646 (IRV) + ISO 5426-1983 auf den Zeichensatz Unicode / ISO
> 10646 abbildet.
> [...]
> Der direkte Link zur Zeichenkonkordanz lautet
> http://www.ddb.de/professionell/pdf/mab_unic.pdf.
> [...]

Bei der Lektuere der Zeichenkonkordanz habe ich bei den konsultierten 
Quellen die Ausarbeitungen der Library of Congress zur Konvertierung des 
8-Bit USMARC-Zeichensatzes ("MARC-8") in UCS/Unicode vermisst. 
Entsprechende aktuelle Dokumente sind von der Webseite 
http://www.loc.gov/marc/specifications/specchartables.html
zugaenglich. Ich habe das zum Anlass genommen, nachzupruefen, ob bei der 
Konvertierung des MARC-8-Zeichensatzes und des MAB2-Zeichensatzes fuer 
den in beiden Datenformaten uebereinstimmenden Zeichenvorrat die 
gleichen Ergebnisse in UCS/Unicode erzielt werden. Ich bin mal davon 
ausgegangen, dass ein solches Ergebnis unbedingt erwuenscht ist.

Die folgenden drei Abweichungen sind mir bei dem Vergleich aufgefallen:
-- "Nicht-Sortier-Zeichen, Beginn" (MAB2 '88') bzw. "NON-SORT BEGIN" 
(MARC-8 '88'): Die MARC-8-Tabelle sieht eine Zuordnung zu Unicode '0098' 
"START OF STRING" vor, nicht '0088', wie in der MAB2-Tabelle.
-- "Nicht-Sortier-Zeichen, Ende" (MAB2 '89') bzw. "NON-SORT END" (MARC-8 
'89'): Die MARC-8-Tabelle sieht eine Zuordnung zu Unicode '009C' "STRING 
TERMINATOR" vor, nicht '0089', wie in der MAB2-Tabelle.
-- "Hamza, Alef" (MAB2 'B1') bzw. "ALIF" (MARC-8 'AE'): Die 
MARC-8-Tabelle sieht eine Zuordnung zu Unicode '02BE' "MODIFIER LETTER 
RIGHT HALF RING" vor und nicht '02BC', wie in der MAB2-Tabelle. Damit 
steht die MARC-8-Entscheidung im Gegensatz zu der Empfehlung des 
ISO/TC46/SC4/WG1 in dem als Quelle zitierten Dokument N 240 vom 
5.2.2000, das als Grundlage fuer die MAB2-Tabelle diente.

Unverstaendlich bleibt fuer mich die Zuordnung des diakritischen 
Zeichens "Unterstreichungsstrich" (MAB2 'D8' bzw. MARC-8 'F6'). In 
beiden Konvertierungstabellen wird eine Zuordnung zu Unicode '0332' 
"COMBINING LOW LINE" vorgenommen, ebenso im genannten ISO-Dokument. 
Diese Vorgehensweise steht m.E. im Gegensatz zu dem im Unicode-Standard 
selbst vorgesehenen Verfahren bei Komposition und Dekomposition von 
Sonderbuchstaben mit diakritischem Unterstreichungsstrich. Stets ist 
hier '0331' "COMBINING MACRON BELOW"  angegeben. Man vergleiche die 
diesbezueglichen Eintragungen in der Range 1E00-1EFF ("Latin Extended 
Additional"): 1E06, 1E07, 1E0E, 1E0F, 1E34, 1E35, 1E3A, 1E3B, 1E48, 
1E49, 1E5E, 1E5F, 1E6E, 1E6F, 1E94, 1E95 und 1E96.

Mit freundlichen Gruessen,
Juergen Kemminer

-- 

  Juergen Kemminer
  Universitaetsbibliothek Bielefeld
  Dezernat Bestandserschliessung
  * E-Mail: J.Kemminer at ub.uni-bielefeld.de
  * Tel.: 0521 106-4031
  Postfach 10 02 91
  D-33502 Bielefeld

----------------------------------------------------------------------
Zum Austragen aus dieser Liste senden Sie bitte eine Mail an
majordomo at ddb.de mit unsubscribe mab-list im Textfeld.



More information about the datenformate mailing list