[mab-list] Zeichenkonkordanz MAB2-Zeichensatz - Unicode / ISO 10646

Thomas Berger ThB at gymel.com
Mon Sep 29 10:25:30 CEST 2003


Hallo Herr Kemminer, hallo Liste,

> Die folgenden drei Abweichungen sind mir bei dem Vergleich aufgefallen:
> -- "Nicht-Sortier-Zeichen, Beginn" (MAB2 '88') bzw. "NON-SORT BEGIN"
> (MARC-8 '88'): Die MARC-8-Tabelle sieht eine Zuordnung zu Unicode '0098'
> "START OF STRING" vor, nicht '0088', wie in der MAB2-Tabelle.
> -- "Nicht-Sortier-Zeichen, Ende" (MAB2 '89') bzw. "NON-SORT END" (MARC-8
> '89'): Die MARC-8-Tabelle sieht eine Zuordnung zu Unicode '009C' "STRING
> TERMINATOR" vor, nicht '0089', wie in der MAB2-Tabelle.

Ja, das ist recht pfiffig von der LoC: Fuer die recht
frisch eingefuehrten Nichtsortierzeichen wird einerseits
in Anlehnung an andere 0x88 und 0x89 genommen, andererseits
wird das sofort gegen 0x98 und 0x9C in Unicode gemappt.
Man sollte sich jedoch genau fragen, ob es ausser dem
"pfiffigen" Ja...aber Gruende geben kann, Zeichen aus dem
Bereich 0x80-0x9F *nicht* 1:1 nach Unicode zu mappen.


> -- "Hamza, Alef" (MAB2 'B1') bzw. "ALIF" (MARC-8 'AE'): Die
> MARC-8-Tabelle sieht eine Zuordnung zu Unicode '02BE' "MODIFIER LETTER
> RIGHT HALF RING" vor und nicht '02BC', wie in der MAB2-Tabelle. Damit
> steht die MARC-8-Entscheidung im Gegensatz zu der Empfehlung des
> ISO/TC46/SC4/WG1 in dem als Quelle zitierten Dokument N 240 vom
> 5.2.2000, das als Grundlage fuer die MAB2-Tabelle diente.

Das MAB2-Mapping folgt der Empfehlung der ISO/TC46/SC4/WG1,
da haben Sie wohl etwas falsch gelesen. Die Begruendung ist
(auszugsweise) "This character has diverse uses; it is not
used exclusively for the transliteration of letters in Semitic
language alphabets. Therefore it is recommended that mapping
be be based on shape rather than name [...]". Mein persoenlicher
Favorit an dieser Stelle ist U+02C0 als "typographical alternate
for 02BC or 02BE", allerdings haben weder MARBI noch ISO/TC46
das Zeichen je diskutiert...

 
> Unverstaendlich bleibt fuer mich die Zuordnung des diakritischen
> Zeichens "Unterstreichungsstrich" (MAB2 'D8' bzw. MARC-8 'F6'). In
> beiden Konvertierungstabellen wird eine Zuordnung zu Unicode '0332'
> "COMBINING LOW LINE" vorgenommen, ebenso im genannten ISO-Dokument.
> Diese Vorgehensweise steht m.E. im Gegensatz zu dem im Unicode-Standard
> selbst vorgesehenen Verfahren bei Komposition und Dekomposition von
> Sonderbuchstaben mit diakritischem Unterstreichungsstrich. Stets ist
> hier '0331' "COMBINING MACRON BELOW"  angegeben. Man vergleiche die
> diesbezueglichen Eintragungen in der Range 1E00-1EFF ("Latin Extended
> Additional"): 1E06, 1E07, 1E0E, 1E0F, 1E34, 1E35, 1E3A, 1E3B, 1E48,
> 1E49, 1E5E, 1E5F, 1E6E, 1E6F, 1E94, 1E95 und 1E96.

Ich denke, dass hier bereits in ISO 5426 Relikte von DIN 31628
eingegangen sind: Und hier wird ein "Unterstreichungsstrich"
(einfach sowie doppelt) gefordert, kein Diakritikum, wie es
der Makron waere... Weil es immer nur den Unterstreichungsstrich
gab, jedoch stets nur Makron benoetigt wurde, moechte ich
vermuten, dass alle Vorkommen dieses Zeichens "gegen" die
Norm sind und die diversen Mappings haetten das eigentlich
beruecksichtigen muessen... Oder auch nicht, denn ein Mapping
sollte nicht dazu dienen, heimlich eine Norm zu reparieren,
wie unnuetz und fehlgeleitet sie auch sein mag.

Liest man die Anmerkungen aus dem ISO/TC46/SC4/WG1-Papier auch
zu anderen Zeichen, so draengt sich der Schluss auf, dass unsere
aktuellen Normen und Zeichensaetze in einigen Faellen hochgradig
interpretationsbeduerftig sind und in anderen Faellen ziemlicher
Unfug. Die Schwierigkeit des Mappings zu Unicode besteht m.E.
darin, selbst dem "Unfung" wieder eine Art moeglichen Sinns
zuzuordnen (denn die Zeichen gibt es und irgendjemand hat sie
benutzt, aus irgendwelchen Gruenden fuer irgendwelche Sachverhalte,
die man leider nicht aus den Normen ablesen kann) und diesen
Sinn dann in ein Unicode-Mapping umzuformulieren.

viele Gruesse
Thomas Berger
----------------------------------------------------------------------
Zum Austragen aus dieser Liste senden Sie bitte eine Mail an
majordomo at ddb.de mit unsubscribe mab-list im Textfeld.



More information about the datenformate mailing list