[rak-list] Indexierungsregeln

Bernhard Eversberg ev at BUCH.BIBLIO.ETC.TU-BS.DE
Mon Apr 5 15:01:17 CEST 2004


Besten Dank an Herrn Berger fuer diese Anregungen. Der Entwurf wird dadurch 
gewinnen koennen.

Zu der Frage:

> - - Die "Beseitigung von Dreifach-Kleinbuchstaben" halte ich fuer hoechst
> ~  problematisch: 
Nicht, wenn man zugleich, wie empfohlen, die Beseitigung auf die Nutzereingabe 
gleichermassen anwendet! Dann merkt er das gar nicht und wird alle Seelefanten 
finden, egal ob die Schreibweise in den Dokumenten eee ist oder ee, oder ob der 
Nutzer ee oder eee eingibt! Ohne diese Methodik wuerde immer einer der beiden 
Anteile nicht gefunden. Selbst der Blick ins Register hilft bei sehr grossen 
Datenbanken oft nicht weiter, die Dinge stehen trotzdem zu weit auseinander.

> - - Am wichtigsten ist mir aber, dass der vorgeschlagene Algorithmus
> absolut anachronistisch ist und den Stand der Technik voellig ausser
> Acht laesst:
Diese Formulierung ist mir entschieden zu heftig. Und *den* Stand der Technik 
gibt es doch in unserem Bereich gar nicht! Wo waere der nachzulesen?

> Ziel ist es ja, dass auch in einem Index oder Register
> ~aehnliche~ Worte beieinander stehen, Ziel ist es *nicht*, dass dort
> alles in Kleinbuchstaben steht. Stand der Technik ist "multi-level
> sorting", d.h. Zeichenketten werden nicht transformiert ("See-elefant",
> "seeelefantig", "séelenfant") und das Resultat primitiv sortiert,
> sondern sie werden so gelassen, wie sie sind und dann sortiert. Ein
> Beispiel hierfuer ist der Unicode Collation Algorithm (vgl. <
> http://www.unicode.org/reports/tr10/ >, da gibt es auch viele
> Beispiele!).
Das mag ja so sein, aber es ueberzeugt mich nicht - ich meine, dass noch viele 
Systeme von diesem Stand etwas weiter entfernt sind.
Eines der Probleme dabei: Wenn Woerter mit verschiedener Schreibweise 
aufeinandertreffen, die durch die Normierung gleich werden, wie sollen sie denn 
dann im Index erscheinen? Trotzdem zwei oder mehr Schreibweisen untereinander? 
Und jede soll dann dennoch die komplette Ergebnismenge liefern - oder nicht? 
Macht das irgendein System so?

> Jedenfalls sollte man nicht
> ~  davon ausgehen, dass diese Benutzer-Indizes oder Register identisch
> ~  sind mit den Tabellenindizes, die das zugrundeliegende Datenbank-
> ~  system zur eigenen Optimierung nutzt!
>
Es gibt aber wohl sehr weniges, wovon man wirklich ausgehen kann. Das macht die 
Sache schwierig. 
 
> - - Die Regeln sollten nicht zementieren, dass es einen fundamentalen
> ~  Unterschied zwischen Umlautbuchstaben und solchen mit Dieaerese
> ~  gibt. Ich will diese alte Diskussion hier nicht wieder aufgreifen,
> ~  daher nur so viel:
> ~  * Beharren auf dem Unterschied hilft keinem Benutzer
Genau das wird ja auch gar nicht getan und davon hat schon vor Jahren die 
Umlautstudie abgeraten.

MfG B.E.


Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




More information about the rak-list mailing list