[Tp-reference] Text+ Collections: Reference implementation and Portfolio-Development: Testzugang wie Mittwoch besprochen

Thorsten Trippel trippel at ids-mannheim.de
Fr Sep 26 13:58:41 CEST 2025


Liebe Runde,

Timm bat mich, euch untestenstehende E-Mail mit den Zugangsdaten zum 
Testen seiner Suchfunktion weiter zu leiten. Wir hatten ja am Mittwoch 
drüber gesprochen und er hatte das Tool vorgeführt. Jetzt können wir 
alle selbst testen.

Grüße

Thorsten

___

Liebe Collectors, hier die Winke zum Gebrauch des Searchlab:

*Login:*

** *https://fdm.awhamburg.de/registry-searchlab/
* PW: braveoceandreamsparkbright

*und los geht's !*

Vorab:

* Was Ihr seht ist eine normale interne Suche, kein Agent Interface, 
einfach Suchbegriffe in das Eingabefeld eintragen. Agent Feedback (s. 
u.) dient nur intern unserem Verständnis

* Das hier ist nicht als User Interface gedacht (noch zu komplex) 
sondern dient uns selbst zum Testen, vornehmlich der  hybriden Suche, um 
Feedback zu Suchergrgebnissen zu geben und zu sehen, wie unsere 
Parameter das Ergebnis beeinflussen.

* Die Suche liefert bewusst (zur Fehlersuche) noch viel Noise, diese 
sollte aber, insbesondere durch unser Feedback, mehr und mehr nach 
hinten rutschen und < 1.0 scoren.

zu den [Advanced Settings]

*Text*: Nur Schlagwortsuche (ein bisschen fuzzy)
*Semantisch*: Ähnlichkeitssuche mit Vektor Embeddings (mehrsprachiger 
Sentence transformer, später würde ich gerne sprachspezifische Modelle 
nehmen)
*Hybrid*: Kombination beider Ansätze *<-- darum geht es mir eigentlich*

Ergebnisse aus den Ressourcendomänen sind und bleiben getrennt in Tabs, 
weil sich kein sinnvolles Ranking aus Äpfeln, Birnen und Weintrauben 
bauen lässt, insbesondere bei der Vektorsuche dominieren inhaltlich arme 
Einträge (weniger komplexe Vektoren = besseres match auf alles) die ganz 
dünnen werden daher per default ausgeblendet.

In den Tabs:

* *Cosine Scale*: Steuert, wie semantisch ähnlich Ergebnisse zur Anfrage 
sein müssen
-> Höhere Werte = nur sehr ähnliche Ergebnisse (strengere Übereinstimmung)
-> Niedrigere Werte = vielfältigere Ergebnisse (lockerere Übereinstimmung)

** Score Boost*: Passt die Endbewertung je Ressourcentyp an
  - Positive Werte (z.B. 0.1, 0.2, 0.5) erhöhen alle semantischen Scores 
und machen semantische Treffer   konkurrenzfähiger gegenüber 
Texttreffern, negative umgekehrt.
   - Höhere Boosts können dazu führen, dass mehr Dokumente in den 
Ergebnissen erscheinen, auch bei geringerer   semantischer Ähnlichkeit
- In Kombination mit Cosine Scale bestimmt er den finalen semantischen 
Score-Beitrag

** KI-Assistent* (🤖-Button) in den Ergebnissen erklärt und bewertet 
Ergebnisse für uns, zur besseren Einschätzung. Diesewr Agent wird 
demnächst durch einen GraphRAG basieren Ahent ersetzt, der dann den 
gesamten Kontext der GEgistry als Knowledge Graph zur Verfügung hat. Er 
kann dann auch User bei der Suche ebsser beraten dun selbst Suchbegriffe 
generieren, die garantiert matchen

** Feedback Prinzip: *
-> Daumen runter: Ergebnis wird bei künftigen identischen Suchen 
ausgeblendet.
-> Daumen hoch: Score des Ergebnisses wird bei künftigen identischen 
Suchen verdoppelt (Holzhammer, ich weiß).

-> [Expected somethiomg else?]: kam ein Ergebnis nicht, das wir erwartet 
hätten? Hier die komplette URL aus der Registry eintragen. Bei künftigen 
identischen Suchen wird es mit einem Score von 2*Median der gesamten 
Ergebnisse eingefügt.

*Idee: egal, was mit der Suche wird, dieses Feedback bleibt uns auch für 
andere Implementierungen erhalten, also keinen Quatsch eingeben.*
*
*

* Qualitätsfilterung:
--> Einträge mit geringer Informationsdichte (Titel < 5 Zeichen oder 
Beschreibung < 100 Zeichen) werden standardmäßig ausgeblendet, denn sie 
würden bei semantischer/hybrider Suche künstlich hoch ranken. Sie können 
kann per checkbox oder [unhide] eingeblendet werden

*Allgemeine Feedback-Richtlinien:*

*Positiv*: Sehr relevante, nützliche Ergebnisse, insbesondere bei Scores 
<1-
Wenn ein relevantes Ergebnis oben rankt und einen Score < 0,5 hat, 
stimmt gewaltig etwas nicht, dann vlllt. doch Mail an mich.

*Negativ*: Eindeutig irrelevante Ergebnisse – NICHT für niedrige Scores 
(<1) verwenden, diese fliegen in Zukunft ohnehin raus.

*Danke!*


-- 
Dr. Thorsten Trippel
- Teil des Koordinationsteams des NFDI Konsortiums Text+ am Leibniz-Institut für Deutsche Sprache, Mannheim, Tel: +49 621 1581 182
Text+ wird gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460033370
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://lists.dnb.de/pipermail/tp-reference/attachments/20250926/b6c54d2c/attachment.htm>


Mehr Informationen über die Mailingliste Tp-reference