<!DOCTYPE html>
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <p>Liebe Runde, </p>
    <p>Timm bat mich, euch untestenstehende E-Mail mit den Zugangsdaten
      zum Testen seiner Suchfunktion weiter zu leiten. Wir hatten ja am
      Mittwoch drüber gesprochen und er hatte das Tool vorgeführt. Jetzt
      können wir alle selbst testen.</p>
    <p>Grüße</p>
    <p>Thorsten</p>
    <p>___</p>
    <p>Liebe Collectors, hier die Winke zum Gebrauch des Searchlab: </p>
    <p><strong>Login:</strong></p>
    <p><b>* </b><a href="https://fdm.awhamburg.de/registry-searchlab/"
        target="_blank" class="moz-txt-link-freetext">https://fdm.awhamburg.de/registry-searchlab/</a><br>
      * PW: <span
style="color:rgb(0,0,0);font-family:"Droid Sans Mono","monospace",monospace;font-size:14px;white-space:pre-wrap">braveoceandreamsparkbright</span></p>
    <p><strong>und los geht's !</strong></p>
    <p>Vorab: </p>
    <p>* Was Ihr seht ist eine normale interne Suche, kein Agent
      Interface, einfach Suchbegriffe in das Eingabefeld eintragen.
      Agent Feedback (s. u.) dient nur intern unserem Verständnis</p>
    <p>* Das hier ist nicht als User Interface gedacht (noch zu komplex)
      sondern dient uns selbst zum Testen, vornehmlich der  hybriden
      Suche, um Feedback zu Suchergrgebnissen zu geben und zu sehen, wie
      unsere Parameter das Ergebnis beeinflussen. </p>
    <p>* Die Suche liefert bewusst (zur Fehlersuche) noch viel Noise,
      diese sollte aber, insbesondere durch unser Feedback, mehr und
      mehr nach hinten rutschen und < 1.0 scoren. </p>
    <p>zu den [Advanced Settings]</p>
    <p><strong>Text</strong>: Nur Schlagwortsuche (ein bisschen fuzzy)<br>
      <strong>Semantisch</strong>: Ähnlichkeitssuche mit Vektor
      Embeddings (mehrsprachiger Sentence transformer, später würde ich
      gerne sprachspezifische Modelle nehmen)<br>
      <strong>Hybrid</strong>: Kombination beider Ansätze <b><--
        darum geht es mir eigentlich</b></p>
    <p>Ergebnisse aus den Ressourcendomänen sind und bleiben getrennt in
      Tabs, weil sich kein sinnvolles Ranking aus Äpfeln, Birnen und
      Weintrauben bauen lässt, insbesondere bei der Vektorsuche
      dominieren inhaltlich arme Einträge (weniger komplexe Vektoren =
      besseres match auf alles) die ganz dünnen werden daher per default
      ausgeblendet. </p>
    <p>In den Tabs: </p>
    <p>* <strong>Cosine Scale</strong>: Steuert, wie semantisch ähnlich
      Ergebnisse zur Anfrage sein müssen<br>
      -> Höhere Werte = nur sehr ähnliche Ergebnisse (strengere
      Übereinstimmung)<br>
      -> Niedrigere Werte = vielfältigere Ergebnisse (lockerere
      Übereinstimmung)</p>
    <p><strong>* Score Boost</strong>: Passt die Endbewertung je
      Ressourcentyp an<br>
       - Positive Werte (z.B. 0.1, 0.2, 0.5) erhöhen alle semantischen
      Scores und machen semantische Treffer   konkurrenzfähiger
      gegenüber Texttreffern, negative umgekehrt. <br>
        - Höhere Boosts können dazu führen, dass mehr Dokumente in den
      Ergebnissen erscheinen, auch bei geringerer   semantischer
      Ähnlichkeit <br>
      - In Kombination mit Cosine Scale bestimmt er den finalen
      semantischen Score-Beitrag</p>
    <p><b>* KI-Assistent</b> (🤖-Button) in den Ergebnissen erklärt und
      bewertet Ergebnisse für uns, zur besseren Einschätzung. Diesewr
      Agent wird demnächst durch einen GraphRAG basieren Ahent ersetzt,
      der dann den gesamten Kontext der GEgistry als Knowledge Graph zur
      Verfügung hat. Er kann dann auch User bei der Suche ebsser beraten
      dun selbst Suchbegriffe generieren, die garantiert matchen</p>
    <p><b>* Feedback Prinzip: </b><br>
      -> Daumen runter: Ergebnis wird bei künftigen identischen
      Suchen ausgeblendet. <br>
      -> Daumen hoch: Score des Ergebnisses wird bei künftigen
      identischen Suchen verdoppelt (Holzhammer, ich weiß).</p>
    <p>-> [Expected somethiomg else?]: kam ein Ergebnis nicht, das
      wir erwartet hätten? Hier die komplette URL aus der Registry
      eintragen. Bei künftigen identischen Suchen wird es mit einem
      Score von 2*Median der gesamten Ergebnisse eingefügt. </p>
    <p><b>Idee: egal, was mit der Suche wird, dieses Feedback bleibt uns
        auch für andere Implementierungen erhalten, also keinen Quatsch
        eingeben.</b><br>
      <strong><br>
      </strong></p>
    <p>* Qualitätsfilterung:<br>
      --> Einträge mit geringer Informationsdichte (Titel < 5
      Zeichen oder Beschreibung < 100 Zeichen) werden standardmäßig
      ausgeblendet, denn sie würden bei semantischer/hybrider Suche
      künstlich hoch ranken. Sie können kann per checkbox oder [unhide]
      eingeblendet werden</p>
    <p><strong>Allgemeine Feedback-Richtlinien:</strong></p>
    <p><strong>Positiv</strong>: Sehr relevante, nützliche Ergebnisse,
      insbesondere bei Scores <1- <br>
      Wenn ein relevantes Ergebnis oben rankt und einen Score < 0,5
      hat, stimmt gewaltig etwas nicht, dann vlllt. doch Mail an mich. </p>
    <p><strong>Negativ</strong>: Eindeutig irrelevante Ergebnisse –
      NICHT für niedrige Scores (<1) verwenden, diese fliegen in
      Zukunft ohnehin raus. </p>
    <p><strong>Danke!</strong></p>
    <p><br>
    </p>
    <pre class="moz-signature" cols="72">-- 
Dr. Thorsten Trippel 
- Teil des Koordinationsteams des NFDI Konsortiums Text+ am Leibniz-Institut für Deutsche Sprache, Mannheim, Tel: +49 621 1581 182
Text+ wird gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460033370</pre>
  </body>
</html>