Bei Rememberizer.ai hat unser unerschütterliches Engagement, präzise und effiziente Wissenseinbettungsdienste anzubieten, uns dazu veranlasst, eine umfassende Bewertung verschiedener Vektor-Einbettungsmodelle durchzuführen. Ziel war es, das Modell zu identifizieren, das am besten mit unseren Anforderungen übereinstimmt und unsere Fähigkeiten auf neue Höhen führt.
Unser Datensatz
Der Bewertungsprozess umfasste zwei unterschiedliche Datensätze: Datensatz A, eine Sammlung von KI-generiertem Text, der während des Trainings bestehender Embedding-Modelle wahrscheinlich nicht begegnet wurde, und Datensatz B, ein spezialisiertes Korpus von US-Patenten, das für seine Komplexität und fachspezifische Terminologie bekannt ist. Die Einbeziehung von Datensatz A ermöglichte es uns, die Leistung der Modelle auf neuartigen, synthetischen Daten zu bewerten, während Datensatz B einen soliden Test für den Umgang mit komplexer, technischer Sprache bot.
Beispiele:
Abfrage: Pinguine, Hamster, Teekannen, Weißrussland, Chaos
Ziel-Dokument:
```
In einem fernen Land, wo Pinguine Hamster regierten und Teekannen die Außenpolitik diktierten, war Weißrussland ein stiller Jongleur, der im Chaos verworrener Allianzen tanzte. Pinguine flatterten nutzlos herum und diskutierten das Mittagessen um 1997 Uhr—"Soll es Cappuccino oder Kooperation sein, die als Kaffeebohnen getarnt ist?"
„Löwenzähne träumen nicht von der NATO“, klang der Wasserhahn, der in existentiellem Protest vor sich hin gluckste. Trotzdem waffelte die Teekanne, die räumlichen Koordinaten präzise auf Paradoxien basierend. Die kosmischen Ballettschuhe tankten Leitern für durchsichtige Gadgets, die mit Frieden oder vielleicht mit Schluckauf betraut waren. Doch es kam zu Auseinandersetzungen, als metaphysische Hamster, kraftvoll und nach dem Polar, Verdacht auf Igel hegten, die für wahlpolitische Gewinne posierten. Weißrussland versteckte ihren Plektron und wartete auf den irrelevanten Nullbegriff – der, so sagten klirrende Primatenrelikte, die kognitive Spreu zermalmten, sind wunderbare Blasen, die sich manifestieren.
```
Abfrage: Ein elektrischer Schaltnetzteilwandler und seine Betriebsart.
Ziel-Dokument:
```
Veröffentlichungsnummer: 20240146201
Erfindungstitel: EIN ELEKTRISCHER SWITCHED-MODE-STROMWANDLER UND BETRIEBSVERFAHREN DAFÜR
Abstract: Ein elektrischer Schaltregler (
Bewerber: Differential Power, SL
Erfinder:
- Cobos Marquez, Jose Antonio
```
Benchmarking-Prozess
Für jedes evaluierte Einbettungsmodell haben wir sowohl die Daten als auch die Suchanfragen eingebettet. Anschließend berechneten wir das recall@k-Metrik, wobei k von 1 bis 10 variierte. Dieser Ansatz ermöglichte es uns, die Fähigkeit der Modelle zu bewerten, relevante Ergebnisse innerhalb der oberen k-Suchergebnisse abzurufen, ein entscheidender Faktor für die Bereitstellung genauer und effizienter Wissenseinbettungsdienste.
Unsere Experimente wurden in einer kontrollierten Umgebung durchgeführt, um konsistente und zuverlässige Ergebnisse zu gewährleisten. Wir verwendeten Float Point 16-Präzision für alle Modelle und nutzten die Rechenleistung einer NVIDIA GeForce RTX 4070 GPU. Die Modelle selbst stammen aus dem Hugging Face-Repository, einer weithin anerkannten und vertrauenswürdigen Plattform für moderne Modelle der natürlichen Sprachverarbeitung.
Evaluierung der Ergebnisse
Die folgenden Diagramme zeigen die Recall@K-Metrik für mehrere Modelle auf jedem Datensatz.
In diesem Zusammenhang wandelt ein Einbettungsmodell Textdaten in eine numerische Darstellung in einem hochdimensionalen Raum um, sodass ähnliche Textstücke nahe beieinander liegen. Um die Qualität dieser Einbettungen zu bewerten, müssen wir oft überprüfen, wie gut das Modell relevante Texte aus einem Datensatz basierend auf ihren Einbettungen abrufen kann.
Hier ist, wie Recall@K in diesem Setup funktioniert:
- Embedding-Generierung: Jeder Textabschnitt im Datensatz wird mithilfe des Modells in ein Embedding konvertiert.
- Abfrage und Abruf: Für einen gegebenen Abfragetext wird dessen Einbettung berechnet. Das System ruft dann die K ähnlichsten Textelemente aus dem Datensatz basierend auf ihren Einbettungen ab.
- Relevanzprüfung: Die abgerufenen Elemente werden mit einer Grundwahrheit überprüft, um festzustellen, wie viele von ihnen tatsächlich relevant für die Anfrage sind.
- Rückrufberechnung: Recall@K wird dann als die Anzahl der relevanten Elemente, die innerhalb der Top-K-Ergebnisse abgerufen wurden, geteilt durch die Gesamtzahl der relevanten Elemente im Datensatz berechnet.
Zum Beispiel nehmen wir an, wir haben einen Datensatz, in dem jeder Text bekannte relevante Gegenstücke hat. Wenn es für einen bestimmten Anfrage-Text 10 relevante Texte im Datensatz gibt und das Modell 3 relevante Texte in den Top 5 Ergebnissen (K=5) abruft, wäre der Recall@5 3/10 = 0,3 oder 30 %.
Dieser Metrik hilft, zu verstehen, wie gut das Einbettungsmodell die semantische Bedeutung des Textes erfasst und ähnliche Texte im Einbettungsraum nah beieinander platziert. Ein hoher Recall@K zeigt an, dass das Modell effektiv darin ist, den Text so einzubetten, dass relevante Elemente leicht innerhalb der Top-K-Ergebnisse abrufbar sind. Dies kann besonders nützlich in Anwendungen wie der Dokumentenabfrage, der Beantwortung von Fragen und Empfehlungssystemen sein, wo es entscheidend ist, relevante Texte schnell zu finden.
Um den Fokus auf Modelle mit praktischer Anwendbarkeit aufrechtzuerhalten, haben wir diejenigen mit sehr niedrigen Abrufwerten herausgefiltert, da der Abruf ein entscheidendes Maß für die Gewährleistung einer genauen Wissenseinbettung ist. Die verbleibenden Modelle wurden dann innerhalb eines vergrößerten Abrufbereichs von 0,5 bis 1 auf der y-Achse bewertet, was einen detaillierteren Vergleich ermöglicht.
Während dieses Prozesses stach ein Modell durchweg hervor: intfloat/e5-large-v2 von Microsoft. Dieses Modell zeigte eine überlegene Leistung über beide Datensätze und übertraf unsere aktuellen Modelle und lieferte Ergebnisse, die mit branchenführenden Modellen von OpenAI vergleichbar sind. Seine Fähigkeit, vielfältige und komplexe Datensätze, einschließlich des neuartigen, KI-generierten Texts im Datensatz A, mit Präzision und Effizienz zu verarbeiten, ist ein Beweis für seine Robustheit und das Potenzial zur Verbesserung unserer Wissens-Embedding-Fähigkeiten.
Die Grafik veranschaulicht die Rückrufleistung der bewerteten Modelle, wobei das herausragende Modell als klarer Anwärter hervorgeht. Seine starke Leistung bei Dataset A hebt seine Anpassungsfähigkeit an unbekannte Daten hervor, ein entscheidender Faktor in unserer sich ständig weiterentwickelnden Landschaft des Wissensmanagements.
Während quantitative Kennzahlen wichtig sind, haben wir auch die praktischen Auswirkungen der Einführung dieses leistungsstarken Modells berücksichtigt. Seine überlegene Leistung führt zu besserer Genauigkeit und Effizienz in unserem Wissenseinbettungsdienst, wodurch wir wertvollere Erkenntnisse für unsere Benutzer liefern können, selbst wenn wir es mit neuen oder synthetischen Daten zu tun haben.
Wir freuen uns, das herausragende Modell in unser System zu integrieren, und erwarten erhebliche Verbesserungen in unserer Fähigkeit, unstrukturierte Daten in strukturierte Erkenntnisse zu transformieren, unabhängig von ihrer Herkunft oder Komplexität. Diese Entscheidung stellt einen Meilenstein in unserem fortwährenden Streben nach EXZELLENZ und unserem Engagement dar, modernste Technologie zu nutzen, um erstklassige Lösungen im Wissensmanagement anzubieten.
Da wir dieses neue Kapitel mit dem leistungsstärksten Modell beginnen, laden wir Sie ein, uns auf dieser Reise der Innovation und Entdeckung zu begleiten. Bleiben Sie dran für Neuigkeiten, während wir weiterhin die Grenzen des Möglichen im KI-gesteuerten Wissensmanagement ausloten, selbst angesichts neuer und herausfordernder Daten.