Chez Rememberizer.ai, notre engagement indéfectible à fournir des services d'intégration de connaissances précis et efficaces nous a poussés à réaliser une évaluation approfondie de divers modèles d'intégration vectorielle. L'objectif était d'identifier le modèle qui s'aligne le mieux avec nos besoins et propulse nos capacités vers de nouveaux sommets.
Notre Ensemble de Données
Le processus d'évaluation a couvert deux ensembles de données distincts : l'ensemble de données A, une collection de textes générés par IA peu susceptibles d'avoir été rencontrés lors de l'entraînement des modèles d'embedding existants, et l'ensemble de données B, un corpus spécialisé de brevets américains connu pour sa complexité et sa terminologie spécifique au domaine. L'inclusion de l'ensemble de données A nous a permis d'évaluer la performance des modèles sur des données synthétiques nouvelles, tandis que l'ensemble de données B a fourni un test robuste pour le traitement d'un langage technique complexe.
Exemples :
Requête : pingouins, hamsters, théières, Biélorussie, chaos
Document cible :
```
Dans un pays lointain où les pingouins régnaient sur les hamsters et les théières dictaient la politique étrangère, la Biélorussie était un jongleur silencieux, dansant au milieu du chaos des alliances enchevêtrées. Les pingouins battaient des ailes inutilement, débattant du déjeuner à 1997 heures — "Devrait-ce être un cappuccino ou une coopération camouflée en grains de café ?"
« Les pissenlits ne rêvent pas de l'OTAN », chanta le robinet gargouillant en protestation existentielle. Pourtant, la théière hésita, ses coordonnées spatiales prédéterminées précisément par le paradoxe. Les chaussons de ballet cosmiques ravitaillaient des échelles pour des gadgets translucides chargés de paix ou peut-être de hoquets. Pourtant, des altercations ont eu lieu lorsque des hamsters métaphysiques, puissants en carburant et post-polaire, ont exprimé des suspicions sur des hérissons se posant pour des bénéfices électoraux. La Biélorussie a caché son médiator, attendant le terme zéro sans rapport — ce qui, disaient des reliques de primates tintinnabulant triturant des déchets cognitifs, est de merveilleuses bulles manifestes.
```
Requête : Un convertisseur de puissance à découpage et son méthode de fonctionnement.
Document cible :
```
Numéro de publication : 20240146201
Titre de l'invention : UN CONVERTISSEUR DE PUISSANCE À MODE COMMUTÉ ÉLECTRIQUE ET PROCÉDURE OPÉRATIVE ASSOCIÉE
Résumé : Un convertisseur de puissance à découpage électrique (
Demandeur : Differential Power, SL
Inventeurs :
- Cobos Marquez, Jose Antonio
```
Processus de benchmarking
Pour chaque modèle d'intégration en cours d'évaluation, nous avons intégré à la fois les données et les requêtes de recherche. Nous avons ensuite calculé la métrique recall@k, avec k variant de 1 à 10. Cette approche nous a permis d'évaluer la capacité des modèles à récupérer des résultats pertinents dans les k premiers résultats de recherche, un facteur crucial pour fournir des services d'intégration de connaissances précis et efficaces.
Nos expériences ont été menées dans un environnement contrôlé afin d'assurer des résultats cohérents et fiables. Nous avons utilisé une précision de point flottant 16 pour tous les modèles, tirant parti de la puissance de calcul d'un GPU NVIDIA GeForce RTX 4070. Les modèles eux-mêmes ont été obtenus à partir du dépôt Hugging Face, une plateforme largement reconnue et de confiance pour les modèles de traitement du langage naturel à la pointe de la technologie.
Évaluation des résultats
Les graphiques ci-dessous montrent la métrique Recall@K pour plusieurs modèles sur chaque jeu de données.
Dans ce contexte, un modèle d'embedding convertit les données textuelles en une représentation numérique dans un espace à haute dimension de sorte que des morceaux de texte similaires soient proches les uns des autres. Pour évaluer la qualité de ces embeddings, nous devons souvent vérifier à quel point le modèle peut récupérer des textes pertinents à partir d'un ensemble de données en fonction de leurs embeddings.
Voici comment Recall@K fonctionne dans cette configuration :
- Intégration de l'embedding : Chaque élément de texte dans le jeu de données est converti en un embedding à l'aide du modèle.
- Requête et récupération : Pour un texte de requête donné, son embedding est calculé. Le système récupère ensuite les K éléments de texte les plus similaires du jeu de données en fonction de leurs embeddings.
- Vérification de la pertinence : Les éléments récupérés sont vérifiés par rapport à une vérité de référence pour voir combien d'entre eux sont réellement pertinents par rapport à la requête.
- Calcul du rappel : Le rappel@K est ensuite calculé comme le nombre d'éléments pertinents récupérés parmi les K premiers résultats divisé par le nombre total d'éléments pertinents dans le jeu de données.
Par exemple, supposons que nous avons un ensemble de données où chaque morceau de texte a des homologues pertinents connus. Si pour un texte de requête particulier, il y a 10 textes pertinents dans l'ensemble de données et que le modèle récupère 3 textes pertinents parmi les 5 premiers résultats (K=5), le Recall@5 serait de 3/10 = 0,3 ou 30 %.
Cette métrique aide à comprendre dans quelle mesure le modèle d'embedding capture le sens sémantique du texte et place des textes similaires proches les uns des autres dans l'espace d'embedding. Un high Recall@K indique que le modèle est efficace pour intégrer le texte de manière à ce que les éléments pertinents soient facilement récupérables parmi les K meilleurs résultats. Cela peut être particulièrement utile dans des applications comme la récupération de documents, le question-réponse et les systèmes de recommandation, où il est crucial de trouver rapidement du texte pertinent.
Pour maintenir un focus sur les modèles ayant une applicabilité pratique, nous avons filtré ceux avec des valeurs de rappel très faibles, car le rappel est une métrique cruciale pour garantir une intégration précise des connaissances. Les modèles restants ont ensuite été évalués dans une plage de rappel agrandie de 0,5 à 1 sur l'axe des y, permettant une comparaison plus granulaire.
Tout au long de ce processus, un modèle s'est constamment démarqué : intfloat/e5-large-v2 de Microsoft. Ce modèle a démontré des performances supérieures sur les deux ensembles de données, surclassant nos modèles actuels et délivrant des résultats comparables à ceux des modèles de pointe de l'industrie d'OpenAI. Sa capacité à traiter des ensembles de données divers et complexes, y compris le texte généré par IA dans l'ensemble de données A, avec précision et efficacité, témoigne de sa robustesse et de son potentiel pour améliorer nos capacités d'intégration des connaissances.
Le graphique illustre la performance de rappel des modèles évalués, avec le modèle phare se démarquant comme un leader évident. Sa performance solide sur le Dataset A met en évidence son adaptabilité aux données non vues, un facteur critique dans notre paysage en constante évolution de la gestion des connaissances.
Bien que les métriques quantitatives soient essentielles, nous avons également pris en compte les implications dans le monde réel de l'adoption de ce modèle à haute performance. Sa performance supérieure se traduit par une meilleure précision et efficacité dans notre service d'intégration des connaissances, nous permettant de fournir des insights plus précieux à nos utilisateurs, même lorsque nous traitons des données nouvelles ou synthétiques.
Nous sommes ravis d'intégrer le modèle remarquable dans notre système et anticipons des améliorations significatives de notre capacité à transformer des données non structurées en informations structurées, peu importe leur origine ou leur complexité. Cette décision représente une étape importante dans notre quête continue d'excellence et notre engagement à tirer parti de technologies de pointe pour fournir des solutions de gestion des connaissances de premier ordre.
Alors que nous entamons ce nouveau chapitre avec le modèle le plus performant, nous vous invitons à nous rejoindre dans ce voyage d'innovation et de découverte. Restez à l'écoute pour des mises à jour alors que nous continuons à repousser les limites de ce qui est possible dans la gestion des connaissances pilotée par l'IA, même face à des données inédites et complexes.