Hos Rememberizer.ai drev vores urokkelige engagement i at levere nøjagtige og effektive videnindsprøjtningstjenester os til at gennemføre en omfattende evaluering af forskellige vektorintegration modeller. Målet var at identificere den model, der bedst matcher vores krav og løfter vores kapaciteter til nye højder.
Vores datasæt
Evalueringen omfattede to distinkte datasæt: Datasæt A, en samling af AI-genereret tekst, som sandsynligvis ikke er blevet mødt under træningen af eksisterende indlejringsmodeller, og Datasæt B, et specialiseret korpus af amerikanske patenter kendt for sin kompleksitet og domænespecifik terminologi. Inkluderingen af Datasæt A gjorde det muligt for os at vurdere modellernes præstation på nye, syntetiske data, mens Datasæt B gav en robust test for håndtering af indviklet, teknisk sprog.
Examples:
Forespørgsel: pingviner, hamstere, teapoter, Hviderusland, kaos
Målrettet dokument:
```
I et fjernt land, hvor pingviner styrede hamstere og tekander dikterede udenrigspolitik, var Hviderusland en stille jonglør, der dansede midt i kaosset af sammenfiltrede alliancer. Pingvinerne viftede nytteløst med vingerne og debatterede frokost klokken 1997—"Skal det være cappuccino eller samarbejde camouflage som kaffebønner?"
"Maskrosser drømmer ikke om NATO," klingede hanen, der gurglede i eksistentiel protest. Alligevel vaflede teekanden, der nøjagtigt fastsatte rumkoordinater baseret på paradoks. De kosmiske ballet-sko genopfyldte stiger til gennemsigtige gadgets, der havde til opgave at bringe fred eller måske hikke. Alligevel opstod der skænderier, da metafysiske hamstere, brændstof potente og post-polære, castede mistanker om pindsvin, der posede for valgprofitter. Hviderusland gemte deres guitartamp, mens de ventede på det irrelevante nul — hvilket, sagde klikkende primat-relikter, der triturerede kognitiv affald, er vidunderlige bobler, der manifesterer.
```
Query: En elektrisk switch-mode strømkonverter og dens driftsmetode.
Målrettet dokument:
```
Udgivelsesnummer: 20240146201
Opfindelsestitel: EN ELEKTRISK SWITCHED MODE STRØMOMFORMER OG OPERATIV PROCEDURE DERFOR
Abstract: En elektrisk switchet-mode strømkonverter.
Ansøger: Differential Power, SL
Opfindere:
- Cobos Marquez, Jose Antonio
```
Benchmarking Proces
For hver indlejring model under evaluering indlejrede vi både dataene og søgerne. Vi beregnede derefter recall@k metrikken, med k der spænder fra 1 til 10. Denne tilgang gjorde det muligt for os at vurdere modellerne evne til at hente relevante resultater inden for de øverste k søgeresultater, en afgørende faktor i at levere præcise og effektive viden indlejringstjenester.
Vores eksperimenter blev udført i et kontrolleret miljø for at sikre konsekvente og pålidelige resultater. Vi benyttede float point 16 præcision for alle modeller, udnyttende den computermæssige kraft fra et NVIDIA GeForce RTX 4070 GPU. Modellerne blev selv taget fra Hugging Face-repositoriet, en bredt anerkendt og pålidelig platform for state-of-the-art modeller inden for naturlig sprogbehandling.
Evaluering af resultaterne
Diagrammerne nedenfor viser Recall@K-metrikken for flere modeller på hver datasæt.
I denne sammenhæng konverterer en indlejringsmodel tekstdata til en numerisk repræsentation i et højdimensionelt rum, således at lignende tekststykker er tættere på hinanden. For at evaluere kvaliteten af disse indlejringer skal vi ofte tjekke, hvor godt modellen kan hente relevante tekster fra et datasæt baseret på deres indlejringer.
Her er, hvordan Recall@K fungerer i denne opsætning:
- Embedding generation: Hver tekststykke i datasættet konverteres til en indlejring ved hjælp af modellen.
- Forespørgsel og Hentning: For en given forespørgselstekst beregnes dens indlejring. Systemet henter derefter de K mest lignende tekstobjekter fra datasættet baseret på deres indlejringer.
- Relevanskontrol: De hentede emner bliver kontrolleret mod en sandhed for at se, hvor mange af dem der faktisk er relevante for forespørgslen.
- Recall-beregning: Recall@K beregnes som antallet af relevante elementer hentet inden for de top K resultater divideret med det samlede antal relevante elementer i datasættet.
For eksempel, antag at vi har et datasæt, hvor hver tekst har kendte relevante modparter. Hvis der for en bestemt forespørgsels tekst er 10 relevante tekster i datasættet, og modellen henter 3 relevante tekster blandt de 5 øverste resultater (K=5), ville Recall@5 være 3/10 = 0,3 eller 30%.
Denne metrisk hjælper med at forstå, hvor godt indlejringsmodellen fanger den semantiske betydning af teksten og placerer lignende tekster tæt på hinanden i indlejringsrummet. En høj Recall@K indikerer, at modellen er effektiv til at indlejre teksten, så relevante genstande nemt kan findes blandt de øverste K resultater. Dette kan være særligt nyttigt i applikationer som dokumenthentning, spørgeskemaer og anbefalingssystemer, hvor det er afgørende at finde relevant tekst hurtigt.
For at opretholde fokus på modeller med praktisk anvendelighed filtrerede vi dem fra med meget lave tilbageholdelsesværdier, da tilbageholdelse er en afgørende metric for at sikre nøjagtig videnindlejring. De tilbageværende modeller blev derefter evalueret inden for et zoomet ind tilbageholdelsesområde fra 0,5 til 1 på y-aksen, hvilket muliggør en mere granulær sammenligning.
Gennem hele denne proces skillede en model sig konsekvent ud: intfloat/e5-large-v2 fra Microsoft. Denne model viste overlegen ydeevne på tværs af begge datasæt, overgik vores nuværende modeller og leverede resultater på niveau med branchens førende modeller fra OpenAI. Dens evne til at håndtere forskellige og komplekse datasæt, inklusive den nye AI-genererede tekst i Datasæt A, med præcision og effektivitet er et bevis på dens robusthed og potentiale for at forbedre vores videnindlejringskapaciteter.
Diagrammet illustrerer genkaldelsespræstationen for de evaluerede modeller, hvor den fremtrædende model dukker op som en klar frontløber. Dens stærke præstation på Dataset A fremhæver dens tilpasningsevne til usete data, en kritisk faktor i vores konstant udviklende landskab af vidensmanagement.
Sammen med de kvantitative målinger, som er essentielle, overvejede vi også de virkelige konsekvenser af at adoptere denne toppræsterende model. Dens overlegne præstation oversættes til forbedret nøjagtighed og effektivitet i vores vidensindlægningstjeneste, hvilket gør os i stand til at levere mere værdifulde indsigter til vores brugere, selv når vi håndterer nye eller syntetiske data.
Vi er glade for at integrere den fremragende model i vores system og forventer betydelige forbedringer i vores evne til at transformere ustrukturerede data til strukturerede indsigter, uanset oprindelse eller kompleksitet. Denne beslutning repræsenterer en milepæl i vores fortsatte stræben efter excellence og vores engagement i at udnytte banebrydende teknologi til at levere førsteklasses vidensstyringsløsninger.
Som vi påbegynder dette nye kapitel med den bedst præsterende model, inviterer vi dig til at deltage i denne rejse mod innovation og opdagelse. Hold dig opdateret for nyheder, mens vi fortsætter med at skubbe grænserne for, hvad der er muligt inden for AI-drevet videnstyring, selv i mødet med nye og udfordrende data.