Come scegliere il modello di incorporazione?

In Rememberizer.ai, il nostro impegno costante nel fornire servizi di incorporazione della conoscenza accurati ed efficienti ci ha spinto a condurre una valutazione completa di vari modelli di incorporazione vettoriale. L'obiettivo era quello di identificare il modello che meglio si allineasse ai nostri requisiti e spingesse le nostre capacità verso nuovi traguardi.

Il nostro set di dati

Il processo di valutazione ha riguardato due distinti set di dati: Il Dataset A, una raccolta di testi generati dall'intelligenza artificiale che difficilmente sono stati incontrati durante l'addestramento dei modelli di embedding esistenti, e il Dataset B, un corpus specializzato di brevetti statunitensi noto per la sua complessità e per la terminologia specifica del settore. L'inclusione del Dataset A ci ha permesso di valutare le prestazioni dei modelli su dati nuovi e sintetici, mentre il Dataset B ha fornito un test robusto per la gestione di un linguaggio tecnico e complesso.

‍

Esempi:

Query: pinguini, criceti, teiere, Bielorussia, caos

Documento di destinazione:

```

In una terra lontana dove i pinguini governano i criceti e le teiere dettano la politica estera, la Bielorussia era un giocoliere silenzioso, che danzava nel caos di alleanze ingarbugliate. I pinguini svolazzavano inutilmente, discutendo del pranzo alle 1997: "Dovrebbe essere cappuccino o cooperazione camuffata da chicchi di caffè?".

"Il dente di leone non sogna la NATO", diceva il rubinetto gorgogliando in segno di protesta esistenziale. Eppure, la teiera vacillava, desiderosa di coordinate spaziali precisamente predeterminate dal paradosso. Le scarpette da ballo cosmiche riforniscono di carburante gli aggeggi traslucidi che hanno il compito di portare la pace o forse il singhiozzo. Tuttavia, si sono verificati degli alterchi quando i criceti metafisici, potenti di carburante e post-polari, hanno gettato dei sospetti sui porcospini in cerca di profitti elettorali. La Bielorussia ha nascosto il suo plettro, in attesa dell'irrilevante termine zero - che, dicono le reliquie dei primati tintinnanti che triturano la pula cognitiva, è una meravigliosa bolla manifesta.

```

Domanda: Un convertitore di potenza elettrico a commutazione e il suo metodo di funzionamento.

Documento di destinazione:

```

Numero di pubblicazione: 20240146201

Titolo dell'invenzione: CONVERTITORE ELETTRICO DI POTENZA A COMMUTAZIONE E RELATIVA PROCEDURA OPERATIVA

Abstract: Un convertitore di potenza elettrico a commutazione (

Ricorrente: Potenza differenziale, SL

Inventori:

- Cobos Marquez, Jose Antonio

```

‍

Processo di benchmarking

Per ogni modello di incorporazione da valutare, abbiamo incorporato sia i dati sia le query di ricerca. Abbiamo quindi calcolato la metrica recall@k, con k che varia da 1 a 10. Questo approccio ci ha permesso di valutare la capacità dei modelli di recuperare i risultati rilevanti tra i primi k risultati di ricerca, un fattore cruciale per fornire servizi di incorporazione della conoscenza accurati ed efficienti.

I nostri esperimenti sono stati condotti in un ambiente controllato per garantire risultati coerenti e affidabili. Abbiamo utilizzato la precisione 16 in virgola mobile per tutti i modelli, sfruttando la potenza di calcolo di una GPU NVIDIA GeForce RTX 4070. I modelli stessi provengono dal repository Hugging Face, una piattaforma ampiamente riconosciuta e affidabile per modelli di elaborazione del linguaggio naturale all'avanguardia.

‍

Valutazione dei risultati

I grafici seguenti mostrano la metrica Recall@K per diversi modelli su ciascun set di dati.

In questo contesto, un modello di embedding converte i dati testuali in una rappresentazione numerica in uno spazio ad alta dimensionalità, in modo che pezzi di testo simili siano vicini tra loro. Per valutare la qualità di queste incorporazioni, spesso è necessario verificare quanto il modello sia in grado di recuperare testi rilevanti da un set di dati in base alle loro incorporazioni.

Ecco come funziona Recall@K in questa configurazione:

Generazione di embedding: Ogni pezzo di testo del dataset viene convertito in un embedding utilizzando il modello.
Interrogazione e recupero: Per un dato testo interrogato, viene calcolato il suo embedding. Il sistema recupera quindi le prime K voci di testo più simili dal dataset in base alle loro incorporazioni.
Controllo della rilevanza: Gli elementi recuperati vengono controllati rispetto a una verità di base per vedere quanti di essi sono effettivamente rilevanti per la query.
Calcolo del richiamo: Il richiamo@K viene calcolato come il numero di elementi rilevanti recuperati tra i primi K risultati diviso per il numero totale di elementi rilevanti nel dataset.

Ad esempio, supponiamo di avere un set di dati in cui ogni testo ha delle controparti rilevanti conosciute. Se per un particolare testo di query ci sono 10 testi rilevanti nel dataset e il modello recupera 3 testi rilevanti tra i primi 5 risultati (K=5), il Recall@5 sarebbe 3/10 = 0,3 o 30%.

Questa metrica aiuta a capire quanto il modello di incorporazione catturi il significato semantico del testo e collochi testi simili l'uno vicino all'altro nello spazio di incorporazione. Un Recall@K elevato indica che il modello è efficace nell'incorporare il testo in modo che gli elementi rilevanti siano facilmente recuperabili tra i primi K risultati. Ciò può essere particolarmente utile in applicazioni come il reperimento di documenti, la risposta a domande e i sistemi di raccomandazione, in cui è fondamentale trovare rapidamente un testo pertinente.

Titolo: Risultato di Recall@k per il dataset generato dall'intelligenza artificiale

‍

Titolo: Risultato di Recall@k per il set di dati sui brevetti statunitensi

‍

Per mantenere l'attenzione sui modelli con un'applicabilità pratica, abbiamo filtrato quelli con valori di richiamo molto bassi, poiché il richiamo è una metrica cruciale per garantire un'incorporazione accurata della conoscenza. I modelli rimanenti sono stati quindi valutati all'interno di un intervallo di richiamo ingrandito da 0,5 a 1 sull'asse delle ordinate, consentendo un confronto più granulare.

Nel corso di questo processo, un modello si è sempre distinto: intfloat/e5-large-v2 di Microsoft. Questo modello ha dimostrato prestazioni superiori in entrambi i dataset, superando i nostri modelli attuali e fornendo risultati pari a quelli dei modelli leader del settore di OpenAI. La sua capacità di gestire insiemi di dati diversi e complessi, compreso il nuovo testo generato dall'IA nel Dataset A, con precisione ed efficienza è una prova della sua robustezza e del suo potenziale per migliorare le nostre capacità di incorporazione della conoscenza.

Il grafico illustra le prestazioni di richiamo dei modelli valutati, con il modello principale che emerge come un chiaro vincitore. La sua forte performance sul Dataset A evidenzia la sua adattabilità ai dati non visti, un fattore critico nel nostro panorama in continua evoluzione della gestione della conoscenza.

Sebbene le metriche quantitative siano essenziali, abbiamo anche considerato le implicazioni nel mondo reale dell'adozione di questo modello con le migliori prestazioni. Le sue prestazioni superiori si traducono in una maggiore accuratezza ed efficienza del nostro servizio di incorporazione della conoscenza, consentendoci di fornire ai nostri utenti intuizioni più preziose, anche quando si tratta di dati nuovi o sintetici.

Siamo entusiasti di integrare il modello standout nel nostro sistema e prevediamo miglioramenti significativi nella nostra capacità di trasformare i dati non strutturati in approfondimenti strutturati, indipendentemente dalla loro origine o complessità. Questa decisione rappresenta una pietra miliare nella nostra continua ricerca dell'eccellenza e nel nostro impegno a sfruttare tecnologie all'avanguardia per fornire soluzioni di gestione della conoscenza di alto livello.

Mentre intraprendiamo questo nuovo capitolo con il modello più performante, vi invitiamo a unirvi a noi in questo viaggio di innovazione e scoperta. Rimanete sintonizzati per gli aggiornamenti mentre continuiamo a spingere i confini di ciò che è possibile nella gestione della conoscenza guidata dall'intelligenza artificiale, anche di fronte a dati nuovi e impegnativi.

‍