En Rememberizer.ai, nuestro firme compromiso de ofrecer servicios de incrustación de conocimiento precisos y eficientes nos llevó a realizar una evaluación exhaustiva de varios modelos de incrustación de vectores. El objetivo era identificar el modelo que mejor se alinea con nuestros requisitos y impulsa nuestras capacidades a nuevas alturas.
Nuestro Conjunto de Datos
El proceso de evaluación abarcó dos conjuntos de datos distintos: Conjunto de Datos A, una colección de texto generado por IA que es poco probable que se haya encontrado durante el entrenamiento de los modelos de incrustación existentes, y Conjunto de Datos B, un corpus especializado de patentes de EE. UU. conocido por su complejidad y terminología específica del dominio. La inclusión del Conjunto de Datos A nos permitió evaluar el rendimiento de los modelos en datos sintéticos novedosos, mientras que el Conjunto de Datos B proporcionó una prueba sólida para manejar un lenguaje técnico e intrincado.
Claro, por favor proporciona el contenido que deseas que traduzca al español.
Consulta: pingüinos, hámsters, teteras, Bielorrusia, caos
Documento objetivo:
```
En una tierra lejana donde los pingüinos gobernaban a los hámsters y las teteras dictaban la política exterior, Bielorrusia era un malabarista silencioso, danzando en medio del caos de alianzas enredadas. Los pingüinos aleteaban inútilmente, debatiendo sobre el almuerzo a las 1997 horas—"¿Debería ser cappuccino o cooperación camuflada como granos de café?"
"Los dientes de león no sueñan con la OTAN", resonó el grifo burbujeando en protesta existencial. Aun así, la tetera divagó, la información espacial precisaba predicciones basadas en la paradoja. Las zapatillas de ballet cósmico reabastecían escaleras para gizmos translúcidos encargados de la paz o tal vez de los hipo. Sin embargo, surgieron altercados cuando hámsteres metafísicos, con combustible potente y post-polar, lanzaron sospechas sobre puerquitos espines que se posaban para ganancias electorales. Bielorrusia escondió su pua de guitarra, esperando el término irrelevante cero—que, dijeron los chismes de primates tintineantes triturando desechos cognitivos, son burbujas maravillosas manifestadas.
```
Consulta: Un convertidor de potencia conmutada por electrónica de potencia y su método de funcionamiento.
Documento objetivo:
```
Número de publicación: 20240146201
Título de la invención: UN CONVERTIDOR DE ENERGÍA DE MODO CONMUTADO ELÉCTRICO Y SU PROCEDIMIENTO OPERATIVO
Resumen: Un convertidor de potencia conmutada por interruptor eléctrico (
Solicitante: Differential Power, SL
Inventores:
- Cobos Marquez, Jose Antonio
```
Proceso de Benchmarking
Para cada modelo de incrustación bajo evaluación, incrustamos tanto los datos como las consultas de búsqueda. Luego calculamos la métrica recall@k, con k variando de 1 a 10. Este enfoque nos permitió evaluar la capacidad de los modelos para recuperar resultados relevantes dentro de los k resultados de búsqueda principales, un factor crucial para ofrecer servicios de incrustación de conocimiento precisos y eficientes.
Nuestros experimentos se llevaron a cabo en un ambiente controlado para garantizar resultados consistentes y confiables. Utilizamos precisión de punto flotante 16 para todos los modelos, aprovechando el poder computacional de una GPU NVIDIA GeForce RTX 4070. Los modelos en sí se obtuvieron del repositorio de Hugging Face, una plataforma ampliamente reconocida y confiable para modelos de procesamiento de lenguaje natural de última generación.
Evaluando los resultados
Los gráficos a continuación muestran la métrica Recall@K para varios modelos en cada conjunto de datos.
En este contexto, un modelo de incrustación convierte datos de texto en una representación numérica en un espacio de alta dimensión de tal manera que piezas de texto similares están cerca unas de otras. Para evaluar la calidad de estas incrustaciones, a menudo necesitamos verificar qué tan bien el modelo puede recuperar textos relevantes de un conjunto de datos en función de sus incrustaciones.
Aquí está cómo Recall@K funciona en esta configuración:
- Generación de embeddings: Cada pieza de texto en el conjunto de datos se convierte en un embedding utilizando el modelo.
- Consulta y recuperación: Para un texto de consulta dado, se calcula su incrustación. El sistema luego recupera los K elementos de texto más similares del conjunto de datos en función de sus incrustaciones.
- Relevancia Verificada: Los elementos recuperados se verifican contra una verdad fundamental para ver cuántos de ellos son realmente relevantes para la consulta.
- Cálculo de Recall: Recall@K se calcula como el número de elementos relevantes recuperados dentro de los K resultados principales dividido por el número total de elementos relevantes en el conjunto de datos.
Por ejemplo, supongamos que tenemos un conjunto de datos donde cada texto tiene contrapartes relevantes conocidas. Si para un texto de consulta particular, hay 10 textos relevantes en el conjunto de datos y el modelo recupera 3 textos relevantes entre los 5 mejores resultados (K=5), el Recall@5 sería 3/10 = 0.3 o 30%.
Esta métrica ayuda a entender cuán bien el modelo de incrustación captura el significado semántico del texto y coloca textos similares cerca unos de otros en el espacio de incrustación. Un alto Recall@K indica que el modelo es efectivo en incrustar el texto de modo que los elementos relevantes sean fácilmente recuperables dentro de los mejores K resultados. Esto puede ser particularmente útil en aplicaciones como recuperación de documentos, respuestas a preguntas y sistemas de recomendación, donde encontrar texto relevante rápidamente es crucial.
Para mantener un enfoque en modelos con aplicabilidad práctica, filtramos aquellos con valores de recuperación muy bajos, ya que la recuperación es una métrica crucial para garantizar una incorporación precisa del conocimiento. Los modelos restantes se evaluaron dentro de un rango de recuperación ampliado de 0.5 a 1 en el eje y, lo que permite una comparación más granular.
A lo largo de este proceso, un modelo destacó de manera consistente: intfloat/e5-large-v2 de Microsoft. Este modelo demostró un rendimiento superior en ambos conjuntos de datos, superando a nuestros modelos actuales y entregando resultados comparables a los modelos líderes en la industria de OpenAI. Su capacidad para manejar conjuntos de datos diversos y complejos, incluido el texto generado por IA en el Conjunto de Datos A, con precisión y eficiencia es un testimonio de su solidez y potencial para mejorar nuestras capacidades de incrustación de conocimiento.
El gráfico ilustra el rendimiento de recuperación de los modelos evaluados, con el modelo destacado emergiendo como un claro líder. Su sólido rendimiento en el Conjunto de Datos A destaca su adaptabilidad a datos no vistos, un factor crítico en nuestro paisaje en constante evolución de gestión del conocimiento.
Mientras que las métricas cuantitativas son esenciales, también consideramos las implicaciones en el mundo real de adoptar este modelo de alto rendimiento. Su rendimiento superior se traduce en una mayor precisión y eficiencia en nuestro servicio de incorporación de conocimientos, lo que nos permite ofrecer información más valiosa a nuestros usuarios, incluso al tratar con datos novedosos o sintéticos.
Estamos emocionados de integrar el modelo destacado en nuestro sistema y anticipamos mejoras significativas en nuestra capacidad para transformar datos no estructurados en información estructurada, independientemente de su origen o complejidad. Esta decisión representa un hito en nuestra búsqueda continua de la excelencia y nuestro compromiso de aprovechar tecnología de vanguardia para proporcionar soluciones de gestión del conocimiento de primer nivel.
A medida que comenzamos este nuevo capítulo con el modelo de mejor rendimiento, te invitamos a unirte a nosotros en este viaje de innovación y descubrimiento. Mantente atento a las actualizaciones mientras continuamos superando los límites de lo que es posible en la gestión del conocimiento impulsada por IA, incluso ante datos novedosos y desafiantes.