Na Rememberizer.ai, nosso compromisso inabalável em oferecer serviços de incorporação de conhecimento precisos e eficientes nos levou a realizar uma avaliação abrangente de vários modelos de incorporação vetorial. O objetivo era identificar o modelo que melhor se alinha com nossos requisitos e eleva nossas capacidades a novos patamares.
Nosso Conjunto de Dados
O processo de avaliação abrangeu dois conjuntos de dados distintos: Conjunto de Dados A, uma coleção de textos gerados por IA que provavelmente não foram encontrados durante o treinamento dos modelos de incorporação existentes, e Conjunto de Dados B, um corpus especializado de patentes dos EUA conhecido por sua complexidade e terminologia específica do domínio. A inclusão do Conjunto de Dados A nos permitiu avaliar o desempenho dos modelos em dados sintéticos e novos, enquanto o Conjunto de Dados B forneceu um teste robusto para lidar com uma linguagem técnica e intrincada.
Exemplos:
Consulta: pinguins, hamsters, bules de chá, Bielorrússia, caos
Documento alvo:
```
Em uma terra distante onde pinguins governavam hamsters e bules ditavam a política externa, a Bielorrússia era um malabarista silencioso, dançando em meio ao caos de alianças emaranhadas. Pinguins batucavam inutilmente, debatendo o almoço às 1997 horas—"Deveria ser cappuccino ou cooperação camuflada como grãos de café?"
"Dente-de-leão não sonha com a OTAN," tartamudeou a torneira gorgolejando em protesto existencial. Ainda assim, a chaleira hesitou, coordenadas espaciais agudas precisamente preditas no paradoxo. As sapatilhas de ballet cósmico reabastecendo escadas para gismos translúcidos encarregados de paz ou talvez soluços. No entanto, altercações aconteceram quando hamsters metafísicos, combustível potente e pós-polar, lançaram suspeitas sobre os ouriços que se posturavam em busca de lucros eleitorais. A Bielorrússia escondeu seu palheta de guitarra, aguardando o termo irrelevante zero—que, disseram relíquias primatas tilintando a casca cognitiva, são bolhas maravilhosas que se manifestam.
```
Consulta: Um conversor de energia comutado por chaveamento elétrico e seu método de operação.
Documento alvo:
```
Número de Publicação: 20240146201
Título da Invenção: UM CONVERSOR DE POTÊNCIA EM MODO COMUTADO ELÉTRICO E PROCEDIMENTO OPERATIVO DO MESMO
Resumo: Um conversor de potência comutado eletronicamente (
Candidato: Differential Power, SL
Inventores:
- Cobos Marquez, Jose Antonio
```
Processo de Benchmarking
Para cada modelo de incorporação em avaliação, incorporamos tanto os dados quanto as consultas de pesquisa. Em seguida, calculamos a métrica recall@k, com k variando de 1 a 10. Essa abordagem nos permitiu avaliar a capacidade dos modelos de recuperar resultados relevantes dentro dos principais k resultados de pesquisa, um fator crucial para a entrega de serviços de incorporação de conhecimento precisos e eficientes.
Nossos experimentos foram conduzidos em um ambiente controlado para garantir resultados consistentes e confiáveis. Utilizamos precisão de ponto flutuante 16 para todos os modelos, aproveitando o poder computacional de uma GPU NVIDIA GeForce RTX 4070. Os próprios modelos foram obtidos do repositório Hugging Face, uma plataforma amplamente reconhecida e confiável para modelos de processamento de linguagem natural de ponta.
Avaliando os resultados
Os gráficos abaixo mostram a métrica Recall@K para vários modelos em cada conjunto de dados.
Nesse contexto, um modelo de incorporação converte dados de texto em uma representação numérica em um espaço de alta dimensão, de modo que pedaços de texto semelhantes fiquem próximos uns dos outros. Para avaliar a qualidade dessas incorporações, muitas vezes precisamos verificar quão bem o modelo pode recuperar textos relevantes de um conjunto de dados com base em suas incorporações.
Aqui está como Recall@K funciona nesta configuração:
- Geração de Embeddings: Cada trecho de texto no conjunto de dados é convertido em um embedding usando o modelo.
- Consulta e Recuperação: Para um determinado texto de consulta, seu embedding é calculado. O sistema então recupera os K itens de texto mais semelhantes do conjunto de dados com base em seus embeddings.
- Verificação de Relevância: Os itens recuperados são verificados em relação a uma verdade fundamental para ver quantos deles são realmente relevantes para a consulta.
- Cálculo de Recall: Recall@K é então calculado como o número de itens relevantes recuperados entre os K principais resultados dividido pelo número total de itens relevantes no conjunto de dados.
Por exemplo, suponha que temos um conjunto de dados onde cada trecho de texto tem contrapartes relevantes conhecidas. Se para um determinado texto de consulta, houver 10 textos relevantes no conjunto de dados e o modelo recuperar 3 textos relevantes nos 5 principais resultados (K=5), o Recall@5 seria 3/10 = 0,3 ou 30%.
Essa métrica ajuda a entender quão bem o modelo de incorporação captura o significado semântico do texto e coloca textos semelhantes próximos uns dos outros no espaço de incorporação. Um Recall@K alto indica que o modelo é eficaz em incorporar o texto de forma que itens relevantes sejam facilmente recuperáveis entre os K principais resultados. Isso pode ser particularmente útil em aplicações como recuperação de documentos, resposta a perguntas e sistemas de recomendação, onde encontrar texto relevante rapidamente é crucial.
Para manter o foco em modelos com aplicabilidade prática, filtramos aqueles com valores de recall muito baixos, uma vez que o recall é uma métrica crucial para garantir a incorporação precisa do conhecimento. Os modelos restantes foram então avaliados dentro de um intervalo de recall ampliado de 0,5 a 1 no eixo y, permitindo uma comparação mais granular.
Ao longo desse processo, um modelo se destacou consistentemente: intfloat/e5-large-v2 da Microsoft. Este modelo demonstrou desempenho superior em ambos os conjuntos de dados, superando nossos modelos atuais e entregando resultados comparáveis aos modelos líderes de mercado da OpenAI. Sua capacidade de lidar com conjuntos de dados diversos e complexos, incluindo o novo texto gerado por IA no Conjunto de Dados A, com precisão e eficiência é um testemunho de sua robustez e potencial para aprimorar nossas capacidades de incorporação de conhecimento.
O gráfico ilustra o desempenho de recall dos modelos avaliados, com o modelo destacado emergindo como um claro favorito. Seu forte desempenho no Dataset A destaca sua adaptabilidade a dados não vistos, um fator crítico em nosso ambiente de gestão de conhecimento em constante evolução.
Embora métricas quantitativas sejam essenciais, também consideramos as implicações do mundo real da adoção deste modelo de alto desempenho. Seu desempenho superior se traduz em maior precisão e eficiência em nosso serviço de incorporação de conhecimento, permitindo-nos fornecer insights mais valiosos aos nossos usuários, mesmo ao lidar com dados novos ou sintéticos.
Estamos animados para integrar o modelo de destaque em nosso sistema e antecipamos melhorias significativas em nossa capacidade de transformar dados não estruturados em insights estruturados, independentemente de sua origem ou complexidade. Essa decisão representa um marco em nossa constante busca pela excelência e nosso compromisso em aproveitar tecnologia de ponta para fornecer soluções de gerenciamento de conhecimento de alta qualidade.
À medida que iniciamos este novo capítulo com o modelo de melhor desempenho, convidamos você a se juntar a nós nesta jornada de inovação e descoberta. Fique atento a atualizações enquanto continuamos a expandir os limites do que é possível em gestão do conhecimento impulsionada por IA, mesmo diante de dados novos e desafiadores.