Como Escolhemos Nosso Modelo de Embedding?

Na Rememberizer.ai, nosso compromisso inabalável em oferecer serviços de incorporação de conhecimento precisos e eficientes nos levou a realizar uma avaliação abrangente de vários modelos de incorporação de vetores. O objetivo era identificar o modelo que melhor se alinha às nossas necessidades e eleva nossas capacidades a novos patamares.

Nosso Conjunto de Dados

O processo de avaliação abrangeu dois conjuntos de dados distintos: Dataset A, uma coleção de textos gerados por IA que provavelmente não foram encontrados durante o treinamento dos modelos de incorporação existentes, e Dataset B, um corpus especializado de patentes dos EUA conhecido por sua complexidade e terminologia específica do domínio. A inclusão do Dataset A nos permitiu avaliar o desempenho dos modelos em dados sintéticos novéis, enquanto o Dataset B forneceu um teste robusto para lidar com linguagem técnica e intrincada.

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

I'm sorry, but it seems you haven't provided any text after the colon that needs translation. Please provide the content you'd like to be translated into Portuguese.

Consultar: pinguins, hamsters, bules de chá, Bielorrússia, caos

I'm sorry, but there seems to be no content provided for translation after the colon. Could you please provide the content you would like translated?

I’m sorry, but you haven’t provided any content to translate. Please provide the text, and I will be happy to help with the translation.

Em uma terra distante onde pinguins governavam hamsters e bules ditavam a política externa, a Bielorrússia era um malabarista silencioso, dançando em meio ao caos de alianças emaranhadas. Pinguins agitavam-se inutilmente, debatendo o almoço às 1997 horas—"Deveria ser cappuccino ou cooperação camuflada como grãos de café?"

"Dentes-de-leão não sonham com a OTAN," ecoou a torneira gorgolejante em protesto existencial. Ainda assim, a chaleira vacilou, coordenadas espaciais precisas predicadas no paradoxo. As sapatilhas do balé cósmico reabastecendo escadas para gizmos translúcidos encarregados da paz ou talvez soluços. No entanto, altercações ocorreram quando hamsters metafísicos, combustível potente e pós-polar, lançaram suspeitas sobre ouriços se postando para lucros eleitorais. A Bielorrússia escondeu seu palhetas de guitarra, aguardando o termo irrelevante zero—que, disseram relíquias primatas tilintando resíduos cognitivos, são bolhas maravilhosas que se manifestam.

I’m sorry, but you haven’t provided any content to translate. Please provide the text, and I will be happy to help with the translation.

Consulta: Um conversor de potência comutado elétrico e seu método de operação.

I'm sorry, but there seems to be no content provided for translation after the colon. Could you please provide the content you would like translated?

I’m sorry, but you haven’t provided any content to translate. Please provide the text, and I will be happy to help with the translation.

Número de Publicação: 20240146201

Título da Invenção: UM CONVERSOR DE POTÊNCIA EM MODO SWITCHED ELÉTRICO E SEU PROCEDIMENTO OPERATIVO

Abstract: Um conversor de potência comutado por controle elétrico (

Candidato: Differential Power, SL

Inventores:

- Cobos Marquez, Jose Antonio

I’m sorry, but you haven’t provided any content to translate. Please provide the text, and I will be happy to help with the translation.

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

Processo de Benchmarking

Para cada modelo de incorporação em avaliação, incorporamos tanto os dados quanto as consultas de pesquisa. Em seguida, calculamos a métrica recall@k, com k variando de 1 a 10. Essa abordagem nos permitiu avaliar a capacidade dos modelos de recuperar resultados relevantes entre os principais k resultados de pesquisa, um fator crucial na entrega de serviços de incorporação de conhecimento precisos e eficientes.

Nossos experimentos foram realizados em um ambiente controlado para garantir resultados consistentes e confiáveis. Utilizamos a precisão de ponto flutuante 16 para todos os modelos, aproveitando o poder de computação de uma GPU NVIDIA GeForce RTX 4070. Os modelos em si foram obtidos do repositório Hugging Face, uma plataforma amplamente reconhecida e confiável para modelos de processamento de linguagem natural de última geração.

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

Avaliando os resultados

Os gráficos abaixo mostram a métrica Recall@K para vários modelos em cada conjunto de dados.

Nesse contexto, um modelo de incorporação converte dados de texto em uma representação numérica em um espaço de alta dimensionalidade, de tal forma que peças de texto semelhantes estejam próximas umas das outras. Para avaliar a qualidade dessas incorporações, frequentemente precisamos verificar quão bem o modelo pode recuperar textos relevantes de um conjunto de dados com base em suas incorporações.

Aqui está como Recall@K funciona nesta configuração:

  1. Geração de Embedding: Cada pedaço de texto no conjunto de dados é convertido em um embedding usando o modelo.
  2. Consulta e Recuperação: Para um dado texto de consulta, seu embedding é calculado. O sistema então recupera os K itens de texto mais semelhantes do conjunto de dados com base em seus embeddings.
  3. Verificação de Relevância: Os itens recuperados são verificados em relação a uma verdade fundamental para ver quantos deles são realmente relevantes para a consulta.
  4. Cálculo de Recall: Recall@K é então calculado como o número de itens relevantes recuperados entre os K principais resultados dividido pelo número total de itens relevantes no conjunto de dados.

Por exemplo, suponha que temos um conjunto de dados onde cada trecho de texto tem correspondentes relevantes conhecidos. Se para um texto de consulta particular, existem 10 textos relevantes no conjunto de dados e o modelo recupera 3 textos relevantes entre os 5 principais resultados (K=5), o Recall@5 seria 3/10 = 0,3 ou 30%.

Essa métrica ajuda a entender quão bem o modelo de incorporação captura o significado semântico do texto e coloca textos similares próximos uns dos outros no espaço de incorporação. Um Recall@K alto indica que o modelo é eficaz em incorporar o texto de forma que itens relevantes sejam facilmente recuperáveis entre os top K resultados. Isso pode ser particularmente útil em aplicações como recuperação de documentos, resposta a perguntas e sistemas de recomendação, onde encontrar texto relevante rapidamente é crucial.

Título: Resultado do Recall@k para o conjunto de dados gerado por IA

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

Título: Resultado de Recall@k para o conjunto de dados de patentes dos EUA

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

Para manter o foco em modelos com aplicabilidade prática, filtramos aqueles com valores de recall muito baixos, pois o recall é uma métrica crucial para garantir uma incorporação precisa de conhecimento. Os modelos restantes foram avaliados em uma faixa de recall ampliada de 0,5 a 1 no eixo y, permitindo uma comparação mais granular.

Ao longo desse processo, um modelo se destacou consistentemente: intfloat/e5-large-v2 da Microsoft. Esse modelo demonstrou desempenho superior em ambos os conjuntos de dados, superando nossos modelos atuais e entregando resultados comparáveis aos modelos líderes da indústria da OpenAI. Sua capacidade de lidar com conjuntos de dados diversos e complexos, incluindo o novo texto gerado por IA no Conjunto de Dados A, com precisão e eficiência é um testemunho de sua robustez e potencial para aprimorar nossas capacidades de incorporação de conhecimento.

O gráfico ilustra o desempenho de recall dos modelos avaliados, com o modelo destacado emergindo como um líder claro. Seu forte desempenho no Dataset A ressalta sua adaptabilidade a dados não vistos, um fator crítico em nosso cenário em constante evolução de gestão do conhecimento.

Embora as métricas quantitativas sejam essenciais, também consideramos as implicações práticas da adoção deste modelo de alto desempenho. Seu desempenho superior se traduz em maior precisão e eficiência em nosso serviço de incorporação de conhecimento, permitindo-nos oferecer insights mais valiosos aos nossos usuários, mesmo ao lidar com dados inéditos ou sintéticos.

Estamos empolgados em integrar o modelo de destaque em nosso sistema e antecipamos melhorias significativas em nossa capacidade de transformar dados não estruturados em insights estruturados, independentemente de sua origem ou complexidade. Essa decisão representa um marco em nossa busca contínua pela excelência e nosso compromisso em aproveitar a tecnologia de ponta para fornecer soluções de gerenciamento de conhecimento de alto nível.

À medida que embarcamos neste novo capítulo com o modelo de melhor desempenho, convidamos você a se juntar a nós nesta jornada de inovação e descoberta. Fique atento para atualizações à medida que continuamos a ultrapassar os limites do que é possível na gestão de conhecimento impulsionada por IA, mesmo diante de dados novos e desafiadores.

Por favor, forneça o conteúdo que você gostaria que eu traduzisse.

Não perca estas histórias:

Português