임베딩 모델은 어떻게 선택하나요?

정확하고 효율적인 지식 임베딩 서비스를 제공한다는 확고한 신념을 바탕으로 다양한 벡터 임베딩 모델을 종합적으로 평가했습니다. 목표는 우리의 요구사항에 가장 부합하고 우리의 역량을 새로운 차원으로 끌어올릴 수 있는 모델을 찾아내는 것이었습니다.

데이터 세트

평가 프로세스는 두 개의 서로 다른 데이터 세트에 걸쳐 진행되었습니다: 기존 임베딩 모델의 학습 과정에서 접할 수 없었던 AI 생성 텍스트 모음인 데이터세트 A와 복잡성과 도메인별 용어로 유명한 미국 특허의 전문 말뭉치인 데이터세트 B가 그것입니다. 데이터 세트 A를 포함함으로써 새로운 합성 데이터에 대한 모델의 성능을 평가할 수 있었고, 데이터 세트 B는 복잡한 기술 언어를 처리하기 위한 강력한 테스트를 제공했습니다.

예시:

키워드: 펭귄, 햄스터, 주전자, 벨로루시, 혼돈, 카오스

대상 문서:

```

펭귄이 햄스터를 지배하고 찻주전자가 외교 정책을 좌우하는 먼 땅에서 벨라루스는 얽히고설킨 동맹의 혼돈 속에서 춤을 추는 조용한 요술쟁이가 되어 있었습니다. 펭귄들은 쓸데없이 날갯짓을 하며 "카푸치노를 먹을까, 원두커피로 위장한 협조를 먹을까?"라고 점심 식사를 놓고 토론했습니다.

"민들레는 나토를 꿈꾸지 않습니다." 실존적 항의의 표시로 수도꼭지에서 졸졸 흐르는 소리가 들렸습니다. 하지만 주전자는 와플처럼 흔들리며 역설에 기반한 공간 좌표를 정확하게 예측합니다. 우주 발레 슈즈는 사다리에 연료를 공급하는 반투명 기즈모로 평화 또는 딸꾹질을 위한 임무를 수행했습니다. 그러나 형이상학적인 햄스터, 강력한 연료를 공급하는 포스트 폴라가 선거 이익을 위해 고슴도치 자세를 취하는 고슴도치를 의심하면서 다툼이 이어졌습니다. 벨라루스는 기타 픽을 숨긴 채, 영장류의 유물이 인지적 왕겨를 쪼개어 만든 멋진 거품이라는 무의미한 용어인 '제로'를 기다렸습니다.

```

쿼리: 전기 스위치 모드 전력 변환기 및 그 작동 방법에 대해 질문합니다.

대상 문서:

```

발행 번호: 20240146201

발명 제목: 전기 스위치 모드 전력 변환기 및 그 동작 절차

요약: 전기 스위치 모드 전력 컨버터(

신청자 차동 전력, SL

발명가:

- 코보스 마르케스, 호세 안토니오

```

벤치마킹 프로세스

평가 대상인 각 임베딩 모델에 대해 데이터와 검색 쿼리를 모두 임베드했습니다. 그런 다음 k를 1에서 10까지 범위로 하여 recall@k 메트릭을 계산했습니다. 이 접근 방식을 통해 정확하고 효율적인 지식 임베딩 서비스를 제공하는 데 중요한 요소인 상위 k개의 검색 결과 내에서 관련성 있는 결과를 검색하는 모델의 능력을 평가할 수 있었습니다.

실험은 일관되고 신뢰할 수 있는 결과를 보장하기 위해 통제된 환경에서 진행되었습니다. 모든 모델에 부동 소수점 16 정밀도를 활용했으며, NVIDIA GeForce RTX 4070 GPU의 연산 능력을 활용했습니다. 모델 자체는 최첨단 자연어 처리 모델을 위해 널리 인정받고 신뢰할 수 있는 플랫폼인 Hugging Face 리포지토리에서 제공되었습니다.

결과 평가하기

아래 차트는 각 데이터 세트의 여러 모델에 대한 Recall@K 메트릭을 보여줍니다.

이러한 맥락에서 임베딩 모델은 텍스트 데이터를 고차원 공간에서 숫자 표현으로 변환하여 유사한 텍스트 조각이 서로 가깝게 배치되도록 합니다. 이러한 임베딩의 품질을 평가하려면 임베딩을 기반으로 모델이 데이터 세트에서 관련 텍스트를 얼마나 잘 검색할 수 있는지 확인해야 하는 경우가 많습니다.

이 설정에서 Recall@K가 작동하는 방식은 다음과 같습니다:

  1. 임베딩 생성: 데이터 세트의 각 텍스트 조각은 모델을 사용하여 임베딩으로 변환됩니다.
  2. 쿼리 및 검색: 주어진 쿼리 텍스트에 대해 임베딩이 계산됩니다. 그런 다음 시스템은 임베딩을 기반으로 데이터 세트에서 가장 유사한 상위 K개의 텍스트 항목을 검색합니다.
  3. 관련성 확인: 검색된 항목을 근거 자료와 대조하여 실제로 쿼리와 관련된 항목이 얼마나 되는지 확인합니다.
  4. 리콜 계산: Recall@K는 상위 K 결과 내에서 검색된 관련 항목의 수를 데이터 집합의 총 관련 항목 수로 나눈 값으로 계산됩니다.

예를 들어, 각 텍스트에 대해 알려진 관련 텍스트가 있는 데이터 세트가 있다고 가정해 보겠습니다. 특정 쿼리 텍스트에 대해 데이터 세트에 10개의 관련 텍스트가 있고 모델이 상위 5개 결과(K=5) 내에서 3개의 관련 텍스트를 검색하는 경우, Recall@5는 3/10 = 0.3 또는 30%가 됩니다.

이 메트릭은 임베딩 모델이 텍스트의 의미적 의미를 얼마나 잘 포착하고 임베딩 공간에서 유사한 텍스트를 서로 가깝게 배치하는지 이해하는 데 도움이 됩니다. Recall@K가 높으면 모델이 텍스트를 임베드하는 데 효과적이어서 상위 K 결과 내에서 관련 항목을 쉽게 검색할 수 있음을 나타냅니다. 이는 문서 검색, 질문 답변, 추천 시스템과 같이 관련 텍스트를 빠르게 찾는 것이 중요한 애플리케이션에서 특히 유용할 수 있습니다.

제목: AI 생성 데이터 세트에 대한 Recall@k 결과

제목: 미국 특허 데이터 세트에 대한 Recall@k 결과

실제 적용 가능성이 있는 모델에 초점을 맞추기 위해, 정확한 지식 임베딩을 보장하기 위한 중요한 지표인 회상도가 매우 낮은 모델을 필터링했습니다. 그런 다음 나머지 모델들을 Y축에서 0.5~1의 확대된 회상 범위 내에서 평가하여 보다 세분화된 비교가 가능하도록 했습니다.

이 과정에서 한 가지 모델이 지속적으로 두각을 나타냈는데, 바로 Microsoft의 intfloat/e5-large-v2였습니다. 이 모델은 두 데이터 세트 모두에서 우수한 성능을 보여줬으며, 현재 모델보다 성능이 뛰어나고 업계 선도적인 OpenAI의 모델과 동등한 결과를 제공했습니다. 데이터세트 A의 새로운 AI 생성 텍스트를 포함한 다양하고 복잡한 데이터세트를 정확하고 효율적으로 처리하는 능력은 이 모델이 지식 임베딩 기능을 향상시킬 수 있는 견고함과 잠재력을 입증하는 것입니다.

이 차트는 평가된 모델들의 리콜 성능을 보여주며, 눈에 띄는 모델이 확실한 선두 주자로 부상하고 있습니다. 데이터세트 A에 대한 강력한 성능은 끊임없이 진화하는 지식 관리 환경에서 중요한 요소인 보이지 않는 데이터에 대한 적응성을 강조합니다.

정량적 지표도 중요하지만, 이 최고 성능의 모델을 채택하는 것이 실제에 미치는 영향도 고려했습니다. 우수한 성능은 지식 임베딩 서비스의 정확성과 효율성 향상으로 이어져 새로운 데이터나 합성 데이터를 다루는 경우에도 사용자에게 더 가치 있는 인사이트를 제공할 수 있게 해줍니다.

뛰어난 모델을 시스템에 통합하게 되어 기쁘게 생각하며, 데이터의 출처나 복잡성에 관계없이 비정형 데이터를 정형화된 인사이트로 변환하는 능력이 크게 향상될 것으로 기대합니다. 이번 결정은 최고 수준의 지식 관리 솔루션을 제공하기 위해 최첨단 기술을 활용하려는 우리의 지속적인 노력과 우수성을 추구하는 노력의 이정표가 될 것입니다.

최고 성능의 모델과 함께 새로운 장을 여는 이 혁신과 발견의 여정에 여러분을 초대합니다. 새롭고 도전적인 데이터에 직면하여 AI 기반 지식 관리의 가능성의 한계를 계속 넓혀가고 있으니 계속해서 업데이트를 기대해 주세요.

이 이야기를 놓치지 마세요: