우리는 우리의 임베딩 모델을 어떻게 선택하나요?

Rememberizer.ai에서는 정확하고 효율적인 지식 임베딩 서비스를 제공하기 위한 변함없는 헌신이 다양한 벡터 임베딩 모델에 대한 포괄적인 평가를 실시하게 했습니다. 목표는 우리의 요구 사항과 가장 잘 맞는 모델을 식별하고 우리의 역량을 새로운 차원으로 끌어올리는 것이었습니다.

우리 데이터셋

평가 프로세스는 두 개의 별개의 데이터셋으로 구성되었습니다: 데이터셋 A는 기존 임베딩 모델의 학습 중에 마주쳤을 가능성이 적은 AI 생성 텍스트의 모음이며, 데이터셋 B는 복잡성과 도메인 특정 용어로 유명한 미국 특허의 전문 코퍼스입니다. 데이터셋 A의 포함은 새로운 합성 데이터에 대한 모델의 성능을 평가할 수 있게 해주었고, 데이터셋 B는 복잡하고 기술적인 언어를 처리하는 데 대한 강력한 테스트를 제공했습니다.

예제:

쿼리: 펭귄, 햄스터, 다관, 벨라루스, 혼돈

대상 문서:

```

먼 타국에서 펭귄이 햄스터를 다스리고 주전자가 외교 정책을 지배하는 곳, 벨로루시는 침묵의 저글러로서 얽힌 동맹의 혼돈 속에서 춤추고 있었다. 펭귄들은 무익하게 퍼덕이며 1997시의 점심을 논의하고 있었다—"카푸치노가 좋을까요, 아니면 커피 콩으로 위장한 협력이 좋을까요?"

"민들레는 NATO를 꿈꾸지 않는다," 존재론적 항의로 쏟아지는 수도꼭지가 울렸다. 그럼에도 불구하고, 주전자들은 모호하게, 패러독스에 정밀하게 근거한 공간 좌표를 갈구했다. 우주적 발레 슈즈는 투명한 기계들을 위한 사다리를 재연료 공급하며, 그들은 평화 아니면 제 흥미로운 방귀에 대한 임무를 맡고 있었다. 그러나 은유적 해마들이, 강력한 연료와 극지 이후의 과정에서, 선거 이익을 위해 포즈를 취하는 고슴도치들에 의구심을 제기하면서 갈등이 벌어졌다. 벨라루스는 그들의 기타 픽을 숨기고, 의미 없는 제로라는 용어를 기다리고 있었다—그것은, 인지적 찌꺼기를 부숴대는 딸랑이 원숭이 유물들이 말하기를, 멋진 거품으로 드러난다.

```

전기 스위치 모드 전력 변환기 및 그 작동 방법.

대상 문서:

```

출판 번호: 20240146201

발명 제목: 전기 스위치 모드 전원 변환기 및 그 운영 절차

초록: 전기 스위치 모드 전원 변환기 (

신청자: Differential Power, SL

발명가:

- 코보스 마르케즈, 호세 안토니오

```

벤치마킹 프로세스

각 평가 중인 임베딩 모델에 대해 데이터와 검색 쿼리를 모두 임베딩했습니다. 그런 다음 k가 1에서 10까지 범위인 recall@k 메트릭을 계산했습니다. 이 접근 방식은 모델이 상위 k 검색 결과 내에서 관련 결과를 검색하는 능력을 평가하는 데 도움이 되었으며, 이는 정확하고 효율적인 지식 임베딩 서비스를 제공하는 데 중요한 요소입니다.

우리의 실험은 일관되고 신뢰할 수 있는 결과를 보장하기 위해 통제된 환경에서 수행되었습니다. 우리는 모든 모델에 대해 float point 16 정밀도를 활용하여 NVIDIA GeForce RTX 4070 GPU의 계산 능력을 사용했습니다. 모델 자체는 최첨단 자연어 처리 모델을 위한 널리 알려지고 신뢰받는 플랫폼인 Hugging Face 저장소에서 확보했습니다.

결과 평가

아래 차트는 각 데이터셋에 대한 여러 모델의 Recall@K 지표를 보여줍니다.

이 맥락에서 임베딩 모델은 텍스트 데이터를 고차원 공간의 수치 표현으로 변환하여 유사한 텍스트 조각들이 서로 가까워지도록 합니다. 이러한 임베딩의 품질을 평가하기 위해, 우리는 종종 모델이 임베딩을 기반으로 데이터셋에서 관련 텍스트를 얼마나 잘 검색할 수 있는지 확인해야 합니다.

Recall@K가 이 설정에서 작동하는 방식은 다음과 같습니다:

  1. 임베딩 생성: 데이터셋의 각 텍스트는 모델을 사용하여 임베딩으로 변환됩니다.
  2. 쿼리 및 검색: 주어진 쿼리 텍스트에 대해 그 임베딩이 계산됩니다. 시스템은 그런 다음 데이터셋에서 그 임베딩을 기반으로 가장 유사한 상위 K개의 텍스트 항목을 검색합니다.
  3. 관련성 검사: 검색된 항목은 실제로 쿼리와 얼마나 관련성이 있는지 확인하기 위해 기준 진실과 대조됩니다.
  4. 재현 계산: Recall@K는 상위 K 결과 내에서 검색된 관련 항목 수를 데이터 세트의 총 관련 항목 수로 나누어 계산됩니다.

예를 들어, 각 텍스트 조각에 알려진 관련 항목이 있는 데이터 세트를 가지고 있다고 가정해 보겠습니다. 특정 쿼리 텍스트에 대해 데이터 세트에 10개의 관련 텍스트가 있고 모델이 상위 5개 결과(K=5) 내에서 3개의 관련 텍스트를 검색하면 Recall@5는 3/10 = 0.3 또는 30%가 됩니다.

이 메트릭은 임베딩 모델이 텍스트의 의미를 얼마나 잘 포착하고 유사한 텍스트를 임베딩 공간에서 서로 가까이 배치하는지를 이해하는 데 도움이 됩니다. 높은 Recall@K는 모델이 텍스트를 임베딩하는 데 효과적임을 나타내며, 관련 항목이 상위 K 결과 내에서 쉽게 검색될 수 있습니다. 이는 문서 검색, 질문 응답 및 추천 시스템과 같은 애플리케이션에서 관련 텍스트를 신속하게 찾는 것이 중요한 경우 특히 유용할 수 있습니다.

제목: AI 생성 데이터셋에 대한 Recall@k 결과

제목: Recall@k 결과에 대한 미국 특허 데이터셋

실용적인 적용 가능성이 있는 모델에 집중하기 위해, 정확한 지식 내재화를 보장하는 데 중요한 지표인 리콜 값을 기준으로 매우 낮은 리콜 값을 가진 모델을 필터링했습니다. 그런 다음 남은 모델은 y축에서 0.5에서 1 사이의 확대된 리콜 범위 내에서 평가되어 보다 세밀한 비교가 가능했습니다.

이 과정 전반에 걸쳐 하나의 모델이 지속적으로 두드러졌습니다: Microsoft의 intfloat/e5-large-v2. 이 모델은 두 데이터셋 모두에서 우수한 성능을 보여주었으며, 우리의 현재 모델을 초월하고 OpenAI의 업계 선도 모델과 동등한 결과를 전달했습니다. 데이터셋 A의 새로운 AI 생성 텍스트를 포함한 다양한 복잡한 데이터셋을 정밀하고 효율적으로 처리할 수 있는 능력은 그 강력함과 우리의 지식 임베딩 능력을 향상시킬 수 있는 잠재력을 입증합니다.

차트는 평가된 모델들의 재현 성능을 보여주며, 두드러진 모델이 명확한 선두 주자로 나타납니다. 데이터셋 A에서의 강력한 성능은 우리가 끊임없이 변화하는 지식 관리 환경에서 중요 요소인 미지의 데이터에 대한 적응력을 강조합니다.

정량적 메트릭이 필수적이지만, 우리는 또한 이 최고 성능 모델을 채택함으로써 발생하는 실제적인 의미를 고려했습니다. 그 우수한 성능은 우리 지식 임베딩 서비스의 향상된 정확성과 효율성으로 이어져, 새로운 데이터나 합성 데이터를 다룰 때에도 사용자에게 더 가치 있는 인사이트를 제공할 수 있게 해줍니다.

우리는 두드러진 모델을 우리 시스템에 통합하게 되어 매우 기쁘며, 그 출처나 복잡성에 관계없이 비구조화된 데이터를 구조화된 통찰력으로 변환하는 능력이 크게 향상될 것으로 기대합니다. 이 결정은 우리의 지속적인 우수성 추구와 최첨단 기술을 활용하여 최고 수준의 지식 관리 솔루션을 제공하겠다는 우리의 약속에서 중요한 이정표가 됩니다.

우리는 최고의 성능 모델과 함께 이 새로운 장을 시작하면서 혁신과 발견의 여정에 여러분을 초대합니다. 새로운 도전 데이터에 직면하더라도 AI 기반 지식 관리에서 가능한 것의 경계를 계속해서 넓혀 나가는 우리의 업데이트를 계속 지켜봐 주시기 바랍니다.

이 이야기를 놓치지 마세요:

한국어