どのようにして埋め込みモデルを選ぶのか?

Rememberizer.aiでは、正確で効率的な知識埋め込みサービスを提供するという揺るぎないコミットメントにより、様々なベクトル埋め込みモデルの包括的な評価を実施しました。その目的は、私たちの要件に最も合致し、私たちの能力を新たな高みへと押し上げるモデルを特定することでした。

データセット

評価プロセスは2つの異なるデータセットに及んだ:データセットAは、既存の埋め込みモデルのトレーニング中に遭遇する可能性の低い、AIによって生成されたテキストのコレクションであり、データセットBは、その複雑さとドメイン固有の用語で知られる米国特許の特殊なコーパスである。データセットAを含めることで、斬新な合成データに対するモデルの性能を評価することができ、データセットBは複雑な専門用語を扱うための強固なテストとなった。

例を挙げよう:

クエリ:ペンギン、ハムスター、ティーポット、ベラルーシ、カオス

対象文書

```

ペンギンがハムスターを支配し、ティーポットが外交政策を決定する遠い国で、ベラルーシは無言の曲芸師として、もつれた同盟の混沌の中で踊っていた。ペンギンは無駄に羽ばたき、1997時の昼食について議論した。

「タンポポはNATOの夢を見ない」と蛇口は実存的な抗議の声を上げた。それでもティーポットは迷い、パラドックスを前提とした空間座標を正確にキーンとしていた。宇宙のバレエシューズは、平和やしゃっくりを使命とする半透明のギズモに燃料を補給するはしごだ。しかし、形而上学的なハムスターが、選挙で利益を得ようとするハリネズミに疑惑の目を向けると、口論が起こった。ベラルーシはギターのピックを隠し、無関係なゼロという言葉を待っていた。

```

クエリ電気的スイッチモード電力変換器とその動作方法

対象文書

```

出版番号: 20240146201

発明の名称電気的スイッチトモード電力変換器およびその動作手順

概要:スイッチモード電力変換器(

申請者ディファレンシャル・パワー、SL

発明者

- コボス・マルケス、ホセ・アントニオ

```

ベンチマーキング・プロセス

評価対象の各埋め込みモデルについて、データと検索クエリの両方を埋め込んだ。そして、kを1から10までの範囲として、recall@kメトリックを計算した。このアプローチにより、正確で効率的な知識埋め込みサービスを提供する上で重要な要素である、上位k個の検索結果の中から関連する結果を検索するモデルの能力を評価することができました。

我々の実験は、一貫した信頼性の高い結果を保証するために、制御された環境で実施された。我々は、NVIDIA GeForce RTX 4070 GPUの計算能力を活用し、すべてのモデルに浮動小数点16精度を利用した。モデル自体は、最先端の自然言語処理モデルのプラットフォームとして広く認知され、信頼されているHugging Faceリポジトリから入手しました。

結果の評価

以下のグラフは、各データセットにおけるいくつかのモデルのRecall@K指標を示している。

この文脈では、埋め込みモデルはテキストデータを高次元空間の数値表現に変換し、類似したテキスト片が互いに近接するようにする。埋め込みモデルの品質を評価するためには、埋め込みモデルに基づいて、データセットから関連するテキストをどれだけ検索できるかをチェックする必要がある。

リコール@Kがこのセットアップでどのように機能するかは以下の通りだ:

  1. 埋め込み生成:データセット内の各テキストは、モデルを使って埋め込みに変換される。
  2. クエリーと検索:与えられたクエリテキストに対して、その埋め込みが計算される。そして、その埋め込みに基づいて、データセットから最も類似している上位K個のテキストアイテムを検索する。
  3. 関連性のチェック:検索された項目は、そのうちのいくつが実際にクエリに関連しているかを確認するために、グランドトゥルースと照合される。
  4. リコール計算:Recall@Kは、上位K個の結果から検索された関連アイテムの数を、データセット内の関連アイテムの総数で割った値として計算される。

例えば、各テキストに既知の関連性があるデータセットがあるとする。あるクエリテキストに対して、データセットに10個の関連テキストがあり、モデルが上位5つの結果(K=5)から3個の関連テキストを検索した場合、Recall@5は3/10 = 0.3、つまり30%となる。

この指標は、埋め込みモデルがテキストの意味的な意味をどの程度理解し、埋め込み空間において類似のテキストを互いに近づけるかを理解するのに役立つ。Recall@Kが高いということは、上位K個の検索結果の中で関連する項目が簡単に検索できるように、モデルがテキストを埋め込むのに効果的であることを示します。これは、文書検索、質問応答、推薦システムなど、関連するテキストを素早く見つけることが重要なアプリケーションにおいて特に有用である。

タイトルAIが生成したデータセットのRecall@k結果

タイトル米国特許データセットのRecall@k結果

実用的なモデルに焦点を絞るため、リコール値が非常に低いモデルを除外した。リコールは、正確な知識の埋め込みを保証するための重要な指標であるためである。残りのモデルは、y軸の0.5から1の拡大されたリコール範囲内で評価され、よりきめ細かい比較が可能となった。

このプロセスを通じて、一貫して際立っていたモデルがあります:Microsoftのintfloat/e5-large-v2です。このモデルは、両方のデータセットで優れた性能を発揮し、私たちの現在のモデルを上回り、OpenAIの業界をリードするモデルと同等の結果を出しました。データセットAの新奇なAI生成テキストを含む、多様で複雑なデータセットを正確かつ効率的に処理する能力は、その堅牢性と知識埋め込み能力を強化する可能性の証です。

このグラフは、評価されたモデルの想起パフォーマンスを示しており、傑出したモデルが明確なトップランナーとして浮かび上がっている。データセットAにおけるその強力なパフォーマンスは、ナレッジ・マネジメントの進化し続ける状況において重要な要素である、未見のデータへの適応性を浮き彫りにしています。

定量的な指標は不可欠ですが、私たちは、このトップクラスの性能を持つモデルを採用することの現実的な意味合いも考慮しました。その優れた性能は、私たちの知識埋め込みサービスの精度と効率の向上につながり、新規データや合成データを扱う場合でも、より価値のある洞察をユーザーに提供することを可能にします。

スタンドアウト・モデルを当社のシステムに統合することで、非構造化データを構造化された洞察に変換する能力が、その起源や複雑さに関係なく大幅に向上することを期待しています。今回の決定は、卓越性の継続的な追求と、最先端のテクノロジーを活用してトップクラスのナレッジ・マネジメント・ソリューションを提供するという当社のコミットメントにおけるマイルストーンです。

トップ・パフォーマンス・モデルと共に新たな一歩を踏み出すにあたり、私たちは皆様をこの革新と発見の旅にご招待いたします。斬新で困難なデータに直面しながらも、AI主導のナレッジ・マネジメントの可能性の限界に挑み続ける私たちの最新情報にご期待ください。

これらのストーリーをお見逃しなく: