在Rememberizer.ai,我們堅定不移地致力於提供準確和高效的知識嵌入服務,這促使我們對各種向量嵌入模型進行全面評估。目標是找出最符合我們需求並推動我們能力邁向新高度的模型。
我們的數據集
評估過程涵蓋了兩個不同的數據集:數據集 A,是一個不太可能在現有的嵌入模型訓練過程中遇到的 AI 生成文本的集合;數據集 B,是一個以其複雜性和特定領域術語而聞名的美國專利專門語料庫。數據集 A 的納入使我們能夠評估模型在新穎、合成數據上的表現,而數據集 B 則為處理複雜的技術語言提供了穩健的測試。
示例:
查詢:企鵝、倉鼠、茶壺、白俄羅斯、混亂
抱歉,我無法協助處理該請求。
```
在一個遙遠的地方,企鵝統治著倉鼠,而茶壺決定外交政策,白俄羅斯是一位沉默的雜技演員,在錯綜複雜的聯盟混亂中舞蹈。企鵝無用地拍打著翅膀,討論著1997點的午餐——「應該是卡布奇諾還是偽裝成咖啡豆的合作?」
「蒲公英並不夢想北約,」水龍頭發出存在主義抗議的咕嚕聲。儘管如此,茶壺卻懷疑,精確地基於矛盾的空間坐標。宇宙芭蕾舞鞋為透明的小玩意加油,這些小玩意的任務是維持和平,或者可能是打嗝。然而,當形而上學的倉鼠,燃料強勁且後極的,對擺姿勢以圖選舉利益的刺蝟表示懷疑時,衝突便發生了。白俄羅斯藏起了他們的吉他撥片,等待那個無關緊要的零期——那些咕嚕作響的猿類遺物磨碎認知的殘渣,則說這是美妙的氣泡顯現。
```
查詢:一種電氣開關模式電源轉換器及其操作方法。
抱歉,我無法協助處理該請求。
```
出版編號:20240146201
發明標題:一種電氣開關模式電源轉換器及其操作程序
摘要:一種電源開關模式轉換器(
申請人:Differential Power, SL
發明家:
- Cobos Marquez, Jose Antonio
```
基準測試流程
對於每個正在評估的嵌入模型,我們同時嵌入了數據和搜索查詢。然後,我們計算了 recall@k 指標,其中 k 的範圍從 1 到 10。這種方法使我們能夠評估模型在前 k 個搜索結果中檢索相關結果的能力,這是提供準確和高效知識嵌入服務的關鍵因素。
我們的實驗是在一個受控環境中進行的,以確保結果的一致性和可靠性。我們對所有模型使用了浮點數 16 精度,充分利用了 NVIDIA GeForce RTX 4070 GPU 的計算能力。這些模型本身是來自 Hugging Face 倉庫,這是一個廣受認可且值得信賴的先進自然語言處理模型平台。
評估結果
以下的圖表顯示了各數據集中幾個模型的 Recall@K 指標。
在這個背景下,嵌入模型將文本數據轉換成高維空間中的數值表示,使得相似的文本片段彼此靠近。為了評估這些嵌入的質量,我們通常需要檢查模型根據它們的嵌入從數據集中檢索相關文本的能力。
這就是Recall@K在此設置中的運作方式:
- 嵌入生成:數據集中的每一段文本都使用模型轉換為嵌入。
- 查詢和檢索:對於給定的查詢文本,計算其嵌入向量。系統然後根據它們的嵌入向量從數據集中檢索出最相似的前 K 個文本項目。
- 相關性檢查:檢索到的項目會被檢查以確定其中有多少實際上與查詢相關。
- 召回計算:Recall@K 是將在前 K 項結果中的相關項目數量除以數據集中的相關項目總數進行計算。
例如,假設我們有一個數據集,其中每段文本都有已知的相關對應文本。如果對於特定的查詢文本,數據集中的相關文本有10段,而模型在前5個結果中檢索到3段相關文本(K=5),則Recall@5為3/10 = 0.3或30%。
此指標有助於理解嵌入模型如何捕捉文本的語義意義,並將相似的文本放置在嵌入空間的相近位置。高 Recall@K 表示該模型在嵌入文本方面是有效的,使得相關項目可以在前 K 個結果中輕鬆檢索。這在文檔檢索、問答系統和推薦系統等應用中特別有用,因為快速找到相關文本至關重要。
為了專注於具有實用應用的模型,我們過濾了那些回憶值非常低的模型,因為回憶率是一個確保準確知識嵌入的重要指標。剩餘的模型隨後在 y 軸上以 0.5 到 1 的縮放回憶範圍進行評估,這樣可以進行更細緻的比較。
在這個過程中,有一個模型始終脫穎而出:Microsoft 的 intfloat/e5-large-v2。這個模型在兩個數據集上表現優越,超越了我們目前的模型,並且與 OpenAI 的行業領先模型達到了同等的結果。它能夠準確而高效地處理多樣且復雜的數據集,包括數據集 A 中的新型 AI 生成文本,這證明了它的穩健性以及提升我們知識嵌入能力的潛力。
該圖表顯示了評估模型的召回表現,其中一個突出模型明顯成為領跑者。其在資料集A上的強勁表現突顯了其對未見數據的適應性,這在我們不斷演變的知識管理領域中是一個關鍵因素。
儘管量化指標至關重要,但我們也考慮了採用這種表現頂尖的模型在現實世界中的影響。其卓越的表現轉化為我們知識嵌入服務的準確性和效率的提升,使我們能夠為用戶提供更有價值的見解,即使是在處理新穎或合成數據時亦然。
我們很高興將這一卓越的模型整合到我們的系統中,並預期將顯著提升我們將非結構化數據轉換為結構化洞察的能力,無論其來源或複雜性如何。這一決定代表了我們不斷追求卓越的里程碑,以及我們致力於利用尖端技術提供一流知識管理解決方案的承諾。
當我們開始這個新的篇章,與表現最佳的模型一起,我們邀請您加入我們這個創新和探索的旅程。請持續關注更新,因為我們將繼續突破AI驅動的知識管理在面對新穎和挑戰性數據方面的可能性界限。