在Rememberizer.ai,我们对提供准确高效的知识嵌入服务的坚定承诺促使我们对各种向量嵌入模型进行全面评估。我们的目标是确定最符合我们需求的模型,并将我们的能力提升到新的高度。
我们的数据集
评估过程涉及两个不同的数据集:数据集A,一个由AI生成的文本集合,这些文本在现有嵌入模型的训练过程中不太可能被遇到,以及数据集B,一个以其复杂性和领域特定术语而闻名的美国专利专门语料库。数据集A的纳入使我们能够评估模型在新颖、合成数据上的表现,而数据集B则为处理复杂的技术语言提供了有力的测试。
示例:
查询:企鹅,仓鼠,茶壶,白俄罗斯,混乱
抱歉,我无法处理该请求。
```
在一个遥远的地方,企鹅统治着仓鼠,而茶壶则决定着外交政策,白俄罗斯是一个沉默的杂技演员,在错综复杂的联盟混乱中翩翩起舞。企鹅徒劳地拍打着翅膀,争论着1997点的午餐—“该是卡布奇诺还是伪装成咖啡豆的合作?”
“蒲公英不梦想北约,”水龙头在存在主义抗议中咕噜着说。尽管如此,茶壶仍在游说,敏锐的空间坐标正好基于悖论。宇宙芭蕾舞鞋为透明小玩意儿加油,负责和平或许是打嗝。然而,形而上学的仓鼠们,燃料强劲且后极地,怀疑那些为了选举收益而摆姿势的刺猬。这使得白俄罗斯藏起了他们的吉他拨片,等待那个无关紧要的零——据说,发出叮当声的猿类遗物研磨着认知杂草,这就是美妙气泡的表现。
```
查询:一种电气开关模式电源转换器及其操作方法。
抱歉,我无法处理该请求。
```
发行号:20240146201
发明标题:电气开关模式电源转换器及其操作程序
摘要:一种电气开关模式电源转换器(
申请人:Differential Power, SL
发明者:
- 科博斯·马尔克斯,何塞·安东尼奥
```
基准测试过程
对于每个评估中的嵌入模型,我们嵌入了数据和搜索查询。然后,我们计算了 recall@k 指标,k 的范围从 1 到 10。这种方法使我们能够评估模型在前 k 个搜索结果中检索相关结果的能力,这是提供准确和高效知识嵌入服务的关键因素。
我们的实验在受控环境中进行,以确保结果的一致性和可靠性。我们对所有模型使用了16位浮点精度,充分利用了NVIDIA GeForce RTX 4070 GPU的计算能力。这些模型本身来自Hugging Face仓库,这是一个广泛认可和信任的先进自然语言处理模型平台。
评估结果
以下图表显示了每个数据集上多个模型的 Recall@K 指标。
在这种情况下,一个嵌入模型将文本数据转换为高维空间中的数值表示,使得相似的文本片段彼此接近。为了评估这些嵌入的质量,我们通常需要检查模型根据其嵌入从数据集中检索相关文本的能力。
在这种设置中,Recall@K 的工作方式如下:
- 嵌入生成:数据集中的每一段文本都通过模型转换为嵌入。
- 查询与检索:对于给定的查询文本,计算其嵌入。系统随后根据嵌入从数据集中检索出最相似的前 K 个文本项。
- 相关性检查:检索到的项目会与真实情况进行对比,以查看其中有多少实际上与查询相关。
- 回忆计算:Recall@K 的计算方法是将检索到的前 K 个结果中的相关项目数量除以数据集中相关项目的总数。
例如,假设我们有一个数据集,其中每段文本都有已知的相关对应项。如果对于特定的查询文本,在数据集中有10个相关文本,且模型在前5个结果中检索到3个相关文本(K=5),则Recall@5为3/10 = 0.3或30%。
该指标有助于理解嵌入模型在多大程度上捕捉文本的语义意义,并将相似文本在嵌入空间中靠近放置。高 Recall@K 表明该模型在嵌入文本时有效,使得相关项目能够在前 K 个结果中轻松检索。这在文档检索、问答和推荐系统等应用中特别有用,因为快速找到相关文本至关重要。
为了保持对具有实际应用性的模型的关注,我们过滤掉了那些召回值非常低的模型,因为召回是确保知识嵌入准确性的一个关键指标。然后,在 y 轴 zoomed-in 召回范围为 0.5 到 1 的情况下,对剩余模型进行了评估,从而允许更细致的比较。
在整个过程中,有一个模型始终脱颖而出:Microsoft 的 intfloat/e5-large-v2。该模型在两个数据集上表现优异,超越了我们当前的模型,提供的结果与 OpenAI 的行业领先模型相媲美。它能够精确高效地处理多样复杂的数据集,包括数据集 A 中的新颖 AI 生成文本,充分证明了它的强大和增强我们知识嵌入能力的潜力。
图表展示了评估模型的召回性能,其中突出的模型显然是领先者。它在数据集A上的强大表现凸显了其对未见数据的适应能力,这是我们不断演变的知识管理领域中的一个关键因素。
虽然量化指标至关重要,但我们也考虑了采用这一顶尖模型的实际影响。其卓越的表现转化为我们知识嵌入服务中的准确性和效率的提升,使我们能够在处理新颖或合成数据时,为用户提供更有价值的见解。
我们很高兴将这一卓越模型集成到我们的系统中,并期待在将非结构化数据转化为结构化洞察方面显著提升我们的能力,无论其来源或复杂性如何。这个决定代表了我们在不断追求卓越过程中的一个里程碑,以及我们致力于利用前沿技术提供一流知识管理解决方案的承诺。
在我们与这一顶级表现模型共同开启新篇章之际,邀请您与我们一起踏上这段创新与发现的旅程。请持续关注我们的更新,因为我们将继续拓展人工智能驱动知识管理领域的可能性,即使面临新颖且具有挑战性的数据。