bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的 #31931

you567 · 2024-04-06T09:49:41Z

you567
Apr 6, 2024

您好，我发现bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的（我理解sparse向量类似于词袋模型，维度应该是vocab的维度），这就是说不同的句子sparse的维度是不同的?

zhengbuqian · 2024-04-07T02:46:31Z

zhengbuqian
Apr 7, 2024
Collaborator

是的。

bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的

这句话里的“维度”我们一般不称为向量的维度，而是稀疏向量中非零值的数量。一般我们说的向量维度是下标的范围。

举一个例子：假设句子"a b c"被分词为['a', 'b', 'c']，然后bge-m3将这句话编码成的稀疏向量是{'a': 0.1, 'b': 0.2, 'c': 0.3}，将token根据vocab映射为数字后假设是{1000: 0.1, 2000: 0.2, 3000: 0.3}。此时分词后的长度和向量的非零值数量为3，而这条向量的维度我们认为是3001（最大的下标加1。）

不同的句子sparse的维度是不同的？

可以这么假设。不过当然可以构造出具有相同维度的句子。

{'a': 0.1, 'b': 0.2, 'c': 0.3} -> {1000: 0.1, 2000: 0.2, 3000: 0.3}: 非零值数量为3，维度为3001
{'a': 0.1, 'b': 0.2, 'd': 0.3} -> {1000: 0.1, 2000: 0.2, 2500: 0.3}: 非零值数量为3，维度为2501
{'a': 0.1, 'c': 0.3} -> {1000: 0.1, 3000: 0.3}: 非零值数量为2，维度为3001

在milvus中，创建一个包含稀疏向量列的collection时不需要指定维度，因此上述的三条向量（以及任何维度在uint32范围内的稀疏向量）都可以被插入到同一个collection的同一个稀疏向量列中，即使它们的维度/非零值数量都各有不同。

0 replies

you567 · 2024-04-22T05:53:49Z

you567
Apr 22, 2024
Author

奥奥，好的，非常感谢！那使用sparse向量进行检索的话是否需要将句子中的停用词和标点等无用标识去掉，以提高检索的准确性啊？

5 replies

zhengbuqian Apr 23, 2024
Collaborator

这个是根据你所使用的生成sparse向量的模型算法相关。传统基于统计的BM25等方法需要手动去除停用词和标点，但是像BGE-M3和SPLADE这种基于机器学习的模型应该是不用的，它们自己在内部会处理

you567 May 3, 2024
Author

奥奥，非常感谢！
最近又发现了几个问题，可否帮忙看下啊？
目前的需求是对相似文章的段落做内容召回，将bge-m3输出的sparse+稠密向量导入milvus使用混合检索以及基于倒数排序融合(RRF)：
1.检索结果中的distance此时等同于分数吗，就是distance越大，相似度越高？
2.需对召回结果设置一个阈值，这个阈值的话该怎样设置（distance比较低且都比较接近）？
3.返回的top3中，distance似乎都不高，而且很奇怪的是（1）top1和top2的内容不同，但distance相同，
（2）top2和top3的内容相同，但distance不同。
4.rerank的无监督版本的微调，是否可以参照embeding的策略 “标题-正文” ？

cenling40 Dec 5, 2024

你好，我也遇到了类似的问题，为什么distance这里不能反映相似度水平呢？还有我发现相同的sentence计算embedding的时候，sparse embedding会变化，不能很好理解这个

zhengbuqian Dec 5, 2024
Collaborator

@you567 使用RRF的时候，返回的distance是RRF计算的得分，此时原始embedding的得分已经被丢弃了。RRF的得分完全由这个结果在各个route的排名决定。参考 https://milvus.io/docs/reranking.md#Reciprocal-Rank-Fusion-RRFRanker。根据公式可以看出，越相似，排名越靠前，分数越高。

比如在一个双路召回，某一篇文档的在两路的排名分别是第1和第10，然后 smoothing parameter k 设置为 60，则它的最终得分是 1 / (60 + 1) + 1 / (60 + 10) = 0.030679156908665108. 如果另一篇文档在这两路的排名分别是第10和第1，则他们的最终距离也相等。

要设置阈值可以使用 range search https://milvus.io/docs/range-search.md.

第3个问题：(1) 不同的内容如果在两路的排名刚好相反，则RRF分数也一样。 (2) 相同的文档分数不同是因为：虽然两篇文档的向量距离相同，但是排名还是不一样，比如一个是第一，另一个是第二，计算RRF的时候只使用了排名，分数就变了。

第4个问题：我对模型不是特别了解，但是我的认知里应该是可以的。

zhengbuqian Dec 5, 2024
Collaborator

@cenling40 参见上面的回复，使用RRF时返回的distance是完全根据每一路的排名确定的，每一路中的原始分数被丢弃了。但是这个distance还是反应相似度的：越大越相似。

发现相同的sentence计算embedding的时候，sparse embedding会变化

你使用的什么模型？会不会是模型本身有一定的随机性？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的 #31931

{{title}}

Replies: 2 comments 5 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的 #31931

you567 Apr 6, 2024

Replies: 2 comments · 5 replies

zhengbuqian Apr 7, 2024 Collaborator

you567 Apr 22, 2024 Author

zhengbuqian Apr 23, 2024 Collaborator

you567 May 3, 2024 Author

cenling40 Dec 5, 2024

zhengbuqian Dec 5, 2024 Collaborator

zhengbuqian Dec 5, 2024 Collaborator

you567
Apr 6, 2024

Replies: 2 comments 5 replies

zhengbuqian
Apr 7, 2024
Collaborator

you567
Apr 22, 2024
Author

zhengbuqian Apr 23, 2024
Collaborator

you567 May 3, 2024
Author

zhengbuqian Dec 5, 2024
Collaborator

zhengbuqian Dec 5, 2024
Collaborator