bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的 #31931
you567
started this conversation in
Show and tell
Replies: 2 comments 2 replies
-
是的。
这句话里的“维度”我们一般不称为向量的维度,而是稀疏向量中非零值的数量。一般我们说的向量维度是下标的范围。 举一个例子:假设句子"a b c"被分词为
可以这么假设。不过当然可以构造出具有相同维度的句子。
在milvus中,创建一个包含稀疏向量列的collection时不需要指定维度,因此上述的三条向量(以及任何维度在uint32范围内的稀疏向量)都可以被插入到同一个collection的同一个稀疏向量列中,即使它们的维度/非零值数量都各有不同。 |
Beta Was this translation helpful? Give feedback.
0 replies
-
奥奥,好的,非常感谢!那使用sparse向量进行检索的话是否需要将句子中的停用词和标点等无用标识去掉,以提高检索的准确性啊? |
Beta Was this translation helpful? Give feedback.
2 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
您好,我发现bge-m3获取的sparse向量的维度是跟句子分词后的长度是对应的(我理解sparse向量类似于词袋模型 ,维度应该是vocab的维度),这就是说不同的句子sparse的维度是不同的?
Beta Was this translation helpful? Give feedback.
All reactions