解决方案探索实现向量+标量混合检索,一般有两种方式:前置过滤(-f)和后置过滤(-f)前置过滤指先对全体数据进行标量过滤,得到候选结果集,然后在候选结果集中进行向量检索,得到结果后置过滤指先进行向量检索,得到*个检索结果,再对这些结果进行标量过滤,得到最终的结果其中为扩召回倍数,主要是为了缓解向量检索结果被标量检索条件过滤,导致最终结果数不足个的问题
业界已有较多的成 牙买加 WhatsApp 号码列表 熟的全库检索的方案,后置过滤方案可以尽量复用现有框架,开发量小、风险低,因此我们优先考虑后置过滤方案我们基于的后置过滤方案快速实现了一版向量检索引擎,并验证其召回率与检索性能中成熟的检索算法有F、FF和FQ等,在不做扩召回的情况下,召回率偏低,因此我们在上选择了较大

测试数据集选取了线上真实的商品数据,据统计,符合标量过滤条件的候选向量数量平均为5万,在单上验证后置过滤检索性能与召回率如下:测试结果表面,以上三种算法均无法同时满足我们对检索性能和召回率的需求其中F与FQ召回率较低,F算法虽然召回率较高,但是与全体候选集计算向量相似度导致其性能较差举个例子,候选向量数据规模为万,向量维度为
|