从查询重写角度理解elasticsearch的高亮原理

如题所述

第1个回答  2022-08-23
一、高亮的一些问题

elasticsearch提供了三种高亮方式,前面我们已经简单的了解了elasticsearch的高亮原理; 高亮处理跟实际使用查询类型有十分紧密的关系,其中主要的一点就是muti term 查询的重写,例如wildcard、prefix等,由于查询本身和高亮都涉及到查询语句的重写,如果两者之间的重写机制不同,那么就可能会碰到以下情况

相同的查询语句, 使用unified和fvh得到的高亮结果是不同的,甚至fvh Highlighter无任何高亮信息返回;

二、数据环境

elasticsearch 8.0

三、muti term查询重写简介

所谓muti term查询就是查询中并不是明确的关键字,而是需要elasticsearch重写查询语句,进一步明确关键字;以下查询会涉及到muti term查询重写;

以上查询都支持rewrite参数,最终将查询重写为bool查询或者bitset;

查询重写主要影响以下几方面

重写需要抓取哪些关键字以及抓取的数量;

抓取关键字的相关性计算方式;

查询重写支持以下参数选项

constant_score,默认值,如果需要抓取的关键字比较少,则重写为bool查询,否则抓取所有的关键字并重写为bitset;直接使用boost参数作为文档score,一般term level的查询的boost默认值为1;

constant_score_boolean,将查询重写为bool查询,并使用boost参数作为文档的score,受到indices.query.bool.max_clause_count 限制,所以默认最多抓取1024个关键字;

scoring_boolean,将查询重写为bool查询,并计算文档的相对权重,受到indices.query.bool.max_clause_count 限制,所以默认最多抓取1024个关键字;

top_terms_blended_freqs_N,抓取得分最高的前N个关键字,并将查询重写为bool查询;此选项不受indices.query.bool.max_clause_count 限制;选择命中文档的所有关键字中权重最大的作为文档的score;

top_terms_boost_N,抓取得分最高的前N个关键字,并将查询重写为bool查询;此选项不受indices.query.bool.max_clause_count 限制;直接使用boost作为文档的score;

top_terms_N,抓取得分最高的前N个关键字,并将查询重写为bool查询;此选项不受indices.query.bool.max_clause_count 限制;计算命中文档的相对权重作为评分;

三、wildcard查询重写分析

我们通过elasticsearch来查看一下以下查询语句的重写逻辑;

通过查询使用的字段映射类型构建WildCardQuery,并使用查询语句中配置的rewrite对应的MultiTermQuery.RewriteMethod;

根据查询语句中配置的rewrite,查找对应的MultiTermQuery.RewriteMethod,由于我们没有在wildcard查询语句中设置rewrite参数,这里直接返回null;

WildCardQuery继承MultiTermQuery,直接调用rewrite方法进行重写,由于我们没有在wildcard查询语句中设置rewrite参数,这里直接使用默认的CONSTANT_SCORE_REWRITE;

可以看到CONSTANT_SCORE_REWRITE是直接使用的匿名类,rewrite方法返回的是MultiTermQueryConstantScoreWrapper的实例;

在以下方法中,首先会得到查询字段对应的所有term集合;
然后通过 query.getTermsEnum获取跟查询匹配的所有term集合;
最后根据collectTerms调用的返回值决定是否构建bool查询还是bit set;

调用collectTerms默认只会提取查询命中的16个关键字;

通过以上分析wildcard查询默认情况下,会提取字段中所有命中查询的关键字;

四、fvh Highlighter中wildcard的查询重写

在muti term query中,提取查询关键字是高亮逻辑一个很重要的步骤;

我们使用以下高亮语句,分析以下高亮中提取查询关键字过程中的查询重写;

默认情况下只有匹配的字段才会进行高亮,这里构建CustomFieldQuery;

通过调用flatten方法得到重写之后的flatQueries,然后将每个提取的关键字重写为BoostQuery;

由于WildCardQuery是MultiTermQuery的子类,所以在flatten方法中最终直接使用MultiTermQuery.TopTermsScoringBooleanQueryRewrite进行查询重写,这里的top N是MAX_MTQ_TERMS = 1024;

这里首先计算设置的size和getMaxSize(默认值1024, IndexSearcher.getMaxClauseCount())计算最终提取的命中关键字数量,这里最终是1024个;

这里省略了传入collectTerms的TermCollector匿名子类的实现,其余最终提取关键字数量有关;

这里首先获取查询字段对应的所有term集合,然后获取所有的与查询匹配的term集合,最终通过传入的collector提取关键字;

这里通过控制最终提取匹配查询的关键字的数量不超过maxSize;

通过以上分析可以看到,fvh Highlighter对multi term query的重写,直接使用MultiTermQuery.TopTermsScoringBooleanQueryRewrite,并限制只能最多提取查询关键字1024个;

五、重写可能导致的高亮问题原因分析

经过以上对查询和高亮的重写过程分析可以知道,默认情况下

query阶段提取的是命中查询的所有的关键字,具体行为可以通过rewrite参数进行定制;

Highlight阶段提取的是命中查询的关键字中的前1024个,具体行为不受rewrite参数的控制;

如果查询的字段是大文本字段,导致字段的关键字很多,就可能会出现查询命中的文档的关键字不在前1024个里边,从而导致明明匹配了文档,但是却没有返回高亮信息;

六、解决方案
相似回答