Lucene的评分公式
为了计算文档的得分,需要考虑以下因子
- 文档权重 索引期间赋予某个文档的权重值
- 字段权重 查询期间赋予某个字段的权重值
- 协调因子 基于文档中词项个数的协调因子,一个文档命中了查询中的词项越多,得分越高
- 逆文档频率 一个基于词项的因子,用来告诉评分公式该词项有多罕见。逆文档频率越高,词项就越罕见,评分公式为包含罕见词项的文档加权
- 长度范数 每字段的基于词项个数的归一化因子,一个字段包含的词项数越多,该因子权重越低
- 词频 一个基于词项的因子,用来表示一个词项在某个文档中出现了多少次,词频越高,文档得分越高
- 查询范数 一个基于查询的归一化因子,等于查询中词项的权重平方和
根据公式可以得出
- 越罕见的词项被匹配上,得分越高
- 文档字段包含更少的词项,得分越高
- 权重越高,得分越高