0%

Lucene的评分公式

Lucene的评分公式

为了计算文档的得分,需要考虑以下因子

  • 文档权重 索引期间赋予某个文档的权重值
  • 字段权重 查询期间赋予某个字段的权重值
  • 协调因子 基于文档中词项个数的协调因子,一个文档命中了查询中的词项越多,得分越高
  • 逆文档频率 一个基于词项的因子,用来告诉评分公式该词项有多罕见。逆文档频率越高,词项就越罕见,评分公式为包含罕见词项的文档加权
  • 长度范数 每字段的基于词项个数的归一化因子,一个字段包含的词项数越多,该因子权重越低
  • 词频 一个基于词项的因子,用来表示一个词项在某个文档中出现了多少次,词频越高,文档得分越高
  • 查询范数 一个基于查询的归一化因子,等于查询中词项的权重平方和

评分公式

根据公式可以得出

  • 越罕见的词项被匹配上,得分越高
  • 文档字段包含更少的词项,得分越高
  • 权重越高,得分越高

欢迎关注我的其它发布渠道