0%

分析器

分析器

Lucene的分析器是由分词器、过滤器以及字符映射器组成的

分词器

分词器tokenizer用来将文本切分为词条,词条是携带各种额外信息的词项,这些信息包括:词项在原始文本中的位置,词项的长度。分词器工作的结果被称为词条流,之后会将这些词条一个一个的推送给过滤器处理

过滤器

过滤器filter用于处理词条流中的词条,过滤器可以一个接一个的被调用,Lucene中有很多过滤器,如小写过滤器、同义词过滤器等

字符映射器

字符映射器character mapper用于调用分词器之前的文本预处理操作

欢迎关注我的其它发布渠道