分析器
Lucene的分析器是由分词器、过滤器以及字符映射器组成的
分词器
分词器tokenizer用来将文本切分为词条,词条是携带各种额外信息的词项,这些信息包括:词项在原始文本中的位置,词项的长度。分词器工作的结果被称为词条流,之后会将这些词条一个一个的推送给过滤器处理
过滤器
过滤器filter用于处理词条流中的词条,过滤器可以一个接一个的被调用,Lucene中有很多过滤器,如小写过滤器、同义词过滤器等
字符映射器
字符映射器character mapper用于调用分词器之前的文本预处理操作