0%

搜索引擎之分词

搜索引擎之分词

分词,又称为切词,就是将句子或者段落进行切割,从中提取出包含固定语义的词。对于英语来说,语言的基本单位就是单词,因此,分词特别容易,只需要根据空格/符号/段落进行分割,并且排除停止词(stop word),提取词干,即可完成,但是对于中文来说,要将一段文字准确的切分成一个个词,就不那么容易了,中文是以字为最小单位,多个字连在一起才能构成一个表达具体含义的词,中文的句子和段落都有一个明显的标点符号分割,唯独词没有一个形式上的分割符,因此,对于支持中文搜索的搜索引擎来说,需要一个合适的中文分词工具,以便建立倒排索引。 提取词干是西方语言特有的处理步骤,比如英文中的单词有单复数的变形,-ing和-ed的变形,但是在搜索引擎中,应该当做同一个词。

停止词(stop word),在英语中包含了a、the、and这样使用频率很高的词,如果这些词都被建到索引中进行索引的话,搜索引擎就没有任何意义了,因为几乎所有的文档都会包含这些词,对于中文来说也是如此,中文里面也有一些出现频率很高的词,如“在”、“这”、“了”、“于”等等,这些词没有具体含义,区分度低,搜索引擎对这些词进行索引没有任何意义,因此,停止词需要被忽略掉