分析在Lucene中指的是將域文本轉換為最基本的索引表示單元—項的過程。分析器對分析操作進行了封裝,通過執(zhí)行一系列操作,將文本語匯單元化,這些操作包括提取單詞、去除標點符號、去除語匯單元上的音調符號、將大寫字母轉換成小寫、移除常用詞、將單詞轉換為詞干(詞干還原)等。這個過程也可稱為語匯單元化過程,而從文本流中得到的文本塊稱為語匯單元(tokens)。各tokens與關聯(lián)的Field名結合就構成了各個項(Term)。在Lucene中,一個標準的分析器Analyzer由兩部分組成,一部分是分詞器,被稱為Tokenizer;另一部分是過濾器,被稱為TokenFilter。一個分析器Analyzer往往由一個分詞器和多個過濾器組成。這里所說的過濾器,和檢索時用的過濾器是完全不同的兩個概念,這里所講的過濾器是用于對用戶切分出來的詞進行一些處理,