分析在Lucene中指的是將域文本轉(zhuǎn)換為最基本的索引表示單元—項的過程。分析器對分析操作進(jìn)行了封裝,通過執(zhí)行一系列操作,將文本語匯單元化,這些操作包括提取單詞、去除標(biāo)點(diǎn)符號、去除語匯單元上的音調(diào)符號、將大寫字母轉(zhuǎn)換成小寫、移除常用詞、將單詞轉(zhuǎn)換為詞干(詞干還原)等。這個過程也可稱為語匯單元化過程,而從文本流中得到的文本塊稱為語匯單元(tokens)。各tokens與關(guān)聯(lián)的Field名結(jié)合就構(gòu)成了各個項(Term)。在Lucene中,一個標(biāo)準(zhǔn)的分析器Analyzer由兩部分組成,一部分是分詞器,被稱為Tokenizer;另一部分是過濾器,被稱為TokenFilter。一個分析器Analyzer往往由一個分詞器和多個過濾器組成。這里所說的過濾器,和檢索時用的過濾器是完全不同的兩個概念,這里所講的過濾器是用于對用戶切分出來的詞進(jìn)行一些處理,
關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營企業(yè)網(wǎng) 168ys.net 版權(quán)所有 2002-2010
浙ICP備11047537號-1