概念理解
查詢重構指基於用戶原查詢詞,根據搜尋引擎查詢結果的反饋,用戶或者搜尋引擎自動更改或修正原查詢詞的行為。從用戶角度來講,查詢重構是用戶根據檢索系統反饋的結果列表,不斷修正原查詢詞,以期得到所需求信息的過程。從檢索系統角度來講,查詢重構亦稱查詢式擴展,主要研究利用查詢擴展技術,如關聯規則挖掘、聚類算法、偽相關反饋等對用戶輸入的檢索式進行擴展,使之更能代表用戶真正的查詢意圖。根據查詢重構的內涵,將查詢重構分為兩個階段:用戶構造初始查詢並點擊搜尋;用戶根據系統反饋的查詢結果列表重構初始查詢。
發展
對於大多數用戶而言,構造檢索詞是一個富有挑戰性的任務。搜尋引擎大都基於關鍵字進行檢索,用戶必須用幾個簡潔的關鍵字來表示欲搜尋信息,這就可能導致用戶不能很好地表達自己的查詢意圖。而用戶的互動行為,如網頁點擊、用戶反饋和查詢重構等均能表達用戶的查詢意圖。所以,通過分析用戶互動行為中的查詢重構行為,可使搜尋引擎支持多種查詢重構模式,並完善Web搜尋引擎的設計。A.Spink等設計了Excite日誌中用戶查詢重構的頻率,發現1997年和2001年分別有52%和45%的用戶重構原始查詢詞。
國外已有搜尋引擎實現了查詢重構功能,如AltaVista的Refine Your Search、Google的Did You Mean?、Exeite的ZOOM IN。但是2001年Exeite查詢重構工具ZOOM IN的評估機構發現:設計查詢重構工具列最應該考慮的不是接口的可用性和有效性,而是該工具推薦的查詢詞對用戶的實用性。目前支持查詢重構功能的檢索系統大都僅支持格式或拼寫錯誤的修正,不提供更多查詢重構的功能。因此,查詢重構內涵、作用機理的研究對完善搜尋引擎的設計顯得十分重要。
類型
查詢重構類型與模式分別指查詢重構策略的分類和一定時間或概念里,用戶查詢重構的序列。從用戶角度來講,查詢重構是用戶根據檢索系統反饋的結果列表,不斷修正原查詢詞,以期得到需求信息的過程。S.Y. Rieh和Xie Hong分析了Exeite搜尋引擎上的313個信息搜尋的查詢會話。他們定義了3 類查詢重構策略以及相關的查詢重構類型,如查詢語義的具體化、一般化、平行化、更改術語和更正錯誤。查詢語義的具體化指重構的查詢詞與原查詢詞相比概念更具體,如用戶通過增加單詞或替換成概念更具體的詞來提高檢索相關度,得到需求信息;查詢語義的平行化指當用戶修改原查詢詞時,從另外一個方面去構造該主題不同方面的查詢詞;查詢語義的一般化指當用戶沒有得到相關文檔時,通過刪減查詢詞或使用更一般性的詞來替代原查詢詞,從而使查詢結果相關。J. Teevan等基於雅虎的用戶搜尋日誌,探索用戶的重複檢索行為,並識別了查詢重構類型,如詞合併、刪除詞、抽取詞幹、多元化搜尋。B.J. Jansen 和 A.Spink 等對用戶查詢重構進行聚類得到以下幾種策略:查詢語義的具體化、一般化和更改內容。Guo Jiafeng 等在2008年將查詢重構的類型定義為拼寫錯誤、拆分詞、合併詞、切分短語等。2009 年,J. Huang 和 E. Efthimiadis探測到 13 種查詢重構類型,包括詞的重排序、增加空格和標點、刪除詞等。2011 年,B. Boldi 等開發了一種算法,自動追蹤查詢重構的類型。該算法觀察用戶在Web 搜尋引擎上的查詢重構行為,並自動劃分成不同類型,如查詢語義一般化、具體化和更改錯誤。
模式研究
查詢重構模式的研究主要分為3個方面:一是查詢重構模式的內涵;二是基於轉移矩陣,研究不同重構策略間的轉移機率;三是基於狀態預測模型,根據當前查詢重構策略預測下一重構策略。對於重構模式的內涵,只有 Xie Hong於2001年初次研究探索,在2006 年進行了補充,並最終根據用戶搜尋日誌總結了8 種查詢重構模式(specified、generalized、parallel、building-block、dynamic、multi-tasking、recurrent、format),但對於這 8 種查詢重構模式的具體定義及其套用卻沒有後續的研究。相比之下,更多學者較為關注重構策略間的轉移機率,如 B. J. Jansen 和 A. Spink 等利用轉移矩陣列舉了6 種重構策略間相互轉移的機率,發現大多數用戶在使用一般化查詢重構後會使用具體化查詢重構來縮小查詢範圍;而且,在初始查詢時使用具體化重構來縮小查詢範圍的頻次較高;具體化查詢重構是網路搜尋者的首選。P. Boldi等基於查詢詞流轉圖證實:具體化查詢重構一般緊隨一般化查詢重構策略,且具體化查詢重構發生在搜尋開始階段的頻次較高。查詢重構策略間轉移機率的研究,是為了探索查詢重構策略間是否存在緊密聯繫。所以有學者運用狀態預測模型,預測用戶重構策略,以便系統向用戶推薦高機率的查詢詞。B.Jansen 和 D. Booth 等套用 n-gram 模型,基於當前重構策略預測下一重構策略,並分別建立了 1 階、2 階、3 階、4 階模型及相應的模型評價指標。實驗表明,1 階、2 階模型能較好地預測重構模式,解釋用戶何時需要系統幫助、何時使用不同的重構類型等問題,從而為檢索系統的設計提供參考。
績效研究
許多學者曾經嘗試對查詢重構效率進行評定。基於13種查詢重構策略,J. Huang 和 E. Efthimiadis根據用戶的點擊行為,評價不同查詢重構策略的效率,發現一定的重構策略,如增刪詞、替換詞、縮寫詞的擴展以及修正拼寫錯誤能有效地提高搜尋結果的質量。2010 年,Liu Chang 等發現查詢重構效率隨著搜尋任務類型改變而改變。例如,在簡答任務類型中,具體化查詢重構相對更有效率,然而在平行結構搜尋任務中,替換詞是查 詢重構類型中最有效的方法。2011年,S.Joo 和 J.Lee基於信息檢索日誌,研究了查詢重構對提高搜尋結果的影響,發現平行化查詢重構比一般化和具體化重構方法更能使用戶得到滿意的搜尋結果。
目前,對於影響用戶搜尋行為和檢索績效的研究較為廣泛,但從查詢重構角度對檢索績效進行研究的還很少。研究結果表明:平行化查詢重構最能提高用戶對檢索績效的自我評估,而一般化重構方法對提高用戶自我評估的檢索績效最不理想; 查詢重構對檢索績效的影響還與搜尋任務有關。查詢重構績效研究是為了比較各查詢重構策略對提高用戶搜尋結果質量的作用,試圖從績效的角度探索各重構策略對用戶搜尋行為的影響。但是,單研究各重構策略搜尋行為的績效差異,還不能從根本上解釋為何不同情境下用戶會採用不同的重構策略,從而產生不同的搜尋績效。於是更多的學者從影響用戶查詢重構策略選擇的因素角度,分析不同特徵群體查詢重構行為的差異。
影響因素
人機互動行為的研究是用戶查詢重構研究的基礎,關於影響用戶搜尋行為因素的研究已經比較成熟。由表 1 可知,用戶領域知識影響搜尋性能( 完成任務的步驟數、時間、檢索到的頁面、訪問頁面種類) ; 認知方式顯著地影響 Web 搜尋性能( 檢索時間、檢索相關信息遍歷的節點數) ; 話題熟悉度、搜尋技能與用戶選擇搜尋策略行為有關聯; 任務類型是影響用戶搜尋行為的重要因素( 任務完成時間、文檔相關性判斷時間、眼睛注視時間等)。
在用戶互動行為研究的基礎上,學者也觀察了用戶的領域知識、系統知識、搜尋技能和用戶認知能力與查詢重構行為的關係。2005 年,H. A. Hembrooke等詳細地觀察了用戶領域知識對查詢操作的影響,包括構造查詢詞和更改查詢詞。他們發現專家用戶偏向細化查詢詞,並構造複雜查詢語句,然而普通用戶慣用簡單的查詢策略,如增減複數,增加冗餘詞,回溯等。Liu Chang、J. Gwizdka 和 N. J. Belkin觀察了用戶的認知能力和查詢重構行為的關係,發現具體化查詢重構和單詞替換是使用最為頻繁的兩種重構策略,且用戶的個人認知能力對查詢重構行為無顯著影響。S. Joo 和 J. Lee探索了領域知識和系統熟悉度如何影響查詢重構的效率。他們採用了多重回歸分析方法,發現領域知識和系統熟悉度在重構查詢詞時,對搜尋結果的影響不顯著。Hu Rong 等從用戶的角度,觀察用戶的話題熟悉度和搜尋技能對查詢重構的影響研究,認為話題熟悉度和搜尋技能對查詢重構在統計上無顯著影響,但對話題較為熟悉的用戶會出現較少的拼寫錯誤,並且樂意用具體化重構方法。
任務的類型是另一個影響查詢重構行為的因素。Liu Chang 等研究了信息檢索的任務類型與查詢重構策略的關係,實驗結果表明,用戶查詢重構模式隨著任務類型的變化而變化。例如,在簡答任務類型和層次結構任務類型中具體化查詢重構方法使用更為頻繁。I.Xie 和 S. Y. Joo發現,相對於職業或娛樂搜尋任務,查詢重構策略在學術搜尋任務中的使用較為廣泛。
查詢重構影響因素研究是在信息搜尋中人機互動行為研究基礎上,從用戶查詢重構角度分析影響其搜尋行為 的因素。由表可知,主要是從用戶的領域知識、系統知識、搜尋技能和用戶認知能力幾個方面分析用戶情境因素與查詢重構行為的關係。用戶查詢重構研究主要是從用戶角度研究查詢重構的類型、績效及影響因素,而信息搜尋是用戶和系統共同參與的過程,查詢重構研究也應該從用戶查詢重構和信息檢索中查詢式擴展技術研究出發,以提高檢索系統的查詢重構功能。
目前的研究與局限
目前,用戶查詢重構行為研究主要集中在兩個方面: 一是構建查詢重構狀態轉移矩陣; 二是識別影響查詢重構的群體特徵。針對第一個方面,根據用戶查詢歷史和重構過程,計算查詢重構策略間相互轉移的機率,構建查詢重構狀態轉移矩陣,從而向用戶推薦高機率的查詢詞。對於第二個方面,統計不同特徵群體的查詢重構頻次,研究群體特徵,如領域知識、系統知識、搜尋技能和用戶認知能力等對用戶查詢重構行為的影響,進而針對不同群體個性化地推薦查詢詞。
同時,目前有關查詢重構的研究也存在一定的局限:
1、大部分設計實驗採用了小樣本數據;
2、分析查詢重構影響因素的研究,多採用統計查詢重構策略頻次的方法,並沒有考慮查詢重構模式中的時間序列特點;
3、查詢式擴展技術研究沒有結合用戶的查詢重構行為,沒有體現查詢重構是系統和用戶互動結果的特點;
4、中文文獻中關於查詢重構行為的研究大多從檢索系統的角度探討如何提高系統的自動化查詢重構效率,而對於信息搜尋中用戶的查詢重構內涵、作用機理、影響因素的研究幾乎沒有。