寶妮Angela
愛宇冰冰
1計算機(jī)信息檢索的基本方法1明確檢索要求和檢索目標(biāo)計算機(jī)檢索的第一步準(zhǔn)備工作是明確檢索要求和檢索目標(biāo)。明確檢索要求就是要搞清楚本課題屬于什么學(xué)科,所需文獻(xiàn)的類型及語種,查找文獻(xiàn)的年代,所需文獻(xiàn)的最佳篇數(shù),允許支配的檢索費用。這些要求對選擇數(shù)據(jù)庫、構(gòu)造檢索策略都是十分重要的。確定檢索目標(biāo)也是進(jìn)行計算機(jī)信息檢索前應(yīng)搞清楚的準(zhǔn)備工作。例如:如果屬于開題調(diào)研,則應(yīng)盡可能地檢索出與之相關(guān)的全部文獻(xiàn),即要求較高的查全率;以便充分地做好開題的準(zhǔn)備工作;如果屬于探索性、開創(chuàng)性的課題,則只需要查出一些啟發(fā)性的文獻(xiàn),對查準(zhǔn)率和查全率要求都不一定有很高的要求。2課題分析課題概念的分析方法分析課題就是分析出課題所涉及的主要概念,并找出能代表這些概念的若干個詞或詞組,進(jìn)而分析概念之間的上、下、左、右關(guān)系。對于新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,則要搞清楚這些概念之間的關(guān)系。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組的形式列出,以便下一步制訂檢索策略時使用。隱含概念的分析方法有些課題的實質(zhì)性內(nèi)容往往很難從課題的名稱上反映出來,課題所隱含的概念和相關(guān)的內(nèi)容需要從課題所屬的專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的檢索概念。例如:"社會保障"包含"養(yǎng)老保險"、"失業(yè)保險"、"醫(yī)療保險"和"社會救濟(jì)"等概念,如果要檢索社會保障方面的文獻(xiàn),應(yīng)該析出上述概念,才能保證文獻(xiàn)的查全率。核心概念的選取有些檢索詞中已經(jīng)含有的某些概念,在概念分析中應(yīng)予以排除。例如:課題"公司勞動獎勵、職工培訓(xùn)和養(yǎng)老保險制度管理的理論和實踐",如果把"勞動獎勵","職工培訓(xùn)","養(yǎng)老保險","公司","制度","管理"六個概念全部組配起來,則會造成大量文獻(xiàn)漏檢。實際上,勞動力資源管理已經(jīng)包含了勞動獎勵、職工培訓(xùn)和養(yǎng)老保險三個方面,而且,勞動力管理必然是針對該三個方面而言的。因此,本課題只須采用"勞動力資源"和"管理"這兩個本質(zhì)概念即可。為了提高文獻(xiàn)的檢準(zhǔn)率,應(yīng)該從相應(yīng)的規(guī)范詞表中選擇所需的檢索詞。并且在確定檢索詞時,除了要考慮反映主題概念的同義詞、近義詞等相關(guān)的檢索詞外,還要注意選擇被選用檢索詞的縮寫詞和不同拼法的詞,以避免漏檢有關(guān)的文獻(xiàn)。3檢索詞的擴(kuò)展、選擇和處理目前的計算機(jī)信息檢索系統(tǒng),還不具備智能思考的能力,還不會對所輸入的檢索詞以及涉及的所有詞進(jìn)行自動、全面的檢索,因此,必須在概念分析的基礎(chǔ)上列出與概念有關(guān)的詞,從中做出選擇,并利用截詞等方法對檢索詞予以歸并。1.相同概念的檢索詞的擴(kuò)展擴(kuò)展相同概念的檢索詞的方法一般有同義詞方法、主題詞表方法和截詞方法(1)同義詞方法。在同一概念的范疇內(nèi),從語言角度,選擇不同的名稱、不同的拼寫方法和單復(fù)數(shù)形式。不同的名稱包括學(xué)名和俗名、簡稱和全稱,商品名和物質(zhì)或產(chǎn)品名,事物的代碼和事物的學(xué)名。不同的拼寫方法,以英語為例,包括英式英語和美式英語的區(qū)別。(2)截詞方法。當(dāng)某些檢索詞詞干相同、詞義相近,但詞尾或詞中間有變化時(多數(shù)英語單詞的單復(fù)數(shù)變化和英美不同拼寫形式),可以采用截詞方法擴(kuò)展檢索詞。這種方法要求在詞干后使用截詞符。截詞符一般包括"?"和"*"兩種。具體采用什么形式,各個系統(tǒng)都有明確的規(guī)定。例如:在DIALOG系統(tǒng)中,截詞符號有無限截詞算符("?")和有限截詞("??"和"???")等多種,"?"有時還用做字符屏蔽符。(3)主題詞表方法許多數(shù)據(jù)庫都編有自己的主題詞表。在數(shù)據(jù)庫編有主題詞表的情況下,應(yīng)該盡量從詞表中選擇檢索詞。使用主題詞表,不僅可以使檢索詞更加規(guī)范,提高檢索結(jié)果的準(zhǔn)確性,而且可以從同族詞中選取更多的上位詞、下位詞、相關(guān)詞,使獲得的檢索結(jié)果更為理想。2.檢索詞的選擇和處理運用上述方法得到的詞,首先應(yīng)加以選擇,即注意選用本專業(yè)通用的術(shù)語(應(yīng)避免使用冷僻詞和根據(jù)中文術(shù)語自譯生造的詞),然后以概念為單位,構(gòu)成組面(facets)。例如:課題"東西方社會保障制度比較研究"的概念組面和檢索詞為:--------------------------------------------------------------------------------2計算機(jī)信息檢索的基本方法概念組面1:"社會保障"socialsecurity概念組面2:"制度研究"system?R4數(shù)據(jù)庫的選擇不同數(shù)據(jù)庫的學(xué)科范圍不同,檢索指令不同,收費的標(biāo)準(zhǔn)也不同。所以,在檢索之前應(yīng)該閱讀有關(guān)數(shù)據(jù)庫的使用介紹,以便選擇數(shù)據(jù)庫時做到心中有數(shù)。選擇數(shù)據(jù)庫,我們一般應(yīng)該遵循以下幾條原則1.按照課題的檢索要求和目的,選擇收錄文獻(xiàn)種類多、專業(yè)覆蓋面寬、年代跨度對口的數(shù)據(jù)庫;2.當(dāng)需要查找最新文獻(xiàn)信息時,選擇數(shù)據(jù)更新周期短的數(shù)據(jù)庫;3.當(dāng)還需要獲取原文時,選取原文獲取較容易的數(shù)據(jù)庫;4.在同時有多個數(shù)據(jù)庫可供選擇的情況下,應(yīng)首先選擇比較熟悉的數(shù)據(jù)庫。5.當(dāng)幾個數(shù)據(jù)庫的內(nèi)容交叉重復(fù)率比較高時,應(yīng)選擇檢索費用比較低的數(shù)據(jù)庫。5檢索策略構(gòu)成和調(diào)整方法在實際檢索過程中,僅需一個檢索詞就能滿足檢索要求的情況并不很多。通常我們需要使用多個檢索詞構(gòu)成檢索策略,以滿足由多概念組配而成的較為復(fù)雜課題的要求。檢索策略,又稱提問邏輯,就是對多個檢索詞之間的相互關(guān)系和檢索順序作出的某種安排。構(gòu)成檢索策略就是運用計算機(jī)情報檢索系統(tǒng)可以接受的方法,包括布爾邏輯算符、位置邏輯算符等方法,表達(dá)課題檢索要求的過程。1.布爾邏輯算符規(guī)定檢索詞之間的邏輯關(guān)系的算符,稱為布爾邏輯算符。布爾邏輯算符包括邏輯"或(OR)"、"與(AND)"和"非(NOT)"。(1)或(OR)運算符。也可用"+"代替,是用來組配具有同義或同族概念的詞,如同義詞、相關(guān)詞等。其含義是,檢出的記錄中,至少含有兩個檢索詞中的一個。OR算符的基本作用是擴(kuò)大檢索范圍,增加命中文獻(xiàn)量,提高檢索結(jié)果的查全率,OR運算符還有一個去重的功能。在實際檢索中,同一組面中含義相同的詞,相互之間都使用OR運算符。另外,在使用截詞方法檢索具有相同詞干的檢索詞時,這些詞之間也自動地隱含了邏輯"或"的關(guān)系。(2)與(AND)運算符。也可用"*"代替,用來組配不同檢索概念。其含義是檢出的記錄必須同時含有所有的檢索詞。AND算符的基本作用是縮小檢索范圍,減少命中文獻(xiàn)量,提高檢索結(jié)果的查準(zhǔn)率。在實際檢索中,不同概念組面之間以及同一組面內(nèi)的不同含義的詞之間通常使用AND算符。(3)非(NOT)運算符。也可用"-"代替,但在檢索時建議使用NOT,以避免與詞間的分隔符"-"混淆,NOT算符是排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時含有其后的詞。NOT算符的基本作用是縮小檢索范圍,提高檢索結(jié)果的查準(zhǔn)率位置算符位置算符又稱鄰接算符(adjacentoperators),適用于兩個檢索詞以指定間隔距離或者指定的順序出現(xiàn)的場合,比如,以詞組形式表達(dá)的概念;彼此相鄰的兩個或兩個以上的詞;被禁用詞或特殊符號分隔的詞等。位置算符是調(diào)整檢索策略的一種重要手段。按照兩個檢索詞出現(xiàn)的順序和距離,可以有多種位置算符,而且對同一種位置算符,檢索系統(tǒng)不同,規(guī)定的位置算符也不同。例如,Compendex光盤數(shù)據(jù)庫使用的位置算符"(N)"(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點符號外,不得插入其它詞或字母,兩詞的詞序可以顛倒)、"(F)"(表示其兩側(cè)的檢索詞必須在同一字段(例如同在題目字段或文摘字段)中出現(xiàn),兩詞的詞序可以顛倒)、"(S)"(表示其兩側(cè)的檢索詞必須在同一句子中出現(xiàn),兩詞的詞序可以顛倒)和"(W)"(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點符號外,不得插入其它詞或字母,兩詞的詞序不可以顛倒)四種。3.字段限制字段限制也是調(diào)整檢索策略的一種重要的手段。它是限定檢索詞必須在數(shù)據(jù)庫記錄中規(guī)定的字段范圍內(nèi)出現(xiàn)的文獻(xiàn),方為命中文獻(xiàn)的一種檢索方法。如果想指定在題名等字段中查找所希望的檢索詞,就需要使用字段限制。字段限制適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率的場合。由于字段限制采用前綴和后綴的形式,因此又稱為前綴限制和后綴限制。例如Compendex光盤數(shù)據(jù)庫基本字段限制的用法是在需要指定字段的檢索詞后加上后綴運算符"/"和段碼。這個數(shù)據(jù)庫輔助字段限制的用法是在需要指定字段的檢索詞(有時檢索詞須放在雙引號內(nèi))之前加上段碼和前綴運算符"="。--------------------------------------------------------------------------------3計算機(jī)信息檢索的基本方法檢索策略的調(diào)整檢索策略輸入檢索系統(tǒng)后,系統(tǒng)響應(yīng)的檢索結(jié)果有時不一定能滿足課題檢索的要求,例如:或者檢出的篇數(shù)過多,而且不相關(guān)文獻(xiàn)所占比例很大,或者檢出的文獻(xiàn)數(shù)量太少,有時甚至為零,這時就需要調(diào)整檢索策略。調(diào)整檢索策略之前,首先要分析造成檢索結(jié)果不理想的原因。對于輸出篇數(shù)過多的情況,應(yīng)分析是否是由下述原因造成的:①選用了多義性的檢索詞;②截詞截得過短;③輸入的檢索詞太少;④應(yīng)該使用"與(AND)"的使用了"或(OR)";⑤優(yōu)先運算符"()"使用錯誤。對于輸出篇數(shù)過少的情況,應(yīng)分析是否是由下述原因造成的:①檢索詞拼寫錯誤;②遺漏重要的同義詞或隱含概念;③檢索詞過于冷僻具體;④沒有使用截詞算符;⑤位置算符和字段算符使用的過多;⑥使用過多的"與(AND)"算符。針對上述原因,如果是屬于需要擴(kuò)大檢索范圍,提高文獻(xiàn)查全率,調(diào)整檢索策略的方法有:①減少"與(AND)"算符,增加同義詞或同族相關(guān)詞使用邏輯或(OR)將它們連接起來;②在詞干相同的單詞后使用截詞符(?);③去除已有的字段限制、位置算符限制(或者改用限制程度較小的位置算符)。如果是屬于縮小檢索范圍,提高文獻(xiàn)查準(zhǔn)率的,調(diào)整檢索策略的方法有:①減少同義詞或同族相關(guān)詞;②增加限制概念,用邏輯與(AND)將它們連接起來;③使用字段限制,或者限定檢索詞在指定的基本字段,或者指定的輔助字段出現(xiàn),限制檢索結(jié)果的文獻(xiàn)類型、語種、出版國家;④使用適當(dāng)?shù)奈恢盟惴?;⑤使?非(NOT)"算符,排除無關(guān)概念。6輸出格式和方式的選擇所謂輸出格式的選擇是對記錄字段的選擇。所謂輸出方式的選擇是指對屏幕顯示、打印和存盤的選擇。一般情況下,如果輸出的是中間結(jié)果,屬于基本字段的題目(TI)、文摘(AB)、敘詞(DE)和識別詞(ID)字段是必須的,這些字段有利于觀察結(jié)果,對檢索策略做進(jìn)一步調(diào)整。如果是最終結(jié)果,可以根據(jù)時間、經(jīng)費條件選擇其中適用的格式。輸出方式的選擇,要注意的問題是,數(shù)據(jù)庫是否只允許打印、存盤選中的記錄;在選定打印、存盤后,是否還須進(jìn)一步選擇"當(dāng)前記錄""全部記錄""選中記錄";另外如果是存盤,是否還有文件擴(kuò)展名的限制。
優(yōu)質(zhì)湖北自考問答知識庫
限時免費領(lǐng)取!
已幫助10w+意向?qū)W歷提升用戶成功上岸