2007年10月2日 星期二

蒐集二手資料的方法-Google基本認知

說到蒐集二手級資料,當推Google搜尋網站,自從Google推出以來沒多久就打敗Yahoo這位老大哥,看看底下的調查就知道Google的市佔率超過50%以上,贏過第二名兩倍。所以我們也將以Google的搜尋網站作為蒐集二手資料的開始。##ReadMore##

表一、全美20074月與5月搜尋引擎市場佔有率情況
(
單位:百分比)


Nielsen/NetRatings

comScore


5

4

5

4

Google

56.3%

55.2%

50.7%

49.7%

雅虎

21.5%

21.9%

26.4%

26.8%

MSN

8.4%

9.0%

10.3%

10.3%

AOL

5.3%

5.4%

4.6%

5.0%

Ask.com

2.0%

1.8%

5.0%

5.1%

Source :科技政策研究與資訊中心(STPI)整理,20076

資料來源:STPI

Google首頁說明

首先在瀏覽器的網頁列填入www.google.com就會根據瀏覽者的所在地顯示該國字體的Google入口網站首頁。它的首頁與其他搜尋網站是不太一樣,大部分搜尋網站的首頁充滿廣告與服務內容,Google的首頁看起來就比較整齊,沒有廣告只有以搜尋為目的的資料。其他的入口網站總是希望停留在它的網站越久越好,所以一直以超炫、華麗、豐富的網頁設計來吸引使用者的眼球,畢竟使用者點選這些入口網站的網站連結,此入口網站就有可能獲利;而Google剛好有不同的認知,它認為其入口網站是開始點也是結束點,所以使用者使用其搜尋引擎搜尋資料,就會連結到目標網站,馬上離開Google的搜尋網頁。因此,其他入館網站總是想盡辦法讓你停留在網站上,不管是找尋資訊或是消費等等;而Google則是希望你快快找到目標網頁而後離開其網站。

以下為Google的首頁,在此說明如何適當地使用Google搜尋功能來找到我們所需的資料。

  1. ŒGoogle的註冊商標。
  2. 此列為Google所提供的服務內容。有「圖片」、「新聞」等等,點選「更多」可以顯示更多的服務內容。
  3. Ž、此列為搜尋列,輸入關鍵字來搜尋目標資料。
  4. 入關鍵字之後,點選「Google搜尋」鍵,執行搜尋動作,或者點選「好手氣」鍵,進入收尋結果排行第一的網頁。
  5. 搜尋來源,點選「所有網站」就會搜尋所有語言的資料,「台灣的網頁」則是只有搜尋台灣區域的網頁。
  6. 「廣告服務」是Google營業收入的方法,「Google完全手冊」是學習如何應用Google的手冊。
  7. 一些設定選項能更進一步的使用搜索技巧,還有一些使用偏好及自己使用語言的選擇等等。

一般搜尋引擎使用方式

通常使用搜尋引擎找尋資料時,都是直接在搜尋列填入關鍵字,例如:在上圖的Ž輸入:業務管理,然後點選Enter或按的「Google」搜尋就會顯示:

顯示符合「業務管理」的網頁Œ一共有20,500,000頁(Google的資料一直更新,所以網頁量不一定與上面相同),要在這麼多的網頁找尋適合的資料好像大海撈針,造成我們的負擔。所以一開始總是瀏覽前幾頁,因為資料過多,不得不放棄後面的網頁,也有可能後面的網頁是我們所需,放棄就太可惜了。因此,如何搜尋到真正符合我們所需要的資料,才是學習如何使用搜尋引擎的重點。Google排名第一的網頁,顯示完全符合「業務管理」的字串,至於Ž則是Google排名第二的網頁,但是只有部分符合「業務管理」的字串,例如:「業務」、「管理」等分開符合就被搜尋出來。從而可知Google根據中文的慣用詞句來搜尋網頁。為了使資料更加精準,可以使用「""」的運算子讓網頁完全符合侷限在雙引號裡面的關鍵字。例如:在搜尋列輸入:"業務管理",就會顯示:

顯示網頁一共有707,000項,比剛才的方式少了一半以上的網頁資料,讀者可以嘗試看看點選「台灣的網頁」再按「搜尋」,檢視符合的網頁是否減少。

使用AND運算子

Google搜尋資料也能運用布林值(Boolean),ORAND等等,Google是使用空格來代替AND的邏輯判斷準則,例如:"業務管理" Excel 應用"(雙引號)、Excel及應用需要使用空格格開三組字串。結果顯示:

此搜尋資料的準則是網頁必須完全符合「業務管理」而且還要有「Excel」及「應用」等字串,三組都要同時出現,只要網頁中沒有其中一組字串就不會被搜尋,也就不會顯示出來。再來檢視被搜尋到的網頁,紅色部分是符合的字串,這兩個網站的網頁都有我們要搜尋的資料。

使用OR運算子

OR的意思,在多組字串之中,只要一組符合條件就是我們要搜尋的網頁,換言之,假如搜尋「 OR 」的資料,網頁中出現「」或者「」的其中一組字串就表示符合所搜尋的條件,當然兩組同時出現也是可行。在搜尋列輸入:知識管理 OR 業務管理,就會顯示:

網頁只要符合「知識管理」或「業務管理」其中一項就會顯示。注意OR必須輸入大寫,小寫會被當成實際搜尋or字串,沒有邏輯判斷的功能,因此網頁只要有or字串就會顯示。

使用「-」運算子

除了ANDOR的邏輯判斷之外,也可以使用「-」減號作為「非」的條件。例如:「」能搜尋「」的網頁,但是不會顯示網頁中有「」的網頁。在Google的搜尋列輸入:"電腦價格" -筆記型,就會顯示非筆記型的電腦價格網頁。

注意減號之前需要使用空格。

從上面的例子可以了解Google搜尋「與」、「或」、「非」的基本運用方式,所以,利用「""」、「OR」、「-」運算子的混合應用能更精確找出我們所需要的網頁資料。在考慮搜尋目標時,網頁資料一定要有某些字串就輸入「"關鍵字"」,考慮兩組關鍵字中只要其中一組就可以時,就需要輸入「關鍵字 OR 關鍵字」,考慮目標是去掉某些字串就輸入「-字串」。下面為此三種運算子的關係解說圖。

假設DGoogle所能搜尋的所有資料,則搜尋條件「A C」是得出B範圍的資料也就是AC範圍交集的地方,「A OR C」是搜尋AC的資料,也就是AC兩個範圍,包含B範圍,至於條件A -C」是得出A的黃色範圍,BC範圍就會被排除掉。整個搜尋準則就如上面所述,了解這些運算子的實際執行狀況可以協助我們找到更精確的網頁資料。

運用萬用符號

除了上面的方法之外,也可以運用萬用符號,大部分電腦軟體運算使用「?」及「*」來代表萬用符號,但是Google只能使用「*」的符號。在搜尋列輸入:*管理,就會顯示:

搜尋結果是關於管理方面的網頁都會顯示,內容管理、協同管理、商務管理。但是如果*位於兩組字串中間時,就需要以雙引號限制這些字串。例如:輸入:"了解*管理",就會顯示:

結果顯示符合條件的網頁都會被搜尋出來,「了解無線管理」、「了解績效管理」、「了解專案管理」等等。注意!以上根據條件所搜尋的網頁不一定會與此書所顯示的一樣,因為Google會根據其演算法方式而產生不同的排名。

沒有留言: