① 搜索引擎的工作原理
搜索引擎的基本工作原理包括如下三個過程:首先在互聯網中發現、搜集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。
1、抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。爬蟲Spider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。
2、處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
3、提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
② 瀏覽器和搜索引擎有什麼區別
瀏覽器是一個程序,是用來顯示網站(網頁)的工具軟體;搜索引擎是一個網站,是用來查詢網站(網頁)的,搜索引擎通過一定的演算法,收集大量的資料,再根據用戶的需求把相應的資料展現出來。
瀏覽器可以沒有搜索引擎,只需要輸入想要查詢的網站地址,就可以把網站載入出來,但是如果忘記了該網址,只輸入想要的關鍵詞,瀏覽器是無法查詢到的。但是如果把想要的內容在搜索引擎輸入,就會展現大量有關的內容。
體系結構
搜索引擎基本結構一般包括:搜索器、索引器、檢索器、用戶介面等四個功能模塊。
1、搜索器:
搜索器也叫網路蜘蛛,是搜索引擎用來爬行和抓取網頁的一個自動程序,在系統後台不停歇地在互聯網各個節點爬行,在爬行過程中盡可能快的發現和抓取網頁。
2、索引器。
它的主要功能是理解搜索器所採集的網頁信息,並從中抽取索引項。
3、檢索器。
其功能是快速查找文檔,進行文檔與查詢的相關度評價,對要輸出的結果進行排序。
4、用戶介面。
它為用戶提供可視化的查詢輸入和結果輸出的界面。
③ 搜索引擎大致由哪三個部分組成( )。
搜索系統、索引系統、檢索系統。答案應該選ABC。
解析:搜索引擎基本結構一般包括:搜索器、索引器、檢索器、用戶介面等四個功能模塊。
1、搜索器:搜索器也叫網路蜘蛛,是搜索引擎用來爬行和抓取網頁的一個自動程序,在系統後台不停歇地在互聯網各個節點爬行,在爬行過程中盡可能快的發現和抓取網頁。
2、索引器:它的主要功能是理解搜索器所採集的網頁信息,並從中抽取索引項。
3、檢索器:其功能是快速查找文檔,進行文檔與查詢的相關度評價,對要輸出的結果進行排序。
4、用戶介面:它為用戶提供可視化的查詢輸入和結果輸出的界面。
(3)搜索引擎的基本結構圖片擴展閱讀:
按照搜索方式進行分類:
1、全文搜索引擎
一般網路用戶適用於全文搜索引擎。這種搜索方式方便、簡捷,並容易獲得所有相關信息。但搜索到的信息過於龐雜,因此用戶需要逐一瀏覽並甄別出所需信息。尤其在用戶沒有明確檢索意圖情況下,這種搜索方式非常有效。
2、元搜索引擎
元搜索引擎適用於廣泛、准確地收集信息。不同的全文搜索引擎由於其性能和信息反饋能力差異,導致其各有利弊。元搜索引擎的出現恰恰解決了這個問題,有利於各基本搜索引擎間的優勢互補。而且本搜索方式有利於對基本搜索方式進行全局控制,引導全文搜索引擎的持續改善。
3、垂直搜索引擎
垂直搜索引擎適用於有明確搜索意圖情況下進行檢索。例如,用戶購買機票、火車票、汽車票時,或想要瀏覽網路視頻資源時,都可以直接選用行業內專用搜索引擎,以准確、迅速獲得相關信息。
4、目錄搜索引擎
目錄搜索引擎是網站內部常用的檢索方式。本搜索方式旨在對網站內信息整合處理並分目錄呈現給用戶,但其缺點在於用戶需預先了解本網站的內容,並熟悉其主要模塊構成。總而觀之,目錄搜索方式的適應范圍非常有限,且需要較高的人工成本來支持維護。
④ 2.簡述web搜索引擎基本結構由哪三部分組成,以及各部分的作用
一個搜索引擎由搜索器 、索引器 、檢索器 和用戶介面 四個部分組成。搜索器的功能是在互聯網 中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。
⑤ 搜索引擎都有哪幾種類型
搜索引擎可分為四類:全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎。具體如下:
1、全文搜索引擎:
一般網路用戶適用於全文搜索引擎。這種搜索方式方便、簡捷,並容易獲得所有相關信息。但搜索到的信息過於龐雜,因此用戶需要逐一瀏覽並甄別出所需信息。尤其在用戶沒有明確檢索意圖情況下,這種搜索方式非常有效。
2、元搜索引擎:
元搜索引擎適用於廣泛、准確地收集信息。不同的全文搜索引擎由於其性能和信息反饋能力差異,導致其各有利弊。元搜索引擎的出現恰恰解決了這個問題,有利於各基本搜索引擎間的優勢互補。而且本搜索方式有利於對基本搜索方式進行全局控制,引導全文搜索引擎的持續改善。
3、垂直搜索引擎:
垂直搜索引擎適用於有明確搜索意圖情況下進行檢索。例如,用戶購買機票、火車票、汽車票時,或想要瀏覽網路視頻資源時,都可以直接選用行業內專用搜索引擎,以准確、迅速獲得相關信息。
4、目錄搜索引擎:
目錄搜索引擎是網站內部常用的檢索方式。該搜索方式旨在對網站內信息整合處理並分目錄呈現給用戶,但其缺點在於用戶需預先了解本網站的內容,並熟悉其主要模塊構成。總而觀之,目錄搜索方式的適應范圍非常有限,且需要較高的人工成本來支持維護。
(5)搜索引擎的基本結構圖片擴展閱讀:
搜索引擎得以廣泛利用,主要是因為其具有以下幾個特點:
1、信息抓取迅速。
在大數據時代,網路產生的信息浩如煙海,令人無所適從,難以得到自己需要的信息資源。在搜索引擎技術的幫助下,利用關鍵詞、高級語法等檢索方式就可以快速捕捉到相關度極高的匹配信息。
2、深入開展信息挖掘。
搜索引擎在捕獲用戶需求的信息的同時,還能對檢索的信息加以一定維度的分析,以引導其對信息的使用與認識。例如,用戶可以根據檢索到的信息條目判斷檢索對象的熱度,還可以根據檢索到的信息分布給出高相關性的同類對象,還可以利用檢索到的信息智能化給出用戶解決方案,等等。[1]
3、檢索內容的多樣化和廣泛性。
隨著搜索引擎技術的日益成熟,當代搜索引擎技術幾乎可以支持各種數據類型的檢索,例如自然語言、智能語言、機器語言等各種語言。不僅視頻、音頻、圖像可以被檢索,而且人類面部特徵、指紋、特定動作等也可以被檢索到。在未來,幾乎一切數據類型都可能成為搜索引擎的檢索對象。
⑥ 搜索引擎的基本結構以及功能和特點
1. 搜索引擎的基本結構
在網路檢索工具發展的初期,以雅虎為代表的網站分類目錄查詢非常流行,但人們一般只是把基於關鍵詞檢索類型的網站稱為搜索引擎。隨著網路技術的飛速發展和搜索技術的日臻完善,出現了一批為網路用戶所廣泛熟知和習慣使用的,既具有分類目錄查詢功能,又具有關鍵詞檢索功能的優秀中外通用搜索引擎。但是,任何搜索引擎的設計,均有其特定的信息索引范圍、獨特的功能和使用方法,以及預期的用戶群指向。
搜索引擎(Search Engine)泛指網路上以一定的策略搜集信息,對信息進行組織和處理,並為用戶提供信息檢索服務的工具和系統,是網路資源檢索工具的總稱,其基本結構為:
(1).查詢界面
查詢界面(query interface)是人們最熟悉的部分。當人們提起「搜索引擎」時,想到的通常也是搜索引擎的查詢界面。查詢界面就是用戶訪問搜索引擎時輸入搜索詞的頁面。
(2).搜索引擎結果的頁面
查詢界面的另一個方案是搜索引擎展示給用戶的另一面,即搜索引擎結果頁面(Search Engine Results Pages,SERP)。用戶輸入一個搜索關鍵詞或短語,單擊Search按鈕後,搜索引擎就在這個頁面上顯示搜索的結果。用戶的網站最終也希望顯示在這些頁面上,在搜索結果的排名越高,通過搜索獲得訪問量就越大。
(3).蜘蛛(爬蟲、機器人)
查詢界面和搜索結果頁面是用戶唯一能看到的搜索引擎組建。搜索引擎的其他部分都隱藏在後台,就算天天都在用搜索引擎的人也看不到。藏在幕後的部分並非不重要,恰恰相反,這些看不到的部分才是搜索引擎最重要的部分,它們決定了搜索結果在前台如何顯現。蜘蛛(爬蟲、機器人)在互聯網抓取網頁,並將其整理成可搜索的數據,當用戶在搜索引擎中進行查詢時,搜索引擎就會搜索資料庫中的相關信息,並將搜索結果返回給用戶。
(4).資料庫
每個搜索引擎都有自己的資料庫系統,或是會連接到某個數據系統。這些資料庫中存放著網路中各個URL的各種信息(由爬蟲、蜘蛛或機器人搜集來的)。這些資料庫是大規模存儲區域,包含每個URL的多個數據點。可以用不同的方法存儲這些數據,通常各個搜索引擎公司還會有自己的一套方法對這些數據進行排序和檢索。
(5).搜索演算法
搜索引擎的各個部分都非常重要,缺一不可,但其中的搜索演算法(search algorithm)是使得各個部分能正常運行的關鍵所在。更確切地說,搜索演算法是構建搜索引擎其他各個部分的基礎。搜索引擎的工作方式是以搜索演算法為基礎的,它與用戶發現數據的方式緊密相關。籠統地說,搜索演算法就是一個解決問題的過程:提出問題,找出若干個可能的答案,然後將這些答案返回給提出問題的人。
(6).檢索和排序
網路搜索引擎的數據檢索是由蜘蛛、資料庫以及搜索演算法共同完成的。這三個部分相互配合,根據用戶在搜索引擎用戶界面中輸入的單詞或短語,從資料庫中檢索出所需的數據。搜索引擎具體的工作方式取決於其所使用的技術、理論和具體的實現代碼。真正棘手的事情是搜索結果的排序。我們將耗費大量的時間和精力,試圖去改變排序的結果。網頁在搜索引擎中的排名決定了人們能有多大的幾率訪問到該網頁,這無疑會影響到包括收益和廣告預算在內的所有事情。不過,想要確切地知道搜索引擎的排序方法幾乎是不可能的。在大部分情況下,所能做的只是根據搜索結果,猜測搜索引擎對結果的排序方法,然後據此修改網頁,從而提高網頁的排名。
2. 搜索引擎的功能
(1)及時搜索網路信息;
(2)搜索有效的、有價值的網路信息;
(3)有針對性地搜索網路信息。
3.搜索引擎的特點
搜索的特點指的是用戶使用互聯網的方式,這包括用戶創建搜索詞時使用的啟發式方法,以及用戶如何在搜索結果中做出選擇。搜索引擎的龐大用戶群就是SEO(搜索引擎優化)的肥沃土壤。更好地理解用戶使用搜索引擎的方式和原因,以及搜索引擎的工作原理,就能更快捷地實現SEO。
搜索引擎按不同的分類原則可以有多種分類方式:
(1)按信息標引的方式,搜索引擎可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;
(2)按信息查詢的方式,搜索引擎可分為瀏覽式搜索引擎、關鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;
(3)按語種,搜索引擎又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。
(4)按工作方式或者檢索機制來劃分,搜索引擎主要可分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎三種類型。
用戶在使用搜索引擎進行查詢時,搜索引擎並不是直接去搜索互聯網,它實際上搜索的是已經預先整理好的網頁索引資料庫。搜索引擎會預先收集網際網路上幾千萬到幾十億個網頁,對網頁中的關鍵詞進行索引,建立索引資料庫。當用戶查找某項內容的時候,所有在資料庫中保存的相關網頁都將被搜索出來,再按照某種演算法進行排序後,將相關鏈接作為搜索結果呈現給用戶。
4.未來搜索引擎的發展方向將趨向於個性化與智能化等方面
隨著網民應用互聯網熟練水平的進步以及互聯網技巧的不斷發展,未來的搜索引擎必定向個性化、智能化、專業化、多媒體、移動搜索等幾個方向發展。
1.個性化搜索:搜索會根據不同的用戶提供不同的內容,「投其所好」。從用戶的社會網路、地理位置、行為紀錄會得到更多信息幫助加深對用戶的理解,使個性化搜索變得更加可能。 SEO在履行時與通用搜索最大的差別是需增強數據剖析才能和對行業的了解,推測不同用戶的搜索習慣和心理需求。
2.自然語言搜索:自然語言搜索是搜索智能化的一個體現,搜索會變得更加自然,搜索引擎會變成用戶的「信息僕人」。用戶可以用自己認為最自然的方式搜索,比如關鍵詞、自然語言問句、以及其組合。搜索不再是「一錘子買賣」,而是與用戶的交互;優化的重點將不再是要害字,而是讓網站更自然的與用戶「對話」,正確及時的「答復」用戶的搜索問題。
3.垂直搜索、行業搜索:專門收錄某一行業、某一主題和某一地域的信息而樹立。SEO在履行時與通用搜索最大的差別是:由於是針對某個行業,所以在搜索演算法上更多的是斟酌行業內用戶的需求,應當更重視行業內的及時信息和行業內網站的互動。所以作為SEOER應該更高深進的懂得某個行業和最大化應用該行業資源。
4.多媒體搜索:未來的互聯網是多媒體數據的時期,將來有可能呈現查尋圖片、聲音、電影和flash網站設計的搜索引擎。此項搜索技術目前利用最廣的在視頻搜索范疇,其中多媒體文件是以嵌套文件的情勢在網頁內部顯示,與通用搜索相比,群體分類將更加過細,SEO能更准確的把握不同喜好用戶的需求。
5.移動搜索:雖然在台式機、智能手機、平板電腦、電視屏幕等各種終端上的搜索都會增加,但是搜索的主要終端將從台式機轉變為智能手機、平板電腦等移動設備,通過語音與觸摸屏的搜索會更加普遍。移動搜索也將是未來搜索競爭最為激烈的。
⑦ 百度圖片搜索引擎原理是如何實現的
圖片搜索的原理有三個步驟
1. 將目標圖片進行特徵提取,描述圖像的演算法很多,用的比較多的是:SIFT描述子,指紋演算法函數,bundling features演算法,hash function(散列函數)等。也可以根據不同的圖像,設計不同的演算法,比如圖像局部N階矩的方法提取圖像特徵。
2. 將圖像特徵信息進行編碼,並將海量圖像編碼做查找表。對於目標圖像,可以對解析度較大的圖像進行降采樣,減少運算量後在進行圖像特徵提取和編碼處理。
3. 相似度匹配運算:利用目標圖像的編碼值,在圖像搜索引擎中的圖像資料庫進行全局或是局部的相似度計算;根據所需要的魯棒性,設定閾值,然後將相似度高的圖片預保留下來;最後應該還有一步篩選最佳匹配圖片,這個應該還是用到特徵檢測演算法。
其中每個步驟都有很多演算法研究,圍繞數學,統計學,圖像編碼,信號處理等理論進行研究。
根據Neal Krawetz博士的解釋,原理非常簡單易懂。我們可以用一個快速演算法,就達到基本的效果。
這里的關鍵技術叫做"感知哈希演算法"(Perceptual hash algorithm),它的作用是對每張圖片生成一個"指紋"(fingerprint)字元串,然後比較不同圖片的指紋。結果越接近,就說明圖片越相似。下面是一個最簡單的實現:
第一步,縮小尺寸。
將圖片縮小到8x8的尺寸,總共64個像素。這一步的作用是去除圖片的細節,只保留結構、明暗等基本信息,摒棄不同尺寸、比例帶來的圖片差異。
第二步,簡化色彩。
將縮小後的圖片,轉為64級灰度。也就是說,所有像素點總共只有64種顏色。
第三步,計算平均值。
計算所有64個像素的灰度平均值。
第四步,比較像素的灰度。
將每個像素的灰度,與平均值進行比較。大於或等於平均值,記為1;小於平均值,記為0。
第五步,計算哈希值。
將上一步的比較結果,組合在一起,就構成了一個64位的整數,這就是這張圖片的指紋。組合的次序並不重要,只要保證所有圖片都採用同樣次序就行了。
得到指紋以後,就可以對比不同的圖片,看看64位中有多少位是不一樣的。在理論上,這等同於計算"漢明距離"(Hammingdistance)。如果不相同的數據位不超過5,就說明兩張圖片很相似;如果大於10,就說明這是兩張不同的圖片。
具體的代碼實現,可以參見Wote用python語言寫的imgHash.py。代碼很短,只有53行。使用的時候,第一個參數是基準圖片,第二個參數是用來比較的其他圖片所在的目錄,返回結果是兩張圖片之間不相同的數據位數量(漢明距離)。
這種演算法的優點是簡單快速,不受圖片大小縮放的影響,缺點是圖片的內容不能變更。如果在圖片上加幾個文字,它就認不出來了。所以,它的最佳用途是根據縮略圖,找出原圖。
實際應用中,往往採用更強大的pHash演算法和SIFT演算法,它們能夠識別圖片的變形。只要變形程度不超過25%,它們就能匹配原圖。這些演算法雖然更復雜,但是原理與上面的簡便演算法是一樣的,就是先將圖片轉化成Hash字元串,然後再進行比較。
⑧ 搜索引擎的基本構成
搜索引擎由搜索器、索引器、檢索器和用戶介面四部分構成。
1、搜索器,是一個機器人程序自動地在互聯網中搜集和發現信息,對Web進行遍歷並下載到本地文檔庫。由於Web信息的大容量、分布性和動態性,搜索器主要有兩個方面的工作重點:第一是採用較好的搜索策略;第二是設計高性能系統結構以支持每秒下載大量網頁,同時確保系統具有較好的穩定性,能夠應付各種伺服器的突發事故等。
2、索引器,其功能是理解搜索器所搜索到的信息,從中抽取出索引項,將文檔表示為一種便於檢索的方式並存儲在索引資料庫中,生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、更新時間、長度等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項又可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
3、檢索器,其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,並能按用戶的查詢需求合理反饋信息。檢索器採用的檢索方法有以下幾種:
基於關鍵詞的檢索,是不考慮文檔的具體內容僅判斷文檔中是否包含被檢關鍵詞的方法。
基於概念的檢索是對用戶查詢進行概念擴展,然後轉化為關鍵字檢索。
基於內容的檢索是根據文檔的內容查詢的檢索。
4、用戶介面,用戶介面的作用是為用戶提供可視化的查詢輸入和結果輸出界面,提供用戶相關性反饋機制。用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。用戶輸入介面可以分為簡單介面和復雜介面兩種。簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如邏輯運算、相近關系、域名范圍、出現位置、信息時間、長度等等。目前一些公司和機構正在考慮制定查詢選項的標准。
⑨ 網站的基本架構是什麼
網站架構按照製作步驟分為硬架構和軟架構。
一、硬架構
1、機房:在選擇機房的時候,根據網站用戶的地域分布,可以選擇網通、電信等單機房或雙機房。
2、帶寬:預估網站每天的訪問量,根據訪問量選擇合適的帶寬,計算帶寬大小主要涉及峰值流量和頁面大小兩個指標。
3、伺服器:選擇需要的伺服器,如圖片伺服器,頁面伺服器,資料庫伺服器,應用伺服器,日誌伺服器,對於訪問量大點的網站而言,分離單獨的圖片伺服器和頁面伺服器相當必要。
二、軟架構
1、網站的框架:現在的PHP框架有很多選擇,比如:CakePHP,Symfony,Zend Framework,根據創作團隊對各個框架熟悉程度選擇。
2、邏輯的分層
1)表現層:所有和表現相關的邏輯都應該被納入表現層的范疇。
2)應用層:主要作用是定義用戶可以做什麼,並把操作結果反饋給表現層。
3)領域層:包含領域邏輯的層,就是告訴用戶具體的操作流程的。
4)持久層:即資料庫,保存領域模型保存到資料庫,包含網站的架構和邏輯關系等。
(9)搜索引擎的基本結構圖片擴展閱讀
網站的分類
1、根據網站所用編程語言分類:例如asp網站、php網站、jsp網站、Asp. net網站等;
2、根據網站的用途分類:例如門戶網站(綜合網站)、行業網站、娛樂網站等;
3、根據網站的功能分類:例如單一網站(企業網站)、多功能網站(網路商城)等等。
4、根據網站的持有者分類:例如個人網站、商業網站、政府網站、教育網站等。
5、根據網站的商業目的分類:營利型網站(行業網站、論壇)、非營利性型網站(企業網站、政府網站、教育網站)。
⑩ 搜索引擎由哪幾部分組成組成
蜘蛛負責網頁信息的抓取工作,一般情況下切詞器和索引器一起使用,它們負責將抓取的網頁內容進行切詞處理並自動進行標引,建立索引資料庫。查詢器根據用戶查詢條件檢索索引資料庫並對檢索結果進行排序和集合運算,如並集、交集運算,再提取網頁簡單摘要信息反饋給查詢用戶。 Google搜索引擎從功能上同樣分為三大部分:網頁爬行、標引入庫和用戶查詢。網頁爬行主要負責網頁的抓取,由URL伺服器、爬行器、存儲器、分析器和URL解析器組成, 爬行器是該部分的核心;標引入庫主要負責對網頁內容進行分析,對文檔進行標引並存儲到資料庫里,由標引器和分類器組成,該模塊涉及許多文件和數據,有關於桶的操作是該部分的核心;用戶查詢主要負責分析用戶輸入的檢索表達式,匹配相關文檔,把檢索結果返回給用戶,由查詢器和網頁級別評定器組成,其中網頁等級的計算是該部分的核心。 例:SOPI 搜索引擎系統的組成 SOPI 是一個小型的搜索引擎系統,功能與網路、 GOOGLE 類似,適用於中小型網站及企業的信息搜索及向用戶展示服務。本網站中的所有內容均通過此系統自動獲得。系統性能參數如下: 平台: 1U 兼容伺服器,雙至強 2.8G , 1G 內存 索引庫大小: 5G 資料庫: SqlServer2005 運行環境: Microsoft .NET Framework SDK v2.0 內存平均使用: 600-900M CPU 使用率: 10%-80% 日新增文章及圖片數: 10 萬篇 搜索時間: 5G 內容搜索結果 0.3-1 秒 SOPI 由五部分組成,分別為:信息採集系統 (SpiderSystem) 、信息分析系統 (AnalysisSystem) 、索引系統 (IndexSystem) 、管理系統 (AdminSystem) 、網站平台 (WebSystem) ,結構如下: 搜索引擎的主要工作流程是:首先從蜘蛛開始,蜘蛛程序每隔一定的時間(象google一般是28天)自動啟動並讀取網頁URL伺服器上的URL列表,按深度優先或廣度優先演算法,抓取各URL所指定的網站,將抓取的網頁分配一個唯一文檔ID(DocId),存入文檔資料庫。一般在存入文檔資料庫之前進行一定的壓縮處理。並將當前頁上的所的超連接存入到URL伺服器中。在進行抓取的同時,切詞器和索引器將已經抓取的網頁文檔進行切詞處理,並按詞在網頁中出現的位置和頻率計算權值,然後將切詞結果存入索引資料庫。整個抓取工作和索引工作完成後更新整個索引資料庫和文檔資料庫,這樣用戶就可以查詢最新的網頁信息。