搜索引擎工作原理是什么

本篇內(nèi)容介紹了“搜索引擎工作原理是什么”的有關(guān)知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

公司主營業(yè)務(wù)：成都做網(wǎng)站、成都網(wǎng)站建設(shè)、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對我們的高要求，感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn)，讓我們激情的團(tuán)隊有機(jī)會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出邗江免費(fèi)做網(wǎng)站回饋大家。

搜索引擎發(fā)展過程

現(xiàn)代意義上的搜索引擎的祖先，是1990年由蒙特利爾大學(xué)學(xué)生Alan Emtage發(fā)明的Archie。即便沒有英特網(wǎng)，網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的，而且由于大量的文件散布在各個分散的FTP主機(jī)中，查詢起來非常不便，因此Alan Emtage想到了開發(fā)一個可以以文件名查找文件的系統(tǒng)，于是便有了Archie。Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動搜索網(wǎng)上的文件，然后對有關(guān)信息進(jìn)行索引，供使用者以一定的表達(dá)式查詢。

互聯(lián)網(wǎng)興起后，需要能夠監(jiān)控的工具。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer，剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為能夠檢索網(wǎng)站域名。

隨著互聯(lián)網(wǎng)的迅速發(fā)展，每天都會新增大量的網(wǎng)站、網(wǎng)頁，檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎(chǔ)上，一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)?，F(xiàn)代搜索引擎都是以此為基礎(chǔ)發(fā)展的。

搜索引擎分類

全文搜索引擎

當(dāng)前主流的是全文搜索引擎，較為典型的代表是Google、百度。全文搜索引擎是指通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息（以網(wǎng)頁文字為主），保存在自己建立的數(shù)據(jù)庫中。用戶發(fā)起檢索請求后，系統(tǒng)檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。從搜索結(jié)果來源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)存儲層中調(diào)用；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos引擎。

雖然有搜索功能，但嚴(yán)格意義上不能稱為真正的搜索引擎，只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息，不依靠關(guān)鍵詞（Keywords）進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。

元搜索引擎
元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。

自己實現(xiàn)搜索引擎

如果我們想要實現(xiàn)搜索引擎，最重要的是索引模塊和搜索模塊。索引模塊在不同的機(jī)器上各自進(jìn)行對資源的索引，并把索引文件統(tǒng)一傳輸?shù)酵粋€地方（可以是在遠(yuǎn)程服務(wù)器上，也可以是在本地）。搜索模塊則利用這些從多個索引模塊收集到的數(shù)據(jù)完成用戶的搜索請求。因此，我們可以理解兩個模塊之間相對是獨(dú)立的，它們之間的關(guān)聯(lián)不是通過代碼，而是通過索引和元數(shù)據(jù)，如下圖所示。

搜索引擎工作原理是什么

對于索引的建立，我們需要注意性能問題。當(dāng)需要進(jìn)行索引的資源數(shù)目不多時，隔一定的時間進(jìn)行一次完全索引，不會占用很長時間。但在大型應(yīng)用中，資源的容量是巨大的，如果每次都進(jìn)行完整的索引，耗費(fèi)的時間會很驚人。我們可以通過跳過已經(jīng)索引的資源內(nèi)容，刪除已不存在的資源內(nèi)容的索引，并進(jìn)行增量索引來解決這個問題。這可能會涉及文件校驗和索引刪除等。另一方面，框架可以提供查詢緩存功能，提高查詢效率?？蚣芸梢栽趦?nèi)存中建立一級緩存，并使用如 OSCache或 EHCache緩存框架，實現(xiàn)磁盤上的二級緩存。當(dāng)索引的內(nèi)容變化不頻繁時，使用查詢緩存更會明顯地提高查詢速度、降低資源消耗。

搜索引擎解決方案

Sphinx

俄羅斯一家公司開源的全文搜索引擎軟件Sphinx，單一索引最大可包含1億條記錄，在1千萬條記錄情況下的查詢速度為0.x秒（毫秒級）。Sphinx創(chuàng)建索引的速度很快，根據(jù)網(wǎng)上的資料，Sphinx創(chuàng)建100萬條記錄的索引只需3～4分鐘，創(chuàng)建1000萬條記錄的索引可以在50分鐘內(nèi)完成，而只包含最新10萬條記錄的增量索引，重建一次只需幾十秒。

OmniFind

OmniFind 是 IBM 公司推出的企業(yè)級搜索解決方案。基于 UIMA (Unstructured Information Management Architecture) 技術(shù)，它提供了強(qiáng)大的索引和獲取信息功能，支持巨大數(shù)量、多種類型的文檔資源（無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化），并為 Lotus?Domino?和 WebSphere?Portal 專門進(jìn)行了優(yōu)化。
下一代搜索引擎

從技術(shù)和產(chǎn)品層面來看，接下來的幾年，甚至于更長時間，應(yīng)該沒有哪一家搜索引擎可以撼動谷歌的技術(shù)領(lǐng)先優(yōu)勢和產(chǎn)品地位。但是我們也可以發(fā)現(xiàn)一些現(xiàn)象，例如搜索假期租房的時候，人們更喜歡使用Airbub，而不是Google，這就是針對匿名/個性化搜索需求，這些需求是谷歌所不能完全覆蓋到的，畢竟原始數(shù)據(jù)并不在谷歌。我們可以看一個例子：DuckDuckGo。這是一款有別于大眾理解的搜索引擎，DuckDuckGo強(qiáng)調(diào)的是最佳答案，而不是更多的結(jié)果，所以每個人搜索相同關(guān)鍵詞時，返回的結(jié)果是不一樣的。

另一個方面技術(shù)趨勢是引入人工智能技術(shù)。在搜索體驗上，通過大量算法的引入，對用戶搜索的內(nèi)容和訪問偏好進(jìn)行分析，將標(biāo)題摘要進(jìn)行一定程度的優(yōu)化，以更容易理解的方式呈現(xiàn)給用戶。谷歌在搜索引擎AI化的步驟領(lǐng)先于其他廠商，2016年，隨著Amit Singhal被退休，John Giannandrea上位的交接班過程后，正式開啟了自身的革命。Giannandrea是深度神經(jīng)網(wǎng)絡(luò)、近似人腦中的神經(jīng)元網(wǎng)絡(luò)研究方面的頂級專家，通過分析海量級的數(shù)字?jǐn)?shù)據(jù)，這些神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)排列方式，例如對圖片進(jìn)行分類、識別智能手機(jī)的語音控制等等，對應(yīng)也可以應(yīng)用在搜索引擎。因此，Singhal向Giannandrea的過渡，也意味著傳統(tǒng)人為干預(yù)的規(guī)則設(shè)置的搜索引擎向AI技術(shù)的過渡。引入深度學(xué)習(xí)技術(shù)之后的搜索引擎，通過不斷的模型訓(xùn)練，它會深層次地理解內(nèi)容，并為客戶提供更貼近實際需求的服務(wù)，這才是它的有用，或者可怕之處。

Google搜索引擎的工作流程

貼個圖，自己感受下。

搜索引擎工作原理是什么

詳細(xì)點(diǎn)的：
搜索引擎工作原理是什么

“搜索引擎工作原理是什么”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

分享標(biāo)題：搜索引擎工作原理是什么
網(wǎng)站地址：http://www.jiaotiyi.com/article/pgoihj.html

網(wǎng)站建設(shè)知識

搜索引擎工作原理是什么

搜索引擎發(fā)展過程

搜索引擎分類

相關(guān)實現(xiàn)技術(shù)

自己實現(xiàn)搜索引擎

搜索引擎解決方案

其他資訊