十年網(wǎng)站開(kāi)發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問(wèn)題一站解決
創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!
這篇文章給大家分享的是有關(guān)關(guān)于Python3爬蟲中HTTP的基本原理分析的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。
詳細(xì)了解HTTP的基本原理,了解在瀏覽器中敲入U(xiǎn)RL到獲取網(wǎng)頁(yè)內(nèi)容之間發(fā)生了什么。了解了這些內(nèi)容,有助于我們進(jìn)一步了解爬蟲的基本原理。
1. URI和URL
這里我們先了解一下URI和URL,URI的全稱為Uniform Resource Identifier,即統(tǒng)一資源標(biāo)志符,URL的全稱為Universal Resource Locator,即統(tǒng)一資源定位符。
舉例來(lái)說(shuō),https://github.com/favicon.ico是GitHub的網(wǎng)站圖標(biāo)鏈接,它是一個(gè)URL,也是一個(gè)URI。即有這樣的一個(gè)圖標(biāo)資源,我們用URL/URI來(lái)唯一指定了它的訪問(wèn)方式,這其中包括了訪問(wèn)協(xié)議https、訪問(wèn)路徑(/即根目錄)和資源名稱favicon.ico。通過(guò)這樣一個(gè)鏈接,我們便可以從互聯(lián)網(wǎng)上找到這個(gè)資源,這就是URL/URI。
URL是URI的子集,也就是說(shuō)每個(gè)URL都是URI,但不是每個(gè)URI都是URL。那么,怎樣的URI不是URL呢?URI還包括一個(gè)子類叫作URN,它的全稱為Universal Resource Name,即統(tǒng)一資源名稱。URN只命名資源而不指定如何定位資源,比如urn:isbn:0451450523指定了一本書的ISBN,可以唯一標(biāo)識(shí)這本書,但是沒(méi)有指定到哪里定位這本書,這就是URN。URL、URN和URI的關(guān)系可以用圖2-1表示。
但是在目前的互聯(lián)網(wǎng)中,URN用得非常少,所以幾乎所有的URI都是URL,一般的網(wǎng)頁(yè)鏈接我們既可以稱為URL,也可以稱為URI,我個(gè)人習(xí)慣稱為URL。
2. 超文本
接下來(lái),我們?cè)倭私庖粋€(gè)概念——超文本,其英文名稱叫作hypertext,我們?cè)跒g覽器里看到的網(wǎng)頁(yè)就是超文本解析而成的,其網(wǎng)頁(yè)源代碼是一系列HTML代碼,里面包含了一系列標(biāo)簽,比如img顯示圖片,p指定顯示段落等。瀏覽器解析這些標(biāo)簽后,便形成了我們平??吹降木W(wǎng)頁(yè),而網(wǎng)頁(yè)的源代碼HTML就可以稱作超文本。
例如,我們?cè)贑hrome瀏覽器里面打開(kāi)任意一個(gè)頁(yè)面,如淘寶首頁(yè),右擊任一地方并選擇“檢查”項(xiàng)(或者直接按快捷鍵F12),即可打開(kāi)瀏覽器的開(kāi)發(fā)者工具,這時(shí)在Elements選項(xiàng)卡即可看到當(dāng)前網(wǎng)頁(yè)的源代碼,這些源代碼都是超文本,如圖2-2所示。
3. HTTP和HTTPS
在淘寶的首頁(yè)https://www.taobao.com/中,URL的開(kāi)頭會(huì)有http或https,這就是訪問(wèn)資源需要的協(xié)議類型。有時(shí),我們還會(huì)看到ftp、sftp、smb開(kāi)頭的URL,它們都是協(xié)議類型。在爬蟲中,我們抓取的頁(yè)面通常就是http或https協(xié)議的,這里首先了解一下這兩個(gè)協(xié)議的含義。
HTTP的全稱是Hyper Text Transfer Protocol,中文名叫作超文本傳輸協(xié)議。HTTP協(xié)議是用于從網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳送協(xié)議,它能保證高效而準(zhǔn)確地傳送超文本文檔。HTTP由萬(wàn)維網(wǎng)協(xié)會(huì)(World Wide Web Consortium)和Internet工作小組IETF(Internet Engineering Task Force)共同合作制定的規(guī)范,目前廣泛使用的是HTTP 1.1版本。
HTTPS的全稱是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全為目標(biāo)的HTTP通道,簡(jiǎn)單講是HTTP的安全版,即HTTP下加入SSL層,簡(jiǎn)稱為HTTPS。
HTTPS的安全基礎(chǔ)是SSL,因此通過(guò)它傳輸?shù)膬?nèi)容都是經(jīng)過(guò)SSL加密的,它的主要作用可以分為兩種。
建立一個(gè)信息安全通道來(lái)保證數(shù)據(jù)傳輸?shù)陌踩?/p>
確認(rèn)網(wǎng)站的真實(shí)性,凡是使用了HTTPS的網(wǎng)站,都可以通過(guò)點(diǎn)擊瀏覽器地址欄的鎖頭標(biāo)志來(lái)查看網(wǎng)站認(rèn)證之后的真實(shí)信息,也可以通過(guò)CA機(jī)構(gòu)頒發(fā)的安全簽章來(lái)查詢。
現(xiàn)在越來(lái)越多的網(wǎng)站和App都已經(jīng)向HTTPS方向發(fā)展,例如:
蘋果公司強(qiáng)制所有iOS App在2017年1月1日前全部改為使用HTTPS加密,否則App就無(wú)法在應(yīng)用商店上架;
谷歌從2017年1月推出的Chrome 56開(kāi)始,對(duì)未進(jìn)行HTTPS加密的網(wǎng)址鏈接亮出風(fēng)險(xiǎn)提示,即在地址欄的顯著位置提醒用戶“此網(wǎng)頁(yè)不安全”;
騰訊微信小程序的官方需求文檔要求后臺(tái)使用HTTPS請(qǐng)求進(jìn)行網(wǎng)絡(luò)通信,不滿足條件的域名和協(xié)議無(wú)法請(qǐng)求。
而某些網(wǎng)站雖然使用了HTTPS協(xié)議,但還是會(huì)被瀏覽器提示不安全,例如我們?cè)贑hrome瀏覽器里面打開(kāi)12306,鏈接為:https://www.12306.cn/,這時(shí)瀏覽器就會(huì)提示“您的連接不是私密連接”這樣的話,如圖2-3所示。
這是因?yàn)?2306的CA證書是中國(guó)鐵道部自行簽發(fā)的,而這個(gè)證書是不被CA機(jī)構(gòu)信任的,所以這里證書驗(yàn)證就不會(huì)通過(guò)而提示這樣的話,但是實(shí)際上它的數(shù)據(jù)傳輸依然是經(jīng)過(guò)SSL加密的。如果要爬取這樣的站點(diǎn),就需要設(shè)置忽略證書的選項(xiàng),否則會(huì)提示SSL鏈接錯(cuò)誤。
4. HTTP請(qǐng)求過(guò)程
我們?cè)跒g覽器中輸入一個(gè)URL,回車之后便會(huì)在瀏覽器中觀察到頁(yè)面內(nèi)容。實(shí)際上,這個(gè)過(guò)程是瀏覽器向網(wǎng)站所在的服務(wù)器發(fā)送了一個(gè)請(qǐng)求,網(wǎng)站服務(wù)器接收到這個(gè)請(qǐng)求后進(jìn)行處理和解析,然后返回對(duì)應(yīng)的響應(yīng),接著傳回給瀏覽器。響應(yīng)里包含了頁(yè)面的源代碼等內(nèi)容,瀏覽器再對(duì)其進(jìn)行解析,便將網(wǎng)頁(yè)呈現(xiàn)了出來(lái),模型如圖2-4所示。
此處客戶端即代表我們自己的PC或手機(jī)瀏覽器,服務(wù)器即要訪問(wèn)的網(wǎng)站所在的服務(wù)器。
為了更直觀地地說(shuō)明這個(gè)過(guò)程,這里用Chrome瀏覽器的開(kāi)發(fā)者模式下的Network監(jiān)聽(tīng)組件來(lái)做下演示,它可以顯示訪問(wèn)當(dāng)前請(qǐng)求網(wǎng)頁(yè)時(shí)發(fā)生的所有網(wǎng)絡(luò)請(qǐng)求和響應(yīng)。
打開(kāi)Chrome瀏覽器,右擊并選擇“檢查”項(xiàng),即可打開(kāi)瀏覽器的開(kāi)發(fā)者工具。這里訪問(wèn)百度http://www.baidu.com/,輸入該URL后回車,觀察這個(gè)過(guò)程中發(fā)生了怎樣的網(wǎng)絡(luò)請(qǐng)求??梢钥吹?,在Network頁(yè)面下方出現(xiàn)了一個(gè)個(gè)的條目,其中一個(gè)條目就代表一次發(fā)送請(qǐng)求和接收響應(yīng)的過(guò)程,如圖2-5所示。
我們先觀察第一個(gè)網(wǎng)絡(luò)請(qǐng)求,即www.baidu.com。
其中各列的含義如下。
第一列Name:請(qǐng)求的名稱,一般會(huì)將URL的最后一部分內(nèi)容當(dāng)作名稱。
第二列Status:響應(yīng)的狀態(tài)碼,這里顯示為200,代表響應(yīng)是正常的。通過(guò)狀態(tài)碼,我們可以判斷發(fā)送了請(qǐng)求之后是否得到了正常的響應(yīng)。
第三列Type:請(qǐng)求的文檔類型。這里為document,代表我們這次請(qǐng)求的是一個(gè)HTML文檔,內(nèi)容就是一些HTML代碼。
第四列Initiator:請(qǐng)求源。用來(lái)標(biāo)記請(qǐng)求是由哪個(gè)對(duì)象或進(jìn)程發(fā)起的。
第五列Size:從服務(wù)器下載的文件和請(qǐng)求的資源大小。如果是從緩存中取得的資源,則該列會(huì)顯示from cache。
第六列Time:發(fā)起請(qǐng)求到獲取響應(yīng)所用的總時(shí)間。
第七列Waterfall:網(wǎng)絡(luò)請(qǐng)求的可視化瀑布流。
點(diǎn)擊這個(gè)條目,即可看到更詳細(xì)的信息,如圖2-6所示。
首先是General部分,Request URL為請(qǐng)求的URL,Request Method為請(qǐng)求的方法,Status Code為響應(yīng)狀態(tài)碼,Remote Address為遠(yuǎn)程服務(wù)器的地址和端口,Referrer Policy為Referrer判別策略。
再繼續(xù)往下看,可以看到,有Response Headers和Request Headers,這分別代表響應(yīng)頭和請(qǐng)求頭。請(qǐng)求頭里帶有許多請(qǐng)求信息,例如瀏覽器標(biāo)識(shí)、Cookies、Host等信息,這是請(qǐng)求的一部分,服務(wù)器會(huì)根據(jù)請(qǐng)求頭內(nèi)的信息判斷請(qǐng)求是否合法,進(jìn)而作出對(duì)應(yīng)的響應(yīng)。圖中看到的Response Headers就是響應(yīng)的一部分,例如其中包含了服務(wù)器的類型、文檔類型、日期等信息,瀏覽器接受到響應(yīng)后,會(huì)解析響應(yīng)內(nèi)容,進(jìn)而呈現(xiàn)網(wǎng)頁(yè)內(nèi)容。
下面我們分別來(lái)介紹一下請(qǐng)求和響應(yīng)都包含哪些內(nèi)容。
5. 請(qǐng)求
請(qǐng)求,由客戶端向服務(wù)端發(fā)出,可以分為4部分內(nèi)容:請(qǐng)求方法(Request Method)、請(qǐng)求的網(wǎng)址(Request URL)、請(qǐng)求頭(Request Headers)、請(qǐng)求體(Request Body)。
(1) 請(qǐng)求方法
常見(jiàn)的請(qǐng)求方法有兩種:GET和POST。
在瀏覽器中直接輸入U(xiǎn)RL并回車,這便發(fā)起了一個(gè)GET請(qǐng)求,請(qǐng)求的參數(shù)會(huì)直接包含到URL里。例如,在百度中搜索Python,這就是一個(gè)GET請(qǐng)求,鏈接為https://www.baidu.com/s?wd=Python,其中URL中包含了請(qǐng)求的參數(shù)信息,這里參數(shù)wd表示要搜尋的關(guān)鍵字。POST請(qǐng)求大多在表單提交時(shí)發(fā)起。比如,對(duì)于一個(gè)登錄表單,輸入用戶名和密碼后,點(diǎn)擊“登錄”按鈕,這通常會(huì)發(fā)起一個(gè)POST請(qǐng)求,其數(shù)據(jù)通常以表單的形式傳輸,而不會(huì)體現(xiàn)在URL中。
GET和POST請(qǐng)求方法有如下區(qū)別。
GET請(qǐng)求中的參數(shù)包含在URL里面,數(shù)據(jù)可以在URL中看到,而POST請(qǐng)求的URL不會(huì)包含這些數(shù)據(jù),數(shù)據(jù)都是通過(guò)表單形式傳輸?shù)?,?huì)包含在請(qǐng)求體中。
GET請(qǐng)求提交的數(shù)據(jù)最多只有1024字節(jié),而POST方式?jīng)]有限制。
一般來(lái)說(shuō),登錄時(shí),需要提交用戶名和密碼,其中包含了敏感信息,使用GET方式請(qǐng)求的話,密碼就會(huì)暴露在URL里面,造成密碼泄露,所以這里最好以POST方式發(fā)送。上傳文件時(shí),由于文件內(nèi)容比較大,也會(huì)選用POST方式。
我們平常遇到的絕大部分請(qǐng)求都是GET或POST請(qǐng)求,另外還有一些請(qǐng)求方法,如GET、HEAD、POST、PUT、DELETE、OPTIONS、CONNECT、TRACE等,我們簡(jiǎn)單將其總結(jié)為表2-1。
本表參考:http://www.runoob.com/http/http-methods.html。
(2) 請(qǐng)求的網(wǎng)址
請(qǐng)求的網(wǎng)址,即統(tǒng)一資源定位符URL,它可以唯一確定我們想請(qǐng)求的資源。
(3) 請(qǐng)求頭
請(qǐng)求頭,用來(lái)說(shuō)明服務(wù)器要使用的附加信息,比較重要的信息有Cookie、Referer、User-Agent等。下面簡(jiǎn)要說(shuō)明一些常用的頭信息。
Accept:請(qǐng)求報(bào)頭域,用于指定客戶端可接受哪些類型的信息。
Accept-Language:指定客戶端可接受的語(yǔ)言類型。
Accept-Encoding:指定客戶端可接受的內(nèi)容編碼。
Host:用于指定請(qǐng)求資源的主機(jī)IP和端口號(hào),其內(nèi)容為請(qǐng)求URL的原始服務(wù)器或網(wǎng)關(guān)的位置。從HTTP 1.1版本開(kāi)始,請(qǐng)求必須包含此內(nèi)容。
Cookie:也常用復(fù)數(shù)形式 Cookies,這是網(wǎng)站為了辨別用戶進(jìn)行會(huì)話跟蹤而存儲(chǔ)在用戶本地的數(shù)據(jù)。它的主要功能是維持當(dāng)前訪問(wèn)會(huì)話。例如,我們輸入用戶名和密碼成功登錄某個(gè)網(wǎng)站后,服務(wù)器會(huì)用會(huì)話保存登錄狀態(tài)信息,后面我們每次刷新或請(qǐng)求該站點(diǎn)的其他頁(yè)面時(shí),會(huì)發(fā)現(xiàn)都是登錄狀態(tài),這就是Cookies的功勞。Cookies里有信息標(biāo)識(shí)了我們所對(duì)應(yīng)的服務(wù)器的會(huì)話,每次瀏覽器在請(qǐng)求該站點(diǎn)的頁(yè)面時(shí),都會(huì)在請(qǐng)求頭中加上Cookies并將其發(fā)送給服務(wù)器,服務(wù)器通過(guò)Cookies識(shí)別出是我們自己,并且查出當(dāng)前狀態(tài)是登錄狀態(tài),所以返回結(jié)果就是登錄之后才能看到的網(wǎng)頁(yè)內(nèi)容。
Referer:此內(nèi)容用來(lái)標(biāo)識(shí)這個(gè)請(qǐng)求是從哪個(gè)頁(yè)面發(fā)過(guò)來(lái)的,服務(wù)器可以拿到這一信息并做相應(yīng)的處理,如作來(lái)源統(tǒng)計(jì)、防盜鏈處理等。
User-Agent:簡(jiǎn)稱UA,它是一個(gè)特殊的字符串頭,可以使服務(wù)器識(shí)別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本等信息。在做爬蟲時(shí)加上此信息,可以偽裝為瀏覽器;如果不加,很可能會(huì)被識(shí)別出為爬蟲。
Content-Type:也叫互聯(lián)網(wǎng)媒體類型(Internet Media Type)或者M(jìn)IME類型,在HTTP協(xié)議消息頭中,它用來(lái)表示具體請(qǐng)求中的媒體類型信息。例如,text/html代表HTML格式,image/gif代表GIF圖片,application/json代表JSON類型,更多對(duì)應(yīng)關(guān)系可以查看此對(duì)照表:http://tool.oschina.net/commons。
因此,請(qǐng)求頭是請(qǐng)求的重要組成部分,在寫爬蟲時(shí),大部分情況下都需要設(shè)定請(qǐng)求頭。
(4) 請(qǐng)求體
請(qǐng)求體一般承載的內(nèi)容是POST請(qǐng)求中的表單數(shù)據(jù),而對(duì)于GET請(qǐng)求,請(qǐng)求體則為空。
例如,這里我登錄GitHub時(shí)捕獲到的請(qǐng)求和響應(yīng)如圖2-7所示。
登錄之前,我們填寫了用戶名和密碼信息,提交時(shí)這些內(nèi)容就會(huì)以表單數(shù)據(jù)的形式提交給服務(wù)器,此時(shí)需要注意Request Headers中指定Content-Type為application/x-www-form-urlencoded。只有設(shè)置Content-Type為application/x-www-form-urlencoded,才會(huì)以表單數(shù)據(jù)的形式提交。另外,我們也可以將Content-Type設(shè)置為application/json來(lái)提交JSON數(shù)據(jù),或者設(shè)置為multipart/form-data來(lái)上傳文件。
表2-2列出了Content-Type和POST提交數(shù)據(jù)方式的關(guān)系。
在爬蟲中,如果要構(gòu)造POST請(qǐng)求,需要使用正確的Content-Type,并了解各種請(qǐng)求庫(kù)的各個(gè)參數(shù)設(shè)置時(shí)使用的是哪種Content-Type,不然可能會(huì)導(dǎo)致POST提交后無(wú)法正常響應(yīng)。
6. 響應(yīng)
響應(yīng),由服務(wù)端返回給客戶端,可以分為三部分:響應(yīng)狀態(tài)碼(Response Status Code)、響應(yīng)頭(Response Headers)和響應(yīng)體(Response Body)。
(1) 響應(yīng)狀態(tài)碼
響應(yīng)狀態(tài)碼表示服務(wù)器的響應(yīng)狀態(tài),如200代表服務(wù)器正常響應(yīng),404代表頁(yè)面未找到,500代表服務(wù)器內(nèi)部發(fā)生錯(cuò)誤。在爬蟲中,我們可以根據(jù)狀態(tài)碼來(lái)判斷服務(wù)器響應(yīng)狀態(tài),如狀態(tài)碼為200,則證明成功返回?cái)?shù)據(jù),再進(jìn)行進(jìn)一步的處理,否則直接忽略。表2-3列出了常見(jiàn)的錯(cuò)誤代碼及錯(cuò)誤原因。
(2) 響應(yīng)頭
響應(yīng)頭包含了服務(wù)器對(duì)請(qǐng)求的應(yīng)答信息,如Content-Type、Server、Set-Cookie等。下面簡(jiǎn)要說(shuō)明一些常用的頭信息。
Date:標(biāo)識(shí)響應(yīng)產(chǎn)生的時(shí)間。
Last-Modified:指定資源的最后修改時(shí)間。
Content-Encoding:指定響應(yīng)內(nèi)容的編碼。
Server:包含服務(wù)器的信息,比如名稱、版本號(hào)等。
Content-Type:文檔類型,指定返回的數(shù)據(jù)類型是什么,如text/html代表返回HTML文檔,application/x-javascript則代表返回JavaScript文件,image/jpeg則代表返回圖片。
Set-Cookie:設(shè)置Cookies。響應(yīng)頭中的Set-Cookie告訴瀏覽器需要將此內(nèi)容放在Cookies中,下次請(qǐng)求攜帶Cookies請(qǐng)求。
Expires:指定響應(yīng)的過(guò)期時(shí)間,可以使代理服務(wù)器或?yàn)g覽器將加載的內(nèi)容更新到緩存中。如果再次訪問(wèn)時(shí),就可以直接從緩存中加載,降低服務(wù)器負(fù)載,縮短加載時(shí)間。
(3) 響應(yīng)體
最重要的當(dāng)屬響應(yīng)體的內(nèi)容了。響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中,比如請(qǐng)求網(wǎng)頁(yè)時(shí),它的響應(yīng)體就是網(wǎng)頁(yè)的HTML代碼;請(qǐng)求一張圖片時(shí),它的響應(yīng)體就是圖片的二進(jìn)制數(shù)據(jù)。我們做爬蟲請(qǐng)求網(wǎng)頁(yè)后,要解析的內(nèi)容就是響應(yīng)體,如圖2-8所示。
在瀏覽器開(kāi)發(fā)者工具中點(diǎn)擊Preview,就可以看到網(wǎng)頁(yè)的源代碼,也就是響應(yīng)體的內(nèi)容,它是解析的目標(biāo)。
在做爬蟲時(shí),我們主要通過(guò)響應(yīng)體得到網(wǎng)頁(yè)的源代碼、JSON數(shù)據(jù)等,然后從中做相應(yīng)內(nèi)容的提取。
感謝各位的閱讀!關(guān)于關(guān)于Python3爬蟲中HTTP的基本原理分析就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!