性夜影院午夜看片,无码精品久久一区二区三区,婷婷成人丁香五月综合激情,校园春色 qvod,性调教室高h学校

<meter id="p11x1"></meter>

<cite id="p11x1"><track id="p11x1"></track></cite>

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

技術(shù)干貨 2017年9月13日下午4:47 13709

最近想在工作相關(guān)的項(xiàng)目上做技術(shù)改進(jìn)，需要全而準(zhǔn)的車型數(shù)據(jù)，尋尋覓覓而不得，所以就只能自己動(dòng)手豐衣足食，到網(wǎng)上獲（竊）得（取）數(shù)據(jù)了。

汽車之家是大家公認(rèn)的數(shù)據(jù)做的比較好的汽車網(wǎng)站，所以就用它吧。（感謝汽車之家的大大們這么用心地做數(shù)據(jù)，仰慕）

俗話說的好，“十爬蟲九Python”，作為一只java狗，我顫顫巍巍地拿起了Python想要感受一下scrapy的強(qiáng)大。。。

在寫這個(gè)爬蟲之前，我用urllib2,BeautifulSoup寫了一個(gè)版本，不過效率太差，而且還有內(nèi)存溢出的問題，作為Python小白感覺很無力，所以用scrapy才是正道。

嗯，開搞。

準(zhǔn)備工作

安裝Python，版本是2.7
安裝scrapy模塊, 版本是1.4.0

參考

汽車之家車型數(shù)據(jù)爬蟲[https://github.com/LittleLory/codePool/tree/master/Python/autohome_spider]：這是我工程的代碼，以下內(nèi)容需要參照著代碼來理解，就不貼代碼在這里了。

Scrapy中文文檔：這是Scrapy的中文文檔，具體細(xì)節(jié)可以參照文檔。感謝Summer同學(xué)的翻譯。

Xpath教程：解析頁面數(shù)據(jù)要用到xpath的語法，簡(jiǎn)單了解一下，在做的過程中遇到問題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便，在shell中的指定目錄下執(zhí)行scrapy start startproject 項(xiàng)目名稱，就自動(dòng)化生成了。

執(zhí)行這步的時(shí)候遇到了一個(gè)問題，拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1"，解決方法是執(zhí)行sudo pip install twisted==13.1.0，應(yīng)該是依賴庫(kù)版本不兼容。

目錄結(jié)構(gòu)

工程初始化后，scrapy中的各個(gè)元素就被構(gòu)建好了，不過構(gòu)建出來的是一副空殼，需要我們往里邊寫入我們的爬蟲邏輯。

初始化后的目錄結(jié)構(gòu)是這樣的：

spiders:爬蟲目錄，爬蟲的爬取邏輯就放在個(gè)目錄下邊
items.py:數(shù)據(jù)實(shí)體類，在這里定義我們爬到的數(shù)據(jù)結(jié)構(gòu)
middlewares.py:爬蟲中間件（我自己翻譯的哈），在這里定義爬取前、爬取后需要處理的邏輯
pipelines.py:數(shù)據(jù)管道，爬取后的數(shù)據(jù)實(shí)體會(huì)經(jīng)過數(shù)據(jù)管道的處理
settings.py:配置文件，可以在這里配置爬蟲的爬取速度，配置中間件、管道是否開啟和先后順序，配置數(shù)據(jù)輸出的格式等。

了解過這些文件的作用后就可以開始寫爬蟲了。

開始吧！

首先，確定要爬取的目標(biāo)數(shù)據(jù)。

我的目標(biāo)是獲取汽車的品牌、車系、車型數(shù)據(jù)，先從品牌開始。

在汽車之家的頁面中尋覓一番后，找到了一個(gè)爬蟲的切入點(diǎn)，汽車之家車型大全。這個(gè)頁面里有所有品牌的數(shù)據(jù)，正是我的目標(biāo)。不過在觀察的過程中發(fā)現(xiàn)，這個(gè)頁面里的品牌數(shù)據(jù)是在頁面向下滾動(dòng)的過程中延遲加載的，這樣我們通過請(qǐng)求這個(gè)頁面不能獲取到延遲加載的那部分?jǐn)?shù)據(jù)。不過不要慌，看一下延遲加載的方式是什么樣的。

打開瀏覽器控制臺(tái)的網(wǎng)絡(luò)請(qǐng)求面板，滾動(dòng)頁面來觸發(fā)延遲加載，發(fā)現(xiàn)瀏覽器發(fā)送了一個(gè)異步請(qǐng)求：

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

復(fù)制請(qǐng)求的URL看看：

http://www.autohome.com.cn/grade/carhtml/B.html
http://www.autohome.com.cn/grade/carhtml/C.html
http://www.autohome.com.cn/grade/carhtml/D.html

找到規(guī)律了，每一次加載的URL，都只是改變了對(duì)應(yīng)的字母，所以對(duì)A到Z分別請(qǐng)求一次就取到了所有的品牌數(shù)據(jù)。

打開http://www.autohome.com.cn/grade/carhtml/B.html看下，發(fā)現(xiàn)頁面的數(shù)據(jù)很規(guī)整，是按照品牌-廠商-車系的層級(jí)組織的。嗯，正合我意，那就開爬吧。

編寫Spider

在spiders目錄下邊，新建一個(gè)brand_spider.py文件，在文件中定義BrandSpider類，這個(gè)類繼承了scrapy.Spider類，這就是scrapy的Spider類。在BrandSpider中，需要聲明name變量，這是這個(gè)爬蟲的ID；還需要聲明start_urls，這是爬蟲的起點(diǎn)鏈接；再定義一個(gè)parse方法，里面實(shí)現(xiàn)爬蟲的邏輯。

parse方法的入?yún)⒅校?em style="max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">response就是對(duì)start_urls中的鏈接的請(qǐng)求響應(yīng)數(shù)據(jù)，我們要爬取的品牌數(shù)據(jù)就在這里面，我們需要從response中提取出來。從response提取數(shù)據(jù)需要使用xpath語法，參考上邊的xpath教程。

提取數(shù)據(jù)之前，需要先給品牌數(shù)據(jù)定義一個(gè)實(shí)體類，因?yàn)樾枰哑放茢?shù)據(jù)存到數(shù)據(jù)實(shí)體中并落地到磁盤。在items.py文件中定義一個(gè)BrandItem類，這個(gè)類繼承了scrapy.Item類，類中聲明了爬取到的、要落地的品牌相關(guān)數(shù)據(jù)，這就是scrapy的Item類。

定義好品牌實(shí)體后，在parse方法中聲明一個(gè)BrandItem實(shí)例，然后通過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標(biāo)url等數(shù)據(jù)，并設(shè)置到BrandItem實(shí)例中，最后通過yield來聚合爬取到的各個(gè)品牌數(shù)據(jù)并返回，返回的數(shù)據(jù)會(huì)進(jìn)入pipeline。

編寫Pipeline

爬取到的數(shù)據(jù)接著被pipeline.py文件中定義的Pipeline類處理，這個(gè)類通常是對(duì)傳入的Item實(shí)體做數(shù)據(jù)的清洗、排重等工作，可以定義多個(gè)Pipeline，依次對(duì)Item處理。由于暫時(shí)沒有這方面的需要，就不改寫這個(gè)文件，保持默認(rèn)狀態(tài)就好。經(jīng)過pipeline的處理后，數(shù)據(jù)進(jìn)入數(shù)據(jù)集。

輸出csv格式數(shù)據(jù)

對(duì)于爬取到的車型數(shù)據(jù)，我想以csv的格式輸出，并且輸出到指定目錄下，此時(shí)需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'兩項(xiàng)，目的是指定輸出格式為csv，輸出到data目錄下，以”爬蟲名稱_爬取時(shí)間.csv“格式命名。

執(zhí)行爬蟲

品牌數(shù)據(jù)的爬蟲編寫完成了，在項(xiàng)目根目錄下執(zhí)行scrapy crawl brand，不出意外的話，在執(zhí)行了brand爬蟲后，會(huì)在data目錄下出現(xiàn)一個(gè)新的csv文件，并且裝滿了品牌數(shù)據(jù)。

小心被屏蔽

不過需要注意一個(gè)問題，就是當(dāng)爬蟲高頻地請(qǐng)求網(wǎng)站接口的時(shí)候，有可能會(huì)被網(wǎng)站識(shí)別出來并且屏蔽掉，因?yàn)樘哳l的請(qǐng)求會(huì)對(duì)網(wǎng)站的服務(wù)器造成壓力，所以需要對(duì)爬蟲限速。

在settings.py中添加DOWNLOAD_DELAY = 3，限制爬蟲的請(qǐng)求頻率為平均3秒一次。

另外，如果爬蟲發(fā)送的請(qǐng)求頭中沒有設(shè)置user agent也很容易被屏蔽掉，所以要對(duì)請(qǐng)求頭設(shè)置user agent。

在項(xiàng)目根目錄下新建user_agent_middlewares.py文件，在文件中定義UserAgentMiddleware類，繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list，存放一些常用的user agent，然后重寫process_request方法，在user_agent_list中隨機(jī)選取user agent寫入請(qǐng)求頭中。

車系、車型爬蟲

車系爬蟲與上邊的品牌爬蟲類似，實(shí)現(xiàn)在spiders/series_spider.py中。

車型爬蟲稍微復(fù)雜一些，實(shí)現(xiàn)在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型數(shù)據(jù)，同時(shí)要解析出更多的URL添加到請(qǐng)求隊(duì)列中。而且，車型爬蟲爬取的頁面并不像品牌數(shù)據(jù)頁面那么規(guī)整，所以要根據(jù)URL的特征以及頁面中的特征來調(diào)整解析策略。因此在這里用到了CrawlSpider和Rules，具體參照Spider文檔。

總結(jié)

以上就實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的汽車之家的車型數(shù)據(jù)爬蟲，其中用到了scrapy中的部分元素，當(dāng)然還有很多元素沒有涉及到，不過對(duì)于一個(gè)簡(jiǎn)單爬蟲來說足矣。

Tip

在用xpath解析頁面的時(shí)候，寫出來的xpath語句很可能與預(yù)期不符，而且調(diào)試起來很麻煩，我是用以下方式來提高效率的：

使用chrome上的XPath Helper插件。安裝好插件，打開目標(biāo)頁面，按command+shift+x（mac版的快捷鍵）打開插件面板，在面板里輸入xpath語句，就能看到取到的結(jié)果了：
使用scrapy shell調(diào)試。在工程目錄下執(zhí)行scrapy shell http://www.xxxxx.xx，之后就會(huì)進(jìn)入Python的交互終端，這時(shí)就可以進(jìn)行調(diào)試了。執(zhí)行print response.xpath('xxxxx')來驗(yàn)證xpath語句是否符合預(yù)期。

作者：littlelory
來源：http://www.jianshu.com/p/792e19ed9e1

————廣告時(shí)間————

馬哥教育2017年P(guān)ython自動(dòng)化運(yùn)維開發(fā)實(shí)戰(zhàn)班，馬哥聯(lián)合BAT、豆瓣等一線互聯(lián)網(wǎng)Python開發(fā)達(dá)人，根據(jù)目前企業(yè)需求的Python開發(fā)人才進(jìn)行了深度定制，加入了大量一線互聯(lián)網(wǎng)公司：大眾點(diǎn)評(píng)、餓了么、騰訊等生產(chǎn)環(huán)境真是項(xiàng)目，課程由淺入深，從Python基礎(chǔ)到Python高級(jí)，讓你融匯貫通Python基礎(chǔ)理論，手把手教學(xué)讓你具備Python自動(dòng)化開發(fā)需要的前端界面開發(fā)、Web框架、大監(jiān)控系統(tǒng)、CMDB系統(tǒng)、認(rèn)證堡壘機(jī)、自動(dòng)化流程平臺(tái)六大實(shí)戰(zhàn)能力，讓你從0開始蛻變成Hold住年薪20萬的Python自動(dòng)化開發(fā)人才。

掃描二維碼和更多小伙伴組團(tuán)學(xué)習(xí)

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

上一篇：【馬哥教育早報(bào)-107期】iPhone X發(fā)布最高售價(jià)近10000元+e租寶案一審宣判，CEO被判無期

下一篇：【圖文詳解】python基礎(chǔ)爬蟲實(shí)戰(zhàn)——5分鐘做個(gè)圖片自動(dòng)下載器

歷經(jīng)多年發(fā)展,已成為國(guó)內(nèi)好評(píng)如潮的Linux云計(jì)算運(yùn)維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機(jī)構(gòu)!

^{<sub id="0py38"></sub>}

<sub id="0py38"></sub><style id="0py38"></style>

<cite id="0py38"><track id="0py38"></track></cite>