性夜影院午夜看片,无码精品久久一区二区三区,婷婷成人丁香五月综合激情,校园春色 qvod,性调教室高h学校

<ruby id="s42at"></ruby>

<center id="s42at"><b id="s42at"></b></center>

一個Python小白如何快速完成爬蟲

Python開發(fā) 2019年9月2日下午2:10 6629

很人或多或少都聽說過Python爬蟲，但不知道如何通過Python爬蟲來爬取自己想要的內(nèi)容，今天我就給大家說一個爬蟲教程來實現(xiàn)自己第一次Python爬蟲。

環(huán)境搭建

既然用Python，那么自然少不了語言環(huán)境。于是乎到官網(wǎng)下載了3.5版本的。安裝完之后，隨機(jī)選擇了一個編輯器叫PyCharm，話說Python編輯器還真挺多的。

建好項目，打開編輯器，直接開工。搜一個HTML解析工具，人家都做的那種，這事不要客氣，直接拿來用-BeautifulSoup 。安裝也很簡單的。

發(fā)送請求

當(dāng)然我也是不清楚Python是怎么進(jìn)行網(wǎng)絡(luò)請求的，其中還有什么2.0和3.0的不同，通過各種百度，最終還是寫出了最簡單的一段請求代碼。

Python小白如何快速完成爬蟲

數(shù)據(jù)解析

上文已經(jīng)提到了，用到的是BeautifulSoup，好處就是不用自己寫正則，只要根據(jù)他的語法來寫就好了，在多次的測試之后終于完成了數(shù)據(jù)的解析。先上一段HTML。然后在對應(yīng)下面的代碼，也許看起來更輕松一些。

Python爬蟲

通過上文的HTML代碼可以看到幾點。首先每一條數(shù)據(jù)都在 div(class=”post_item”)下。然后 div(“post_item_body”)下有用戶信息，標(biāo)題，鏈接，簡介等信息。逐一根據(jù)樣式解析即可。代碼如下：

Python爬蟲

Python爬蟲

上邊一堆代碼下來，著實會花費(fèi)不少時間，邊寫邊調(diào)試，再百度，不過還好最終還是出來了。等數(shù)據(jù)都整理好之后，然后我把它保存到了txt文件里面，以供其他語言來處理。

Python爬蟲

上邊呢，我取了一百頁的數(shù)據(jù)，也就是大概2000條做測試。

成果驗收

廢了好大勁終于寫完那些代碼之后呢，就欣賞自己的成果了，像我這樣的初學(xué)者，代碼寫的很渣，都是這參考一下，那參考一下，不過當(dāng)你真正完成了，你就會有一種莫名的自豪感。

聲明：文章來源于網(wǎng)絡(luò)，侵刪！

Python學(xué)習(xí)

上一篇：零基礎(chǔ)如何學(xué)好Python 之int 數(shù)字整型類型定義int()范圍大小轉(zhuǎn)換

下一篇：為Python選擇一個更快的JSON庫

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評如潮的Linux云計算運(yùn)維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機(jī)構(gòu)!