這篇文章主要介紹python數(shù)據(jù)爬蟲(chóng)有什么用,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

一、爬蟲(chóng)工作原理
獲取網(wǎng)頁(yè)——分析網(wǎng)頁(yè)源代碼——提取信息,便是爬蟲(chóng)工作的三部曲。
二、爬蟲(chóng)的基本流程:
用戶(hù)獲取網(wǎng)絡(luò)數(shù)據(jù)的方式:
方式1:瀏覽器提交請(qǐng)求--->下載網(wǎng)頁(yè)代碼--->解析成頁(yè)面。
方式2:模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁(yè)代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫(kù)或文件中。
包括以下內(nèi)容:
1、發(fā)起請(qǐng)求
2、獲取響應(yīng)內(nèi)容
3、解析內(nèi)容
4、保存數(shù)據(jù)
應(yīng)用場(chǎng)景
1、互聯(lián)網(wǎng)平臺(tái),偏向銷(xiāo)售公司,客戶(hù)信息的爬取
2、資訊爬取并應(yīng)用到平臺(tái)業(yè)務(wù)中
3、競(jìng)品公司重要數(shù)據(jù)挖掘分析與應(yīng)用
實(shí)戰(zhàn)例子
項(xiàng)目原理:打開(kāi)網(wǎng)址-獲取源碼-找到圖片-匹配下載
#coding=utf-8
'''
Created on 2017年1月28日
@author: gaojs
'''
import urllib,re,os
def getHtml():
page=urllib.urlopen('').read()#打開(kāi)網(wǎng)址并且讀取
return page
x=0
def getimg(page):
imgre=re.compile(r' src="(.*?)" class=')
imglist=re.findall(imgre,page)
for imgurl in imglist:
# print imgurl
global x
if not os.path.exists('/Users/gaojs/Desktop/pic'):
print os.mkdir('/Users/gaojs/Desktop/pic/')
else:
urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下載圖片到指定位置
x+=1
print u'正在下載第%s張'%x
l=getHtml()
getimg(l)以上是python數(shù)據(jù)爬蟲(chóng)有什么用的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
當(dāng)前文章:python數(shù)據(jù)爬蟲(chóng)有什么用-創(chuàng)新互聯(lián)
網(wǎng)頁(yè)URL:http://chinadenli.net/article2/sphic.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、電子商務(wù)、企業(yè)網(wǎng)站制作、品牌網(wǎng)站設(shè)計(jì)、響應(yīng)式網(wǎng)站、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容