欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

使用PHP怎么采集抓取淘寶網(wǎng)的單個(gè)商品信息-創(chuàng)新互聯(lián)

使用PHP怎么采集抓取淘寶網(wǎng)的單個(gè)商品信息?針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

10多年創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè),由一走到現(xiàn)在,當(dāng)中離不開團(tuán)隊(duì)頑強(qiáng)的創(chuàng)業(yè)精神,離不開伴隨我們同行的客戶與專業(yè)的合作伙伴,創(chuàng)力信息一直秉承以“見一個(gè)客戶,了解一個(gè)行業(yè),交一個(gè)朋友”的方式為經(jīng)營(yíng)理念,提出“讓每一個(gè)客戶成為我們的終身客戶”為目標(biāo),以為用戶提供精細(xì)化服務(wù),全面滿足用戶需求為宗旨,誠(chéng)信經(jīng)營(yíng),更大限度為用戶創(chuàng)造價(jià)值。期待邁向下一個(gè)更好的10多年。

思路:


file_get_contents(url) 該函數(shù)根據(jù) url 如 /tupian/20230522/ 將該網(wǎng)頁(yè)內(nèi)容(源碼)以字符串形式輸出(一個(gè)整字符串),然后配合preg_match,preg_replace等這些正則表達(dá)式操作就可以實(shí)現(xiàn)獲取該url特定div,img等信息了。當(dāng)然前題是淘寶在單個(gè)商品頁(yè)面的結(jié)構(gòu)是固定的,如500圖的img中id就是J_ImgBooth!

具體實(shí)現(xiàn)方法:(獲取500圖,名稱,價(jià)格,屬性及商品描述)


復(fù)制代碼 代碼如下:


$text=file_get_contents("/tupian/20230522/item.htm //將url地址上頁(yè)面內(nèi)容保存進(jìn)$text


A.獲取500圖:


復(fù)制代碼 代碼如下:


preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運(yùn)用正則抓取img標(biāo)簽中id為J_ImgBooth的img,$img[0]為該500圖img標(biāo)簽,$img[1]為500圖的圖片地址;


B. 獲取名稱:

復(fù)制代碼 代碼如下:


preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因?yàn)檎闹械纳唐访Q標(biāo)簽沒有特殊class或id正則不好抓取,就抓<title>標(biāo)簽中的內(nèi)容了,一般來(lái)說(shuō)title中內(nèi)容就是商品名稱了(實(shí)際有些出入),$title[0]整個(gè)title標(biāo)簽 $title[1]標(biāo)簽中內(nèi)容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網(wǎng)站是utf8編碼,那么需要進(jìn)行一下轉(zhuǎn)碼(淘寶是gbk編碼)


C.獲取價(jià)格:

復(fù)制代碼 代碼如下:


preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標(biāo)簽內(nèi)容$price[2], $price[0]是整個(gè)標(biāo)簽, $price[1]為strong標(biāo)簽名;
$price=floatval($price);//放入數(shù)據(jù)庫(kù)估計(jì)還有轉(zhuǎn)一下變量類型


D.獲取屬性:

這之前獲取的內(nèi)容都是在單標(biāo)簽中相對(duì)只需一個(gè)正則就可搞定,然而如果要獲取如

復(fù)制代碼 代碼如下:



 
<div id=”xxx”>
 

 
<ul>
 

 
</ul>
 
<div>…
 
<div>…
 
</div>
 
</div>
 
</div>
 


這樣特定div中有未知n個(gè)<>標(biāo)簽,獲取該特定div將會(huì)非常的困難,搜了下網(wǎng)上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標(biāo)簽對(duì),但是他不能抓特定標(biāo)簽,所以想要輕松抓取class=”attributes”的div我是沒法辦到了。但是淘寶網(wǎng)頁(yè)有其特殊性,就是它的各個(gè)標(biāo)簽結(jié)構(gòu)基本是固定的…<div>…</div>標(biāo)簽后面不是</div><div id=”description”>就是</div><div>,所以我們可以采用變通法達(dá)到獲取屬性標(biāo)簽內(nèi)容的目的。

復(fù)制代碼 代碼如下:


preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個(gè)正則會(huì)抓取<div開始到整個(gè)頁(yè)面最后一個(gè)</div>標(biāo)簽,當(dāng)然我們屬性標(biāo)簽就在這個(gè)的前面部分。
 
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的刪除了),所以如果attributes的div后面緊跟的是description那么我們已經(jīng)達(dá)到目的了。
 
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面緊跟box J_Tbox標(biāo)簽,那么我們還需要使用以上這步來(lái)剔除box J_Tbox標(biāo)簽,當(dāng)然如果attributes的div后面緊跟的是description,這一步將不會(huì)匹配到任何即什么都不會(huì)做。


E.獲取描述:

通過(guò)上面方法你肯定覺得淘寶頁(yè)面上任何標(biāo)簽都可以很簡(jiǎn)單獲取了吧(我之前也是這么想的),但是使用這個(gè)方法獲取描述時(shí)得到的內(nèi)容將會(huì)是“描述加載中”,是的,這個(gè)描述內(nèi)容不是在源碼中的,它是打開頁(yè)面加載進(jìn)一大堆js后,不知道從淘寶的哪個(gè)角落中加載進(jìn)來(lái)的。

好吧,那么我們也可以模仿它放一些js進(jìn)去。不知道哪些對(duì)加載描述有用?沒事,全加載進(jìn)來(lái)肯定沒錯(cuò)。不知道需要放那些特定div上去有作用?抓一個(gè)源碼,刪掉一些div一步步試試看,你會(huì)發(fā)現(xiàn)“<div id=”detail”> </div>

復(fù)制代碼 代碼如下:


<div id="description">
 
<div id="J_DivItemDesc">描述加載中</div>
 
</div>


這幾個(gè)div是加載描述所必須的,那么下面就是寫代碼了:

復(fù)制代碼 代碼如下:


preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁(yè)面js腳本
 $content=$content[0];
 $description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述加載中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};



關(guān)于使用PHP怎么采集抓取淘寶網(wǎng)的單個(gè)商品信息問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

分享題目:使用PHP怎么采集抓取淘寶網(wǎng)的單個(gè)商品信息-創(chuàng)新互聯(lián)
本文URL:http://chinadenli.net/article8/dgpsop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)網(wǎng)站制作品牌網(wǎng)站建設(shè)云服務(wù)器虛擬主機(jī)網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)