//?抓取網(wǎng)頁(yè)

金門ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書(shū)未來(lái)市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)建站的ssl證書(shū)銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書(shū)合作)期待與您的合作!
echo?"\n\n抓取網(wǎng)頁(yè)=======================================\n";
function?getHTTPS($url)?{
$ch?=?curl_init?();
curl_setopt?(?$ch,?CURLOPT_SSL_VERIFYPEER,?FALSE?);
curl_setopt?(?$ch,?CURLOPT_HEADER,?false?);
curl_setopt?(?$ch,?CURLOPT_FOLLOWLOCATION,?true?);
curl_setopt?(?$ch,?CURLOPT_URL,?$url?);
curl_setopt?(?$ch,?CURLOPT_REFERER,?$url?);
curl_setopt?(?$ch,?CURLOPT_RETURNTRANSFER,?TRUE?);
$result?=?curl_exec?(?$ch?);
curl_close?(?$ch?);
return?$result;
}
$result?=?getHTTPS?(?""?);
$array?=?array?(
'img',
'script',
'link'?
);
$num?=?count?(?$array?);
for($i?=?0;?$i??$num;?++?$i)?{
echo?$array?[$i]?.?"--------------------------------\n";
if?(preg_match_all?(?"/"?.?$array?[$i]?.?"[^]*/i",?$result,?$m?))?{
for($j?=?0;?$j??count?(?$m?[0]?);?$j?++)?{
echo?$m?[0]?[$j]?.?"\n";
}
}
}
$string_1 = '
tr
td width=15% align=rightb電話:/b/td
td width=85%86666947/td
/tr
tr
td align=right b地址:/b/td
td 春熙路8號(hào)/td
/tr
tr
td align=right b人均:/b/td
td span class=f_red_14b14/span元/td
/tr
tr
td align=rightb菜系:/b/td
td快餐/小吃/td
/tr
'
;
preg_match_all ("|td[^]*([^(b)].*)/td|", $string_1, $out, PREG_PATTERN_ORDER);
print_r($out[1]);
---------------------------------------------------------
輸出結(jié)果為:
Array
(
[0] = 86666947
[1] = 春熙路8號(hào)
[2] = 快餐/小吃
)
可用如下的代碼來(lái)實(shí)現(xiàn):
?php
$str1="|1234|#2354#@2314@
|1314|#2154#@2214@
|1234|#2354#@2314@
|1314|#2154#@2214@";
if(preg_match_all("/\|(\d{4})\|\#(\d{4})\#\@(\d{4})\@/m",$str1,?$out,?PREG_PATTERN_ORDER))
for($i=0;$icount($out[0]);$i++)
{
echo?"{'".$out[1][$i]."','".$out[2][$i]."','".$out[2][$i]."'}br/";
}
?
效果如下所示:
{'1234','2354','2354'}
{'1314','2154','2154'}
{'1234','2354','2354'}
{'1314','2154','2154'}
確保采集的數(shù)據(jù)時(shí)對(duì)稱的,可以用下面的方法
$arr_id = array();
$arr_title = array();
$sql= array();
$arr_id[] = explode('.',你采集的id串);
$arr_title[] = explode('.',你采集的title串);
for($i=0,$icount($arr_id),$i++){
$sql[] = "insert into table (id,title) values ($arr_id[$i],'$arr_title[$i]')"
}
簡(jiǎn)單寫(xiě)的話就是
preg_match("(title.*?.*?title)ims",$b,$a);
$a[0]是你要的
個(gè)人建議采集到的數(shù)據(jù)存儲(chǔ)為二維數(shù)組,其中商品id是唯一的,所以將id作為鍵值,然后每個(gè)鍵值對(duì)應(yīng)的是一個(gè)一次包含title,price等數(shù)據(jù)的二維數(shù)組,這樣采集完成后,可以將這個(gè)二維數(shù)組遍歷循環(huán)插入數(shù)據(jù)庫(kù),這樣也不容易出現(xiàn)錯(cuò)誤
比如其中一個(gè)商品id為1,標(biāo)題為“牙刷”,價(jià)格為$2,就這樣寫(xiě)入數(shù)組$arr[1]=array("牙刷","$2")
文章名稱:php采集數(shù)據(jù)正則for,PHP數(shù)據(jù)采集
URL鏈接:http://chinadenli.net/article48/hsgohp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、服務(wù)器托管、ChatGPT、網(wǎng)站營(yíng)銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)