你是想抓別人網(wǎng)頁上ajax動態(tài)載入的數(shù)據(jù)吧? 1、要找到它的ajax載入的URL地址 2、利用PHP的file_get_contents($url)函數(shù)讀取那個url地址。 3、對抓取到的內(nèi)容進行分析或正則過濾。

站在用戶的角度思考問題,與客戶深入溝通,找到海寧網(wǎng)站設計與海寧網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設計與互聯(lián)網(wǎng)技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站設計制作、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名注冊、網(wǎng)站空間、企業(yè)郵箱。業(yè)務覆蓋海寧地區(qū)。
JS開啟新窗口會被一些瀏覽器阻止。
可以用別的方式來實現(xiàn),具體看你的需求是什么樣了。
比如可以彈出浮動層來替代窗口。
可以用以下4個方法來抓取網(wǎng)站 的數(shù)據(jù):
1. 用 file_get_contents 以 get 方式獲取內(nèi)容:
?
$url = '';
$html = file_get_contents($url);
echo $html;
2. 用fopen打開url,以get方式獲取內(nèi)容
?
$url = '';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
$result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);
3. 用file_get_contents函數(shù),以post方式獲取url
?
$data = array(
'foo'='bar',
'baz'='boom',
'site'='',
'name'='nowa magic');
$data = http_build_query($data);
//$postdata = http_build_query($data);
$options = array(
'http' = array(
'method' = 'POST',
'header' = 'Content-type:application/x-www-form-urlencoded',
'content' = $data
//'timeout' = 60 * 60 // 超時時間(單位:s)
)
);
$url = "";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
echo $result;
4、使用curl庫,使用curl庫之前,可能需要查看一下php.ini是否已經(jīng)打開了curl擴展
$url = '';
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
echo $file_contents;
模擬GET請求:file_get_contents($url)通過php內(nèi)置的file_get_contents函數(shù)可以模擬瀏覽器訪問網(wǎng)址的行為。
取的結果就是那個網(wǎng)址所返回的所有網(wǎng)址。
網(wǎng)頁瀏覽器(WebBrowser),常被簡稱為瀏覽器,是一種用于檢索并展示萬維網(wǎng)信息資源的應用程序。這些信息資源可為網(wǎng)頁、圖片、影音或其他內(nèi)容,它們由統(tǒng)一資源標志符標志,信息資源中的超鏈接可使用戶方便地瀏覽相關信息。
pcntl_fork或者swoole_process實現(xiàn)多進程并發(fā)。按照每個網(wǎng)頁抓取耗時500ms,開200個進程,可以實現(xiàn)每秒400個頁面的抓取。
curl實現(xiàn)頁面抓取,設置cookie可以實現(xiàn)模擬登錄
simple_html_dom 實現(xiàn)頁面的解析和DOM處理
如果想要模擬瀏覽器,可以使用casperJS。用swoole擴展封裝一個服務接口給PHP層調(diào)用
在這里有一套爬蟲系統(tǒng)就是基于上述技術方案實現(xiàn)的,每天會抓取幾千萬個頁面。
curl基本特性
模擬瀏覽器傳輸數(shù)據(jù)
實現(xiàn)post/get方式傳輸
支持多種協(xié)議:HTTP、HTTPS、FTP上傳
支持cookie,用戶名/密碼的認證
使用curl完成請求的簡單步驟
初始化一個curl句柄
resource curl_init ([ string $url = NULL ] )
設置curl選項
bool curl_setopt ( resource $ch , int $option , mixed $value )
執(zhí)行curl請求
mixed curl_exec ( resource $ch )
釋放curl資源
void curl_close ( resource $ch )
網(wǎng)頁名稱:php模擬瀏覽器抓取數(shù)據(jù) php獲取瀏覽器信息
標題網(wǎng)址:http://chinadenli.net/article6/hijjig.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供Google、微信公眾號、做網(wǎng)站、移動網(wǎng)站建設、建站公司、靜態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)