本篇內(nèi)容主要講解“php爬蟲框架怎么用”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“php爬蟲框架怎么用”吧!
網(wǎng)絡爬蟲:互聯(lián)網(wǎng)就像一張巨大的蜘蛛網(wǎng),里面存放了很多的數(shù)據(jù)。爬蟲就是一只沿著網(wǎng)絡線去獲取自己所需數(shù)據(jù)的小蜘蛛,數(shù)據(jù)采集指的是我們向目標網(wǎng)站發(fā)出請求,然后獲取到數(shù)據(jù)后把有用數(shù)據(jù)提取的程序。所需要用到的技術就是模擬瀏覽器向站點發(fā)出請求行為,把站點返回的各種數(shù)據(jù)保存到本地在進行有用數(shù)據(jù)的過濾。
爬蟲的框架有很多,Scrapy是用純Python實現(xiàn)一個為了爬取網(wǎng)站數(shù)據(jù)、提取結構性數(shù)據(jù)而編寫的應用框架,用途非常廣泛。這幾天使用PHP的爬蟲框架爬取了一些數(shù)據(jù),發(fā)現(xiàn)還是挺方便的,這里放下php程序直中配置代理的簡單示例,為自己的學習做個小筆記。
<?php
// 要訪問的目標頁面
$url = "http://httpbin.org/ip";
$urls = "https://httpbin.org/ip";
// 代理服務器(產(chǎn)品官網(wǎng) www.16yun.cn)
define("PROXY_SERVER", "tcp://t.16yun.cn:31111");
// 代理身份信息
define("PROXY_USER", "username");
define("PROXY_PASS", "password");
$proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);
// 設置 Proxy tunnel
$tunnel = rand(1,10000);
$headers = implode("\r\n", [
"Proxy-Authorization: Basic {$proxyAuth}",
"Proxy-Tunnel: ${tunnel}",
]);
$sniServer = parse_url($urls, PHP_URL_HOST);
$options = [
"http" => [
"proxy" => PROXY_SERVER,
"header" => $headers,
"method" => "GET",
'request_fulluri' => true,
],
'ssl' => array(
'SNI_enabled' => true, // Disable SNI for https over http proxies
'SNI_server_name' => $sniServer
)
];
print($url);
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
var_dump($result);
// 訪問 HTTPS 頁面
print($urls);
$context = stream_context_create($options);
$result = file_get_contents($urls, false, $context);
var_dump($result);
到此,相信大家對“php爬蟲框架怎么用”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!
網(wǎng)站名稱:php爬蟲框架怎么用-創(chuàng)新互聯(lián)
分享路徑:http://chinadenli.net/article18/dessdp.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設、ChatGPT、網(wǎng)站改版、網(wǎng)站策劃、App設計、App開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容