網(wǎng)絡(luò)爬蟲(chóng)java代碼,Java爬蟲(chóng)代碼

Java源碼實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)?

//Java爬蟲(chóng)demo

讓客戶(hù)滿(mǎn)意是我們工作的目標(biāo)，不斷超越客戶(hù)的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶(hù)，將通過(guò)不懈努力成為客戶(hù)在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴，公司提供的服務(wù)項(xiàng)目有：域名申請(qǐng)、網(wǎng)站空間、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、防城網(wǎng)站維護(hù)、網(wǎng)站推廣。

import?java.io.File;

import?java.net.URL;

import?java.net.URLConnection;

import?java.nio.file.Files;

import?java.nio.file.Paths;

import?java.util.Scanner;

import?java.util.UUID;

import?java.util.regex.Matcher;

import?java.util.regex.Pattern;

public?class?DownMM?{

public?static?void?main(String[]?args)?throws?Exception?{

//out為輸出的路徑,注意要以\\結(jié)尾

String?out?=?"D:\\JSP\\pic\\java\\";?

try{

File?f?=?new?File(out);

if(!?f.exists())?{??

f.mkdirs();??

}??

}catch(Exception?e){

System.out.println("no");

}

String?url?=?"-";

Pattern?reg?=?Pattern.compile("img?src=\"(.*?)\"");

for(int?j=0,?i=1;?i=10;?i++){

URL?uu?=?new?URL(url+i);

URLConnection?conn?=?uu.openConnection();

conn.setRequestProperty("User-Agent",?"Mozilla/5.0?(Windows?NT?6.3;?WOW64;?Trident/7.0;?rv:11.0)?like?Gecko");

Scanner?sc?=?new?Scanner(conn.getInputStream());

Matcher?m?=?reg.matcher(sc.useDelimiter("\\A").next());

while(m.find()){

Files.copy(new?URL(m.group(1)).openStream(),?Paths.get(out?+?UUID.randomUUID()?+?".jpg"));

System.out.println("已下載:"+j++);

}

求用JAVA編寫(xiě)一個(gè)網(wǎng)絡(luò)爬蟲(chóng)的程序

先根據(jù)一個(gè)鏈接，抓取該頁(yè)面；解析該頁(yè)面，搜取出該頁(yè)面中有用的鏈接，根據(jù)鏈接地址循環(huán)抓取就OK了；--簡(jiǎn)單爬行器原理抓取完文件后還需要一個(gè)功能好點(diǎn)的文檔解析器來(lái)解析出文件中的內(nèi)容；--文件解析器再根據(jù)關(guān)鍵字（分詞器）處理這些頁(yè)面，建立自己的搜索引擎；--分詞器不好解決我也正在搞這方面呵呵

java爬蟲(chóng)抓取指定數(shù)據(jù)

根據(jù)java網(wǎng)絡(luò)編程相關(guān)的內(nèi)容，使用jdk提供的相關(guān)類(lèi)可以得到url對(duì)應(yīng)網(wǎng)頁(yè)的html頁(yè)面代碼。

針對(duì)得到的html代碼，通過(guò)使用正則表達(dá)式即可得到我們想要的內(nèi)容。

比如，我們?nèi)绻氲玫揭粋€(gè)網(wǎng)頁(yè)上所有包括“java”關(guān)鍵字的文本內(nèi)容，就可以逐行對(duì)網(wǎng)頁(yè)代碼進(jìn)行正則表達(dá)式的匹配。最后達(dá)到去除html標(biāo)簽和不相關(guān)的內(nèi)容，只得到包括“java”這個(gè)關(guān)鍵字的內(nèi)容的效果。

從網(wǎng)頁(yè)上爬取圖片的流程和爬取內(nèi)容的流程基本相同，但是爬取圖片的步驟會(huì)多一步。

需要先用img標(biāo)簽的正則表達(dá)式匹配獲取到img標(biāo)簽，再用src屬性的正則表達(dá)式獲取這個(gè)img標(biāo)簽中的src屬性的圖片url，然后再通過(guò)緩沖輸入流對(duì)象讀取到這個(gè)圖片url的圖片信息，配合文件輸出流將讀到的圖片信息寫(xiě)入到本地即可。

本文題目：網(wǎng)絡(luò)爬蟲(chóng)java代碼,Java爬蟲(chóng)代碼
轉(zhuǎn)載來(lái)于：http://chinadenli.net/article3/dsgdeis.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供ChatGPT、自適應(yīng)網(wǎng)站、網(wǎng)站設(shè)計(jì)、Google、域名注冊(cè)、全網(wǎng)營(yíng)銷(xiāo)推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

網(wǎng)絡(luò)爬蟲(chóng)java代碼,Java爬蟲(chóng)代碼

Java源碼 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)?

求用JAVA編寫(xiě)一個(gè)網(wǎng)絡(luò)爬蟲(chóng)的程序

java爬蟲(chóng)抓取指定數(shù)據(jù)

Java源碼實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)?