欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)-創(chuàng)新互聯(lián)

概述

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

10年積累的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有永順免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

在本節(jié)中,我們將講述抓取政府官網(wǎng)地方新聞。并將抓取的新聞數(shù)據(jù)融入到以下兩張數(shù)據(jù)表news_site和news中。

news_site(新聞來源)

字段 類型 說明
idbigint主鍵,自動(dòng)增長
namevarchar(128)來源名稱

news(新聞)

字段 類型 說明
idbigint主鍵,自動(dòng)增長
titlevarchar(128)標(biāo)題
site_idbigint外鍵,指向表news_site的id字段
contenttext內(nèi)容
pub_datedatetime發(fā)布時(shí)間
date_createddatetime加入時(shí)間

我們很容易看到這兩張表存在關(guān)聯(lián),那是怎樣將數(shù)據(jù)寫入關(guān)聯(lián)呢,我們將再此一一介紹。

定義站點(diǎn)、數(shù)據(jù)集

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

定義抓取和抽取規(guī)則

在這里我們需要填入口地址。入口地址如果有多個(gè),那么要以英文逗號相隔。如下圖所示:

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

接下來我們編寫規(guī)則時(shí),首先是匹配URL,這里需要填寫正則表達(dá)式。旁邊的“?”號,點(diǎn)擊后就會(huì)彈出相應(yīng)的幫助文檔。如下圖所示:

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

然后數(shù)據(jù)集選擇則我們要注意,如果抓取的僅需要的是鏈接,那么是否數(shù)據(jù)集選擇否,且數(shù)據(jù)集字段必須要有一個(gè)名為href的字段。如下圖所示:

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

否則是否數(shù)據(jù)集應(yīng)該選擇是,且數(shù)據(jù)集字段必須要有一個(gè)名為sn的字段。sn字段存放的數(shù)據(jù)一般是唯一值,相當(dāng)于數(shù)據(jù)表里的id字段。如下圖所示:

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

完整的規(guī)則內(nèi)容顯示如下:

[
  {
    __sample: http://sousuo.gov.cn/column/40520/0.htm
    match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm
    fields0:
    {
      __model: false
      __node: .news_box a
      href:
      {
        expr: a
        attr: abs:href
        js: ""
        __label: 鏈接
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
  {
    __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm
    match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm
    fields0:
    {
      __model: true
      __dataset: news
      __node: ".article "
      sn:
      {
        expr: ""
        attr: ""
        js:
          '''
          var xx=md5(baseUri)
          xx
          '''
        __label: 編號
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      title:
      {
        expr: .article >h2
        attr: ""
        js: ""
        __label: 標(biāo)題
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      pubdate:
      {
        expr: .pages-date:matchText
        attr: ""
        js: ""
        __label: 發(fā)布時(shí)間
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      source:
      {
        expr: .pages-date > span.font:contains(來源)
        attr: ""
        js:
          '''
          var xx=source.replace("來源:",'');
          xx
          '''
        __label: 來源
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      content:
      {
        expr: .pages_content
        attr: ""
        js: ""
        __label: 新聞內(nèi)容
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
]

配制和啟動(dòng)抓取器

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

一個(gè)抓取器可以配制抓取多個(gè)站點(diǎn),一個(gè)站點(diǎn)也可以配制多個(gè)抓取器抓取。

然后點(diǎn)擊“開始”,則會(huì)啟動(dòng)抓取器。

查看和導(dǎo)出數(shù)據(jù)

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

可以按照搜索條件進(jìn)行導(dǎo)出數(shù)據(jù)。選擇“導(dǎo)出”按扭后,還將提示導(dǎo)出哪些數(shù)據(jù)段,最后導(dǎo)出文件。 如果數(shù)據(jù)少量,將會(huì)導(dǎo)出為excel文件,否則下載的打包之后的zip文件。如下圖所示:

GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)

本節(jié)內(nèi)容描述到這里,下一篇將講述如何通過金色數(shù)據(jù)如何將數(shù)據(jù)融合到數(shù)據(jù)表當(dāng)中去。

(注:本內(nèi)容是根據(jù)培訓(xùn)視頻整理而成,https://golddata.100shouhou.com/front/docs)

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

當(dāng)前文章:GoldData學(xué)習(xí)實(shí)例-采集官網(wǎng)新聞數(shù)據(jù)-創(chuàng)新互聯(lián)
標(biāo)題路徑:http://chinadenli.net/article30/edgpo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作企業(yè)網(wǎng)站制作商城網(wǎng)站網(wǎng)頁設(shè)計(jì)公司網(wǎng)站設(shè)計(jì)公司App開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名