隔着超薄肉丝进入小说_男女刺激性视频大片_女教师的诱波多野结衣_一级欧美过瘾大片

當前位置: 首頁 / 技術干貨 / 正文
好程序員Python培訓分享網絡爬蟲的分類

2020-07-28

Python培訓

  好程序員Python培訓分享網絡爬蟲的分類,網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。

好程序員

  一、通用網絡爬蟲

  通用網絡爬蟲又稱全網爬蟲(Scalable Web Crawler),爬行對象從一些種子URL 擴充到整個 Web,主要為門戶站點搜索引擎和大 型 Web 服務提供商采集數據。由于商業原因 ,它們的技術細節很少公布出來。通用網絡爬蟲的結構大致可以分為頁面爬行模塊 、頁面分析模塊、鏈接過濾模塊、頁面數據庫、URL 隊列初始URL集合幾個部分。為提高工作效率,通用網絡爬蟲會采取一定的爬行策略。常 用的爬行策略有:深度優先策略、廣度優先策略。

  二、聚焦網絡爬蟲

  聚焦網絡爬蟲(Focused Crawler),又稱主題 網絡爬蟲(Topical Crawler),是指選擇性地爬行那 些與預先定義好的主題相關頁面的網絡爬蟲[8]。和 通用網絡爬蟲相比,聚焦爬蟲只需要爬行與主題相關 的頁面,極大地節省了硬件和網絡資源,保存的頁面 也由于數量少而更新快,還可以很好地滿足一些特定 人群對特定領域信息的需求 。聚焦網絡爬蟲和通用網絡爬蟲相比,增加了鏈 接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實 現的關鍵是評價頁面內容和鏈接的重要性,不同的方 法計算出的重要性不同,由此導致鏈接的訪問順序也 不同。主要的爬行策略包括:基于內容評價的爬行策 略、基于鏈接結構評價的爬行策略 、基于增強學習 的爬行策略、基于語境圖的爬行策略。

  三、增量式網絡爬蟲

  增量式網絡爬蟲(Incremental Web Crawler)是指對已下載網頁采取增量式更新和只爬行新產生的或者已經發生變化 網頁的爬蟲,它能夠在一定程度上保證所爬 行的頁面是盡可能新的頁面。增量式爬蟲只 會在需要的時候爬行新產生或發生更新的頁 面 ,并不重新下載沒有發生變化的頁面,可 有效減少數據下載量,及時更新已爬行的網 頁,減小時間和空間上的耗費,但是增加了 爬行算法的復雜度和實現難度。增量式網絡 爬蟲的體系結構[包含爬行模塊、排序模塊、 更新模塊、本地頁面集、待爬行 URL 集以及 本地頁面URL 集。

  四、Deep Web 爬蟲

  Web 頁面按存在方式可以分為表層網頁(Surface Web和深層網頁(Deep Web,也 稱 Invisible Web Pages 或 Hidden Web)。表層網頁是 指傳統搜索引擎可以索引的頁面,以超鏈接可以到達的靜態網頁 為主構成的 Web 頁面。Deep Web 是那些大部分內容不能通過靜 態鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關鍵詞 才能獲得的 Web 頁面。例如那些用戶注冊后內容才可見的網頁 就屬于 Deep Web。2000 年Bright Planet 指出:Deep Web 中可 訪問信息容量是 Surface Web 的幾百倍,是互聯網上最大、發展 最快的新型信息資源 。Deep Web 爬蟲體系結構包含六個基本功 能模塊 (爬行控制器、解析器、表單分析器、表單處理器、響應 分析器、LVS 控制器)和兩個爬蟲內部數據結構(URL 列表、 LVS 表)

  免責聲明:內容和圖片源自網絡,版權歸原作者所有,如有侵犯您的原創版權請告知,我們將盡快刪除相關內容。

好程序員公眾號

  • · 剖析行業發展趨勢
  • · 匯聚企業項目源碼

好程序員開班動態

More+
  • HTML5大前端 <高端班>

    開班時間:2021-04-12(深圳)

    開班盛況

    開班時間:2021-05-17(北京)

    開班盛況
  • 大數據+人工智能 <高端班>

    開班時間:2021-03-22(杭州)

    開班盛況

    開班時間:2021-04-26(北京)

    開班盛況
  • JavaEE分布式開發 <高端班>

    開班時間:2021-05-10(北京)

    開班盛況

    開班時間:2021-02-22(北京)

    開班盛況
  • Python人工智能+數據分析 <高端班>

    開班時間:2021-07-12(北京)

    預約報名

    開班時間:2020-09-21(上海)

    開班盛況
  • 云計算開發 <高端班>

    開班時間:2021-07-12(北京)

    預約報名

    開班時間:2019-07-22(北京)

    開班盛況
IT培訓IT培訓
在線咨詢
IT培訓IT培訓
試聽
IT培訓IT培訓
入學教程
IT培訓IT培訓
立即報名
IT培訓

Copyright 2011-2023 北京千鋒互聯科技有限公司 .All Right 京ICP備12003911號-5 京公網安備 11010802035720號