python爬蟲即網絡爬蟲,網絡爬蟲是一種程序,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到數據庫中,然後跳到另一個網站。
python爬蟲的作用有:
1、python爬蟲可以按照規則去進行抓取網站上的有價值的資訊;
2、可以使用python爬蟲去抓取資訊並且下載到本地。
拓展:爬蟲分類
從爬取對象來看,爬蟲可以分爲通用爬蟲和聚焦爬蟲兩類。
通用網絡爬蟲又稱全網爬蟲(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個 Web,主要爲搜尋引擎和大型 Web 服務提供商採集數據。
聚焦網絡爬蟲(Focused Crawler),是指選擇性地爬取那些與預先定義好的主題相關頁面的網絡爬蟲。
今天的分享就是這些,希望能幫助到大家!