Skip to content

網頁與爬蟲相關筆記

自從全球資訊網(World Wide Web)被發明後,人類開啟了資訊爆炸的時代
能自動且大量的擷取資料的爬蟲自然應運而生
在想利用爬蟲之前,可以先了解前端網頁是如何實作的,才能更有效率的知道想要爬取的資訊在哪

網頁三元素

前端網頁是基本是由 HTML 、 CSS 、 javascript 所組成

  • HTML(HyperText Markup Language)
    用於定義整個網頁的內容骨架,比如基本的文字、段落、圖片、連結
    關於HTML
  • CSS (Cascading Style Sheets) 用於美化網頁內容的靜態呈現,比如字形、字體、字的顏色、各區塊的排版
    關於CSS
  • javascript 用於增加網頁的互動性,比如點擊後會改變畫面、向下滾動才加載更多資料的設計
    關於JavaScript

JS框架

  1. JQuery 簡化JavaScript的語法、增加易讀易寫、Google等大公司皆有使用的套件
    JQuery 基礎

  2. Vue.js 高效的2019最新網頁前端套件 可以綁定html element、以template方式快速產生html element 等
    vue.js 套件

HTTP

HTTP (HyperText Transfer Protocol)是建立於TCP/IP之上,屬於application layer 的傳輸協定
關於HTTP

python + 爬蟲

這裡選用python 的 requests套件 + pyquery套件進行研究
requests會發出HTTP請求,以得到回應資訊
關於requests

pyquery則是沿用javascript 的 jQuery中簡單選取元素的方法,以parse回應資訊,得到我們想要的資料
關於pyquery