自從全球資訊網(World Wide Web)被發明後,人類開啟了資訊爆炸的時代
能自動且大量的擷取資料的爬蟲自然應運而生
在想利用爬蟲之前,可以先了解前端網頁是如何實作的,才能更有效率的知道想要爬取的資訊在哪
網頁三元素
前端網頁是基本是由 HTML 、 CSS 、 javascript 所組成
- HTML(HyperText Markup Language)
用於定義整個網頁的內容骨架,比如基本的文字、段落、圖片、連結
關於HTML - CSS (Cascading Style Sheets)
用於美化網頁內容的靜態呈現,比如字形、字體、字的顏色、各區塊的排版
關於CSS - javascript
用於增加網頁的互動性,比如點擊後會改變畫面、向下滾動才加載更多資料的設計
關於JavaScript
JS框架
-
JQuery 簡化JavaScript的語法、增加易讀易寫、Google等大公司皆有使用的套件
JQuery 基礎 -
Vue.js 高效的2019最新網頁前端套件 可以綁定html element、以template方式快速產生html element 等
vue.js 套件
HTTP
HTTP (HyperText Transfer Protocol)是建立於TCP/IP之上,屬於application layer 的傳輸協定
關於HTTP
python + 爬蟲
這裡選用python 的 requests套件 + pyquery套件進行研究
requests會發出HTTP請求,以得到回應資訊
關於requests
pyquery則是沿用javascript 的 jQuery中簡單選取元素的方法,以parse回應資訊,得到我們想要的資料
關於pyquery