Skip to content

網頁與爬蟲相關筆記

自從全球資訊網(World Wide Web)被發明後，人類開啟了資訊爆炸的時代
能自動且大量的擷取資料的爬蟲自然應運而生
在想利用爬蟲之前，可以先了解前端網頁是如何實作的，才能更有效率的知道想要爬取的資訊在哪

網頁三元素

前端網頁是基本是由 HTML 、 CSS 、 javascript 所組成

HTML（HyperText Markup Language）
用於定義整個網頁的內容骨架，比如基本的文字、段落、圖片、連結
關於HTML
CSS （Cascading Style Sheets）用於美化網頁內容的靜態呈現，比如字形、字體、字的顏色、各區塊的排版
關於CSS
javascript 用於增加網頁的互動性，比如點擊後會改變畫面、向下滾動才加載更多資料的設計
關於JavaScript

JS框架

JQuery 簡化JavaScript的語法、增加易讀易寫、Google等大公司皆有使用的套件
JQuery 基礎
Vue.js 高效的2019最新網頁前端套件可以綁定html element、以template方式快速產生html element 等
vue.js 套件

HTTP

HTTP (HyperText Transfer Protocol)是建立於TCP/IP之上，屬於application layer 的傳輸協定
關於HTTP

python + 爬蟲

這裡選用python 的 requests套件 + pyquery套件進行研究
requests會發出HTTP請求，以得到回應資訊
關於requests

pyquery則是沿用javascript 的 jQuery中簡單選取元素的方法，以parse回應資訊，得到我們想要的資料
關於pyquery

分類

C/C++語言筆記
=============
Device Driver系列
=============
網頁與爬蟲相關區
=============
課程筆記備份區
=============
雜記區
=============
Unix/Vim/bash區
=============
作業系統區
=============
機器學習區
=============
演算法X資料結構區
=============
離散數學
=============
hugo相關區
=============