Python網路爬蟲 解答
以下為「Python網路爬蟲」e等公務園+測驗解答,共 8 題,供公務人員學習參考。
BeautifulSoup的運作方式就是讀取HTML原始碼,自動進行解析並產生一個BeautifulSopu物件,此物件中包含了整個 HTML文件的結構樹
- ○
- ╳
常見的資料取得方式,以下那一種較為方便?
- 直接下載開放檔案格式
- 透過 API 取得開放檔案格式
- 擷取網頁資料
- 無差異
下列何者不是開放資料常用的格式?
- CSV
- HTML
- XML
- JSON
requests 是一個模擬 html request 功能的第三方套件。使用 get()函式,可以讀取網頁的資料
- ○
- ╳
「資料具有欄位,但資料的欄位可能不一致」,指的是以下那種資料類型?
- 結構化
- 非結構化
- 半結構化
- 全結構化
下列那一個模組與網路爬蟲有關?
- matplotlib
- numpy
- pandas
- requests
以下那個函數不是在擷取/解析網頁時使用?
- urllib
- requests
- Beautiful
- Pandas
urllib套件中的urlopen()函式可以將網頁內容擷取至程式
- ○
- ╳