如何下載網頁中的PDF | 網頁下載pdf
然後再用JAVA的語法連結需確認一下,是JavaApplet?還是JavaScript?一、如果是用JavaScript的話,0.觀察真正URL的方式:0.1FireFox可用LiveHTTPHeaders[1]套件,觀察連某頁PDF時的真正網址為何。0.2看HTML的原始碼,追一下各連結的JavaScript的碼,可知道各頁query何處。1.如果是以「流水序號」的方式為各頁PDF檔命名的話,就有可能預測每一頁PDF的URL為何,而預先建立好各連結,然後下載下來。2.如果是以「亂序數字英文」所組的檔名,就無法用1.的方式進行。3.如果該網站點各頁PDF時,有做cookie的檢查動作,就必須記住該有效的cook...
然後再用JAVA的語法連結
需確認一下,是 Java Applet?還是 JavaScript?一、如果是用 JavaScript 的話,0.觀察真正URL的方式:0.1 FireFox 可用 Live HTTP Headers[1] 套件,觀察連某頁 PDF 時的真正網址為何。0.2 看HTML的原始碼,追一下各連結的 JavaScript 的碼,可知道各頁 query 何處。1.如果是以「流水序號」的方式為各頁 PDF 檔命名的話,就有可能預測每一頁PDF的URL為何,而預先建立好各連結,然後下載下來。2.如果是以「亂序數字英文」所組的檔名,就無法用 1. 的方式進行。3.如果該網站點各頁PDF時,有做cookie的檢查動作,就必須記住該有效的cookie,然後每一次抓各頁PDF時,也送出此有效cookie,該網站才會視為同一個session,才讓您抓。這可利用 wget 或 curl 來進行。
二、如果是用 Java Applet 的方式,其下載的網址,瀏覽器應該偵測不到。
References Live HTTP Headers (addons.mozilla.org)