數據通道
從Web采集
采集可以將別的網(wǎng)站上面有用的新聞,轉到自己的網(wǎng)站上。我們可以定義設置一個(gè)采集的任務(wù),告知系統目標網(wǎng)站的地址等必要的參數,讓系統自動(dòng)完成采集的工作。
點(diǎn)擊“從Web采集”菜單,打開(kāi)界面如下所示:
點(diǎn)擊列表區的按鈕,打開(kāi)新建web采集任務(wù)的對話(huà)框,如上圖所示。
在“基礎信息”選項卡中填寫(xiě)相關(guān)信息。起始URL中一般填寫(xiě)目標網(wǎng)站某個(gè)欄目的列表頁(yè)地址,點(diǎn)擊按鈕,出現2級URL, 在這里一般填寫(xiě)目標欄目的新聞頁(yè)面的URL地址,上圖中使用了${A}和${D}來(lái)匹配符合某種形式的新聞頁(yè)面名稱(chēng)。
在“高級選項”中,可以設置內容頁(yè)/列表頁(yè)最大采集數、采集線(xiàn)程數、超時(shí)等待時(shí)間等參數。
如果您所在的網(wǎng)絡(luò )上網(wǎng)需要代理服務(wù)器,可以在下邊的“使用代理服務(wù)器”中,設置服務(wù)器地址、端口、用戶(hù)名、密碼等信息。
如果被采集頁(yè)面的URL有一定規則,請設置過(guò)濾URL的表達式。
在“匹配塊”選項卡中,填寫(xiě)的是采集頁(yè)面的解析規格,如下圖所示:
在目標新聞頁(yè)面中,新聞標題和新聞?wù)耐ǔ6急灰粋€(gè)HTML標簽,或一段固定的HTML代碼所包圍,按照這個(gè)規律填寫(xiě)匹配塊的內容,系統就能解析出我們想要的新聞標題和新聞?wù)摹?/p>
在“過(guò)濾塊”選項卡中,填寫(xiě)的是需要去掉的代碼塊。
類(lèi)似創(chuàng )建
在任務(wù)列表樹(shù)中,選擇某個(gè)任務(wù)記錄,然后點(diǎn)擊按鈕,打開(kāi)的對話(huà)框與新建對話(huà)框相似,內容數據來(lái)自所選的任務(wù)記錄,根據需要,修改信息后,點(diǎn)擊“確定”按鈕,便創(chuàng )建一條與所選任務(wù)相似的任務(wù)記錄。
編輯Web采集任務(wù)
列表區選擇某個(gè)任務(wù)記錄,右側顯示區列出的是該任務(wù)的基礎信息、匹配塊、過(guò)濾塊、采集結果等信息。
在右側區域不同的選項卡頁(yè)面修改信息后,點(diǎn)擊“保存”按鈕,修改都被保存。
刪除Web采集任務(wù)
列表區選擇某個(gè)任務(wù)記錄,點(diǎn)擊上方的按鈕,便可刪除該任務(wù)。
清空采集數據
采集數據是指從指定URL下載的文本文件和圖片文件,不包括已經(jīng)轉入欄目的文章。
如果需要清空某個(gè)任務(wù)中的采集數據,在列表區選擇該任務(wù)記錄,點(diǎn)擊按鈕,清除該任務(wù)所采集的數據。
執行采集任務(wù)
建立了web采集任務(wù)后,還需要采集任務(wù)真正的執行,才能獲得其它網(wǎng)站的新聞數據。在列表區,選擇某個(gè)采集任務(wù)記錄,在其右側區域點(diǎn)擊按鈕可以讓采集任務(wù)執行。
中止執行采集任務(wù)
如果需要中止采集任務(wù),比如采集的時(shí)間過(guò)長(cháng)或采集任務(wù)占用CPU資源太多,在列表區中選擇該任務(wù)記錄,再點(diǎn)擊
按鈕,可終止采集任務(wù)的執行。
處理數據
采集完成后系統會(huì )自動(dòng)按匹配塊中定義的規則提取文章內容和標題,并將提取成功的URL自動(dòng)轉化為指定欄目下的文章(文章?tīng)顟B(tài)為初稿),如果有未能提取成功的URL,修改內容匹配塊,然后點(diǎn)擊按鈕,再次運行數據提取程序。
注意:此時(shí)不需要再次執行任務(wù)了,因為網(wǎng)頁(yè)已經(jīng)采集到了服務(wù)器。如果再次執行任務(wù),將會(huì )嘗試再次下載網(wǎng)頁(yè)。
采集結果
選擇某個(gè)采集任務(wù),切換到“采集結果”選項卡,可以查看該任務(wù)的采集結果,界面如下:
所有評論僅代表網(wǎng)友意見(jiàn)