好吊视频一区二区三区-国产精品V欧美精品V日韩精品-老司机亚洲精品影院-国产精品视频免费播放

物聯傳媒 旗下網站
登錄 注冊
RFID世界網 >  解決方案  >  圖書  >  正文

采集器

作者:北京首碼
來源:RFID世界網
日期:2008-09-24 11:14:29
摘要:SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規則,智能采集只需您添加需要采集的網址地址即可,程序會自動為您采集網站的信息。北京首碼偉業科技有限公司為您介紹兩種采集方式.

    SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規則,智能采集只需您添加需要采集的網址地址即可,程序會自動為您采集網站的信息。接下來分別為您介紹兩種采集方式:

一、手工采集:

手工采集即自己配置采集規則。打開 SupeSite 的“系統設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。

首先簡單講解制作采集器的基本原理和思路:

1、確定您要采集哪個頁面的新聞,將這些頁面的地址填入到“列表頁面采集設置”的地址框;

2、確定在這些頁面您要采集的內容區域,因為不是一個網頁所有的內容都要采集回來,而是采集一個網頁的一部分內容,所以您必須告訴程序您要采集的區域,也就是“列表區域識別規則”;

3、第2步確定區域之后,還要告訴程序您要采集的文章鏈接,也就是“文章鏈接url識別規則”。

4、現在已經確定了大的采集框架,接下來要告訴程序在一個文章頁面,文章的標題(“文章標題識別規則”),文章的來源和作者分別是什么。然后就是一篇文章內容的范圍,也就是說一個文章頁面內,真正您需要采集的范圍,就是“文章內容識別規則”。最后設置分頁的區域和分頁的鏈接地址。

5、以上4個步驟已經確定了采集的范圍,如果您需要過濾標題和內容,請根據您的要求設置每一項的過濾設置,如“文章標題過濾規則”和“文章內容過濾規則”等。

以上幾個步驟確定范圍都是通過查看頁面源碼,進行設置的,截取的方法需要一些經驗,練習2--3次就可以領悟到了。

接下來介紹采集器的基本原理和步驟:

第1:打開 SupeSite 的“系統設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。

這里需要特別指出的是:單次采集個數和自動導入。單次采集個數盡量設置較小的數字,以免超時。自動導入,請選擇資訊分類,可以直接將采集的結果導入到資訊庫中。如下圖:

第2:填寫“列表頁面采集”和“采集頁面編碼”。請填寫要采集的頁面地址(列表頁面地址)。這里分為手工輸入和自動輸入:手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼,用[page]代替分頁變量。如下圖:

點擊上圖中的,嘗試鏈接,可以看到如下圖的頁面,這樣可以判斷您的服務器是否可以鏈接到要采集的網站,即檢測服務器是否允許采集,如果這里顯示無法鏈接,則不能采集該網頁。

設置“采集頁面編碼”,是您采集網頁的編碼,并不是您站點的編碼。這里切記!!如下圖:

第3:設置“列表區域”和“文章鏈接”的識別規則。如下圖,填入列表區域的規則和文章鏈接的規則,采集內容的范圍用[list]代替,采集文章的標題用[url]代替。文章鏈接URL的剔除和過濾規則,請您參考圖片里的詳細說明,這里不再贅述。

第4:設置“文章標題”識別規則,如下圖,文章標題用[subject]代替。文章標題的過濾規則,剔除規則,替換規則,包含關鍵字,請您參考圖片里的詳細說明,這里不再贅述。

第5:設置“文章內容”的識別規則,如下四圖,都屬于文章內容識別規則。文章內容用[message]代替,分頁區域用[pagearea]代替,分頁鏈接用[page]代替,信息來源用[from]代替,文章作者用[author]代替。同上,一些過濾,剔除等規則,請您參考圖片里的詳細說明,這里不再贅述。

這里說明幾點:

文章內容格式化:此操作將去除網頁多余代,并將文章內容按原有段落分段。格式化的過程為程序自動分析,會存在一些誤差。

保存內容中的圖片到本地和保存內容中的FLASH到本地,這里選擇是否將采集到的圖片和Flash存放到本地。如需將對方網站的圖片存放到自己的服務器上,請選擇“是”!

至此已經設置完一個采集規則,然后點擊“開始采集”,采集完畢之后點擊“查看結果”。最后將采集的內容導入資訊。這里說明一點:采集的內容只能夠導入資訊這個頻道。

這里重點說明,導入后刪除和不刪除,如果選擇刪除,則采集來的信息在導入資訊之后,將無法再次被使用。

二、智能采集:

智能采集為您提供非常簡單,易用的采集方式。只要將您需要采集的站點地址添加到地址框,然后點擊開始采集即可。

智能采集集成于手工采集中,您只需將采集的地址填入地址框,然后點擊提交即可。

如需詳細了解請訪問我們的網站:  http://www.bjbarcode.com     或聯系我們:010-51296829