網(wǎng)頁信息表格化提取程序的論文
摘 要:
本文介紹了基于MSHTML設(shè)計(jì)開發(fā)的網(wǎng)頁信息表格化提取程序的原理、程序結(jié)構(gòu)和工作流程,使用網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊,實(shí)現(xiàn)對(duì)網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,創(chuàng)新使用了對(duì)網(wǎng)頁屬性值和樹路徑值進(jìn)行確認(rèn)的二元檢查機(jī)制,能夠?qū)崿F(xiàn)對(duì)指定信息的準(zhǔn)確提取。本文還舉例說明了程序的操作步驟和實(shí)際效果。
引言
當(dāng)今是網(wǎng)絡(luò)高速發(fā)展、信息量急劇膨脹的信息時(shí)代,人們通過信息來互相交流,認(rèn)識(shí)世界。在信息中存在著大量有價(jià)值的信息要素,這些有價(jià)值的信息要素大都以網(wǎng)頁的形式存在,其內(nèi)容和格式千差萬別。如果通過瀏覽器進(jìn)行瀏覽和閱讀不存在問題,但若需要將感興趣的某類信息及其內(nèi)部關(guān)聯(lián)信息保存下來并進(jìn)行整理,目前常用的工具普遍存在著某些缺點(diǎn),比如網(wǎng)絡(luò)蜘蛛等爬蟲工具無法實(shí)現(xiàn)對(duì)內(nèi)部關(guān)聯(lián)信息的提取。因此,本人作者使用MSHTML語言設(shè)計(jì)了網(wǎng)頁內(nèi)部表格化提取的自動(dòng)程序,可以完成對(duì)網(wǎng)頁及內(nèi)部關(guān)聯(lián)信息的保存、整理和表格化顯示,能夠明顯提高對(duì)信息的利用效率。
1、信息提取原理分析
人們通過瀏覽器所看到的頁面,是由很多的頁面元素組裝在一起的,其中既有常見的圖片和文字,也有專門的結(jié)構(gòu)元素,所有這些頁面元素經(jīng)過一定的組合形成了我們看到的頁面。對(duì)網(wǎng)頁進(jìn)行進(jìn)行提取,實(shí)質(zhì)上就是使用一定技術(shù)方法將指定的網(wǎng)頁元素進(jìn)行解析、特征匹配和顯示的過程。
網(wǎng)頁信息的元素可以分為以下三種級(jí)別:
頂級(jí)元素(Top-level element):共有html、body和frameset三種,屬于高級(jí)塊級(jí)元素,表現(xiàn)類似塊級(jí)元素。
塊級(jí)元素(Block-level element):能夠獨(dú)立存在且元素之間可以換行分割,常用的塊級(jí)元素有p、div、ul、table等。
內(nèi)聯(lián)元素(inline element):依附其他塊級(jí)元素存在,緊接于被聯(lián)元素之間顯示并且不換行,常用的內(nèi)聯(lián)元素包括img、span、li、br等。
2程序的設(shè)計(jì)思想
2.1 采集原理
2.2 二元檢查機(jī)制
2.3 程序功能設(shè)計(jì)
3 程序結(jié)構(gòu)及工作流程
3.1主要功能
3.2 運(yùn)行流程
4程序的主要功能實(shí)現(xiàn)方法
4.1采集配置管理
4.2網(wǎng)頁元素解析
5 運(yùn)行測(cè)試
5.1 讀取頁面
5.2 配置采集
5.3 采集網(wǎng)頁信息
5.4查看采集結(jié)果
6、結(jié)語
隨著網(wǎng)絡(luò)化的`快速發(fā)展,人們對(duì)網(wǎng)頁元素的需求越來越轉(zhuǎn)向個(gè)性化分類和精確提取,以往面向全部?jī)?nèi)容的野蠻采集方式已經(jīng)無法滿足目前的需求,對(duì)其進(jìn)行針對(duì)性的研究有著積極意義。
網(wǎng)頁信息表格化提取程序通過網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊的分工協(xié)作,實(shí)現(xiàn)對(duì)網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,不僅克服了以往網(wǎng)頁信息抓取工具不能提取內(nèi)部關(guān)聯(lián)網(wǎng)頁信息的不足,使得程序的適用性、擴(kuò)展性明顯提高,而且程序中創(chuàng)新使用的對(duì)網(wǎng)頁屬性值和樹路徑值進(jìn)行確認(rèn)的二元檢查機(jī)制,能夠?qū)崿F(xiàn)對(duì)指定信息的準(zhǔn)確提取,極大提升了程序結(jié)果的精確性。
雖然網(wǎng)頁信息表格化提取程序在精確性、適用性和擴(kuò)展性上取得了進(jìn)步,但也存在一些不足,希望以后能找到更好的解決方法....
【網(wǎng)頁信息表格化提取程序的論文】相關(guān)文章:
信息化建設(shè)論文精選02-19
信息化建設(shè)論文02-18
信息化技術(shù)論文04-05
網(wǎng)頁設(shè)計(jì)的視覺信息傳達(dá)分析論文04-22
信息化與網(wǎng)絡(luò)化的建設(shè)論文07-03
網(wǎng)絡(luò)信息化有關(guān)的論文03-12
會(huì)計(jì)信息化論文03-30