基于模式匹配的网页净化方法 <br />

doi:10.11721/cqnuj20150619

首页 > 按月查看>2015年第6月 >103. DOI:10.11721/cqnuj20150619

基于模式匹配的网页净化方法 
DOI:
                        10.11721/cqnuj20150619
                    
作者:
                        
                        
                    
作者单位:重庆师范大学 传媒学院/新媒体学院，重庆 401331;重庆师范大学 计算机与信息科学学院，重庆 401331 
作者简介:
通讯作者:
基金项目:

Eliminating Noisy Information in Web Pages Based on Pattern Matching

Author:

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

摘要:

新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。

Abstract:

参考文献

相似文献

引证文献

引用本文

曾蒸,马燕,
.基于模式匹配的网页净化方法
[J].重庆师范大学学报自然科学版,2015,(6):103-

复制

文章指标

点击次数:
下载次数:

历史

收稿日期:
最后修改日期:
录用日期:
在线发布日期:

引用本文

分享

文章指标

历史