互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%。在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
网页内容近似重复检测的两种应用场合:
一:在用户搜索阶段
目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。
二:爬虫抓取发现阶段
对一个新的网页,爬虫通过网页去重算法,最终决定是否对其索引。
重复网页的4种类型:
近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:
1、两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。
2、两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。
3、两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。
4、两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面