• RainbowSoft Studio Z-Blog
  • 本站支持WAP访问
  • 订阅本站的 RSS 2.0 新闻聚合
        易尔译科技 致力于互联网高端应用软件以及自然语言处理项目研发。
团队TM群:18653820 技术成长QQ群:13554183

搜索引擎中的URL判断(URL消重)

Post by 54admin, 2009-8-4, Views:

在做蜘蛛采集的时侯从一个起始地址开始能得到一大堆的URL
对于内容的页面需要进行内容抽取
对于URL列表的页面需要解析出内容页面URL

很显然,对于不同的页面需要进行不同的操作。
但是问题是,如何判断一个URL到底是内容页面还是列表页面。

一个很简单的方法是:抽取页面内的所有URL,判断URL的相似度。
当然通过判断页面内是否存在大块的文本也能大概知道这个页面是否内容页面。

这里要提一下的是URL相似度的判断。
这里的相似度和所谓的文本相似度大有不同,如果采用统计的方法基本上没戏。
因此可以采用编辑距离来完成。
关于编辑距离 可以参考 wiki :Levenshtein distance

 


Good Luck
文章转载自:http://www.cnblogs.com/TtTiCk/archive/2008/12/16/1355941.html

Tags: 搜索引擎  URL消重 
分类:信息提取 | 评论:0 | 引用:0 | 点击这里获取该日志的TrackBack引用地址
上一篇:全功能版英文文本批量形态还原工具
下一篇:字符串相关算法(编辑距离,最大公共字串)C#实现版

或许你还对下面的文章感兴趣

Comments

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

学术文库

最新留言