["首页","博客标签","我","开源","深度学习","机器学习","自然语言","爬虫","编程","开发语言","前端开发","生活","论文","关于me"]
正文抽取算法
作者: IntoHole | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.buyiker.com/2017/04/19/six-god-intro.html
精小正文提取工具
项目背景
- 抓取网页的时候需要我们来编码抽取网页正文或者其他信息;而我们想把爬虫做大的时候发现,我们大部分人力都消耗在各种提取上,繁复提取规则
- 优点:线性时间、不建DOM树、与HTML标签无关
- sixgod
参考资料