["首页","博客标签","我","开源","深度学习","机器学习","自然语言","爬虫","编程","开发语言","前端开发","生活","论文","关于me"]

正文抽取算法

作者: IntoHole | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.buyiker.com/2017/04/19/six-god-intro.html

精小正文提取工具

项目背景

抓取网页的时候需要我们来编码抽取网页正文或者其他信息；而我们想把爬虫做大的时候发现，我们大部分人力都消耗在各种提取上，繁复提取规则
优点：线性时间、不建DOM树、与HTML标签无关
sixgod

		
		from vampire.htmlextract import HtmlExtract
		import requests
		html = requests.get('http://www.fabao365.com/fangchan/167193/')  
		html.encoding="utf-8"
		ex = HtmlExtract()
		print ex.get_text(html.text)

主要思想：基于行块分布函数的通用网页正文抽取

参考资料

通用网页正文抽取