函数式抓取凤凰网文章正文

最新推荐文章于 2024-07-11 23:09:01 发布

wsliangjian

最新推荐文章于 2024-07-11 23:09:01 发布

阅读量999

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/wsliangjian/article/details/14228915

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import urllib2, re
def getNews(url, regular):
	html = urllib2.urlopen(url, timeout = 40).read()
	txt = re.findall(regular, html, re.S)

	for item in txt:
		item=re.sub('<[\/\!]*?[^<>]*?>|<script[^>]*?>.*?</script>si|window.zlzp = window.zlzp||{};|&(nbsp|#160);|&(quot|#34);|" target="_blank">(.*)</a>', '', item) 
		item=re.sub('\n\s*\r|	 |document.getElementById(.*);|<span class="rz">(.*)</span>]</span>|<a href="| | ', '', item) 
		item=re.sub(' |>>', ' ', item)
		return item

url = "http://news.ifeng.com/mainland/detail_2013_11/06/30987846_0.shtml"
regular = '<div id="artical_real">(.*)<span class="ifengLogo">'
print getNews(url, regular)