用正则表达式爬取链接和标题

最新推荐文章于 2024-08-15 11:25:06 发布

yedoubushishen

最新推荐文章于 2024-08-15 11:25:06 发布

阅读量7.4k

点赞数 3

分类专栏： Python正则表达式文章标签：正则表达式

本文链接：https://blog.csdn.net/yedoubushishen/article/details/49932079

版权

Python正则表达式专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.爬取中国大数据首页的链接和标题

2.出现好多错误，特别是正则表达式

爬取的样式为：

部分源代码：

#coding:utf-8
import re
import urllib
#获取网页
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
#用正则匹配相应的链接和标题
def getText(html):
    reg=r'</span><a href="((YeJieDongTai|YingYongAnLi|JieJueFangAn|Hadoop|HBase|QiTa|JiShuBoKe)/\d{4,5}\.html)"(.*?)>(.*?)</a>'
    textre=re.compile(reg)
    textlist=re.finditer(textre,html)
    #print type(textlist)测试返回内容的类型，注意finditer和findall的区别
    return textlist

url='http://www.thebigdata.cn/'
html=getHtml(url)
list=getText(html)
#将获取的内容写入文件
a=open(r"D:\Python test\restart.txt",'a+')
for item in list:
    a.write(item.group(1)+item.group(4)+'\n')
    #当以列表形式返回时，读取方式应为：
    #a.write(item[1]+item[4]+'\n')   
a.close()

小某说：

分享一下自己所犯的奇葩的错误。

1.刚开始写的时候，完完全全按照爬取图片的格式来的，出现一系列错误，后来发现这是不可行的。主要是对urlretrieve()的用法没有掌握清楚。urlretrieve()是将url定位到的html文件下载到本地的磁盘中，这次爬取的内容需要写入文件中。关于urllib模块中的方法可以参考

http://www.cnblogs.com/sysu-blackbear/p/3629420.html

2.然后改变方法重新爬取，正则又出现了很多错误