Python库详解之网络(1)--抓取网页

刚刚写完Python嵌入部分的简单例子(差不多够现在用的啦~),接着看点实际的东西,如果没有这些应用的话,前面的嵌入也没有什么意义。嵌入的其他部分以后遇到再写,不必一下子把那些函数都弄懂,是吧~

 

OK,来看Python库中我认为最好玩的一部分,也就是Python对网页的操作。

 

这篇简单说下如何通过网址下载网页,前提当然是要能上网。

我这里是将网易的网页下下来保存在test.html文件中。

 

下载网页只需要2行代码:

 

#注意现在python3.1版本与以前有了很大变化,过去代码好多不能用,需要稍微修改下哦

import urllib.request            

urllib.request.urlretrieve('http://www.163.com','test.html') #你们用双引号试下,我这怎么有问题?单引号和双引号在这里有区别么?

 

呵呵,不是觉得太简单了点,但我还是比较喜欢下面代码多点的实现方式(我没有添加异常,如果是稍微正式点的编码,请添些处理异常的代码吧):

import urllib
import urllib.request

 

url=urllib.request.urlopen("http://www.163.com")
file=open("test.html",'wb') #it's 'wb',not 'w'


while(1):
 line=url.readline()
 if len(line)==0:
  break
 file.write(line)
 

呵呵,现在是不是感觉下载网页真没意思~

OK,下篇说下如何解析我们下载下来的网页,这样下下来的网页才有用嘛~ ^_^

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值