菜鸟成长记-----用python写一个简单的小爬虫

       小白突发奇想想来搞一搞之前的课设,于是下了个python编辑器Pycharm写个爬虫耍一耍,这里权且记下来供后人(也就是小白自己拉)参考。
       Pthon3中urllib2等几个库被整合了一下,所以在调用urlopen函数的时候就不能在通过urllib库调用了,需要引入urllib.request库让后通过这个库进行调用,之后通过这个库调用这个函数就行了,就像这样  
      page = urllib.request.urlopen(url)
      这样我们就创建了一个远程类文件对象page,通过调用read函数可以读取到网页内的源码,对于这些源码可以把他们写在txt文件中,输入文件参数的时候稍微注意一下路径中“\”和“/”,方式设置为“wb+”表示用二进制打开输入,这样一个简答的小爬虫就做好了,了了数行代码如下:
import urllib.request

url = "http://www.view.sdu.edu.cn/"

page = urllib.request.urlopen(url)
html = page.read()


file = open("搜索引擎\\test.txt","wb+")
file.write(html)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值