python入门一

入门简单的练手,网上查询到的资料,转载网址:https://blog.csdn.net/u010668907/article/details/48399189

此文章是转载,觉得不错就收藏,觉得是python入门不错的练手


环境与上一篇一样windows,PyCharm,python-2.7.x

另外介绍一个抓包工具fiddler,超级好用的,特别是在以后你需要爬一些很复杂网站时。(不要它是英文就接受不了,上手很快的)

以前都是用beautifulsoup,现在想从头尝试用urllib2.

urllib2是python提供的抓取网页的组件。

1.最简单例子:

[python]  view plain  copy
  1. import urllib2  
  2. response = urllib2.urlopen("http://www.baidu.com/")  
  3. html = response.read()  
  4. print html  

输出就是百度首页的编码。


2.下面是一个需要发送数据的爬虫简单例子。发送方式时get。(其实我自己也不知道为什么,在浏览器的网站栏里,网站的url中的中文是正常显示的,但是我把url拷到editplus里之后就变了,好吧,拷到其他地方也是这样。。。不知道是为什么,开始还担心请求会不成功的,后来还是有数据的。看来是我的web开发学的不到位,如果有知道原因的,请留言告诉我一声,虽然这件事和这个例子没什么关系。。。)

[python]  view plain  copy
  1. #coding=utf-8  
  2. import urllib  
  3. import urllib2  
  4.   
  5. #http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01  
  6. data = {}  
  7. data['searchfrom'] = 'around'  
  8. data['arounddep'] = '%E6%AD%A6%E6%B1%89'  
  9. data['tf'] = 'Ihot_01'  
  10.   
  11. value = urllib.urlencode(data)  
  12. print value  
  13. url = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C' + '?' + value  
  14.   
  15. response = urllib2.urlopen(url)  
  16. print response.read()  

3.也是需要发送数据的爬虫例子。这个是post方式的。

[python]  view plain  copy
  1. import urllib  
  2. import urllib2  
  3.   
  4. #http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01  
  5. data = {}  
  6. data['searchfrom'] = 'around'  
  7. data['arounddep'] = '%E6%AD%A6%E6%B1%89'  
  8. data['tf'] = 'Ihot_01'  
  9.   
  10. value = urllib.urlencode(data)  
  11. print value  
  12.   
  13. url = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C'  
  14. response = urllib2.urlopen(url,value)  
  15. print response.read()  


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值