python爬虫学习

  1. 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
  2. 爬虫是模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序
    当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://v.apelearn.com
    简单来说这段过程发生了以下四个步骤:
    1.查找域名对应的IP地址。
    2.浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址。
    3.向IP对应的服务器发送请求。
    4.服务器响应请求,发回网页内容。
    5.浏览器显示网页内容。
    浏览器工作原理网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。
  3. 使用模块
    requests库基础知识,一般会使用到get()方法和response对象(Response对象包含服务器返回的所有信息,也包含请求的Request信息)。
  4. requests库实例
    1.京东商品的爬取--普通爬取框架
    import requests  
    url = "https://item.jd.com/2967929.html"  
    try:  
        r = requests.get(url)  
        r.raise_for_status()  
        r.encoding = r.apparent_encoding  
        print(r.text[:1000])  
    except:  
        print("爬取失败!")
    2.亚马逊商品的爬取--通过修改headers字段,模拟浏览器向网站发起请求
    import requests  
    url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"  
    try:  
        kv = {'user-agent':'Mozilla/5.0'}  
        r=requests.get(url,headers=kv)  
        r.raise_for_status()  
        r.encoding=r.apparent_encoding  
        print(r.status_code)  
        print(r.text[:1000])  
     except:
        print("爬取失败")




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值