初识Python爬虫----如何爬取网络数据

一、什么是网络爬虫

      即爬取网络数据的虫子,也就是Python程序。

二、爬虫的实质是什么?

       模拟浏览器的工作原理,向服务器发送请求数据。

三、浏览器的工作原理是什么?

      浏览器还可以起到翻译数据的作用。

       

四、爬虫工作原理

五、实操-----爬取商品的销售数据

1、数据背后的秘密

     找不到商品的销售数据怎么办------可以通过评论数据间接获得销售数据。

2、如何找到评论区背后的URL

     a、鼠标右击选择检查,打开程序员调试窗口,选择Network

     b、刷新当前页面,复制评论区内容,进入程序员调试窗口search,点击粘贴,点击刷新小圆圈🔄查找

    c、点击查询结果的第二行,跳转到对应的请求

    d、点击Headers,找到Request URL即评论区数据背后的URL

3、三行代码爬取京东数据

梳理代码流程:

  • (1)引入Python工具包requests
  • (2)使用工具包中的get方法,向服务器发起请求
  • (3)打印输出请求回来的数据(print语法)
 import requests
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(resp.text)

程序运行结果:

        7709789,"imageCount":8,"anonymousFlag":0,"plusAvailable":103,"mobileVersion":"8.1.2","images":[{"id":898430983,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/73453/23/5402/183289/5d37b2f1E7d719d68/ae916b1ccade5c81.jpg","imgTitle":"","status":0},{"id":898430984,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/63761/23/5296/274313/5d37b2f1Ee9d83ef4/87c8439ac27d1e9a.jpg","imgTitle":"","status":0},{"id":898430985,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/57506/13/5995/190423/5d37b2f1E2e1b71ea/7adb9bc598ba3a75.jpg","imgTitle":"","status":0},{"id":898430986,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/64197/24/5319/214532/5d37b2f1Ece94ba28/1736543f3dc2a3c2.jpg","imgTitle":"","status":0},{"id":898430987,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/65166/40/5238/265145/5d37b2f1E7b9a2f73/25d0160b8ae53e99.jpg","imgTitle":"","status":0},{"id":898430988,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/46440/20/5884/195354/5d37b2f1E6cc71270/d833e86142831041.jpg","imgTitle":"","status":0},{"id":898430989,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/78051/28/5296/157233/5d37b2f1E5d08092a/e7c240d31399c1ee.jpg","imgTitle":"","status":0},{"id":898430990,"imgUrl":"//img30.360buyimg.com/n0/s128x96_jfs/t1/66794/25/5199/146718/5d37b2f1E69c25c61/dbc0681c475caaea.jpg","imgTitle":"","status":0}],"videos":[{"id":898430991,"mainUrl":"https://img.300hu.com/4c1f7a6atransbjngwcloud1oss/2b708372206340310602141697/imageSampleSnapshot/1609987936_712557345.100_977.jpg","videoHeight":1280,"videoWidth":720,"videoLength":9,"videoTitle":"","videoUrl":104790708,"videoId":104790708,"status":0,"remark":"https://vod.300hu.com/4c1f7a6atransbjngwcloud1oss/2b708372206340310602141697/v.f30.mp4?source=1&h265=v.f1022_h265.mp4"}],"mergeOrderStatus":0,"productColor":"-5黑【店长推荐】","productSize":"39","textIntegral":20,"imageIntegral":20,"status":1,"referenceId":"43139143228","referenceTime":"2019-07-15 19:14:07","nickname":"沐***晨","replyCount2":26,"userImage":"storage.360buyimg.com/i.imageUpload/6a645f3662386266313436343334643531363239323531393630383036_sma.jpg","orderId":0,"integral":40,"productSales":"[]","referenceImage":"jfs/t1/198738/32/8948/268079/61457f03E3c6d8bdf/30aaa28610042488.jpg","referenceName":"安踏男鞋休闲运动鞋男士2021秋季耐磨防滑轻便板鞋慢跑步鞋子户外训练旅游 -10黑/大学红/安踏白 42","firstCategory":1318,"secondCategory":12099,"thirdCategory":9756,"aesPin":"CqZhh9LMjN8X3zBCRgzYfj5WVG2Mk7oUESnYlurCllHlZbANssrlW6wt3sZETh9w36unsNE3jcqP9f2YljaOdQ","days":9,"afterDays":0},

    

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python requests-html是一个用于解析HTML网页的库。它提供了类似于requests库的功能,使得爬取和解析网页变得更加方便。使用requests-html库,你可以发送HTTP请求并获取网页内容,然后使用解析器来提取感兴趣的数据。这个库的使用方法非常简单,你只需要导入HTMLSession类,创建一个会话对象,然后使用get方法获取网页内容。接着,你可以使用类似于BeautifulSoup的语法来解析网页。 如果你想通过单线程实现requests-html的基本逻辑,你可以按照如下代码进行操作:首先导入HTMLSession类,然后创建一个会话对象。接着,你可以使用一个for循环来遍历需要爬取的页面。在每次循环中,使用get方法获取页面的内容。接着,你可以使用find方法来查找页面中感兴趣的元素,并提取出相应的数据。最后,你可以将提取的数据保存到文件中。 总结来说,Python requests-html是一个功能强大的库,可以用于爬取和解析HTML网页。它使用简单,提供了类似于requests库的功能,同时还具备了一些解析HTML的特性。如果你需要爬取和处理网页数据,requests-html是一个不错的选择。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【Python技能树共建】requests-html库初识](https://edu.csdn.net/skill/python/python-7d8a025ed5434ecc84708407e3db6d17)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [python爬虫 requests-html的使用](https://download.csdn.net/download/weixin_38503483/14839001)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新池坡南

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值