python 爬虫
nsq_ai
这个作者很懒,什么都没留下…
展开
-
利用接口 股票数据信息的爬取和存储
上一篇https://blog.csdn.net/weixin_45063703/article/details/105388741博客虽然爬取数据,但是存在问题。故而继续查找资料,参考了https://blog.csdn.net/fangquan1980/article/details/80006840?depth_1-utm_source=distribute.pc_relevant.non...原创 2020-04-08 16:05:00 · 632 阅读 · 0 评论 -
股票信息数据的爬取和存储
看了北理老师的视频,那时用的百度股票这个网站现在你可以试试还能用吗?目标:获取上交所和深交所所有的股票名称和交易信息,输出到文件技术路线:requests+ bs4+ re获取股票信息列表东方财富网http://quote.eastmoney.com/stock_list.html这个网站登陆的时候,可能一下子登陆进去不是下图的形式,反正我是登陆好几次才是。获取单个股票信息新浪股票...原创 2020-04-08 15:48:02 · 902 阅读 · 0 评论 -
淘宝商品信息爬取
自己在淘宝商品书包信息爬取的时候,遇到了很多问题。花了好几天的时间在查找问题,看到了一个博客,才成功。还是反爬虫的限制,很多网站升级了,应用以往的源代码,不加修改,很难运行出来了。不论是爬取书包、面包、包包等,原理都是一样的。功能设计和翻页接口我就不详细介绍了,很多博客都有涉及。我主要讲下代码import requestsimport re'''目标:获取淘宝搜索页面的信息,提取其中的...原创 2020-04-08 12:12:02 · 515 阅读 · 1 评论 -
中国大学排名 2019
中国大学排名的网站是最好大学里面的一个网页排名,好多都是2016年的,改成2019年的大学排名,也不难的。# -*- coding: utf-8 -*-"""爬取中国大学2019年排名"""import requests, bs4from bs4 import BeautifulSoupurl = "http://www.zuihaodaxue.cn/zuihaodaxue...原创 2020-04-08 11:46:59 · 215 阅读 · 0 评论 -
爬取网页通用代码
爬取网页通用的代码,只是网页信息而已import requestsdef getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.tex...原创 2020-04-08 11:33:18 · 1708 阅读 · 0 评论 -
网络图片的爬取和存储 单张图片
网络图片的爬取,网上已经很多,单张的,网页的都有。单张图片的网址:http://a3.att.hudong.com/14/75/01300000164186121366756803686.jpg接下来看代码import requestsimport osurl ="http://a3.att.hudong.com/14/75/01300000164186121366756803686....原创 2020-04-08 11:21:24 · 182 阅读 · 0 评论 -
搜索引擎百度/360/搜狗关键词搜索提交信息
关键词搜索,主要是关键词接口的确定,网上已有大佬为我们搞明白了。我就截图一下先来代码,再解释import requestskeyword="Python"kv1 = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'}# 百度关键词搜索,不加head...原创 2020-04-08 11:05:54 · 480 阅读 · 0 评论 -
亚马逊网站某商品页面信息的爬取
选择亚马逊网站中的一个商品页面,复制链接,因为是简单的页面爬取,看看页面源代码就行。代码import requestsurl = "https://www.amazon.cn/gp/product/B00MCW8R1S/ref=cn_ags_s9_asin_1403206071_merchandised-search-3?pf_rd_p=33e63d50-addd-4d44-a917-c9...原创 2020-04-08 09:46:16 · 1105 阅读 · 0 评论 -
京东网站某个商品页面信息爬取
看了北理老师得爬虫视频,自己想记录一下学习的过程,也算是一种变相的监督自己吧。尽管网上已经有很多相似的文章了,自己还是想表达自己的想法和实践。话不多说,代码走起import requests # 导入requests库def getHTMLText(url): # 定义一个函数,获取页面信息 try: # 异常处理机制 kv = {'user-agent': '...原创 2020-04-08 09:38:59 · 758 阅读 · 0 评论