![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫学习
xiaochenishere
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫与信息提取实例:中国大学排名爬虫
我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html我们要爬取的内容为该网页上的中国大学排名:并将爬取到的内容以下面这种格式输出:要达到上述目标,必须通过以下三个步骤:(1)从网络上获取大学排名网页内容;(2)提取网页内容中信息到合适的数据结构(3)利用数据结果展示并输出结果具体使用到的完整代码为:import requestsfrom bs4 import BeautifulSoupdef getht原创 2020-08-23 10:50:56 · 583 阅读 · 0 评论 -
实例4:网络图片的爬取和存储(尝试用代码下载一张王嘉尔的照片)
找到一张网络图片,点击鼠标右键,然后点击“检查元素”即可查看该图片的地址,最后通过requests库来爬取图片内容。接下来我们在百度图片上找一张王嘉尔的照片:爬取代码如下:import requestsimport osurl="https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1597111702&di=ec48ec0ca6原创 2020-08-11 10:51:59 · 342 阅读 · 0 评论 -
网络爬虫与信息提取 实例3:百度360搜索关键词提交
百度的关键词接口为:http://www.baidu.com/s?wd=keyword我们可以利用params来提交关键词,代码如下:import requestskv={'wd':'python'}try: r=requests.get("http://www.baidu.com/s",params=kv) r.raise_for_status() print(r.request.url) r.encoding=r.apparent_encoding pr原创 2020-08-11 09:55:23 · 289 阅读 · 0 评论 -
网络爬虫与信息提取 实例2:亚马逊商品页面的爬取
假如采取与爬取京东页面相同的代码:import requestsurl="https://www.amazon.cn/dp/B07Z4LZ9HW"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000:2000])except: print("爬取失败")则会输出“爬取失败”,因为亚马逊限制了爬虫的爬取,所以我们要对原来的代码原创 2020-08-10 22:12:32 · 901 阅读 · 0 评论 -
网络爬虫与数据提取实例1:京东商品页面的爬取
京东商品页面的爬取import requestsurl="https://item.jd.com/100012545868.html"#输入你想爬取的页面的网址try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...原创 2020-08-09 22:32:33 · 744 阅读 · 0 评论 -
爬取网页的通用代码框架(自用)
爬取网页的通用代码框架:import requestsdef gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"if __nam原创 2020-08-09 12:25:03 · 200 阅读 · 0 评论 -
request库的安装小测
输入以下代码并运行:import requestsr=requests.get("http://www.baidu.com")print(r.status_code)如果输出为200,则安装requests库成功原创 2020-08-09 11:43:28 · 112 阅读 · 0 评论