- 博客(8)
- 收藏
- 关注
原创 Python网络爬虫与信息提取实例:中国大学排名爬虫
我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html我们要爬取的内容为该网页上的中国大学排名:并将爬取到的内容以下面这种格式输出:要达到上述目标,必须通过以下三个步骤:(1)从网络上获取大学排名网页内容;(2)提取网页内容中信息到合适的数据结构(3)利用数据结果展示并输出结果具体使用到的完整代码为:import requestsfrom bs4 import BeautifulSoupdef getht
2020-08-23 10:50:56 601
原创 实例4:网络图片的爬取和存储(尝试用代码下载一张王嘉尔的照片)
找到一张网络图片,点击鼠标右键,然后点击“检查元素”即可查看该图片的地址,最后通过requests库来爬取图片内容。接下来我们在百度图片上找一张王嘉尔的照片:爬取代码如下:import requestsimport osurl="https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1597111702&di=ec48ec0ca6
2020-08-11 10:51:59 358
原创 网络爬虫与信息提取 实例3:百度360搜索关键词提交
百度的关键词接口为:http://www.baidu.com/s?wd=keyword我们可以利用params来提交关键词,代码如下:import requestskv={'wd':'python'}try: r=requests.get("http://www.baidu.com/s",params=kv) r.raise_for_status() print(r.request.url) r.encoding=r.apparent_encoding pr
2020-08-11 09:55:23 304
原创 网络爬虫与信息提取 实例2:亚马逊商品页面的爬取
假如采取与爬取京东页面相同的代码:import requestsurl="https://www.amazon.cn/dp/B07Z4LZ9HW"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000:2000])except: print("爬取失败")则会输出“爬取失败”,因为亚马逊限制了爬虫的爬取,所以我们要对原来的代码
2020-08-10 22:12:32 918
原创 网络爬虫与数据提取实例1:京东商品页面的爬取
京东商品页面的爬取import requestsurl="https://item.jd.com/100012545868.html"#输入你想爬取的页面的网址try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...
2020-08-09 22:32:33 772
原创 python语言程序设计实例1:温度转换
python语言程序设计 实例1:温度转换将以摄氏度为单位的温度值和以华氏度为单位的温度值互相转换tempstr=input("请输入带有符号的温度值")if tempstr[-1] in ['f','F']: C=(eval(tempstr[0:-1])-32)/1.8 print("转换后的温度为:{:.2f}C".format(C))elif tempstr[-1] in ['c','C']: F=eval(tempstr[0:-1])*1.8+32 prin
2020-08-09 21:14:01 368
原创 爬取网页的通用代码框架(自用)
爬取网页的通用代码框架:import requestsdef gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"if __nam
2020-08-09 12:25:03 213
原创 request库的安装小测
输入以下代码并运行:import requestsr=requests.get("http://www.baidu.com")print(r.status_code)如果输出为200,则安装requests库成功
2020-08-09 11:43:28 126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人