自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Python网络爬虫与信息提取实例:中国大学排名爬虫

我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html我们要爬取的内容为该网页上的中国大学排名:并将爬取到的内容以下面这种格式输出:要达到上述目标,必须通过以下三个步骤:(1)从网络上获取大学排名网页内容;(2)提取网页内容中信息到合适的数据结构(3)利用数据结果展示并输出结果具体使用到的完整代码为:import requestsfrom bs4 import BeautifulSoupdef getht

2020-08-23 10:50:56 601

原创 实例4:网络图片的爬取和存储(尝试用代码下载一张王嘉尔的照片)

找到一张网络图片,点击鼠标右键,然后点击“检查元素”即可查看该图片的地址,最后通过requests库来爬取图片内容。接下来我们在百度图片上找一张王嘉尔的照片:爬取代码如下:import requestsimport osurl="https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1597111702&di=ec48ec0ca6

2020-08-11 10:51:59 358

原创 网络爬虫与信息提取 实例3:百度360搜索关键词提交

百度的关键词接口为:http://www.baidu.com/s?wd=keyword我们可以利用params来提交关键词,代码如下:import requestskv={'wd':'python'}try: r=requests.get("http://www.baidu.com/s",params=kv) r.raise_for_status() print(r.request.url) r.encoding=r.apparent_encoding pr

2020-08-11 09:55:23 304

原创 网络爬虫与信息提取 实例2:亚马逊商品页面的爬取

假如采取与爬取京东页面相同的代码:import requestsurl="https://www.amazon.cn/dp/B07Z4LZ9HW"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000:2000])except: print("爬取失败")则会输出“爬取失败”,因为亚马逊限制了爬虫的爬取,所以我们要对原来的代码

2020-08-10 22:12:32 918

原创 网络爬虫与数据提取实例1:京东商品页面的爬取

京东商品页面的爬取import requestsurl="https://item.jd.com/100012545868.html"#输入你想爬取的页面的网址try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...

2020-08-09 22:32:33 772

原创 python语言程序设计实例1:温度转换

python语言程序设计 实例1:温度转换将以摄氏度为单位的温度值和以华氏度为单位的温度值互相转换tempstr=input("请输入带有符号的温度值")if tempstr[-1] in ['f','F']: C=(eval(tempstr[0:-1])-32)/1.8 print("转换后的温度为:{:.2f}C".format(C))elif tempstr[-1] in ['c','C']: F=eval(tempstr[0:-1])*1.8+32 prin

2020-08-09 21:14:01 368

原创 爬取网页的通用代码框架(自用)

爬取网页的通用代码框架:import requestsdef gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"if __nam

2020-08-09 12:25:03 213

原创 request库的安装小测

输入以下代码并运行:import requestsr=requests.get("http://www.baidu.com")print(r.status_code)如果输出为200,则安装requests库成功

2020-08-09 11:43:28 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除