自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Datawhale Pandas Task06

一、2002 年-2018 年上海机动车拍照拍卖import numpy as npimport pandas as pdpd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)path = 'C:\Users\26591\Desktop\datawhale\pandas\joyfu...

2020-05-01 20:08:33 206

原创 pandas task 05 合并

问题【问题一】 append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append:可以利用Series或DataFrame添加行。assign:添加列。combine:利用规则在表中填充另一个表的数据。update:按索引来覆盖更新数据concat:行/列两个方向拼接两个表。merge:横向拼接(笛卡尔积...

2020-04-30 17:04:08 171

原创 pandas Task 04

写在前面本文内容来源于Datawhale组队学习教程第4章 变形import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()一、透视表pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数...

2020-04-28 21:28:17 153

原创 Datawhale 爬虫 Task 04

爬取腾讯新闻1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫:用selenium爬取https://news.qq.com/ 的热点精选import timefrom selenium import webdriverimport pandas as pdfrom bs4 import BeautifulSoupdriv...

2020-04-27 18:00:06 183

原创 datawhale Pandas Task 03分组

写在前面本文内容源自datawhale 组队学习教程,感兴趣可了解更多:https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%89分组一、SAC过程内涵SAC指的是分组操作中的split-apply-combine过程其...

2020-04-26 20:09:39 223

原创 Datawhale 爬虫 task 03

本文内容源自datawhale 爬虫组队学习的教程,更多知识可参考:datawhale爬虫关于IP为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址如何获取...

2020-04-25 20:03:16 254

原创 Pandas Task 02索引

一、单级索引loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点(a)loc方法(注意:所有在loc中使用的切片全部包含右端点!)① 单行索引② 多行索引③ 单列索引④ 多列索引⑤ 联合索引⑥ 函数式索引⑦ 布尔索引小结:本质上说,loc中能传入的只有布尔列表和索引子集构成的列表,...

2020-04-23 16:32:14 156

原创 爬虫 Task 2

2.1.1 Beautiful Soup库的基本元素Beautiful Soup库的理解:Beautiful Soup库是解析、遍历、维护“标签树”的功能库,对应一个HTML/XML文档的全部内容BeautifulSoup类的基本元素:Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾;Name 标签的名字,<p>…&lt...

2020-04-23 16:00:29 261

原创 爬虫TASK1

HTTP的请求方法有很多种,主要包括以下几个:GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在Web Application中)。其中一个原因是GET可能会被网络蜘蛛等随意访问。HEAD:与GET方法一样,都是向服务器发出直顶资源的请求,只不过服务器将不会出传回资源的内容部分。它的好处在于,使用这个方法可以在不必传输内容的情况下,将获...

2020-04-21 12:56:15 203

原创 Pandas 基础 task1

df.head()函数 读取表格前五行数据df.taill(n) 读取表格后五行数据,n默认为5,可以指定n参数显示多少行np.random.randn(d0,d1,d2……dn)1)当函数括号内没有参数时,则返回一个浮点数;2)当函数括号内有一个参数时,则返回秩为1的数组,不能表示向量和矩阵;3)当函数括号内有两个及以上参数时,则返回对应维度的数组,能表示向量或矩阵;4)np.random.st...

2020-04-20 20:35:43 391

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除