- 博客(9)
- 收藏
- 关注
原创 pandas综合
1.2002 年-2018 年上海机动车拍照拍卖 import pandas as pd import numpy as np df_car = pd.read_csv('data/2002年-2018年上海机动车拍照拍卖.csv') print(df_car.shape) print(df_car.info()) print(df_car.head()) #(1) 找出哪轮拍卖的中标率首次小于...
2020-05-01 23:46:42 218
原创 pandas第五次打卡
import numpy as np import pandas as pd df = pd.read_csv('Documents/Pandas教程/joyful-pandas-master/data/table.csv') df.head() 一、append与assign append方法 (a)利用序列添加行(必须指定name) df_append = df.loc[:3,['Gen...
2020-05-01 14:04:53 148
原创 pandas第四次打卡
第4章 变形 import numpy as np import pandas as pd df = pd.read_csv('../data/table.csv') df.head() 一、透视表 1、pivot 一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols: df.pivot(i...
2020-04-28 23:52:29 124
原创 爬虫第四次打卡
腾讯新闻热点爬取 1.了解ajax加载 2.通过chrome的开发者工具,监控网络请求,并分析 3.用selenium完成爬虫 4.具体流程如下: 用selenium爬取https://news.qq.com/ 的热点精选 热点精选至少爬50个出来,存储成csv。 import time from selenium import webdriver driver=webdriver.Chrome...
2020-04-27 23:23:05 131
原创 pandas第三次打卡
一、SAC过程: 1.1 内涵: SAC指的是分组操作中的split-apply-combine过程; 其中split指基于某一些规则,将数据拆分成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构。 1.2 apply过程: 在改过程中,往往会遇到四类问题: 整合(Aggregation) —— 即分组计算统计量(如求均值、求每组元素个数) 变换(T...
2020-04-26 23:02:32 131
原创 爬虫第三次打卡
静态网页 静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了。比如个人通过github pages搭建blog,就是静态网页的代表,这种网页的内容是通过纯粹的 HTML 代码来书写,包括一些资源文件:图片、视频等内容的引入都是使用 HTML 标签来完成的。 它的好处当然是加载速度快,编写简单,...
2020-04-25 23:10:42 188
原创 爬虫第二次打卡
一、BeautifulSoup库 BeautifulSoup的概念和入门 什么是BeautifulSoup? Beautiful Soup 是一个HTML/XML的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析HTML 比较简单,API非常人...
2020-04-24 21:46:50 106
转载 pandas第二次打卡
一、单级索引 三类常用的索引方法: loc表示位置索引 loc表示标签索引 []也具有很大的便利性,各有特点 (a).loc方法(注意:所有在loc中使用的切片全部包含右端点!) ① 单行索引:df.loc[1103] ② 多行索引:df.loc[[1102,2304]] df.loc[1304:].head() df.loc[2402::-1].head() 逆项 ③ 单列索引:df.loc[:...
2020-04-23 22:20:40 147
原创 爬虫第一次打卡
url="https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0" data={ 'type': 'movie', 'tag': '热门', 'sort':...
2020-04-21 23:58:25 399
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人