自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 pandas综合

1.2002 年-2018 年上海机动车拍照拍卖 import pandas as pd import numpy as np df_car = pd.read_csv('data/2002年-2018年上海机动车拍照拍卖.csv') print(df_car.shape) print(df_car.info()) print(df_car.head()) #(1) 找出哪轮拍卖的中标率首次小于...

2020-05-01 23:46:42 218

原创 pandas第五次打卡

import numpy as np import pandas as pd df = pd.read_csv('Documents/Pandas教程/joyful-pandas-master/data/table.csv') df.head() 一、append与assign append方法 (a)利用序列添加行(必须指定name) df_append = df.loc[:3,['Gen...

2020-05-01 14:04:53 148

原创 pandas第四次打卡

第4章 变形 import numpy as np import pandas as pd df = pd.read_csv('../data/table.csv') df.head() 一、透视表 1、pivot 一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols: df.pivot(i...

2020-04-28 23:52:29 124

原创 爬虫第四次打卡

腾讯新闻热点爬取 1.了解ajax加载 2.通过chrome的开发者工具,监控网络请求,并分析 3.用selenium完成爬虫 4.具体流程如下: 用selenium爬取https://news.qq.com/ 的热点精选 热点精选至少爬50个出来,存储成csv。 import time from selenium import webdriver driver=webdriver.Chrome...

2020-04-27 23:23:05 131

原创 pandas第三次打卡

一、SAC过程: 1.1 内涵: SAC指的是分组操作中的split-apply-combine过程; 其中split指基于某一些规则,将数据拆分成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构。 1.2 apply过程: 在改过程中,往往会遇到四类问题: 整合(Aggregation) —— 即分组计算统计量(如求均值、求每组元素个数) 变换(T...

2020-04-26 23:02:32 131

原创 爬虫第三次打卡

静态网页 静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了。比如个人通过github pages搭建blog,就是静态网页的代表,这种网页的内容是通过纯粹的 HTML 代码来书写,包括一些资源文件:图片、视频等内容的引入都是使用 HTML 标签来完成的。 它的好处当然是加载速度快,编写简单,...

2020-04-25 23:10:42 188

原创 爬虫第二次打卡

一、BeautifulSoup库 BeautifulSoup的概念和入门 什么是BeautifulSoup? Beautiful Soup 是一个HTML/XML的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析HTML 比较简单,API非常人...

2020-04-24 21:46:50 106

转载 pandas第二次打卡

一、单级索引 三类常用的索引方法: loc表示位置索引 loc表示标签索引 []也具有很大的便利性,各有特点 (a).loc方法(注意:所有在loc中使用的切片全部包含右端点!) ① 单行索引:df.loc[1103] ② 多行索引:df.loc[[1102,2304]] df.loc[1304:].head() df.loc[2402::-1].head() 逆项 ③ 单列索引:df.loc[:...

2020-04-23 22:20:40 147

原创 爬虫第一次打卡

url="https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0" data={ 'type': 'movie', 'tag': '热门', 'sort':...

2020-04-21 23:58:25 399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除