自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 R语言|数据预处理方法

R语言,数据预处理方法

2022-12-20 16:11:10 2333 1

原创 不规则语法命名数据框tibble

数据框中不符合语法规则的变量名命名

2022-12-03 09:32:00 233

原创 典型的数据科学项目流程

典型的数据科学项目流程

2022-11-25 23:02:04 249

原创 R - 简单随机抽样

R 简单随机抽样

2022-08-28 08:36:49 2805

原创 R 数据导入方法

R数据导入

2022-08-25 08:56:48 153

原创 R语言 - dplyr 使用

R语言 - dplyr 使用

2022-08-24 09:14:21 347

原创 R 学习手册

R学习手册

2022-08-23 19:48:52 2184

原创 github+hexo免费搭建个人博客教程

1.缘起平时爱写一些文字,但文字分散在公众号、简书、豆瓣等平台上,没有体系化,想搭建博客把所有文章放在一起。目前文章的数量不多,但想想看,坚持十年后,就会积累一笔很客观的信息。还有一点,拥有个人博客是一件很酷的事情,想写啥就写啥,这是我的博客地址,欢迎Rss至善的网志。我搭建的博客是通过GitHub Pages + Hexo搭建的,环境是MacOS11。搭建的步骤分为:安装Hexo在本地搭建博客部署到github选择博客主题2.Hexo是什么Hexo是快速、简洁且高效的博客框架,可以理

2020-12-17 22:25:29 681

原创 python爬取京东商品评论(可实现翻页)

上一篇文章,我们已经实现抓取商品第一页的功能,下面来实现翻页的功能。首先通过类定义三个方法:初始化方法、解析一页的方法、翻页爬取。class jd_comment(object): def __init__(self): pass def page(self): pass def max_page(self): pass初始化方法包括请求头、文件所在位置 def __init__(self): self.headers = { 'User-Agent': 'Mozi

2020-12-10 22:40:26 1985 1

原创 爬虫爬取京东商品评论(第一页)

知识点:网页分析,使用JSON提取页面内容。网页分析打开京东,并搜索进入需要爬取评论的页面。通过源代码可以发现数据在JSON之中。Response字典部分即为JSON格式。删除fetchJSON_comment98(),通过json.cn解析。所以需要爬取的内容,直接从JSON里面提取即可。代码实现(爬取第一页)import requestsurl = 'https://club.jd.com/comment/productPageComments.action?callback=

2020-12-09 21:57:41 1042

原创 爬虫——网页爬取方法和网页解析方法

爬取网页的方法按照网页和APP划分,参考崔庆才老师的分享,可以划分为:网页爬取和App爬取。网页爬取(1)服务端渲染:页面结果由服务器渲染后返回,有效信息包括在服务器发来的HTML中,比如猫眼电影网站。使用基本的HTTP请求库便可以实现爬取,如urllib、urllib3、pycurl、hyper、requests、grab等框架,其中运用最多的是requests。(2)客户端渲染:页面内容由JavaScript渲染而成,真实数据通过Ajax获取,比如淘宝,今日头条网页内容。当操作获取更多数据时,

2020-12-07 21:46:53 4779

原创 CSV基础操作——写入和读取

CSV,英文全称为Comma Sepatated Values,是以纯文本形式储存表格数据,中文可以叫做逗号分隔值。相比xlsx,文本储存的结构更加清晰。CSV的写入采用writerow(),写入每一列,我们可以使用下面的代码生成一个CSV文件。import csvwith open('examble.csv', 'w') as csvfile: writer = csv.writer(csvfile) writer.writerow(['name', 'zone', 'score

2020-12-02 19:43:58 1254

原创 从小白到专家的五个阶段,你处在哪里?

专家和新手的区别在哪里?每一个程序员都有一个梦想,成为领域内的专家。专家和新手有什么不同?1970年代左右,德雷福斯兄弟通过对飞行员、国际著名象棋大师的技能习得进行研究,他们发现专家和新手在技能调用上有很大的不同,并提出了德雷福斯模型(Dreyfus model),把从新手到专家分为新手、高级新手、胜任者、精通者、专家五个阶段。第一阶:新手在该技能领域经验很少或者根本没有经验严格按照指令行事(告诉行动清单时会做得很好)几乎无法感知情景无法判断行为的对错或处理问题第二阶:高级

2020-12-01 20:56:08 3235 1

原创 Beautiful Soup在爬虫中的基本使用语法

Beautiful Soup 是什么Beautiful Soup是python 的一个HTML 或 XML的解析库,借助网页的结构和属性特征来解析网页,便于用户抓取数据。Beautiful Soup能够自动将输入的文档转化为Unicode,输出的文档转换为UTF-8,这大大提高了文档提取的效率。选择相应信息基本用法如下BeautifulSoup(markup, 'lxml')from bs4 import BeautifulSoupimport requestsurl = 'https:

2020-12-01 20:43:12 349

原创 如何使用python创建及改写excel(二)

新工作表的创建及保存工作表和工作簿的创建比较简单。import openpyxl# 创建工作簿ws = openpyxl.Workbook()sheet = ws.active# 给工作表命名sheet.title = "first"# 保存工作表ws.save("examble2.xlsx")当然也可以在原有文件的基础上创建工作表,注意最后保存文件时,使用另外一个名字,防止覆盖原文件的内容。如果想要创建新的工作表,则使用create_sheet(index=0, title=

2020-11-27 20:16:19 566

原创 如何使用python读取excel(一)

在进行操作前,我们先熟悉一下excel表格的基本术语:工作簿:workbook。包含多个工作表的。表单:worksheet。指一个工作簿里面的每个表单。行:row列:column单元格:cell这里我们使用openpyxl读取数据。查看每个工作簿包含的工作表import openpyxlwb = openpyxl.load_workbook('examble.xlsx')# 从工作簿查看工作表print(wb.sheetnames)也可以通过循环的形式打开工作表impor

2020-11-25 21:02:26 993 1

原创 我的数据分析学习路径设计

1.定义、分析步骤、运用场景定义:数据分析是对信息进行搜集,提取有用的信息形成结论,辅助决策的过程。数据分析包括以下步骤:明确数据分析的目的/需求设计数据采集数据清洗和储存数据分析形成业务报告作出判断及采取行动数据分析运用场景众多,数据分析是决策判断及采取行动的工具。一切皆数据,商业决策中、生活中均会用到数据分析。具体包括:商业:产品分析、运营分析、市场分析、用户画像、战略分析、组织变革日常生活:买房、投资2.数据分析职位及岗位2.1 工作职责挖掘商业信息,支持决策;

2020-11-25 19:31:32 557

原创 爬取拉勾网站出错,各位怎么处理的啊?

需求确定需求是数据分析的起点,在没有搞清楚需求的情况下,盲目的抓取一大把数据胡乱分析,最终得不出有用的结论。本次数据分析的目的如下:工作年限与薪资之间的关系不同工作年限薪资水平变化规律北京地区招聘数据分析师岗位公司的分布招聘数据分析师的公司类型与薪资关系数据分析师的岗位职责及要求……分析网页结构打开拉勾网站,城市选择北京,输入数据分析师,进入数据分析师岗位招聘页面。右键单击检查如图,切换到需要的数据前面。分析网页结构,可以找到请求代URL,表头等数据信息。代码如下im

2020-11-20 20:50:07 325 1

原创 python从web抓取信息

1. Web抓取常用模块webbrower:打开浏览器获取指定页面。requests:从网上下载文件和网页。Beautiful Soup:解析HTML,即网页编写的格式。Selenium:启动并控制浏览器,可以模拟鼠标在这个网页上点击。2. 通过request模块下载Web文件调用 requests.get()下载该文件。用’wb’调用 open(),以写二进制的方式打开一个新文件。利用 Respose 对象的 iter_content()方法做循环。在每次迭代中调用 wr

2020-11-18 23:15:12 623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除