- 博客(8)
- 收藏
- 关注
原创 搭建IDEA开发环境及Linux虚拟机
本文是按自学时顺序描述,内含安装配置过程中百度搜索的有价值的文章,供参考。以上就是今天要讲的内容,本文介绍了搭建IDEA开发环境及Linux虚拟机。
2023-08-27 21:58:53 898
原创 爬取豆瓣王祖贤电影海报代码
爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据。在 Python 中,这三个阶段都有对应的工具可以使用。在“打开网页”这一步骤中,可以使用 Requests 访问页面,得到服务器返回给我们的数据,这里包括 HTML 页面以及 JSON 数据。在“提取数据”这一步骤中,主要用到了两个工具。针对 HTML 页面,可以使用 XPath 进行元素...
2020-05-05 18:43:24 547
原创 数据采集
数据分析的前提就是数据的数量和质量。今天介绍几种数据源和数据的采集方式。 从数据采集角度,数据源分为开放数据源、爬虫抓取、日志采集、传感器,四类数据源。 开放数据源和爬虫听得比较多(主要是我听得比较多),所以简单说一下传感器和日志采集。传感器是基于特定的...
2020-04-22 22:55:21 3983
原创 用户数据分析
数据分析离不开对业务的了解,离不开对产品的了解,更离不开对数据的了解。据和师哥聊天得知,数据分析有三个方向,算法、产品经理、运营。在面试的时候,有时面试官也会问到关于产品或者某一项数据怎么分析的问题。今天我主要想说一下用户数据的分析以及价值。 下面虚构一个场景,加入你进入一家羊肉串的餐饮公司,老板说现在...
2020-04-22 20:47:47 1490
原创 Pandas练习的参考代码
针对上一节的练习问题,以下为参考代码。 首先将数据表完整的在Python中表示出来。import pandas as pdfrom pandas import DataFramefrom pandasql import sqldf, load_meat, load_birthsdata={'Ch...
2020-04-20 13:22:42 405
原创 Python科学计算:Pandas (三)
数据统计 在数据清洗之后,我们就要对数据进行统计了。Pandas和Numpy一样,都有常用的统计函数,如果遇到空值NaN,会自动排除。常用的统计函数包括: 统计函数千千万,describe()函数最简便。可以快速让我们对数据有个全面的了解。print (df2.describe())运行结果:...
2020-04-19 18:58:21 349
原创 Python科学计算:Pandas (二)
数据清洗是数据准备中必不可少的环节,下面简单介绍Pandas在数据清洗中的使用方法。这里沿用上一节的虚拟考试成绩。import pandas as pdfrom pandas import Series,DataFramedata={'Chinese':[66,89,65,67,67],'English':[87,64,86,88,88],'M...
2020-04-19 17:25:09 278
原创 Python科学计算:Pandas (一)
学习数据分析前首先了解Python的两个常用包:Numpy和Pandas。由于学习进度原因,今天先讲Pandas包,Numpy包的讲解之后补上。本模块主要目标是希望读者在碎片时间可以阅读本公众号进行学习。因此,每篇文章都尽量设置成短篇形式。好啦,废话不多说,一起来学习吧。 在数据分析中,Pandas使用...
2020-04-19 15:09:05 511 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人