嘎嘣儿脆-CSDN博客

原创搭建IDEA开发环境及Linux虚拟机

本文是按自学时顺序描述，内含安装配置过程中百度搜索的有价值的文章，供参考。以上就是今天要讲的内容，本文介绍了搭建IDEA开发环境及Linux虚拟机。

2023-08-27 21:58:53 898

爬虫实际上是用浏览器访问的方式模拟了访问网站的过程，整个过程包括三个阶段：打开网页、提取数据和保存数据。在 Python 中，这三个阶段都有对应的工具可以使用。在“打开网页”这一步骤中，可以使用 Requests 访问页面，得到服务器返回给我们的数据，这里包括 HTML 页面以及 JSON 数据。在“提取数据”这一步骤中，主要用到了两个工具。针对 HTML 页面，可以使用 XPath 进行元素...

2020-05-05 18:43:24 547

原创数据采集

数据分析的前提就是数据的数量和质量。今天介绍几种数据源和数据的采集方式。从数据采集角度，数据源分为开放数据源、爬虫抓取、日志采集、传感器，四类数据源。开放数据源和爬虫听得比较多（主要是我听得比较多），所以简单说一下传感器和日志采集。传感器是基于特定的...

2020-04-22 22:55:21 3983

原创用户数据分析

数据分析离不开对业务的了解，离不开对产品的了解，更离不开对数据的了解。据和师哥聊天得知，数据分析有三个方向，算法、产品经理、运营。在面试的时候，有时面试官也会问到关于产品或者某一项数据怎么分析的问题。今天我主要想说一下用户数据的分析以及价值。下面虚构一个场景，加入你进入一家羊肉串的餐饮公司，老板说现在...

2020-04-22 20:47:47 1490

原创 Pandas练习的参考代码

针对上一节的练习问题，以下为参考代码。首先将数据表完整的在Python中表示出来。import pandas as pdfrom pandas import DataFramefrom pandasql import sqldf, load_meat, load_birthsdata={'Ch...

2020-04-20 13:22:42 405

原创 Python科学计算：Pandas （三）

数据统计在数据清洗之后，我们就要对数据进行统计了。Pandas和Numpy一样，都有常用的统计函数，如果遇到空值NaN，会自动排除。常用的统计函数包括：统计函数千千万，describe()函数最简便。可以快速让我们对数据有个全面的了解。print (df2.describe())运行结果：...

2020-04-19 18:58:21 349

原创 Python科学计算：Pandas （二）

数据清洗是数据准备中必不可少的环节，下面简单介绍Pandas在数据清洗中的使用方法。这里沿用上一节的虚拟考试成绩。import pandas as pdfrom pandas import Series,DataFramedata={'Chinese':[66,89,65,67,67],'English':[87,64,86,88,88],'M...

2020-04-19 17:25:09 278

原创 Python科学计算：Pandas （一）

学习数据分析前首先了解Python的两个常用包：Numpy和Pandas。由于学习进度原因，今天先讲Pandas包，Numpy包的讲解之后补上。本模块主要目标是希望读者在碎片时间可以阅读本公众号进行学习。因此，每篇文章都尽量设置成短篇形式。好啦，废话不多说，一起来学习吧。在数据分析中，Pandas使用...

2020-04-19 15:09:05 511 1

weixin_44844361的博客