Python
文章平均质量分 72
wx1871428
这个作者很懒,什么都没留下…
展开
-
python数据分析(分析文本数据和社交媒体)
1、安装NLTK pip install nltk[/code]至此,我们的安装还未完成,还需要下载NLTK语料库,下载量非常大,大约有1.8GB。可以直接运行代码下载、代码如下:```code import nltk nltk.download()[/code]python数据分析(分析文本数据和社交媒体)这样可以直接下载NLTK语料库了。## 2、滤除停用词、姓名和数字进行文本分析时,我们经常需要对停用词(Stopwords)进行剔除,这里所谓停用词就是原创 2021-07-12 15:13:00 · 321 阅读 · 0 评论 -
Python数据分析(4)-numpy数组的属性操作1. ndarray的属性2. ndarray元素的属性3. ndarray元素的类型
numpy数组也就是ndarray,它的本质是一个对象,那么一定具有一些对象描述的属性,同时,它还有元素,其元素也有一些属性。本节主要介绍ndarray以及其元素的属性和属性的操作。1. ndarray的属性ndarray有两个属性:维度(ndim)和每个维度的大小shape(也就是每个维度元素的个数) import numpy as np a = np.arange(24) a.shape=(2,3,4) print('数组为:', a) print('数组原创 2021-07-12 15:12:34 · 350 阅读 · 0 评论 -
python数据分析(1)——获取微信好友的统计信息
本文主要是尝试下一个比较有意思的python模块: wxpy ,导入此模块之后,可以很方便的来创建一个 微信机器人 和做一些和微信相关 的有意思的分析。1. wxpy 安装首先,通过pip方式进行安装,在命令行模式下输入: pip install -U wxpy[/code]如下图所示:![这里写图片描述](https://img-blog.csdn.net/20170820135249948?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQ原创 2021-07-12 15:11:59 · 410 阅读 · 1 评论 -
Python爬取房天下网站深圳房租信息入库并进行数据分析可视化
概述请求库:requestsHTML 解析:BeautifulSoup词云:wordcloud数据可视化:pyecharts数据库:MongoDB数据库连接:pymongo爬虫思路&&页面解析先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。![](https://img-blog.csdnimg.cn/20181211110713956.png?x-oss-process=image/watermark,type_ZmFuZ3p原创 2021-07-12 15:10:52 · 885 阅读 · 0 评论 -
python爬虫学习_电商数据分析
六月 北京 | 高性能计算之GPU CUDA培训**** 6月22-24日三天密集式学习 快速带你入门 阅读全文** > **正文共769,11图,预计阅读时间6分钟。通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析。爬虫部分在这一篇文章中我们会以淘宝为例,爬取淘宝的店铺和商家信息,然后去进行分析,首先我们打开淘宝首页,搜索你想要查询.原创 2021-07-12 15:10:00 · 428 阅读 · 0 评论 -
Python爬虫实战+数据分析+数据可视化(前程无忧招聘信息)
一、爬虫部分爬虫说明:1、本爬虫是以面向对象的方式进行代码架构的2、本爬虫是通过将前程无忧网页转换成一定端来进行求职信息爬取的3、本爬虫爬取的数据存入到MongoDB数据库中4、爬虫代码中有详细注释代码展示 import time from pymongo import MongoClient import requests from lxml import html class JobSpider(): def __i原创 2021-07-12 15:09:13 · 3690 阅读 · 3 评论 -
python爬虫基础与数据分析及可视化基础一、Python基础二、Python爬虫三、数据分析基础四、数据可视化基础
python基础、爬虫、数据分析学习笔记一、Python基础* I. 基本数据类型 * i. int、float、str、bool数据类型的定义 ii. tuple(元组):iii. list(列表)iv. set(集合):v. dict(字典)II. 基本控制结构 * i. if-elif-else语句: ii. for语句:iii. while语句iv. in,and,or,break,contiue语句III. 函数定义:IV. 文件读取原创 2021-07-12 15:07:51 · 574 阅读 · 0 评论 -
Python金融大数据分析-回归分析
1.pandas的线性回归回归分析是金融中一个绕不过的话题,其实最好的工具应该是R语言,但是pandas其实也是能够胜任绝大部分工作的。这里我们就简单介绍一下。 import pandas as pd import numpy as np import matplotlib.pyplot as plt noise = np.random.normal(0,12,100) x= np.array(range(100)) y = 0.7*x + noise原创 2021-07-12 15:04:24 · 603 阅读 · 0 评论 -
Python金融大数据分析——第11章 统计学(1)正态性检验 笔记第11章 统计学
第11章 统计学11.1 正态性检验11.1.1 基准案例11.1.2 现实世界的数据第11章 统计学11.1 正态性检验可以说 , 正态分布是金融学中最重要的分布 , 也是金融理论的主要统计学基础之一。尤其是下面这些金融理论基础 , 在很大程度上依赖于股票市场收益的正态分布。投资组合理论当股票收益呈正态分布时,最优化投资组合可以在这样的环境中选择:只有平均收益和收益的方差(或者波动率)以及不同股票之间的协方差与投资决策(即最优化投资组合构成)相关。资本性资产定价模型同.原创 2021-07-12 15:02:50 · 577 阅读 · 1 评论 -
Python金融大数据分析——第9章 数学工具 笔记第9章 数学工具
第9章 数学工具9.1 逼近法9.1.1 回归9.1.2 插值9.2 凸优化9.2.1 全局优化9.2.2 局部优化9.2.3 有约束优化9.3 积分9.3.1 数值积分9.3.2 通过模拟求取积分9.4 符号计算9.4.1 基本知识9.4.2 方程式9.4.3 积分9.4.4 微分第9章 数学工具9.1 逼近法在给定区间内通过回归和差值求取该函数的近似值。 首先,我们生成该函数的图形,更好地观察逼近法所实现的结果。我们感兴趣的区间是[.原创 2021-07-09 14:35:30 · 343 阅读 · 0 评论 -
Python金融大数据分析:金融学中最常用的数学技术之一逼近法11.1.1 回归11.1.2 插值
首先,是通常的导入工作: In [1]: import numpy as np from pylab import plt, mpl In [2]: plt.style.use('seaborn') mpl.rcParams['font.family'] = 'serif' %matplotlib inline[/code]本节使用的主函数示例如下,由一个三角函数项和一个线性项组成:```code原创 2021-07-09 14:34:49 · 226 阅读 · 0 评论 -
Python的数据分析可视化十种技能总结
常见的可视化试图列举可视化视图可以分成4大类:比较、联系、构成和分布。他们的特点如下:1、比较:比较数据之间的各类别的关系,或者是他们随着时间的变化趋势,比如折线图;2、联系:查看两个或者两个以上的变量之间的关系,比如散点图;3、构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼状图;4、分布:关注单个变量,或者多个变量的分布情况,比如直方图。同样,按照变量的个数,可以把可视化视图划分成为单变量分析和多变量分析:1、单变量分析指的是一次只关注一个变量。比如只关注“身高”这个原创 2021-07-09 14:34:19 · 6333 阅读 · 0 评论 -
Python大数据分析(三):大数据统计分析技术(一)概率论数理统计中的概念(二)统计分析的常见指标(三)统计分析的特点(四)统计分析的基本步骤(四)数据统计分析pandas工具使用(共12节入门教程
文章目录(一)概率论数理统计中的概念* (1)随机分布 (2)统计分布(二)统计分析的常见指标* (1)均值,方差,标准差,中位数,众数 (2)总量指标(3)相对指标(4)平均指标(5)变异指标(三)统计分析的特点(四)统计分析的基本步骤(四)数据统计分析pandas工具使用(共12节入门教程)* pandas学习笔记(一):对象创建(Object creation) pandas学习笔记(二):查看数据(Viewing data)pandas学习笔原创 2021-07-09 14:33:50 · 1027 阅读 · 0 评论 -
Python操纵 Excel 文件实现复杂数据分析
一、明确功能需求项目功能需求如下图所示,假设有1000行数据即1000名患者,已知每名患者的西医指标值和医生给出的证候结果。共有3个证候结果:气虚证、肾虚证、阳虚证,列序号分别为1、2、3列;值为1表示患者存在该证候,值为0表示不存在该证候,一个患者可以同时存在多个证候,证候起始和终止序号为2-4。共有12个西医指标:白细胞、红细胞、血红蛋白等,列序号分别为4、5、6…,指标值为浮点数值。西医指标起始和终止序号为5-16。需求:对所有数据,考虑每个证候,计算出存在证候和不存在该证候的两组数据原创 2021-07-09 14:26:17 · 895 阅读 · 2 评论 -
Python-Matplotlib实现新冠病毒疫情数据分析-超细致流-逐行注解
(1)需求背景我将扮演一名数据工作者。在目前国内的新冠病毒疫情背景下,你觉得应该用数据做重新剖析一下疫情状况,恰好现在有一份2020.1.22至2020.2.13的全国疫情数据,我将对疫情现状做一个基本分析作为一名python数据分析是,面对元素数据,我将完成以下工作:a.读取数据,初步了解数据结构b.清洗数据,使数据能做进一步分析c.呈现结果1.全国疫情确诊病例Top10那些省市2.查看不同日期的疫情情况3.提取某一地区多日的疫情情况(2)手撸代码 # 导包 import原创 2021-07-09 14:20:12 · 964 阅读 · 3 评论 -
Python3数据分析处理库pandas
用pandas封装函数对数据进行读取,预处理,数据分析等操作。pandas库是基于numpy库编写的, 在命令行窗口安装完numpy后,安装pandas:pip install pandas。相关numpy库的内容参考 http://blog.csdn.net/cymy001/article/details/78163468通常需要pandas读取的数据文件的文本格式为.txt,.csv,.jsonpandas里定义的数据类型:(1.)object字符值(2.)int整型(3.)float浮点原创 2021-07-09 14:17:01 · 239 阅读 · 3 评论 -
Python3实战Spark大数据分析及调度 学习 资源
Python3实战Spark大数据分析及调度 学习资源一、实例分析1.1 数据 student.txt1.2 代码 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20191015172251705.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw==,size_16,color_F原创 2021-07-09 14:10:58 · 215 阅读 · 0 评论 -
Python+Excel数据分析实战:军事体能考核成绩评定(二)基本框架和年龄计算
一、基本框架项目任务 :每个人的体能测试有单杠、仰卧起坐、30米x2蛇形跑、3000米跑四个项目,外加体型是否合格(BMI身体质量指数或者PBF体脂百分比),每项原始测试数据,通过不同项目各自规定的标准转换成100分制的分数,最终汇总得出个人的评定成绩,而且能够批量计算。![输入原始数据举例](https://img-blog.csdnimg.cn/img_convert/23341b92d84fadaceeed04a951b3c6a0.png)算法思路 :1.总体思路。通过读取Excel表上该原创 2021-07-09 14:10:09 · 1449 阅读 · 0 评论 -
Python_数据分析_numpy模块
numpy可以说是Python运用于人工智能和科学计算的一个重要基础,关于库的引入不做赘述,主要分享一些总结的numpy库的用法。1. numpy数组对象Numpy中的多维数组称为ndarray,这是Numpy中最常见的数组对象。ndarray对象通常包含两个部分:ndarray数据本身描述数据的元数据Numpy数组的优势Numpy数组通常是由相同种类的元素组成的,即数组中的数据项的类型一致。这样有一个好处,由于知道数组元素的类型相同,所以能快速确定存储数据所需空间的大小。Numpy数组原创 2021-07-09 14:02:05 · 144 阅读 · 3 评论 -
flask + pyecharts 疫情数据分析 搭建交互式动态可视化疫情趋势分析、舆情监测平台(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17本项目采用flask作为原创 2021-07-08 12:10:02 · 1005 阅读 · 1 评论 -
flask + pyecharts 疫情数据分析 搭建交互式动态可视化新冠肺炎疫情地图(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17最终效果:动态交互展示原创 2021-07-08 12:08:52 · 961 阅读 · 0 评论 -
CentOS 6 64bit下,Python数据分析环境搭建
首先是基础环境安装: yum install zeromq-devel yum install gcc-gfortran yum install freetype-devel yum install libpng-devel yum install atlas-devel yum install bzip2-devel yum install tk-devel yum install tcl-devel # Use the s原创 2021-07-08 12:06:03 · 78 阅读 · 0 评论 -
【金融数据分析】基于python实现收益率和风险分析1. 导入数据分析包并设置好绘图工具属性2. 获取股票数据3. 收益率4 年化收益5 风险度量
小白一枚,金融大数据分析作业,顺便总结一下。下面的数据以中国银行股票为例,其他股票的而分析方法类似。编程工具:Jupyter notebook1. 导入数据分析包并设置好绘图工具属性 import pandas as pd import matplotlib.pyplot as plt import ffn #金融计算包 import tushare as ts#获取金融数据的工具包 %matplotlib inline plt.rcParams['fo原创 2021-07-06 18:20:21 · 569 阅读 · 0 评论 -
【Python数据分析基础】Pandas常用功能总结之思维导图
一、Pandas简介Pandas是一个专门用于数据分析的开源Python库,在做相关统计分析和决策时,pandas都是一项重要的基础工具。它以NumPy为基础,不仅使Pandas兼容性更强,也更高效。Pandas中有两种独特的数据结构:Series和DataFrame,这两种数据结构设计初衷是用于关系型或带标签的数据。用它们管理与SQL关系型数据库和Excel工作表具有类似特征的数据会非常方便。本文参考书籍:Python数据分析实战( by Fabio Nelli)Python数据分析(by原创 2021-07-06 18:00:30 · 761 阅读 · 0 评论 -
【Python数据分析】苹果公司股票数据分析,数据源免费送
首先我们打开数据之后先了解一下数据有哪些元素。在这个表中,可以看到,第一列是公司名称,第二列是交易日期,第四列是开盘价,之后分别是是最高价,最低价,收盘价,成交量。(数据获取方式看文章末尾)![](https://img-blog.csdn.net/20180731231036387?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NTRE5fZnpz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve原创 2021-07-06 17:55:23 · 576 阅读 · 0 评论 -
【Python】Python的数据分析——前言
一. Python相关的科学计算库● NumPyNumPy是NumericalPython的简称,是Python科学计算的基础库。它提供了如下内容:快速有效的多维数组对象ndarray,数组之间的运算,基于数组的数据读写到磁盘功能,线代运算,傅里叶变换,随机数生成,将C、C++和Fortran集成到Python的工具。● pandaspandas提供了丰富的数据结构和功能,可以快速、简单、富于表现地处理结构化数据。它是使Python在数据分析领域强大高效的关键组件之一。本书用到pandas关键组件原创 2021-07-06 17:44:55 · 204 阅读 · 0 评论 -
【Python】Python的数据分析(二)——pandas安装及使用
一. 安装pandasAnaconda安装pandas、Python和SciPy最简单的方式是用Anaconda。Anaconda是关于Python数据分析和科学计算的分发包。Miniconda使用Anaconda会安装一百多个依赖包,如果想灵活控制安装的依赖包或带宽有限,使用Miniconda是个不错的选择。Conda是个包管理器,Anaconda就是建立在它的基础上。Conda不只跨平台还与语言无关,与pip和virtualenv相结合的作用相似。Miniconda允许先创建包含Pytho原创 2021-07-06 17:28:00 · 278 阅读 · 0 评论 -
【MOOC】Python数据分析与展示-北京理工大学-【第三周】数据分析之概要
概要:提取数据的基本特征![这里写图片描述](https://img-blog.csdn.net/20170501112833280?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGluemNoMw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)单元7:pandas库入门更多参考: http://pandas.pydata.org/ Panda原创 2021-07-06 17:07:35 · 101 阅读 · 0 评论 -
【Excel】数据分析工具库
文章目录* 一、工具库简介 * 1、作用 2、安装3、统计方法归纳二、描述性统计分析 * 1、介绍 2、操作三、直方图 * 1、介绍 2、操作四、抽样分析 * 1、介绍 2、操作五、相关分析 * 1、介绍 2、操作六、回归分析 * 1、介绍 2、操作 * 1)简单线性回归 2)多重线性回归七、移动平均 * 1、介绍 2、操作八、指数平滑 * 1原创 2021-07-05 17:30:46 · 1043 阅读 · 0 评论 -
【Daticist】_(一)字节跳动数据分析笔试一、准备二、开始三、反思
因为自己准备的时候战战兢兢,所以希望给学弟学妹一些经验,希望大家都万事胜意o( ̄▽ ̄)ブ不知道这算不算侵字节爸爸的权啊,是的话麻烦提醒一下,我就删了……一、准备岗位描述:1、负责分字节跳动旗下国内外产品及业务的数据分析工作; 2、分析各项影响产品提升与增长的因素、各项业务细节,结合业务方向,给出可落地的整体的产品优化方案; 3、与产品/运营/研发等配合,推进优化方案落地执行,带来业务的实际提升增长; 4、负责业务上各类A/B实验设计与分析,产品优化效果评估,市场活动分析评估,核心指标异动分析,.原创 2021-07-05 17:30:16 · 1111 阅读 · 0 评论 -
【ArcGIS_空间分析】微博签到数据分析(全国大学生GIS技能大赛试题)
【赋值栅格】工具:此处仅设置【忽略背景值】为黑边像元值,而不设置NoData值,避免所有指定像素将在输出栅格数据集中被设置为 NoData。忽略背景值:1、 使用此选项移除在栅格数据周围创建的不需要的值。指定的值与栅格数据集中的其他有用数据不同。例如,栅格边界上为零的值不同于栅格数据集内的零值。2、指定的像素值在输出栅格数据集中将被设置为NoData。3、对于基于文件的栅格和地理数据库栅格,为了忽略背景值,忽略背景值必须设置为与NoData相同的值。企业级和地理数据库栅格无需经过此额外步骤即.原创 2021-07-05 17:29:21 · 1325 阅读 · 0 评论 -
《全基因组测序WGS数据分析——1.DNA测序技术》
WGS(Whole Genome Sequencing)指将物种细胞里面完整的基因组序列全部DNA,检测并排列,此技术几乎能够鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读和更高的技术挑战。测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。第一代测序技术——sanger法Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法。1975年由Sange原创 2021-07-05 17:28:36 · 2293 阅读 · 0 评论 -
《Python数据分析实战》day1:有关Numpy中column_stack与row_stack的思考
从今天开始看 《Python数据分析实战》 这本书,今天看了这本书的第三章:Numpy部分,在书中看到了numpy中的两个方法numpy.column_stack与numpy.row_stack有一点自己的思考,先上代码: >>> import numpy as np >>> a = np.array([0, 1, 2]) >>> b = np.array([3, 4, 5]) >>> c = np.原创 2021-07-05 17:27:52 · 232 阅读 · 0 评论 -
“泰迪杯”数据分析职业技能大赛B题 学生校园消费行为分析---复盘
1. 赛题背景校园一卡通是集身份认证、金融消费、数据共享等多项功能于一体的信息集成系统。在为师生提供优质、高效信息化服务的同时,系统自身也积累了大量的历史记录,其中蕴含着学生的消费行为以及学校食堂等各部门的运行状况等信息。很多高校基于校园一卡通系统进行“智慧校园”的相关建设,例如《扬子晚报》2016年 1月 27日的报道:《南理工给贫困生“暖心饭卡补助”》。不用申请,不用审核,饭卡上竟然能悄悄多出几百元……记者昨天从南京理工大学独家了解到,南理工教育基金会正式启动了“暖心饭卡”项目,针对特困生的温饱原创 2021-07-05 17:27:04 · 5867 阅读 · 3 评论 -
数据分析基础-假设检验原理详解
假设检验分为参数假设检验和分布拟合假设检验和非参数检验一、假设检验的思想:建立假设选择检验统计量并给出拒绝域形式选择显著性水平给出拒绝域做出判断二、p 值:利用样本观测值能够作出拒绝原假设的最小显著性水平三、参数假设检验类型:详见茆诗松正态总体参数假设检验指数参数假设检验,对指数分布的参数θ进行假设检验 2n x θ0 服从自由度为 2n 的卡方分布。比率 p 的假设检验。二项分布参数 p 的假设检验。大样本检验:构造正态分布统计量。似然比检验 LRT :分子表示没有假设的原创 2021-07-05 17:25:22 · 680 阅读 · 0 评论 -
(五)【Matlab】数据分析与多项式计算
【Matlab】 文章目录A 数据统计分析* A.a 求最大值与最小元素 A.b 求平均值和中值A.c 求和与求积A.d 累加和与累乘积A.e 求标准差与相关系数A.f 排序B 多项式计算* B.a 多项式的表示 B.b 多项式的四则运算B.c 多项式的求导(polyder)B.d 多项式积分(polyder)B.e 多项式的求值(polyval;polyvalm)B.f 多项式的求根(roots;poly)C 数据插值(interp)* C.a .原创 2021-07-05 17:24:53 · 312 阅读 · 0 评论 -
(三)CDA 数据分析师Level1考试新版大纲解析
PART 3 数据库应用 (占比 17%)总体要求理解数据库的基本概念、理解 DDL 及 DML语言、能够根据业务需求及数据特征使用查询语言从数据库中获取准确、完整的数据信息、能够应用数据库函数进行数据处理及计算1 、数据库相关概念 ( 占比 1% )【领会】数据库分类数据库的功能定位:OLTP数据仓库的功能定位:OLAP联机事务处理 ( OLTP ) 系统旨在针对小工作单元进行快速写入,例如,用于快速创建单个事件。 联机分析处理 ( OLAP )数据仓库旨在促进跨大型数据集原创 2021-07-05 17:24:17 · 1422 阅读 · 0 评论 -
【数据分析】Matplotlib可视化最有价值的图表之——4、分布(Distribution)
在数据分析和可视化中最有用的 50 个 Matplotlib 图表。 这些图表列表允许使用 python 的 matplotlib 和 seaborn库选择要显示的可视化对象。这里开始第四部分内容:分布(Distribution)准备工作在代码运行前先引入下面的设置内容。 当然,单独的图表,可以重新设置显示要素。 # !pip install brewer2mpl import numpy as np import pandas as pd import matplo原创 2021-07-02 15:13:54 · 747 阅读 · 0 评论 -
【用pyecharts做地理图】
项目介绍项目来源:天池大数据平台项目思路:针对airbnb中listings表做数据处理,探索分析以及针对经纬度以及价格做地理价格图(pyecharts)python:3.7.1pyecharts:1.2.0天池平台的这个比赛比较常见,本文给出了地理可视化的新思路(想看图的直接拉到3/4就可)模块导入分析思路![在这里插入图片描述](https://img-blog.csdnimg.cn/20200411221638743.png?x-oss-process=image/watermar原创 2021-07-02 14:52:51 · 393 阅读 · 0 评论 -
《Python数据分析与挖掘实战》第12章(中)——协同推荐2 数据变换
本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。由于此章内容很多,因此,分为三个部分进行分享——数据探索(上)、数据预处理(中)、模型构建(下)_ 本文是继前一篇文章,进行的工作。 本文是“ 数据预处理(中) ” 部分 _1 数据清洗1.1 查看各个需要删除的规则包含的信息 **# 删除规则1:** 统计中间类型网页(带midques_关键字)[/code]```code # 读取数据库数据原创 2021-07-01 19:57:45 · 83 阅读 · 0 评论