西湖太极熊-CSDN博客

赠书活动开启！大家好，最近整理了一些数据分析必备且非常经典的书单，这些书都是数据分析入门非常实用的书籍。书籍主要分6类：1、数据分析基础2、数据化管理3、python数据分析4、用户画像5、机器学习6、产品经理详细书籍分类及名称如下：这几类书籍是一个比较标准的进阶过程，首先，数据分析基础的学习对后续数据分析是一个基础沉淀，然后通过学习数据化管理了解通过数据来驱动业务进行管理，然后进一步通过学习python来进行数据分析和挖掘，然后详细了解用户画像的分析方法论可以更好的帮助数据挖掘，然

2021-03-31 22:16:41 205

原创 Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息

2021-03-31 22:14:17 251

原创我在阿里做数据分析师，一位阿里数据分析师的日常

截止今天我离开阿里已经有5个年头了，在阿里的1000多个日子里，我一直从事数据分析师的工作。今天总结一下过去的工作日常，详细讲述一下我的日常工作中都做了些什么？主要用到哪些分析工具，分析方法，锻炼了哪些能力，日常用作会运用到哪些能力呢？1、快速熟悉业务和数据库数据在刚进入阿里的时候，我进入一个事业部作为一个运营数据分析师，负责部门部分业务。首先，和大多数公司一样会有导师和很多非常nice的同事先帮助你了解你所在部门的业务，当然在阿里你需要更快速的进入状态了解业务，当你初步了解业务之后，作为一个分析.

2021-03-31 10:36:54 412

原创 Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息

对于采用异步加载技术的网页，有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难，因此，要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取。 Selenium是一个用于Web应用程序测试的工具，它可以在浏览器中运行，模拟用户真实的浏览网页操作，也就是说可以实现浏览器加载页面，搜索关键字和点击翻页等等操作，因此，就算使用了异步加载技术的网页，也可以模拟翻页得到不同的网页，也就可以得到你想要的数据了。 Selenium模块在第三...

2020-10-30 18:05:56 1781 1

原创《PPT思维》第一课：PPT基础思维

1、使论点更有力量当我们在做一个PPT的时候，要有一个基本的PPT思维认识，那就是”使论点更有力量“。论点：也就是内容，使得内容有逻辑、有重点有力量：也就是表现的方式，需要图文并茂、简单明了总的来说： PPT是点的艺术从Office常用的工具而言，PPT负责重点呈现；Word负责文字逻辑；Excel负责数据分析。思考一下，之前制作PPT一般你常用的是哪个软件的“思维模式”呢？【论点】PPT内容要求有逻辑有重点 PPT是重点呈现的工具，但这只是就单页P

2020-05-26 16:18:32 1040

原创 Sklearn机器学习

机器学习数据挖掘1、数据预处理查看数据源基本情况：pandas.describe()2、数据探索3、数据特征提取4、数据建模5、模型参数优化6、结果可视化...

2018-05-22 09:50:24 297

原创机器学习实战

机器学习十大算法KNN算法算法原理k-近邻算法采用测量不同特征值之间的距离方法进行分类。距离公式：欧氏距离伪代码计算已知类别数据集中的点与当前点之间的距离；按照距离递增次序排序；选取与当前点距离最小的k个点；确定前k个点所在类别的出现频率；返回前k个点出现频率最高的类别作为当前点的预测分类；def classify0(inX,dataSet,la...

2018-04-25 14:03:09 310

原创机器学习之sklearn笔记：广义线性模型

广义线性模型原理公式：Y=w0+w1*x1+… …+wnxn普通最小二乘法原理：公式：原理示例代码import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squar...

2018-04-20 14:46:38 372

原创机器学习实战：K-近邻算法（KNN）

KNNK-近邻算法原理欧几里得距离公式:伪代码原理计算已知类别数据集中的点与当前点之间的距离按照距离递增次序排序选取与当前点距离最小的K个点确定前K个点所在类别的出现频率返回前K个点出现频率最高的类别作为当前点的预测分类详细代码#coding=utf-8'''列表：创建一个列表，只要把逗号分隔的不同的数据项使用方括号括起来即可。如下：labe...

2018-04-20 14:29:50 307

原创机器学习实战：降维方法

降维方法主成分分析（Principal Component Analysis，PCA）因子分析（Factor Analysis）独立成分分析（Independent Component Analysis，ICA）主成分分析：PCA伪代码如下去除平均值计算协方差矩阵计算协方差矩阵的特征值和特征向量将特征值从大到小排序保留最上面的N个特征向量将数据转换到上述N个...

2018-04-20 14:04:55 496

原创数据分析

机器学习Python 可以说是现在最流行的机器学习语言，而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗？本教程或许能帮你成功上手，从 0 到 1 掌握 Python 机器学习，至于后面再从 1 到 100 变成机器学习专家，就要看你自己的努力了。本教程原文分为两个部分，机器之心在本文中将其进行了整合，原文可参阅：7 Steps to Mastering Mach...

2018-04-20 09:54:59 500

原创大数据处技术二

HadoopHadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块MapreduceHadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS（Hadoop Distributed File System）来执行MapReduce程序的MapReduce引擎。Ha...

2018-04-20 08:56:09 244

原创集群定义

大数据核心技术集群：集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一系统的模式加以管理。一个客户与集群相互作用时，集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。和传统的高性能计算机技术相比，集群技术可以利用各档次的服务器作为节点，系统造价低，可以实现很高的运算速度，完成大运算量的计算，具有较高的响应能力，能够满足当今日益增长的信息服务的需求。...

2018-04-20 08:45:13 1026

转载数据挖掘十大经典算法原理

数据挖掘十大经典算法一、 C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据...

2018-02-23 14:06:20 3962

转载大数据分析方法论

大数据分析案列 2017年09月01日 20:04:08 480 1、体育赛事预测世界杯期间，谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼，预测全程64场比赛，准确率为67%，进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。“在百度对世界杯的预测中，我们一共考虑了团队实力、主场优势、最近表现、世

2018-02-07 11:19:21 10707

原创 K-邻近算法

导入的包coding=UTF8from numpy import *import operatorfrom os import listdirimport matplotlibimport matplotlib.pyplot as plt判断数据是哪一个类型def classify0(inX, dataset, labels, k):dataSetSize = dataset.shape

2017-11-28 15:06:30 312

原创 Python可视化笔记三

Numpy和Scipy、pandas定义：1、Numpy是以矩阵为基础的数学计算模块，纯数学； 2、Scipy基于Numpy，科学计算库，有一些高阶抽象和物理模型。比方说做个傅立叶变换，这是纯数学的，用Numpy；做个滤波器，这属于信号处理模型了，在Scipy里找； 3、Pandas提供了一套名为DataFrame的数据结构，比较契合统计分析中的表结构，并且提供了计算接口，可用Numpy或其它方

2017-11-28 09:30:30 315

原创机器学习十大算法原理总结

1、K-近邻算法：通过建立和样本之间的距离求和，然后通过选择最近的K个样本数据，样本数据类型多的就是需要分的类型。 2、决策树算法：通过求最大信息增益来得到需要判断和拆分的标签类目，然后建立递归数，进行继续拆分到叶子节点结束。 3、朴素贝叶斯算法：通过和全量样本对比，有不同的样本概率求和，选择概率最大的作为分类。

2017-11-11 21:36:49 3126

原创机器学习算法与Python实践之（五）k均值聚类（k-means）原理补充

Mean-shift 1)概述 Mean-shift（即：均值迁移）的基本思想：在数据集中选定一个点，然后以这个点为圆心，r为半径，画一个圆(二维下是圆)，求出这个点到所有点的向量的平均值，而圆心与向量均值的和为新的圆心，然后迭代此过程，直到满足一点的条件结束。(Fukunage在1975年提出) 后来Yizong Cheng 在此基础上加入了核函数和权重系数，使得Mean-shift

2017-11-08 09:36:19 345

原创 Python生成PDF文件（1）

如何将文档转变为 PDF 文件举例ReportLab 为了方便生成文档提供了一种叫PLATYPUS(Page Layout and Typography Using Scripts)的一系列的模板类，它用于控制文档的布局，可以让我们不用关心具体的坐标，绘制命令，甚至分页的处理，而将注意力集中在布局与内容上。下面是一个最简单的生成Hello, ReportLab的例子。from reportlab

2017-11-03 11:16:28 4541

原创 Python可视化学习笔记二

# -*- coding: UTF-8 -*-from matplotlib.pyplot import *import matplotlib.pyplot as pltdef for_example(): #plot储存数据集，多组数据展现多条线 ''' plot([1,2,3,2,3,2,2,1]) plot([4,3,2,1],[1,2,3,4]) '

2017-10-25 10:19:47 306

原创 Python可视化学习笔记一

from matplotlib.pyplot import * import matplotlib.pyplot as pltdef learn_1(): #plot储存数据集，多组数据展现多条线 ”’ plot([1,2,3,2,3,2,2,1]) plot([4,3,2,1],[1,2,3,4]) ”’ x=[1,2,3,4]

2017-10-25 08:49:19 343

转载机器学习算法应用场景

本文整理了60个机器学习算法应用场景实例，含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。目录1 分类算法应用场景实例1.1 O2O优惠券使用预测1.2 市民出行选乘公交预测1.3待测微生物种类判别

2017-10-22 11:06:35 3476

原创机器学习算法原理和思路

机器学习原理总结梳理，持续更新... ...!

2017-10-20 17:51:23 416

原创 kNN邻近算法逻辑思路和可分析示例思考？

KNN邻近算法原理：1、KNN主要是通过已知分类，然后通过未知的数据与其进行距离测算，然后通过给定的距离范围里面包含的数据量K，进行排序，数据距离最近的K个数里面，类型数目最多的就是校验的样本的类型。2、然后通过使用所有列的最大数据减去最小数，然后样本除于这个最大间距，来实现数据归一化，防止样本数据值相差太大，导致数据误差偏大，然后重新计算测试样本。3、其次在有一个数据源时，利用10%

2017-10-19 17:38:51 353

原创 Python语法笔记

1、矩阵name.shape[0]：数据集的行数，shape返回矩阵的行数和列数；2、tile(A,reps):A=[0,1,2],reps是复制参数，返回结果：tile(A,2)=[0,1,2,0,1,2]tile(A,(3,2)):3是外部复制3个，2是在内部复制tile(A,(3,1,2)):2是内部复制，3是3个，1是最外面整体一个矩阵3、矩阵平方：a=b**24、按照

2017-10-19 09:59:01 229

原创机器学习笔记一：K邻近算法心得！

一、kNN算法概述 K最近邻（k-Nearest Neighbor，KNN）分类算法。它主要测量不同特征值之间的距离方法进行分类。思想很简单：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。比如上面这个图，我们有两类数据，分别是蓝色方块和红色三角形，他们分布在一个上图的二维中间中。那么假如

2017-10-18 20:47:54 456

转载机器学习算法与Python实践之（五）k均值聚类（k-means）

一、k-means算法通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。我们以一个二维的例子来说明下聚类的目的。如下图左所示，假设我们的n个样本点分布在图中所示的二维空间。从数据点的大致形状可以看出它们大致聚为三个cluster，其中两个紧凑一些，剩下那个松散一些。我们的目的是为

2017-10-18 20:40:28 643

原创如何做好一个数据分析师？

职场工作五年心得分享，持续连载！

2017-10-18 12:18:12 294

西湖太极熊

原创 python和matplotlib可视化笔记

原创数据分析书籍赠送，让你快速进阶！

原创 Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息

原创我在阿里做数据分析师，一位阿里数据分析师的日常

原创 Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息

原创《PPT思维》第一课：PPT基础思维

原创 Sklearn机器学习

原创机器学习实战

原创机器学习之sklearn笔记：广义线性模型

原创机器学习实战：K-近邻算法（KNN）

原创机器学习实战：降维方法

原创数据分析

原创大数据处技术二

原创集群定义

转载数据挖掘十大经典算法原理

转载大数据分析方法论

原创 K-邻近算法

原创 Python可视化笔记三

原创机器学习十大算法原理总结

原创机器学习算法与Python实践之（五）k均值聚类（k-means）原理补充

原创 Python生成PDF文件（1）

原创 Python可视化学习笔记二

原创 Python可视化学习笔记一

转载机器学习算法应用场景

原创机器学习算法原理和思路

原创 kNN邻近算法逻辑思路和可分析示例思考？

原创 Python语法笔记

原创机器学习笔记一：K邻近算法心得！

转载机器学习算法与Python实践之（五）k均值聚类（k-means）

原创如何做好一个数据分析师？

空空如也

空空如也