数据分析
文章平均质量分 55
超级无敌的小咩~
这个作者很懒,什么都没留下…
展开
-
pandas 时间序列、绘图、存储文件 date_range()
pandas.date_range(start=None, end=None, periods=None, freq=’D’, tz=None, normalize=False, name=None, closed=None, **kwargs)参数start:string或datetime-like,默认值是None,表示日期的起点。end:string或datetime-like,默认值是No...原创 2018-03-22 19:08:19 · 1573 阅读 · 0 评论 -
SQL视图
l 视图创建CREATVIEW 视图名 列名AS 子查询[WITHCHECK OPTION][WITH CHECK OPTION]:当用视图进行UPDATE\INSERT\DELETE 进行更新、插入、删除时的行需要满足子查询子查询可以是任意SELECT语句视图的属性列名可以全部省略或指定1.全部省略的话由子查询中SELECT中列的诸字段组成。2.明确指定试图的所有列名的话:某个目标列是聚集函数...原创 2018-04-15 14:20:01 · 422 阅读 · 0 评论 -
SQL空值处理
空值的处理:1. 应该有值,目前不知道2. 不应该有值3. 不便于填写空值和0不同,具有不缺定性1. 查找年龄或者性别遗漏的信息的记录SELECT *FROM StudentWHERE Ssex IS NULL OR Sage IS NULL 有NOT NULL约束条件的不能取空值加了UNIQUE限制的属性不能取空值码属性不能取空值 空值与另外一个空值的算术...原创 2018-04-15 14:21:54 · 2918 阅读 · 0 评论 -
scipy-interpolation scipy插值运算
Scipy还是需要较强的数学基础。需要学习。#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot as pltfrom scipy import interpolatedef main(): x = np.linspace(0, 1, 10) #插...原创 2018-04-10 11:09:40 · 2874 阅读 · 0 评论 -
scipy-integrate 数值积分
#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npfrom scipy.integrate import quad, dblquad,nquaddef main(): # 1---Integral# print (quad(lambda x: np.exp(-x), 0, np.inf)) ...原创 2018-04-10 11:11:58 · 4009 阅读 · 0 评论 -
scipy-optimizer优化器
#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npfrom scipy.optimize import minimize # 求出最小值 #from scipy.optimize import leastsq # 引入最小二乘法算法 #import matplotlib as pltdef main(): ...原创 2018-04-10 11:14:37 · 1758 阅读 · 0 评论 -
scipy- linalg以及矩阵相关知识学习
1.det(A)行列式行列式在数学中,是由解线性方程组产生的一种算式,是取自不同行不同列的n个元素的乘积的代数和。n阶行列式(定义1)设有n²个数,排成n行n列的表 ,作出表中位于不同行不同列的n个数的乘积,并冠以符号(-1)t,的形式如下的项,其中为自然数1,2,...,n的一个排列,t为这个排列的逆序数。由于这样的排列共有n!个,这n!项的代数和称为n阶行列式①行列式A中某行(或列)用同一数k...原创 2018-04-10 16:31:14 · 3706 阅读 · 0 评论 -
python一元线性回归
上图中,'x'轴表示匹萨直径,'y'轴表示匹萨价格。 能够看出,匹萨价格与其直径正相关,这与我们的日常经验也比较吻合,自然是越大越贵。 下面就用 scikit-learn 来构建模#!/usr/bin/env python# -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom matplotlib.font_manager impo...转载 2018-04-16 11:56:20 · 6418 阅读 · 0 评论 -
element_at 函数
库里有类似josn形式的字符串数据attr{"a":"123","b":"234"."c":"345","分类":"aaa"}类型的数据redash平台可以识别汉字,直接用element_at(attr,"分类")即可原本想用unicode将汉字进行转码操作,结果失败,可能是平台支持的语句不同temp.elementAt(0) 返原创 2018-05-10 22:49:19 · 6859 阅读 · 1 评论 -
presto 扫盲、行列转置函数
presto是什么是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程,支持部分标准sql...原创 2018-05-13 15:24:07 · 11422 阅读 · 1 评论 -
在做数据时多问自己几个问题
1. 将历史accrual用总accrual减去当月新签accrual 忽视了数据之间的验证,只是表内数据的加减,应该将历史数据重新在系统中跑出,进行验证。2. Accrual和业绩的表格框架应该达成统一,统一之后方便看业绩和accrual之间的关系。3. 将总计列在表的第二行,可以随时方便验证准确性。4. Accrual摊销不仅仅是到2018年的4月,考虑摊销的时间性,明...原创 2018-06-01 15:56:44 · 232 阅读 · 1 评论 -
盈利模式
❶广告模式新闻类门户网站大多是这种模式,新浪、搜狐、网易三大门户很大部分盈利是靠广告收入获取的。还有视频类平台也多属这种,如爱奇艺、搜狐视频、腾迅视频,在看视频前都要先看一段广告。 广告模式的产品特点是: 低门槛。谁都能进,谁都能看,用户量是此模式收益的主要依托。 内容高质量。内容必须有价值,价值是吸引用户的前题,像现在这个自媒体时代,每个自媒体人的收益很大一部分是来自...转载 2018-08-08 09:29:17 · 3224 阅读 · 1 评论 -
SQL数据查询
l 单表查询:SELECT [ALL\DISTINCT]目标列表达式FROM<表名或视图名>[表名或视图名]…[SELECT语句] AS<别名>WHERE条件表达式GROUP BY <列名1>[HAVING<条件表达式>]ORDER BY <列名2>[ASC/DESC]GROUP BY 对查询结果按照指定列进行分组,该属性列值相等的元祖...原创 2018-04-15 14:18:53 · 264 阅读 · 0 评论 -
SQL函数
聚集函数通常和GROUP BY联合起来使用()必选,[]可选COUNT(*) 统计元组个数,返回被选行数COUNT([DISTINCT|ALL]<列名>) 统计一列中值的个数SUM([DISTINCT|ALL]<列名>) 统计一列值的总和 此列必须为数值型AVG([DISTINCT|ALL]<列名>)计算一列值的平均值 此列必须为数值型MAX([DISTIN...原创 2018-04-15 14:14:51 · 471 阅读 · 0 评论 -
SQL高级进阶
l 限定返回的行数TOPSELECT TOP number | percent 列名FROM 表名SELECT TOP 2 * FROMPersons SELECT TOP 50 PERCENT * FROMPersonsl LIKE在WHERE字句中搜索制定模式 通配符等(%可以定义通配符,模式中缺少的字母)SELEC...原创 2018-04-15 14:12:09 · 987 阅读 · 0 评论 -
matplotlib的一些简单用法 英语很重要
#encoding = utf-8# import numpy as np import matplotlib.pyplot as pltdef main(): #line# x = np.linspace(-np.pi,np.pi, 256, endpoint = True)#-pi --- pi 256numbers# c,s = np.cos(x),n...原创 2018-03-17 20:48:12 · 1317 阅读 · 0 评论 -
matplotlib 一些解释子图与散点图 ——scatter()、xlim()
首先,画图需要生成一个图(可理解为画布或进程),此参数可以无需设置,如未设置 pyplot 会自动帮你创建一个(图1)。接下来,要决定在图中哪个位置画图,画多大的图。这就引入坐标点和大小的概念,整个图中按照 X 与 ý 轴横竖来平均切分,以 0 到 1 之间的数值来表示。 如: X 轴上的 0.1,代表了 X 轴总长自左向右的 10%位置。整个画图区域就是一个轴,通过轴参数选项可以对画图区域的坐标...原创 2018-03-18 14:12:35 · 3063 阅读 · 0 评论 -
matplotlib饼状图——pie()
#pie fig.add_subplot( 3, 3, 3)n = 20 Z = np.ones(n)Z [ - 1 ] * = 2 plt.pie(Z,爆炸 = Z * 0.05,颜色 = [ '%F' %(I / 浮动(n))的用于我在范围(N)],标记 = [ “% .2f”%(I / 浮动(n))的用于我在范围(N)])#label定义每部分值的列表 plt.gca()。set...原创 2018-03-18 14:48:47 · 1433 阅读 · 0 评论 -
matplotlib热图绘制——inshow()相关用法
#!/ USR / bin中/ env的蟒 # - * -编码:UTF-8 - * - 进口 numpy的作为 NP进口 matplotlib.pyplot作为 PLT DEF主(): 数据 = np.random.rand( 3, 3) plt.imshow(data,interpolation = 'nearest',cmap = plt.get_cmap('cool'...原创 2018-03-19 10:00:05 · 2447 阅读 · 0 评论 -
matplotlib——热图hot map contour() 以及图像存储
#!/ usr / bin / env python # - * - coding:utf-8 - * - import numpy as np import matplotlib.pyplot as pltDEF主(): #热图# plt.figure( 1) #建立一个数字# plt.subplot( 331) #3行和3列#的图 ...原创 2018-03-19 22:26:31 · 4391 阅读 · 0 评论 -
matplotlib figure定义一张大的画布 axex/subplot是子图
#!/ usr / bin / env python # - * - coding:utf-8 - * - import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import axes3ddef main(): #scatter## plt.figure(...原创 2018-03-19 16:11:44 · 2701 阅读 · 0 评论 -
matplotlib极值图画法 ——polar()
#!/ usr / bin / env python # - * - coding:utf-8 - * - import numpy as np import matplotlib.pyplot as pltdef main()#极性 plt.subplot( 335,极性 =真)N = 20 THETA = np.arange(0,2 * np.pi,2 * np.pi ...原创 2018-03-19 16:07:10 · 5510 阅读 · 0 评论 -
matplotlib柱状图相关用法——bar()
#encoding = utf-8# import numpy as np将 matplotlib.pyplot导入为 pltfig.add_subplot(3,3,2)n = 10 X = np.arange(n)Y1 =(1 - X / 浮动(N))* np.random.uniform(0.5,1.0,N)Y2 =(1 - X / 浮动(N))* np.random.unifor...原创 2018-03-19 10:08:20 · 1132 阅读 · 0 评论 -
Access进阶 主要是一些数据库原理的巩固
一次正规化:纵向寻找重复的数据的记录 e.g 客户编号、姓名二次正规化:找出数据绝对依赖的数据 e.g 商品的基本数据信息三次正规化:数据表中相依字段 不一定是1对1,有可能是1:多的关系 e.g 商品分类,商品代码过度正规化:假性依赖 有可能不是1:1的关系...原创 2018-03-22 20:46:02 · 327 阅读 · 0 评论 -
用Python进行常见的描述统计
# coding = utf-8 #from __future__ import divisionimport numpy as npimport pandas as pdimport scipy.statsfrom scipy.stats import modefrom datetime import datetimedf = pd.read_csv('train.csv')la...原创 2018-03-13 19:43:48 · 918 阅读 · 0 评论 -
pandas库中concat()、merge()、groupby()、pivot_table()相关用法
#!/usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npimport datetimedef main(): dates = pd.date_range("20180301", periods=8) df = pd.DataFrame(np.random.randn(...原创 2018-03-21 16:06:59 · 743 阅读 · 0 评论 -
excel:csv文件批量转换为xlsx的宏
1、新建一个excel2、选择alt+F113、选择insert model4、输入程序,选择包含csv文件的文件夹Sub CSVtoXLS()'UpdatebyExtendoffice20170814 Dim xFd As FileDialog Dim xSPath As String Dim xCSVFile As String Dim xWs...原创 2018-12-05 10:12:12 · 10266 阅读 · 1 评论