![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
教程
Rbdash
你强不强我不知道,反正我是真的菜
展开
-
6.24学习笔记(seaborn,数据访问)
import seaborn as snsimport matplotlib.pyplot as pltsns.set(style="whitegrid")#加载数据集diamonds=sns.load_dataset("diamonds")print(diamonds)#针对不同类别的数字型数据的散点图f,ax=plt.subplots(figsize=(6.5,6.5))sns...转载 2019-06-24 12:07:19 · 1079 阅读 · 0 评论 -
6.26学习笔记(mysql数据访问)
数据库插入操作#使用SQL INSERT语句向表employee插入记录import MySQLdb#打开数据库连接db=MySQLdb.connect('127.0.0.1','hadoop','hadoop','pythondb',charset='utf8')#使用cursor()方法获取操作游标cursor=db.cursor()#SQL插入语句sql="INSERT IN...转载 2019-06-26 17:20:52 · 117 阅读 · 0 评论 -
6.25学习笔记(numpy数据读取/决策树预测)
数据访问1.加载真实数据集2.numpy读取文件后读取对应的样本数据3.抽取对应的建模数据集(训练数据集和测试数据集)4.抽取自变量矩阵X5.抽取因变量矩阵Y6.基于(X-Y)训练集构建决策树模型7.生成模型文件8.根据生成的模型文件,输入测试数据样本,调用模型预测测试样本的结果示例:利用决策树模型预测加载,训练,保存模型,评估import timeimport numpy...转载 2019-06-25 16:50:42 · 408 阅读 · 0 评论 -
6.17学习笔记(缺失值,matplotlib)
无效矩阵的数据密集处理import pandas as pdfrom matplotlib import pyplot as pltimport numpy as npimport missingno as msnofrom quilt.data.ResidentMario import missingno_datanull_pattern=(np.random.random(1000...转载 2019-06-17 17:20:31 · 2077 阅读 · 0 评论 -
6.20学习笔记(matplotlib)
import matplotlib.pyplot as mplfrom pylab import *import datetimeimport numpy as npfig=figure()ax=gca()#时间区间start = datetime.datetime(2019,3,11)stop=datetime.datetime(2019,3,29)delta=datetime...转载 2019-06-20 15:02:24 · 121 阅读 · 0 评论 -
6.19学习笔记(matplotlib)
绘制正弦波import numpy as npimport matplotlib.pyplot as plt#计算正弦曲线上点的x和y坐标x=np.arange(0,3*np.pi)y=np.sin(x)plt.title("sine wave form")#使用matplotlib来绘制点plt.plot(x,y)plt.show()绘制子图import numpy a...转载 2019-06-19 17:41:23 · 129 阅读 · 0 评论 -
6.18学习笔记(matplotlib,seaborn)
import numpy as npfrom matplotlib import pyplot as pltx=np.arange(1,11)y=2*x+5plt.title("Matplotlib demo")plt.xlabel("x axis caption")plt.ylabel("y axis caption")plt.plot(x,y)plt.show()np.ar...转载 2019-06-18 19:49:36 · 108 阅读 · 0 评论 -
6.27学习笔记(MySQL/泰坦尼克)
构建dataframefrom pandas import Series,DataFrame,mergeimport numpy as npdata=DataFrame([{"id":0,"name":'lxh',"age":20,"cp":'lm'},{"id":1,"name":'xiao',"age":40,"cp":'ly',}, {"id":2,"n...转载 2019-06-27 17:45:34 · 105 阅读 · 0 评论 -
7.3学习笔记(数据理解、筛选、计算分析)
数据理解和处理当频繁出现几个独立变量时,可以使用pandas.get_dummies()将定性变量转换为Dummy变量当有多个变量出现时,可以使用pandas.factorize()创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。示例:将series[1,2,3]传入dummypd.get_dummies(pd.Serie...转载 2019-07-03 23:57:44 · 137 阅读 · 0 评论 -
9.5学习笔记
当频繁出现几个独立变量时,可以使用pandas.get_dummies()将定性变量转换为Dummy变量当有多个变量出现时,可以使用pandas.factorize()创建一些数字来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征pd.get_dummies(pd.Series(list('abcaa')))结果:a b c0 1...转载 2019-09-05 20:02:48 · 101 阅读 · 0 评论 -
9.9学习笔记(数据清洗)
转换变量填充缺失值异常值、噪声值处理重复值处理删除不必要的列(属性干净(X->Y)数据集缺失值处理import pandas as pdimport numpy as npfrom sklearn.preprocessing import Imputer#填充缺失值data=pd.DataFrame(np.random.randn(6,4),columns=['c...转载 2019-09-09 17:41:46 · 123 阅读 · 0 评论 -
9.16学习笔记(异常值处理)
异常值:有固定业务规则的可以套用业务规则,没有固定业务规则的可以采用常见的数学模型判断基于概率分布的模型(如正态分布的标准差范围)基于聚类的方法(如KMeans)基于密度的方法(如LOF)基于分类的方法(如KNN)基于统计的方法(如分位数法)等z分数(标准分数):一个分数与平均数的差再除以标准差的过程。标准分数可以看出某分数在分布中相对位置,通过查阅标准分数在正态曲线下的面基的表格...转载 2019-09-16 20:54:47 · 162 阅读 · 0 评论 -
9.17学习笔记(重复值处理、数据清洗)
pandas的duplicated()判断重复值记录pandas的drop_duplicates()删除数据记录,可指定特定列或全部numpy中unique()返回所有不同的值,且按照从小到大的顺序set(),python自带内置函数,也能返回唯一元素的集合示例:重复值处理import pandas as pddata1=['a',1]data2=['a',1]data3=['b'...转载 2019-09-17 23:49:07 · 167 阅读 · 0 评论 -
9.18学习笔记(特征工程)
import re#加载正则表达式库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import preprocessingfrom sklearn import model_selectionfrom sklearn.prep...转载 2019-09-18 17:40:46 · 118 阅读 · 0 评论 -
9.19学习笔记(数据清洗、建模)
数据清洗完整代码import re#加载正则表达式库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import preprocessingfrom sklearn import model_selectionfrom skl...转载 2019-09-19 17:11:02 · 210 阅读 · 0 评论 -
9.20学习笔记(模型)
运用训练的模型文件进行预测from sklearn.externals import joblibimport numpy as npdataset=np.loadtxt(fname="tree.data",delimiter=",")x_predict=dataset[0:10,0:8]y_real=dataset[0:10,8]gnbmodel=joblib.load(filena...转载 2019-09-20 12:23:50 · 220 阅读 · 0 评论 -
9.24学习笔记(异常分析)
基本思想:聚类分析思想将数据集中的数据看作多维空间中的点(特征向量)孤立点是数据集中与大多数数据的距离都超过某个阈值的那些数据优点:在不值得数据分布的情况下也能进行孤立点分析缺点:阈值很难选取,并且当数据集和维度较大时,计算量较大划分方法:给定n个样本的数据集以及要生成的簇的数目k,划分方法将样本组织为k个划分(k<=n),每个划分代表一个簇划分准则:同一个簇中的样本尽可能接近或...转载 2019-09-25 00:34:44 · 261 阅读 · 0 评论 -
6.13学习笔记(缺失值)
替换值import pandas as pdimport numpy as npdf = pd.DataFrame({'one':[10,20,30,40,50,2000],'two':[1000,0,30,40,50,60]})print(df)print(df.replace({1000:10,2000:60}))结果:one two0 10 10001 ...转载 2019-06-13 21:15:06 · 202 阅读 · 0 评论 -
5.29学习笔记(pandas)
附加行(append)import pandas as pddf = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])df2 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])df=df.append(df2)print(df)结果:a b0 1 21 3 40 5 61 ...转载 2019-05-29 17:56:18 · 235 阅读 · 0 评论 -
5.31学习笔记(pandas)
pandas_profiling数据预览要点:i.类型,唯一值,缺失值ii.分位数统计量:最小值,Q1,中位数,Q3,最大值,范围,四分位数范围iii.描述性统计数据:均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度iv.相关性突出高度相关变量:Spearman与Pearson系数矩阵探索性数据分析:对已有的(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,...转载 2019-05-31 21:26:09 · 164 阅读 · 0 评论 -
5.20学习笔记(numpy)
A*B 元素乘积A.dot(B) 矩阵乘积*=和+=用于修改已有数组a = np.ones((2,3),dtype=int)b=np.random.random((2,3))a **= 3b += aa.sum() 求和a.min() 最小值a.max() 最大值b = np.arange(12).reshape(3,4)b.sum(axis=0)b.min(axis...转载 2019-05-20 20:11:22 · 86 阅读 · 0 评论 -
5.15学习笔记(python基础教程)
在try/except语句中加入else子句while True: try: x = input('first number:') y = input('second number:') value = x/y print('x/y is',value) except: print('Invalid input.Please tray again') else:brea...转载 2019-05-15 11:45:23 · 92 阅读 · 0 评论 -
5.7学习笔记(Python基础教程)
赋值语句序列赋值 x,y,z=1,2,3交换 x,y=y,x获取字典键值对d = {‘name’:‘bob’,‘age’:‘41’}key,value = d.popitem()链式赋值 x=y=1is与= =is判断同一性,==判断是否相等断言assertage = -10assert 0<age<100报错退出函数定义函数时可以给参数提供默认值de...转载 2019-05-07 18:35:11 · 146 阅读 · 0 评论 -
5.14学习笔记(python基础教程)
P119:self参数正是方法和函数的区别。方法(更专业一点可以成为绑定方法)将它们的第一个参数绑定到所属的实例上,因此无需显式提供该参数。当然也可将特性绑定到一个普通函数上,这样就不会有特殊的self参数了。让方法变成私有:在名字前面加上双下划线class Secretive: def __inaccessible(self): print("Bet you can't see me"...转载 2019-05-14 16:01:51 · 614 阅读 · 0 评论 -
5.9学习笔记(lk)
开始刷领扣,主要是再不刷要废了。真写起来发现循环不会写条件不会写,一抬手就变成了C的形状两数问题class Solution:# nums=[2,7,11,15]# target=int(9)def twoSum(self,nums,target):for i in range(0,len(nums)):for j in range(i+1,len(nums)):if nums[i...转载 2019-05-09 16:39:54 · 88 阅读 · 0 评论 -
5.8学习笔记(python基础教程)
*params 收集多余参数并作为一个元组保存def p(title,*params)**params 收集多余参数,可以处理关键字参数并作为字典保存//没看懂,回头再看def init(data):data[‘first’] = {}data[‘middle’] = {}data[‘last’] = {}def lookup(data, label, name):return ...转载 2019-05-08 17:28:36 · 128 阅读 · 0 评论 -
5.5学习笔记(python基础教程)
python 3.7没有raw_input(),全用input()names = [‘Alice’, ‘Beth’, ‘Cecil’, ‘Dee-Dee’, ‘Earl’]del names[2]names结果:[‘Alice’, ‘Beth’, ‘Dee-Dee’, ‘Earl’]names[2]结果:‘Dee-Dee’(序列编号自动变动)list方法:append:追加x.a...转载 2019-05-05 20:46:03 · 133 阅读 · 0 评论 -
4.9学习笔记(python)
strlen(str):字符串长度split(’,’):以逗号切分str2.join(str):合并str.replact(‘a’,‘b’):把a替换成bstr.upper():变成全大写str.lower():变成全小写str.strip():去空格str.lstrip():去左边空格str.rstrip():去右边空格list‘{} {} {}’.format(‘c’,‘...转载 2019-04-09 20:37:54 · 96 阅读 · 0 评论 -
5.4学习笔记(pandas)
通过轴排序import pandas as pdimport numpy as npdates=pd.date_range('20190301`,periods=6)df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))print(df.sort_index(axis=1,ascending=Fal...转载 2019-05-24 17:23:42 · 71 阅读 · 0 评论 -
5.21学习笔记(numpy)
np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。把奇数位变成-1out = np.where(arr % 2 ==1,-1,arr)堆叠a=np.array([1,2,3])b = np.vstack((np.repeat(a,3),np.tile(a,3)))b = np.r_[(np.repeat(a,3),np.tile(...转载 2019-05-21 17:44:06 · 154 阅读 · 0 评论 -
6.5学习笔记(缺失值)
import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])df= df.reindex(['a','b','c','d','e','f','g','h'])print(df['two...转载 2019-06-05 17:50:39 · 103 阅读 · 0 评论 -
5.28学习笔记(pandas)
取数通过位置选择import pandas as pdimport numpy as npdates = pd.date_range('20190101',periods=6)df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))print(df)print(df.iloc[3]) //读取...转载 2019-05-28 17:28:14 · 81 阅读 · 0 评论 -
5.30学习笔记(pandas)
协方差Series对象有一个方法cov用来计算对象之间的协方差,NA将被自动排除import pandas as pdimport numpy as nps1 = pd.Series(np.random.randn(10))s2 = pd.Series(np.random.randn(10))print(s1.cov(s2))应用于dataframe时,计算所有列之间的协方差cov...转载 2019-05-30 16:54:42 · 91 阅读 · 0 评论 -
5.23学习笔记(pandas)
pandas数据结构:系列,数据帧,面板。较高维数据结构是其较低维数据结构的容器|数据结构 |维数 |描述|系列|1|1D标记均匀数组,大小不变|数据帧 |2 |一般2D标记,大小可变的表结构与潜在的异质类型的列|面板|3|一般3D标记,大小可变数组...转载 2019-05-23 14:54:36 · 102 阅读 · 0 评论 -
5.27学习笔记(pandas)
取数获得标量值import pandas as pdimport numpy as npdates = pd.date_range('20190101,periods=6)df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))print(df.loc[dates[0],'A'])结果:1.7...转载 2019-05-27 16:10:20 · 89 阅读 · 0 评论 -
5.13学习笔记(lk)
删除节点这个题翻译的问题很大,还以为要遍历了去找要删的节点,list.index(node)的准备都做好了,然后才知道只给了我node让我直接干掉他。node.val = node.next.valnode.next = node.next.next那就直接把下个节点的值和链接关系拿过来贴上,好了node你是node.next了...转载 2019-05-13 17:37:58 · 80 阅读 · 0 评论 -
马克
PythonnumpymatplolitHDFS书(0/1)YARNHIVEMapReduceZookeeperSparkSQLRedis转载 2019-05-13 16:26:32 · 159 阅读 · 0 评论 -
5.16学习笔记(numpy)
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)object 数组或嵌套的数列dtype 数组元素的数据类型,可选copy 对象是否需要复制,可选order 创建数组的样式,C为行方向,F为列方向,A为任意方向(默认)subok 默认返回一个与基类类型一致的数组n...转载 2019-05-16 17:17:10 · 91 阅读 · 0 评论