yiyue21-CSDN博客

原创 pandas技巧

用一列的非空值填充另一列对应行的空值df.loc[df['features_1'].isnull(),'features_1']=df[df['features_1'].isnull()][‘name’]根据多列的值做判断，生成新的列值rame['panduan'] = frame.city.apply(lambda x: 1 if 'ing' in x else 0)pand...

2020-01-21 15:50:34 291

原创基于python根据经纬度计算距离、预计驾驶时间

import pandas as pdimport requestsimport jsondef get_dis_tm(startloc,endloc): url = 'https://restapi.amap.com/v3/direction/driving?' key = '' link = '{}origin={}&destination={}&am...

2020-01-21 15:45:15 1233

原创解决报错：'chromedriver' executable needs to be in PATH

1.首先按照报错提示，下载Chromedriver，下载后得到的是一个chromedriver.exe文件。下载地址：https://chromedriver.storage.googleapis.com/index.html?path=77.0.3865.40/2.将chromedriver.exe拷贝至谷歌浏览器目录（如 C:\Program Files\Google\Chrome...

2019-09-28 21:48:57 671

转载 Jupyter Notebook安装jupyter_contrib_nbextension扩展功能后不显示Nbextensions标签的解决办法（常用扩展功能说明）

jupyter_contrib_nbextension是Jupyter Notebook的一个扩展插件，里面集成了很多扩展功能，但是按照网上方法安装配置后，打开notebook总是未显示Nbextensions的标签：开始安装后,查看pip list,插件都安装成功了，但是打开只有左边原始三个标签，Nbextensions的标签一直未显示出来，尝试了以下三种方法，但是都没有成功：卸载了重新...

2019-09-25 16:35:47 3843 5

转载 MySQL 执行插入报错 - Incorrect string value: '\xE4\xB8\xAD\xE6\x96\x87' for column 'name' at row 1

报错的原因就是在执行插入时对Name这个字段被赋予了错误的字符串值：’\xE4\xB8\xAD\xE6\x96\x87’实际上就函数里面的变量接收到的值编码格式跟它定义的不一致。使用navicate打开表设计，将各字段的编码格式是否与MySQL中my-default.ini中的编码设置一致即可。原文出处：[1]_cuiyaoqiang, MySQL 执行插入操作时报136...

2019-09-24 17:05:31 912

原创 pip安装itchat模块成功后annocanda中No module named 'itchat

很早之前知道itchat，一直没下载。最近工作用到拆分城市，30个城市全部要手工发送的话太麻烦，itchat用起来。但是pip install itchat 成功后，在spyder里import itchat报错：No module named 'itchat。参考了别人的思路，最简单解决办法：直接标红框文件复制到anaconda>lib(借用下面链接的图片)http...

2019-09-12 16:45:56 2130

原创 Spyder 快捷键

常用快捷键快捷键中文名称 Ctrl+R 替换文本 Ctrl+1 单行注释，单次注释，双次取消注释 Ctrl+4 块注释，单次注释，双次取消注释 F5 运行程序 Ctrl+P 文件切换 Ctrl+L 清除shell Ctrl+I 查看某个函数的帮助文档 Ctrl+Shift+V 调出变量窗口 Ctrl+u...

2019-09-12 14:43:32 456

转载为什么要做特征共线性分析

面试经常会被问到为什么要做特征共线性分析，这里做一个全面的解释。多重共线性是指自变量之间存在一定程度的线性相关，会给变量对模型的贡献性带来影响。即若有两个变量存在共线性，在相互作用计算后，其一的变量的影响会相对减弱，而另一个变量的作用却会相对增强。产生原因：（1）没有足够多的样本数据（2）选取的样本之间本身就客观存在共线性关系（3）其他因素导致：数据采集所采用的方法，模型的设定...

2019-07-20 14:09:58 7241 1

原创 python 报ValueError: Bin labels must be one fewer than the number of bin edges

在对python数据进行离散化分析时,我想把客户逾期总额列进行分组，分成'50以下, '50-1000, '1000以上'3组，但是运行时报出了错误ValueError: Bin labels must be one fewer than the number of bin edges，翻译过来的意思是; 分组标签必须比分组的边界少一个修改后的程序：bins = [0,50,1000,10...

2019-07-20 13:23:39 10226

原创你所需要掌握的jupyter notebook快捷键

jupyter是日常数据分析中重要的工具之一，这款工具是以网页形式打开，可以在网页中直接编辑、运行，方便与他人分享，目前市面上数据分析课程授课大多是使用jupyter展示。文档保存为后缀名为.ipynb的JSON格式文件，此外，还可以导出为：HTML、LaTeX、PDF。这里假定大家已经安装了jupyter，不再重复安装过程。具体可以参考官方文档：https://jupyter.org/。...

2019-07-20 12:10:54 229

转载随机森林算法的理论知识

　　随机森林是一种有监督学习算法，是以决策树为基学习器的集成学习算法。随机森林非常简单，易于实现，计算开销也很小，但是它在分类和回归上表现出非常惊人的性能，因此，随机森林被誉为“代表集成学习技术水平的方法”。一，随机森林的随机性体现在哪几个方面？1，数据集的随机选取　　从原始的数据集中采取有放回的抽样（bagging），构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数...

2019-06-27 14:55:26 6345

转载如何解析key值不固定的json数据

大多数情况下我们遇到的json数据一般都是key值是固定的，方便我们创建对应的实体类对象来进行解析。但有时候也会有些特殊情况，key值和value值一样都是动态未知的情况。如下所示：{data: { "姓名": "老王", "年龄": "41", "性别": "男", }}那如何解决呢？直接贴代码： JSONObject jsonObjec...

2019-06-25 16:45:48 2305 1

原创模型参数、超参（28）

模型参数需要在训练数据上通过某种算法方式找出来的特征参数，也就是需要训练的参数，eg：线性回归中的θ值超参数：在模型训练过程中算法需要使用到的参数值，这个参数值会影响最终模型参数的求解，所以需要开发人员给定，比如：Ridge算法中的正则化项系数alpha参数给定方式： -1. 可以根据算法的特性、业务的背景、开发人员的工作经验来给定。-2. 使用sklearn中支持...

2019-06-10 17:21:47 2087

原创机器学习的过拟合和欠拟合问题(1-4)

一般情况下，模型的训练需要考虑两个方面的内容：1. 模型预测的准不准 ---> 可以通过模型的效果来评估2. 模型的复杂度高不高 ---> 通过模型的训练时间、预测时间、资源消耗来衡量，也可以通过模型在训练数据上的效果和在测试数据上的效果的差异情况来衡量在模型开发过程中，主要期望是模型能够非常好的拟合训练数据，但是在这个过程中可能会存在两个问题：--1. 过拟合--2. 欠...

2019-06-10 15:18:14 486

原创上周近况

最近一周在忙着帮社群做公众号，没有时间。本周规划机器学习面试问题完成3篇文章。对了，我们的社群欢迎你，群宗旨是：扎根TechFin，了解科技金融业务、管理、技术，研讨包括分类聚类关联、UML、复杂网络、社交图谱、模糊匹配、分团集群、推荐算法等机器学习技术在自识别交叉营销和全自动风险管理方面的应用。可以私我邀请进群。...

2019-06-10 11:32:25 114

原创 tensorflow可视化（CPU）

tensorflow版本1.4 Python 3.6可视化路径正常操作Windows系统下，打开cmd命令行窗口，然后输入“tensorboard –logdir=”D:/path”,（注意文件夹无中文），复制地址http://localhost:6006 到谷歌浏览器地址栏输入即可看见但是实际在运行中报错OSError: [WinError 126] 找不到指定的模块。ht...

2019-06-06 14:50:54 152

原创电脑已有Python 3.7 怎么降到Python3.6

因为要安装TensorFlow，但是电脑已有Python版本3.7(3.7版本对应TensorFlow版本低)，就需要降到3.6版本。conda install Python=3.6这里备注下：如果上述操作无效，另外下载3.6也是很方便的。然后再按照下面命令安装TensorFlow。这里TensorFlow CPU版本安装：环境：Python 3.6.x ...

2019-06-02 13:53:49 24611

原创机器学习特征选择的目标/方式（22-23）

特征选择的目标，方式我们做完特征转换后，实际上可能会存在很多特征属性，但是太多的特征属性会导致模型构建的效率降低，模型的效果可能变的不好，那么就需要我们从这些特征属性中选择影响最大的特征属性作为最后模型构建的特征属性列表。通常从两方面来选择特征：特征是否发散：如果一个特征不发散，比如方差为0，那么这样的特征对于样本的区分没什么作用特征与目标的相关性：如果与目标相关性比较高，我们就优...

2019-06-01 19:13:17 1069

85、EM算法的执行流程（建议自己推导1遍，不会就尝试着跟着写几遍，理解逻辑）EM算法（最大期望算法）是一种迭代类型的算法，是一种在概率模型中寻找参数最大似然估计或最大后验估计的算法，适用于带有隐变量的概率模型的估计。什么是隐变量呢？就是观测不到的变量，举例：我手上的数据是男生和女生的身高合集，如果明确知道样本的情况（即男性、女性的数据是分开的）就可以用极大似然估计。然而如果样本是混合的，并没...

2019-05-31 10:00:38 459

转载机器学习填坑：模型参数和超参数之间的区别

文章来源：https://cloud.tencent.com/developer/article/1005660导语机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同，而模型超参数常被称为模型参数，这样，很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义，并进行了对比，指出了二者本质上的区别：模型参数是模型内部的配置变量，可以用数据估计模型参数的值；模型超参数是模型外部...

2019-05-28 17:52:20 603

转载 GBDT和LR结合使用分析

文章来源：https://www.deeplearn.me/1797.htmlGBDT+LR 的特征组合方案是工业界经常使用的组合，尤其是计算广告 CTR 中应用比较广泛，方案的提出者是 Facebook 2014 的一篇论文。相关的开发工具包，sklearn 和 xgboost（ps：xgboost 是一个大杀器，并且支持 hadoop 分布式,你可以部署实现分布式操作，博主部署过...

2019-05-28 13:58:50 266

原创 svm.SVC API说明

svm.SVC API说明：功能：使用SVM分类器进行模型构建# 参数说明：# C: 误差项的惩罚系数，默认为1.0；一般为大于0的一个数字，C越大表示在训练过程中对于总误差的关注度越高，也就是说当C越大的时候，对于训练集的表现会越好，# 但是有可能引发过度拟合的问题(overfiting)# kernel：指定SVM内部函数的类型，可选值：linear、poly、rbf、sigmoi...

2019-05-20 16:04:26 1704

原创决策树学习导图

2019-05-16 11:02:56 154

转载朴素贝叶斯法实现拼写检查器

转https://blog.csdn.net/wenyichuan/article/details/78572007import re, collections #我们利用一个叫 words 的函数把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号# 单词就会成为字母序列, don't 就变成 don 和 t 了，为了简化操作我们就忽略这个细节def words...

2019-05-15 21:51:30 306

原创【聚类算法】MiniBatchKMeans算法

MiniBatchKMeans类主要参数　　　　MiniBatchKMeans类的主要参数比KMeans类稍多，主要有：　　　　1)n_clusters: 即我们的k值，和KMeans类的n_clusters意义一样。　　　　2）max_iter：最大的迭代次数，和KMeans类的max_iter意义一样。　　　　3）n_init：用不同的初始化质心运行算法的次数。这里和...

2019-05-15 17:07:15 17502 3

原创【聚类算法】K-Means聚类

KMeans类的主要参数有：　　　　1)n_clusters: 即我们的k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。　　　　2）max_iter：最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。　　　　3）n_init：用不同的初始化质心运行算法的次数...

2019-05-15 15:40:43 367

原创 plt.legend参数

loc:图例位置，可取(‘best’, ‘upper right’, ‘upper left’, ‘lower left’, ‘lower right’, ‘right’, ‘center left’, ‘center , right’, ‘lower center’, ‘upper center’, ‘center’) ；若是使用了bbox_to_anchor，则这项就无效了fontsize：...

2019-05-14 17:49:07 29580

原创 init.py的用法

1."__init__.py"是什么当文件夹下有__init__.py时，表示当前文件夹是一个‘“包”package，其下的多个模块module统一构成一个整体。这些module都可以通过同一个package引入代码中2."__init__.py"怎么用实际上，如果目录中包含了 __init__.py 时，当用 import 导入该目录时，会执行 __init__.py 里面的代...

2019-05-14 10:31:53 2864

转载 Vintage、滚动率、迁移率的应用

感谢博主https://blog.csdn.net/ssshi0819/article/details/87904561

2019-05-10 11:12:13 518

原创【学习方法】贪心+最优

很多同学在基本了解数学基础、线性回归、逻辑回归思想，同时也敲完几个案例代码，大致了解构建模型的整体思路。但是仍然觉得没有达到自己预想的学习效果和进度，到一定的瓶颈。不要急，不要燥，耐下性子。时间会给你最好的答案。1）广度：首先广度是在自己以后发展行业的知识广度，并不是盲目的广度，自己的精力也跟不上。学习途径：利用思维导图去了解基本概念，也可以自己去尝试画一个，目标是自己能够清楚得说出一...

2019-05-06 23:06:49 144

原创【leetcode】 two sum

Given an array of integers, returnindicesof the two numbers such that they add up to a specific target.You may assume that each input would haveexactlyone solution, and you may not use thesame...

2019-05-05 16:19:26 107

原创决策树的建立步骤（西瓜书例题）

树的建立步骤：引入包、数据的获取与处理、获取名称与类别标记——>选择样本最多的类作为类别标记——>重点来了，计算信息熵——>子数据集构建——>计算信息增益——>选择最优属性——>建立决策树。这些步骤搞懂了，基本就理解了决策树的原理。import pandas as pdimport numpy as npfrom collections import ...

2019-05-04 16:28:15 3083 1

原创 Python3D图像绘制（参数解释）

import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport mathfrom mpl_toolkits.mplot3d import Axes3D# In[2]:# 设置在jupyter中matplotlib展示图片,非内嵌显示 tk:显示出来,inline:内嵌显示get_ip...

2019-04-26 18:22:02 2501 1

原创 Python 如何调用自定义的模块函数

今天在导自定义函数的时候显示No module named 'models'，解决方法如下：import syssys.path.append(r'F:/python')from function_models import * #function_models自定义函数...

2019-04-23 19:13:54 1678

原创【Python】简单模型建立思路

这里的建模：引入包（设置字符集，防止中文乱码）>读入数据,查看数据>异常数据处理标准化>对数据进行训练集、测试集划分（再次查看数据）>模型对象创建>模型训练，输出相关参数>模型输出保存>加载模型预测>预测值与实际画图比较这里面的知识点比较细，可以搜到很多案例。第一次学的话，模型的保存容易实际在操作的时候出错。#案例一般都是下面这样写...

2019-04-22 14:26:53 1604

原创【Python】科学计算库基本操作

查看dataframe字段信息a.info()查看dataframe统计信息a.describe()删除dataframe列del df['b1']df.drop(['b1','b2']，axis=1,inplace=True) #inplacez=True 在原对象上进行操作获取dataframe部分列df.iloc[:,0:3]df.iloc[:,[-1]]...

2019-04-20 19:03:53 197

原创【Python学习笔记】matplotlib参数

越学坑越多，哭！来不及做图了。1】柱状图matplotlib.pyplot. bar (*args, **kwargs)bar(left, height, width, bottom, * args, align='center', **kwargs)参数： left:数据标量 height：高 width:款 bottom：底端对应Y轴align:对齐如果为 "居中", 则将x参...

2019-04-19 19:33:17 1492

原创【书籍分享】SAS Python部分书籍分享

以下书籍如有需要可以私信我，免费发你们。来，一起学习进步。（咦，刚刚明明发表了，不知怎么没有了）

2019-04-18 14:00:30 163

原创提取、转换

提取A列和B列第一个观测的数值df[['A','B']].head(1)将A列每个单词转换为首字母大写df['A'] = df['A'].apply(str.capitalize)

2019-04-16 21:29:32 88

原创【Python】学习笔记1

写下来以便自己记忆。描述性统计方法：首先判断变量的类型，一个分类变量计算统计量、频次value_counts，用直方图；两个分类标准化堆叠柱形图crosstab，统计检验用卡方检验；一个分类一个连续变量用groupby分类盒须图boxplot，统计检验用两样本T检验（多分类则用方差分析）；两个连续变量pivot透视表散点图，统计检验用相关分析（注意相关分析和回归分析不同，相关分析用来确认变量是...

2019-04-16 21:24:54 220

空空如也

空空如也