Python
wshzd
机器学习,深度学习,NLP,强化学习
展开
-
封装自己的python脚本为pip包
在数据科学时代,主流语言是python,因为python有很多成熟的包供大家使用,使用的方式是pip install xx,那么如果自己也开发了一个牛的算法想让大家使用,如何打包为pip包呢?下面就详细分享一下具体操作步骤:1、注册一个PyPi帐号 PyPi注册网站注册帐号就是最一般的流程了,填写帐号和密码之后,在邮箱验证一下就可以了.2、安装发布包在发...原创 2020-01-14 21:27:41 · 1772 阅读 · 1 评论 -
python实现二分查找
#!/usr/bin/python# -*- coding:utf-8 -*-# 非递归实现二分查找def bisearch1(lis,num): low = 0 high = len(lis)-1 while low <= high: mid = (low + high) // 2 if num < lis[mid]:...原创 2019-06-17 18:12:23 · 199 阅读 · 0 评论 -
tensorflow for python做模型训练、tensorflow for java做模型预测(同时生成pb文件和variable变量)
python脚本(此代码为线性回归的demo)#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tffrom tensorflow import saved_model as smimport numpy as npx_data = np.linspace(-0.5,0.5,200)[:,np.newaxis]...原创 2019-03-27 15:29:52 · 743 阅读 · 0 评论 -
tensorflow for python做模型训练、tensorflow for java做模型预测(只生产pb文件,不生产variable的情况下)
python脚本#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tffrom tensorflow import saved_model as smimport numpy as npx_data = np.linspace(-0.5,0.5,200)[:,np.newaxis]noise = np.ra...原创 2019-03-27 11:42:33 · 394 阅读 · 1 评论 -
python读取python数据类型的文件
比如文件格式为([{"feature":"产权","type":"n"}, {"feature":"清晰","type":"a"}],[{"feature":"大景城","type":"ns"}, {"feature":"精装"原创 2019-01-08 18:46:49 · 816 阅读 · 0 评论 -
Python定时任务
Python下实现定时任务的方式有很多种方式方法一:循环sleep,这是一种最简单的方式,在循环里放入要执行的任务,然后sleep一段时间再执行。缺点是,不容易控制,而且sleep是个阻塞函数import timedef timer(n): ''''' 每n秒执行一次 ''' while True: print time.strftime(...转载 2018-04-23 10:56:16 · 1121 阅读 · 0 评论 -
anaconda jupyter notebook配置python3和python2两个版本
我是先安装的python3,后来又安装了python2的虚拟环境和kernel1、从官网下载python3的anaconda进行安装2、通过命令conda create -m py2 python=2.7(或者也可以进入到anaconda navigator的environment来进行环境创建)3、激活python2环境source activate py2source原创 2018-01-30 10:42:25 · 8310 阅读 · 2 评论 -
python scrapy报错
在使用python处理scrapy按照通常的步骤1、scrapy startproject yourprojectname2、配置item.py3、编写spider脚本以及其他配置文件4、scrapy crawl name(spider文件name的值)在执行完第四步后,有时候会报如下错误:KeyError: 'Spider not found: dmoz'解决方案是,原创 2018-01-31 15:42:50 · 1242 阅读 · 0 评论 -
mac下anaconda闪退
找到/anaconda_navigator/widgets/tabs/community.py文件,注释掉line 372: uri=item['uri'], date=item.get('date', '') or ""转载 2018-01-13 22:24:30 · 3304 阅读 · 0 评论 -
使用胶囊网络实现MNIST数据分类
#!/usr/bin/python# -*- coding:utf-8 -*-# https://www.sohu.com/a/226611009_633698import numpy as npimport osimport tensorflow as tfimport matplotlib.pyplot as plt# Reset the default graph fo...转载 2019-05-08 19:12:40 · 2906 阅读 · 1 评论 -
kmeans中的k选择
下面通过python定义一个函数来实现kmeans中k的选择,输入为可选择k的最大值和原始数据,最后输出不同k的折线图,一般选择图中拐点def SelectK(maxK,totalList): from scipy.spatial.distance import cdist K = range(1, maxK) meandistortions = [] for ...原创 2019-06-14 15:51:40 · 2661 阅读 · 0 评论 -
python解析xml
下面使用xml.etree.ElementTree来解析xmlstep1:首先定义xml文件test.xml,格式和内容如下:<?xml version="1.0" encoding="ISO-8859-1"?><data> <country name="Liechtenstein"> <rank>1</rank>...原创 2019-09-10 13:46:24 · 575 阅读 · 0 评论 -
autokeras报错
import autokeras报错信息如下:ModuleNotFoundError: No module named 'kerastuner.tuners'解决方案如下:git clonehttps://github.com/keras-team/keras-tunercd keras-tunerpip install ....原创 2019-08-29 17:13:53 · 980 阅读 · 1 评论 -
python sklearn2pmml保存tfidf+kmeans模型
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizerfrom sklearn2pmml.feature_extraction.text import Splitterfrom sklearn.cluster import KMeansfrom sklear...原创 2019-07-22 11:33:40 · 2056 阅读 · 0 评论 -
win10 pytorch导入报错
win10环境下 import torch报错 ImportError: DLL load failed: 找不到指定的模块。解决方案如下 pip uninstall torch conda install -c peterjc123 vc conda install -c peterjc123 pytorch-cpu ...转载 2019-07-29 16:28:47 · 517 阅读 · 0 评论 -
使用pygraphviz报错
import pygraphviz错误如下:ModuleNotFoundError: No module named 'pygraphviz'解决方案:conda install graphviz pygraphviz -c alubbock原创 2019-07-24 15:24:21 · 1966 阅读 · 2 评论 -
python 保存为pmml格式
from sklearn.datasets import load_breast_cancer# Load datasetdata = load_breast_cancer()# Organize our datalabel_names = data['target_names']labels = data['target']feature_names = data['featu...转载 2019-07-16 18:35:20 · 2835 阅读 · 0 评论 -
python训练模型,java预测模型(sklearn2pmml)
很多情况下,线上一般使用java,然后训练机器学习模型一般都是python,那么就存在一个问题,python训练的模型,java怎么去调用进行线上预测呢,下面以随机森林算法来介绍一下这个过程python脚本如下:#!/usr/bin/python# -*- coding:utf-8 -*-from sklearn import treefrom sklearn2pmml.pip...原创 2019-07-09 17:21:26 · 3044 阅读 · 0 评论 -
一行代码python实现快速排序
1 quick_sort=lambdaarray: arrayiflen(array) <=1elsequick_sort([itemforiteminarray[1:]ifitem <=array[0]])+[array[0]]+quick_sort([itemforiteminarray[1:]ifit...原创 2019-07-02 21:01:17 · 171 阅读 · 0 评论 -
python最大前向匹配算法
#!/usr/bin/python# -*- coding:utf-8 -*-pre_list = ['我','是','我是','研究','研究生','生物','研','的','物']string = "我是研究生物的"start = 0end = len(string)while start < len(string): if string[start:end] i...原创 2019-06-18 11:29:12 · 1139 阅读 · 0 评论 -
python dataframe逻辑取值
我遇到的一个小需求,就是希望通过判断pandas dataframe中一列的值在两个条件范围(比如下面代码中所描述的逻辑,取小于u-3ε和大于u+3ε的值),然后取出dataframe中的所有符合条件的值,这个需求的解决与普通的iloc、loc、ix的方式不同,所以我想分享一下,希望可以帮到遇到这个困难的朋友们,下面是我的事例代码:doc[~((doc.iloc[:,141:142]3*s原创 2017-08-04 17:39:02 · 3993 阅读 · 0 评论 -
linux服务器导入python matplotlib.pyplot报错
在linux服务器端执行python脚本,有时候需要画图,但是linux没有GUI界面,因此需要在导入matplotlib.pyplot库之前先执行import matplotlib as mplmpl.use('Agg')再执行import matplotlib.pyplot as plt需要保存图片到指定的目录plt.savefig("/home/yourname/te原创 2018-01-12 14:08:35 · 3174 阅读 · 2 评论 -
linux 环境导入python matplotlib.pyplot库报错
>>> import matplotlib.pyplotTraceback (most recent call last): File "", line 1, in File "/home/bigdata/anaconda3/lib/python3.6/site-packages/matplotlib/pyplot.py", line 113, in _backend原创 2018-01-03 10:57:02 · 2473 阅读 · 0 评论 -
python 扩大spark.driver.maxResultSize参数
spark默认的spark.driver.maxResultSize为1g,所以在运行spark程序的时候有时候会报错:ERROR TaskSetManager: Total size of serialized results of 8113 tasks (1131.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)原创 2017-07-28 12:51:28 · 3308 阅读 · 0 评论 -
python 自定义线性回归
在实际工作中,有时候sklearn库的标准API不能满足业务需求,这时候需要自定义算法,下面是我自定义的标准线性回归函数,如果有需要,可以在此基础上进行扩展,比如局部加权线性回归的定义class self_linear_model(): def __init__(self): self.w = None def fit(self, X, y):原创 2017-08-10 10:20:38 · 987 阅读 · 0 评论 -
python cart算法的简单实现
下面是python cart算法的简单实现,可以直接复制下面代码进行运行,即可查看模型的拟合曲线import matplotlib.pyplot as pltimport numpy as npfrom sklearn.tree import DecisionTreeRegressordef plotfigure(X,X_test,y,yp): plt.figure()翻译 2017-08-17 11:02:51 · 2371 阅读 · 1 评论 -
IPython/Jupyter SQL Magic Functions for PySpark
话题:本文主要讨论使用PySpark 在Jupyter notebooks上使用IPython custom magic functions for running SQLIf you are already famialiar with Apache Spark and Jupyter notebooks may want to go directly to the link翻译 2017-07-07 13:45:32 · 888 阅读 · 0 评论 -
机器学习 特征选择
链接:https://www.zhihu.com/question/28641663/answer/41653367特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的转载 2017-06-27 09:40:19 · 357 阅读 · 0 评论 -
Python 查看文件的编码格式
在读取中文的情况下,通常会遇到一些编码的问题,但是首先需要了解目前的编码方式是什么,然后再用decoding或者encoding去编码和解码,下面是使用chardet库来查看编码方式的。import chardetpath = "E:/t.csv"#path = "E:/t.zip"f = open(path,'rb')data = f.read()print(chardet.原创 2017-07-14 09:15:36 · 37794 阅读 · 4 评论 -
Python读取目录下子文件
实际工作中,我们经常会遇到遍历某一个目录下的所有文件,通过会用os.walk()去访问,然而执行后生成的目录会是带\的路径,比如我下面的代码首先会生成E:/1#\path这种格式,所以我们要替换掉\,就需要用到Pandas.Series(要替换的字符串).str.replace(被替换的字符,要替换成的字符)。 其实我之前试过一个比较简单的方法就是直接使用:要替换的字符串.repl原创 2017-07-13 17:52:32 · 577 阅读 · 0 评论 -
pandas read_csv 读取中文列标题文件报错
data = pd.read_csv(path)Traceback (most recent call last): File "C:/Users/arron/PycharmProjects/ML/ML/test.py", line 45, in data = pd.read_csv(path) File "C:\Users\arron\AppData\Loca原创 2017-06-26 13:57:03 · 19091 阅读 · 0 评论 -
python matplotlib 画直方图报错
python使用matplotlib.pyplot画直方图时报错如下:max must be larger than min in range parameter原因是数据中带有缺失值,请使用dropna()进行缺失值删除即可原创 2017-07-11 17:44:00 · 1662 阅读 · 1 评论 -
spark在创建临时表时的异常
通过spark.dataframe(数据框的名字sparkdataframe)创建成临时表(createGlobalTempView(spark_view)),然后通过%%sql -o -q spark_sql select * from spark_view 最后检查发现sparkdataframe和spark_sql的数据量是不一样的,有人遇到这种情况了吗?原创 2017-07-28 18:43:56 · 2320 阅读 · 0 评论 -
python matplotlib 画dataframe的时间序列图
在python中经常会用到pandas来处理数据,最常用的数据类型是dataframe,但是有时候在dataframe有时间字段需要画时间序列图的时候会遇到一些问题,下面是我处理这个问题的一个小案例,希望可以帮到在坑里的小朋友哦,开个小玩笑。code as fallows:doc_list = []doc_target = doc.iloc[:, 141:142]for i in do原创 2017-08-14 16:44:45 · 18232 阅读 · 0 评论 -
Python曲线平滑
使用scipy.signal.medfilt函数可以对曲线进行平滑处理,第一个参数是要处理的数据,第二个参数一般是奇数,中间是数据本身,剩余为该点前后数据点,比如下面的3,代表取点本身以及前后各一个点的数据取中位数。plt.plot(raw_data2[m:n,0], yhat, c='b', label='预测值') # 线性回归预测的结果#plt.plot(raw_data2[原创 2017-08-24 16:37:10 · 4733 阅读 · 1 评论 -
linux命令 安装anaconda
1、首先下载anacondawget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh2、安装anacondabash Anaconda3-5.0.1-Linux-x86_64.sh3、安装过程中会需要不断回车来阅读并同意license。安装路径默认为用户目录(可以自己指定),最后需要确认将路径加入用转载 2018-01-02 17:38:43 · 21572 阅读 · 5 评论 -
机器学习fit模型时报错
ValueError: Input contains NaN, infinity or a value too large for dtype('float32').解决办法:https://www.kaggle.com/c/word2vec-nlp-tutorial/forums/t/11266/valueerror-array-contains-nan-or-inf转载 2017-12-26 17:26:19 · 2846 阅读 · 0 评论 -
python 处理dataframe中的时间字段
在机器学习过程中,通常会通过pandas读取csv文件,保持成dadaframe格式,然而有时候需要对dataframe中的时间字段进行数据建模,比如时间格式为datetime,那么像一般操作dataframe的方式来操作时间字段会报错的,所以在使用sklearn库进行fit和predict的时候,通常要把时间字段首先转换为timestamp格式,在fit和predict之后,如果需要matplo原创 2017-08-18 15:52:24 · 15879 阅读 · 0 评论 -
python 相关系数
我介绍一下python常见的两种相关系统的算法:1)pearsonr(皮尔松相关系数);2)mine(互信息)1)皮尔松相关系数主要描述变量之间线性相关性,下面是python的实现库from scipy.stats import pearsonr需要注意的是pearsonr()的输入数据可以是两个维度(200,1)2)互信息可以描述任意变量之间的相关性(线性或者非先线性),下面是p原创 2017-08-03 18:14:30 · 4883 阅读 · 0 评论 -
pyhton matplotlib显示中文
matplotlib默认是unicode格式的,所以需要进行配置中文才可以正确显示中文。目前处理方式有两种:1)动态;2)静态一、可以在脚本中进行动态配置,下面是配置的案例import matplotlib as mplmpl.rcParams["font.sans-serif"] = ["SimHei"]mpl.rcParams['axes.unicode_minu原创 2017-08-03 14:06:29 · 1055 阅读 · 0 评论