- 博客(26)
- 收藏
- 关注
原创 docker + tensorflow serving + tensorflow-gpu jupyter 部署
1.在此记录下测试步骤,方便以后查询,tensorflow serving可以解决模型生产部署问题,在使用之前先安装docker,参考官方文档安装即可,如果需要使用gpu的话,还得安装nvidia-docker,且tensorflow serving的镜像得是对应cuda的版本,例如tensorflow serving:1.12.0-gpu对应最高的cuda版本是9,cudnn版本为7;2.d...
2019-11-13 16:24:27 548
原创 pyspark在pycharm、spyder的配置
1.在mac中,pycharm配置anconda环境。在python解释器选择system interpreter,不要选择第二个conda,因为在安装conda时,已经修改系统的默认python环境。解释器路径选择下图所示的那个。2.在pycharm配置pyspark环境。在“Edit Configurations”中的环境变量中添加两个路径,记得pip install py4j,不然会...
2019-09-05 14:44:19 1274
原创 ubuntu 搭建外部smtp发送邮件 及在阿里云搭建高可匿IP代理
1.安装命令:sudo apt-get install heirloom-mailx2.在/etc/s-nail.rc文件下,在底部添加如下信息set from=xia_zhenxing@163.com #邮箱set smtp=smtps://smtp.163.comset smtp-auth-user=xia_zhenxing@163.com #用户名set smtp-auth-...
2019-07-29 14:57:59 1812
原创 selenium ubuntu(无图形界面) 安装chrome
1.ubuntu server 版本命令行安装chromesudo apt-get install libxss1 libappindicator1 libindicator7wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.debsudo dpkg -i google-chrome*.d...
2019-07-29 14:47:38 2710
原创 hadoop完全分布式、spark(Standalone)搭建笔记
1.环境:主机为win10,三台ubuntu16.04-server虚拟机,一台作为master节点,两台slave节点。配置都为内存2G,硬盘50G。IP地址master:192.168.80.11node1:192.168.80.12node2:192.168.80.132.虚拟机安装:在搭建ubuntu系统时,注意得将IP地址固定下来。步骤将VM的网络适配器进行调整。将网络模...
2019-06-15 20:08:54 335
原创 mongo分片
1.搭建mongo分片式集群主要是用来处理用户行驶的gps数据信息。gps集合的字段有member_id,order_id,longitude,latitude,reporttime这5个数据字段。搭建方式:https://jeremyxu2010.github.io/2018/10/mongodb高可用集群部署/#启用用户认证登录,可以参考mongo中文社区和官方文档。2.片键及片键选择...
2019-05-28 11:43:34 403
原创 supervisord监控python脚本
1.前沿:因为项目需要,得实时获取车辆的gps信息,但是一碰到意外情况,例如服务器崩溃,导致脚本挂掉,无法自启,会丢失很多数据,目前五一期间就挂掉一次,深表痛心,所以借空闲时间,赶紧用supervisord来监控脚本,一旦进程挂掉,也能自启。2.supervisord服务器环境是ubuntu16.04,用命令:sudoapt-get install supervisor安装super...
2019-05-22 17:19:59 952
原创 聚类指标
1.轮廓系数(聚类的内部评价指标)。在sklearn里,有个函数silhouette_score可以使用,silhouette_score返回的是所有样本点轮廓系数的平均值。silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。取值范围-1到1,值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。silhouette 可以根据任意距离度量,如Euclidean dista...
2019-05-21 11:40:48 5990
原创 合理定义用户流失
1.一个用户流失在与用户多久时间长度没有和产品进行交叉(比如消费,浏览网站之类的),主要问题在于怎么合理的去定义用户流失时间段长度的问题。有个指标叫做回访用户:指的是用户指流失之后再次访问网站的用户,即用户曾经流失过,满足流失时间期限内完全没有访问、登录网站、消费之类的条件,但之后重新访问、登录网站、消费。这样就可以计算出回访率:回访人数/流失用户数。回访用户率的数值大小间接地可以验证对用户流...
2019-05-16 10:27:17 1781
原创 AHP层次法
1.问题:最近因为用到了无监督聚类,在通过轮廓系数确定最佳类别数后,对判断哪个簇具体属于哪个业务对应的簇出现了一点问题,如果单单通过将每类的中心点进行相加,按得分排序来对应业务,觉得太粗暴,如果做到加权求和的话,就会显的比较合理,但是因为不清楚哪一列的字段属性权重值是多少,所以导致无法进行加权求和,所以这边引入了AHP层次求解各数据字段权重的方法。2.AHP层次法这篇文章写的很详细,可...
2019-04-16 11:59:14 449
原创 记录下git的一些注意点
1.为GitLab帐号添加SSH keys并连接GitLaba.输入命令:ls -al ~/.ssh,查看是否有id_rsa.pub或者id_dsa.pub存在。b.如果存在,用vi命令打开id_rsa.pub或者id_dsa.pub,并且复制里面的所有内容,打开gitlab里的SSH Keys,粘贴到key的文本框里即可。c.如果没有,输入命令:ssh-keygen -t rsa -...
2019-03-29 16:02:06 170
原创 用户画像的理解
1.简单的用户画像阐述在产品研发和营销活动的过程当中,确立目标用户是首要目标。不同类型的用户需求不同,甚至这些需求还会冲突,而一款产品或着一个营销活动是不能满足所有用户的需求的,这种情况建立用户画像体系,可以让我们了解用户都是属于什么类型的用户,我们就可以针对这类用户去做产品或着营销活动。例子:在租车行业里,因为产品单一,只有租凭车子这个选择。但是租车用户也有很多类型,按租车目的分,有节假...
2019-03-12 15:53:52 1604
原创 docker的commit和push到阿里云镜像仓库
因项目需要,需要将制作好的web接口部署到docker里,方便管理,所以借此机会了解下docker的机制,以及为啥docker那么火。1.docker安装(宿主机为ubuntu16.04)。官方文档:https://docs.docker.com/install/linux/docker-ce/ubuntu/。 a.sudo apt-get remove docker docker-...
2019-03-07 17:18:13 2010
原创 时序数据处理
一.移动平均法分为两种:简单移动平均和加权移动平均。 当时间序列的数值由于受周期变动和随机波动的影响,起伏较大,不易显示出事件的发展趋势时,使用移动平均法可以消除这些因素的影响,显示出事件的发展方向与趋势(即趋势线),然后依趋势线分析预测序列的长期趋势。 简单移动平均:各元素的权重都相等。 加权移动平均:给固定跨越期限内的每个变量值以不...
2019-03-07 16:45:39 1262
原创 用户画像中常用的用户模型
促销敏感度模型1.对于租凭公司平台而言,全范围的促销投放和对所有用户发放优惠券之类的,的确可以得到不错的效果,比如2019年的春节,公司通过对所有老用户发放优惠券,成功争取到了1000多订单。但是如果想进一步提高销售额的话,就需要公司对消费者进行更精细化的运营,对不同促销敏感度的用户,进行精确的营销,差别化发放优惠券,促销效果必然会事半功倍。就像公司里,春节时期,即使都是处于满租情况,但是如果...
2019-02-19 16:11:59 12900 2
原创 深度学习框架paddle(GPU版本)安装
1.环境:ubuntu16.04 LTS版,CUDA9.0,CUDNN7.0,安装的paddle版本是v1.2.0。官网安装地址:http://staging.paddlepaddle.org/documentation/docs/zh/1.2/beginners_guide/install/install_Ubuntu.html2.安装好显卡驱动,CUDA9.0和CUDNN7.0后,我用...
2019-02-13 11:54:24 8731 2
原创 dlib+nvidia+cuda+cudnn(GPU环境)
记录下最新的坑,因为项目需要,需要用到开源dlib人脸库,且是配置GPU环境下的。网上说的都是坑,太坑了(期间我碰到各种问题,黑屏,循环启动,low 模式,dlib编译时找不到cudnn,都是泪,以前配cuda8.0环境时,都没那么麻烦),还是得按照官网给的guide来安装,以后一切对接官网guide。环境:ubuntu16.04(desktop版本,不是server版) + cuda9.0 ...
2019-01-29 17:05:55 2591 2
原创 安装python库的error
1.安装spyder安装失败: error: command 'x86_64-linux-gnu-gcc' failed with exit status 1原因及解决方法:sudo apt install libssl-dev2.ubuntu清华源https://mirror.tuna.tsinghua.edu.cn/help/ubuntu/sudo gedit ...
2019-01-06 19:03:48 537 1
原创 用户评论观点抽取
1.目的:从用户的订单评论里,抽取观点,进行标签化,此标签可以用来作一些辅助决策或者填充到用户画像体系里。其实评论挖掘的主要有两个部分,观点抽取和情感判断,主要的作用还是间接或直接引导用户购买意向,像淘宝,京东类似的智能展示。而评论的主语都是商家,但如果平台即是商家的话,展示评论观点就会显得比较鸡肋,因为不可能展示对自身不好的评论。因此在这种情况下,评论挖掘的意义更在于知道用户对商家的反馈,建...
2019-01-03 17:11:20 9259 5
原创 NLP一些知识点
1.word2vec(两种模式的优劣)a.在skip-gram里面,每个词在作为中心词的时候,实际上是 1个学生 VS K个老师,K个老师(周围词)都会对学生(中心词)进行“专业”的训练,这样学生(中心词)的“能力”(向量结果)相对就会扎实(准确)一些,但是这样肯定会使用更长的时间;b.cbow是 1个老师 VS K个学生,K个学生(周围词)都会从老师(中心词)那里学习知识,但是老师(中心...
2019-01-03 16:10:10 406
原创 挖掘分析春节用户消费特征
前沿:因为公司的需求,需要分析在春节下单和不下单的老客户的消费情况,然后找出这两类用户的最大不同特征,然后根据这些特征,做一些活动藩篱,简单说就是挖掘出来的这些特征,做出来的活动,可以刺激那些不下单的老客户在春节消费,而这些优惠活动又不会引起其他客户的不满或反感。数据处理:筛选2017年的订单数据,去掉在17年和18年春节下单的订单,然后分别统计这两类用户的消费状况,注意去掉噪点数据。解决...
2018-12-18 11:45:52 403
原创 django+uwsgi+nginx
记录下部署车牌识别web接口的过程,方便以后查看。最好用python的虚拟开发环境来开发,用virtualenv可以建立多个python独立虚拟开发环境。1.virtualenv。pip3 install virtualenv(安装),virtualenv --version(测试安装),virtualenv project_env(为一个工程项目创建一个虚拟开发环境,这边是以系统默认的pyt...
2018-12-09 21:23:29 276
原创 深度学习技巧统计--tensorflow
1.使用ADAM优化器,搭配ReLU激活函数。 2.使用方差缩放初始化。在Tensorflow中,该方法写作tf.contrib.layers.variance_scaling_initializer()。这种初始化方法比常规高斯分布初始化、截断高斯分布初始化及Xavier初始化的泛化/缩放性能更好。粗略地说,方差缩放初始化根据每一层输入或输出的数量来调整初始随机...
2018-10-29 14:47:38 354
原创 特征选择--IV和WOE方法
因为之前看到有关WOE特征编码的方式,比较好奇,就去研究下,偶然之间看到一博客文章,写的是真好,链接如下,https://blog.csdn.net/kevin7658/article/details/50780391。 这篇文章清晰表明了IV和WOE的关系,也说清楚了根据IV值的高低,去选择筛选特征,之后我们可以将筛选出来的特征去做其他方式的编码。 ...
2018-10-12 16:27:34 3485
原创 特征哈希编码及哈希算法
前言 在特征处理中,可以利用笛卡尔乘积的方法来构造组合特征。这种方法虽然简单,但麻烦的是会使得特征数量爆炸式增长。比如一个可以取N个不同值的类别特征,与一个可以去M个不同值的类别特征做笛卡尔乘积,就能构造出N*M个组合特征。 特征太多这个问题在具有个性化的问题里尤为突出。如果把用户id看成一个类别特征,那么它可以取的值的数量就等于用户数。把这个用户...
2018-10-12 14:47:19 12724 1
原创 BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES
categorical-encoding库项目地址:https://github.com/scikit-learn-contrib/categorical-encodingStar:494Fork:115 这个库扩展了很多实现 scikit-learn 数据转换器接口的分类编码方法,并实现了常见的分类编码方法,例如单热编码和散列编码,也有更利基的编码方法,如基本编码和目...
2018-10-10 17:06:01 200
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人