机器学习
浮生梦浮生
后台服务架构,有多年分布式、高并发架构项目实施经验,对人工智能-推荐引擎、神经网络与深度学习有深入理解
展开
-
用户画像
1.1 什么是用户画像?用户画像通常包含定性画像与定量画像;定性画像是描述用户的基本属性、行为刻画、兴趣模型等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。一般情况,定量画像主要通过...原创 2018-06-05 18:59:15 · 920 阅读 · 0 评论 -
spark性能优化指南-高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问...转载 2018-12-10 16:38:43 · 194 阅读 · 0 评论 -
spark性能优化指南-基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行...转载 2018-12-10 16:33:42 · 194 阅读 · 0 评论 -
python3.6 微信公众号抓爬
项目介绍本项目针对微信公众号文章爬取,通过微信公众号名称或微信号,爬取发布的文章,并对文章进行去重操作若有其他问题请加群943841699,共同探讨技术本项目借鉴很多其他项目,就不一一列出 源码地址https://gitee.com/xywdy/wechat_creeper若对项目有帮助,记得捐赠打赏偶使用说明1. 请安装python3.X环境,安装教程可参考 ...原创 2018-10-30 23:39:15 · 548 阅读 · 0 评论 -
Python3 selenium 网页table数据抓爬
项目介绍本项目是对一些复杂的报表解析爬取列表数据,以国家网为例(大家最好换一个网站),会自动根据数据库配置text(数据库为字典方式),进行点击树形结构,然后input下拉框内时间,并选择省(时间和省由配置文件配置),但下拉列表的xpath没有数据库化,现阶段是写死在代码中项目开始由递归进行判定是否为最后一层,字典表可配置N层,看你网站的复杂度加入QQ群:943841699源码地址...原创 2018-10-31 23:41:18 · 1096 阅读 · 0 评论 -
kafka数据丢包原因及解决方案
数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下:是否真正的存在数据丢失问题,比如有很多时候可能是其他同事操作了测试环境,所以首先确保数据没有第三方干扰。 理清你的业务流程,数据流向,数据到底是在什么地方丢失的数据,在kafka 之前的环节或者kafka之后的流程丢失?比如kafka的数...转载 2018-10-29 23:50:23 · 4267 阅读 · 1 评论 -
linux selenium chrome chromedriver及无浏览器界面运行方式
1. 安装chrome我使用的是Centos7,使用如下安装方式配置yum下载源:在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repo, 并且在该文件中添加如下内容:[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/$b...原创 2018-10-06 00:28:41 · 12775 阅读 · 0 评论 -
RabbitMQ命令详解、权限角色介绍
目录 rabbitMQ运行命令创建用户,密码,绑定角色RabbitMQ角色介绍RabbitMQ权限介绍 rabbitMQ运行命令创建用户,密码,绑定角色1. 查看已有用户及用户的角色:rabbitmqctl list_users2. 新增一个用户:rabbitmqctl add_user username password在liuxl后没有角色信息,...原创 2018-10-11 16:30:39 · 413 阅读 · 0 评论 -
安装Python,运行PIP出现LookupError: unknown encoding: cp65001
安装Python27后,配置好环境变量,运行pip list出现如下错误Traceback (most recent call last): File "d:\app\python\python27\lib\runpy.py", line 174, in _run_module_as_main "__main__", fname, loader, pkg_name) File ...原创 2018-09-18 18:15:24 · 4313 阅读 · 0 评论 -
Xpath的高级用法
xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正。试验环境:Python环境,lxml.etree试验所使用的html代码<!DOCTYPE html><html><head> <title&g...转载 2018-08-30 18:36:16 · 1863 阅读 · 0 评论 -
spark原理入门详解:包括生态、特点、概念等
问题导读:1.Spark的适用场景是什么?2.spark 运行流程是怎样的?3.Spark Streaming的运行原理是怎样的?spark 生态及运行原理Spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用...转载 2018-07-02 11:11:24 · 189 阅读 · 0 评论 -
深度学习与神经网络-压缩感知(Compressive Sensing)学习(五)
压缩感知(压缩传感,Compressive Sensing)理论是近年来信号处理领域诞生的一种新的信号处理理论,由D. Donoho(美国科学院院士)、E. Candes(Ridgelet, Curvelet创始人)及华裔科学家T. Tao(2006年菲尔兹奖获得者)等人提出,自诞生之日起便极大地吸引了相关研究人员的关注。网站http://dsp.rice.edu/cs上可以获取大量相关的论文。 ...转载 2018-06-08 16:46:03 · 13437 阅读 · 0 评论 -
深入浅出神经网络与深度学习-算法函数(二)
1.1常用传递函数 函数名称 映射关系 缩写 说明 阶梯函数 n<=0; a=0 n>0; a=1 step 大于0,输出1 符号函数 n<0; a=-1...原创 2018-05-31 18:52:55 · 806 阅读 · 0 评论 -
梯度下降算法
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称gr...转载 2018-06-06 18:50:27 · 8153 阅读 · 1 评论 -
深入浅出神经网络与深度学习-深度学习(四)
现在IT界人工智能、深度学习、机器学习很火,都能说出个123来,但真正知道他们的关系的我想只有真正去我们先来看下深度学习是个什么东东。他和人工智能,神经网络有什么关系?l 深度神经网络是一种具备至少一个隐层的神经网络。深度神经网络通常都是前馈神经网络。l 前馈型神经网络我们在之前章节也提到过,特征是至少有一个隐层。也就是说,多层前馈神经网络都是深度神经网络,但深度神经网络不一定是多层前馈神经网...原创 2018-06-05 19:05:22 · 2443 阅读 · 0 评论 -
用户唯一化设计
根据现有的能力设计一个模型,如果大家有更优的办法,欢迎指正与交流。本设计是建立在已有用户中心系统的基础上,各个系统账号统一,并且也是针对hbase数据库的一个设计(若没有统一账号,建议先统一各个系统账号,想一步到位,也不是不可,需要花费的代价……) 根据推荐引擎业务来说明。用户行为采集。离线job清洗转化行为数据推荐计算(此处包含较多,不单独介绍,后续有时间会整理出来其架构及实施方案)实时读取历史...原创 2018-06-05 19:01:50 · 1014 阅读 · 0 评论 -
Python3.6 微小宝微信公众号文章抓爬
之前同步了Python3.6 搜狗微信公众号抓爬,但搜狗设置了微信公众号文章反抓爬机制,限制太死,而且没有太多时间研究他的反抓爬破解,只能换抓爬渠道了,所以写了一个微小宝抓爬微信公众号文章。还是利用原有的Python工程,详情请看https://blog.csdn.net/wudaoshihun/article/details/83552027微小宝公众号文章抓爬采用selenium技术,所以...原创 2019-07-06 02:38:41 · 1422 阅读 · 0 评论