自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

转载 Spark踩坑记——Spark Streaming+Kafka

前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己

2017-09-26 22:26:23 3097

转载 Spark踩坑记——数据库(Hbase+Mysql)

前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Stream

2017-09-26 22:25:37 452

转载 Spark踩坑记——初试

Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用:基本概念Fork/Join框架是Java7提供了的一个用于并行执行任务

2017-09-26 22:24:41 875

转载 值得关注的用户指标

最近最常被问到的就是一些用户的统计指标,无论是决策层还是产品部门,所以这篇文章重点说下用户指标的一些内容。  假设你想用尽量简洁有效的数据了解一个网站或产品的用户情况,你会问哪几个用户数据?其实一个聪明的提问者永远不会问网站的累计用户数有多少,甚至不会问网站的UV是多少,因为这些指标都不能从真正意义上去反映网站的价值和发展状况。  举个简单的例子——网秦,累计用户数应该不下千万,但

2017-09-25 20:36:22 779

转载 每个电商企业都应该分析的9种数据

要想在如今的电商大战中存活下来,每个创业者都需要做好每一件事情,从最基本的搜索引擎优化(SEO)到移动广告。而一些分析工具能够帮助你更好的了解企业的运营情况。哪些数据应该留意?我们咨询了一些成功的电商创业者,他们分享了他们认为最重要的数据,以及这些数据的作用:1. 用户获取成本如果你经营着一个电商企业,但是却不知道每天有多少用户登陆你的网站,登陆用户和完成购买用户之间的比例

2017-09-25 20:35:49 826

转载 大数据的大价值:大数据五大成功案例深度解析

大数据的热潮并未有消褪迹象,相反,包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出,在推动大数据企业应用方面,真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国内,虽然管理学界和财经媒体对大数据推崇备至,认为大数据是信息技术改变商业世界的杀手 应用,但

2017-09-24 17:44:18 72966 3

转载 用户行为分析面面观(之三)-----特征3:传播性

分析需要回答三个问题,用户行为分析也不例外。 前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。  当你想买一个东西的时候,若你是个理性的消费者,你就会考虑7要素:该不该买?给谁买?什么时候买?买什么?在哪买?买多少?怎么选?而在考虑这些要素时,你总是会听到一些声音。这些声音就体现了传播性。 传播性除了影响着用户行为的7要素之外,还影响

2017-09-24 17:27:42 464

转载 用户行为分析面面观(之二)-----特征2:流动性

上篇博文我们聊了两个问题:用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。    如果把用户比作流动的水,那么企业就是蓄水池,新用户从进水管流入,老用户从出水管流出。企业要灌溉庄稼获取收成,就要有一定的蓄水量,就必须开源节流,开拓新用户的同时,留住老用户。不论是开拓新用户还是留住老用户,都是基于用户的流动性。由此产生三个问题    1、用户的流动性有哪些表现?

2017-09-24 17:26:38 1017

转载 用户行为分析面面观(之一)-----用户行为研究体系 + 特征1:差异性

你的营销虽林林种种,但却有一个永恒的轴心:用户。 用户行为指挥着营销活动的走向:从新品开发到价格制定;从渠道管理到品牌管理……,营销围绕用户展开,用户行为分析是营销工作的首要环节。用户行为分析需要回答三个问题:²  什么是用户行为(What)?²  为什么分析用户行为(Why)?²  如何分析用户行为(How)?一、什么是用户行为中国有句古话“天地四方为

2017-09-24 17:24:42 2891

转载 大数据分析与应用的8个场景

1、基于客户行为分析的产品推荐    产品推荐的一个重要方面是基于客户交易行为分析的交叉销售。根据客户信息、客户交易历史、客户购买过程的行为轨迹等客户行为数据,以及同一商品其他访问或成交客户的客户行为数据,进行客户行为的相似性分析,为客户推荐产品,包括浏览这一产品的客户还浏览了哪些产品、购买这一产品的客户还购买了哪些产品、预测客户还喜欢哪些产品等。产品推荐是Amazon的发明,它为Amazon

2017-09-24 11:55:50 6241

转载 解决数据质量问题是大数据应用的关键

引自:itongji研究称,整个人类文明所获得的全部数据量,有90%是最近两年内产生的。随着移动互联大潮的席卷,预计通过网路产生的数据量还将呈几何级增长。庞大的数据资源蕴藏着无限的宝藏,过去的一年无论是企业、政府还是媒体,都在谈论大数据。有人说大数据是黄金、是竞争力,然而在这一切谈论的背后却鲜有人关注数据质量这个最根本的问题。普元数据产品总监王轩认为,大数据处理的关键就是解决数

2017-09-23 18:32:13 3976

转载 TensorFlow深度学习

TensorFlow深度学习框架Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比,TensorFlow在Github上Fork数和Star数都是最多的,而且在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应

2017-09-22 22:02:19 384

转载 mysql命令行备份数据库

MySQL数据库使用命令行备份|MySQL数据库备份命令例如:数据库地址:127.0.0.1数据库用户名:root数据库密码:pass数据库名称:myweb 备份数据库到D盘跟目录mysqldump -h127.0.0.1 -uroot -ppass myweb > d:/backupfile.sql 备份到当前目录

2017-09-22 21:59:42 1192

转载 SVN命令的使用和功能详解

命令的使用1、检出svn co http://路径(目录或文件的全路径) [本地目录全路径] --username 用户名 --password 密码svn co svn://路径(目录或文件的全路径) [本地目录全路径]  --username用户名 --password 密码svn  checkout http://路径(目录或文件的全路径) [本地目录全路

2017-09-22 21:51:41 553

原创 Shell脚本中获取本机ip地址的3个方法

这篇文章主要介绍了Shell脚本中获取本机ip地址的3个方法,本文直接给出实现代码,需要的朋友可以参考下方法一:复制代码代码如下:/sbin/ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v inet6|awk '{print $2}'|tr -d "addr:"or/sbin/ifcon

2017-09-22 21:48:14 13587

转载 我所理解的大数据个性化推荐

一、写在之前的题外话缘起。想起要写这篇文章,一方面是昨天终于把项亮写的《推荐系统实践》给看完了,另一方面是自己负责的推荐系统项目已经处于一个多版本迭代的阶段了,并且从最近的AB测试效果来看,新提交的算法模型还是有一定的进步的,如今已经把流量全部切换到了新算法中。所以,结合看书的一些思考,以及实际操作的一些感想,总是有一些想要表达、分享的东西,不吐不快啊~~ 哈哈!不

2017-09-15 10:04:14 2498

转载 详解个性化推荐五大最常用算法

推荐系统,是当今互联网背后的无名英雄。我们在某宝首页看见的商品,某条上读到的新闻,甚至在各种地方看见的广告,都有赖于它。昨天,一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下:现在,许多公司都在用大数据来向用户进行相关推荐,驱动收入增长。推荐算法有很多种,数据科学家需要根据业务的限制和要求选择最好的算法。为了简化这个任务,Sta

2017-09-12 23:41:31 11142

转载 推荐系统之眼

前言这半个月除了工作上的事,一直忙于学习机器学习基础理论,每天背着四五本书上下班,还蛮有读书时的感觉。之前写了一篇文章,叫基于用户画像的实时异步化视频推荐系统,应该说只是完成了一个心脏,整个数据集经过心脏的起博,开始流动起来,并且能够对外提供服务。然而此时的系统依然是瞎的,我们不知道它的效果如何,给我们带来了什么收益,会不会出现糟糕的推荐结果,以及我们有没有途径按照自己的想法去调教它。我们

2017-09-12 23:39:26 289

转载 推荐系统老司机的十条经验

上周Resyschina公众号粉丝数达到10000个,我们承诺给小伙伴们送福利(详见:写在ResysChina公众号一万订阅用户之际),恭喜@IF Young 和 @白大虾的 ...两位同学勇夺留言获赞数状元和榜眼!请两位同学在后台给我们留下收货地址,一本崭新的《深度学习:21天实战Caffe》立即寄出。也非常感谢其他同学的关心和支持,请继续关注Resyschina,我们持续分享原创文章,

2017-09-12 23:38:27 1059

转载 大话推荐系统

摘要: 在大数据的时代,信息泛滥,如何在大量的信息中提出用户想要的,推荐系统便显得极其重要了。在电商,电影,广告方面,推荐系统得到越来越广泛的应用。一 什么是推荐系统个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信

2017-09-12 23:30:47 353

转载 推荐系统基础知识

关于推荐系统的基础整理,是对于部门内部交流培训学习“推荐系统基础”的一个整理,比较基础。And,这基本是技术知识~~1 个性化推荐概述1.1 推荐系统概述首先,需要申明一点的就是推荐系统!=推荐算法。推荐系统是一套完善的推荐机制,包括前期数据的准备、具体推荐的过程(这个过程可能是一套复杂的算法模型,也可能是一个简单的规则,也可能是多种模型的混合结果等等)、后期数据的预测

2017-09-12 23:28:58 790

转载 京东基于Spark的风控系统架构实践和技术细节

1.背景互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不法分子对互联网资产的觊觎,针对电商行业的恶意行为也愈演愈烈,这其中,最典型的就是黄牛抢单囤货和商家恶意刷单。黄牛囤货让广大正常用户失去了商家给予的优惠让利;而商家

2017-09-11 11:26:52 4428

转载 浅谈如何建立互联网风控系统

弹指间,一起创业已有大半年。这大半年间,累与成果并存,痛并快乐着,这自不用多提,应该是这一行从业者的普遍感受了。现在每每反思以往,总结不足,其中一条就是技术团队过于封闭,闷着头干活,发声不足,既不利于引入别人的好的经验,也没法将自身的成果拿出去接受批判,这其实与我们的技术宗旨是不符合的,还是需要挤出时间往外看,向外喊。本文将会是岂安科技技术团队的抛砖石,来引出小伙伴的总结分享,

2017-09-10 21:16:19 8630

转载 搭建风控系统道路上踩过的坑01--信息采集

作者前言从业近10年,大大小小参与了3家公司不同领域的风控系统的设计,从前到后把风控系统所有环节都细细的琢磨过,然而至今仍然感觉刚刚一只脚踏进门而已。大多数人做的产品都是目的明确的,比如订单支付、账户体系要做什么一开始就知道了,而且也有很多的竞品可以去参考;风控系统却完全不一样——未来要面对什么问题不可能完全了解,做每个功能都谨小慎微,因为一个不

2017-09-10 21:15:00 863

转载 搭建风控系统道路上踩过的坑02-风险分析

上一篇《搭建风控系统道路上踩过的坑01--信息采集》我们介绍了第一点,如何去获取足够多的数据,而接下来的事情就是要创建一个机制去灵活的处理这些信息,为自动分析捕捉风险事件提供基础原料,进而借助规则引擎从中分析出风险事件。在开始前,我们还是回顾下业务风控主要做的四件事:1、拿到足够多的数据2、

2017-09-10 21:13:58 401

转载 搭建风控系统道路上踩过的坑03-阻断风险

本系列的上一篇文章搭建风控系统道路上踩过的坑02-风险分析,我们介绍了在采集信息后如何去分析这些数据产出风险事件,而产出的报警已经脱离了业务系统并不能被采用的。说白了:分析出来的东西不能光自己看着High,还得去阻拦这些风险才能真正产生业务价值。在开始前,我们还是回顾下业务风控主要做的四件事:1、拿到足

2017-09-10 21:13:22 483

转载 搭建风控系统道路上踩过的坑04-风险分析

风控系统和大部分的产品项目一样,最终需要对领导层汇报这个项目为公司带来了什么价值,这是评估项目成功与否的要素;另外是哪里做的不够好,如果改善了能带来更多的价值,给出了预期才有后续资源的补充,整个项目才能转起来形成一个良性循环。现在开始说说这个系列的最后一话:如何对风控系统进行效果评估与优化与之前

2017-09-10 21:09:38 617 1

转载 中国电子商务需要什么样的风控系统

最近换工作到一家国内知名B2C电子商务公司供职,接到的第一个项目就是风险控制项目先说下这个项目的背景:1,公司网站遭到很多恶意下单,导致商品下架,占住库存,不能正常销售2,公司遭到虚假地址,联系方式下单,导致出库后,找不到配送地址,浪费配送资源。3,遭到良品拒收,也是浪费配送资源。4,遭到恶意退款,恶意欺诈,恶意造谣中伤。5,黄牛趁促销活动期间,大量购买,真正的消费者买不到

2017-09-04 20:57:28 687

原创 精彩博客

1.心系旭阳http://blog.csdn.net/xuyang_liu2.数据小宇军的博客http://blog.sina.com.cn/s/articlelist_2687675833_0_1.html

2017-09-04 20:53:32 319

转载 大数据下的电商风控体系——李学庆

由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自京东商城安全管理部经理李学庆做了以《大数据下的电商风控体系》为主题的演讲。本文章是把本次分享的干货亮点整理成文字形式,呈献广大的用户。【讲师简介】李学庆,京东安全方向第一人,早在2011年入职京东商城,并承担公司安全质量提升和自动化测试工作。他是京东安全开发生命周期SDL实践者,在前期带领团队规划和实践了上线安全

2017-09-04 20:51:19 8667

转载 电商实时交易风控系统

目录(?)[-]课程名称课程目标背景知识1信用卡的交易风险及常见策略11用户逾期风险控制12虚假交易风险控制121配合商家进行虚假交易122找朋友刷单刷卡123利用系统漏洞进行虚假交易124通过支付通道进行套现13伪造申请信息风险控制2淘宝商家交易风险及常见策略21淘宝商家刷单211刷单现状和起源212为什么要刷单213刷单的作用从轻

2017-09-04 20:47:03 11078

转载 数据库相关中间件全家桶

数据库中间件这里主要介绍互联网行业内有关数据库的相关中间件。数据库相关平台主要解决以下三个方面的问题:为海量前台数据提供高性能、大容量、高可用性的访问为数据变更的消费提供准实时的保障高效的异地数据同步应用层通过分表分库中间件访问数据库,包括读操作(Select)和写操作(update, insert和delete等,DDL, DCL)。写操作会在数据库上产生变更记录,MyS

2017-09-04 11:17:08 924

Spark技术内幕 深入解析Spark内核架构设计与实现原理 ,张安站著

Spark技术内幕 深入解析Spark内核架构设计与实现原理 ,张安站著

2018-05-02

Maven创建Web项目

BI产品开发中经典的技术框架

2017-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除