- 我的消息
- 我的博客
- 我的学院
- 我的下载
- 我的收藏
- 消息
-
-
机器学习算法实践-支持向量机(SVM)算法原理
转载:https://zhuanlan.zhihu.com/p/28660098前言关于SVM的算法实践我打算分成多个部分进行总结。本文为第一部分主要介绍SVM的原理以及相关算法的简单推导,其中包括SVM原理,最初表达式,标准形式以及对偶形式(二次规划问题),形式变化过程中涉及到求解有约束优化问题...
转载2018-04-21 18:23:42230 -
人工智能-阿尔法狗背后的简单原理:贝叶斯公式
AlphaGo为代表的人工智能,彻底的战胜了人类的围棋大师,震撼了全世界,那么人工智能的背后,有着怎样的科技在支撑?本文要介绍的就是人工智能背后的简单原理——贝叶斯公式。人工智能、无人驾驶、语音图片识别与大数据有什么关系?海难空难如何搜救?垃圾短信、垃圾邮件如何识别?这些看起来彼此不相关的领域之间...
原创2018-04-21 16:53:16940 -
数据仓库所思
1 设计表的时候,需要考虑到存储能量和数据沉淀,减少计算。比如说,计算近3个月的指标,可以通过上一次的近3个月数、上一日的数和当前日的数想计算得出,而不需要对三个月的数做sum操作。 当日的近3月累计数 = 上日的近3月累计数 + 当日的近1日的增量数 - 上日的近1日的增量数 以此类推...
原创2018-04-16 17:58:20150 -
Hive中reduce个数设定
转载:https://blog.csdn.net/wisgood/article/details/42125367我们每次执行hive的hql时,shell里都会提示一段话:[python] view plaincopy... Number of reduce tasks not specifi...
转载2018-04-16 15:48:01330 -
YARN/MRv2 Node Manager深入剖析—Container状态机分析
转载董的博客:http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-node-manager-container-state-machine/阅读本文之前,请先阅读这篇博文:“YARN/MRv2 Node Manager深入剖析—NM整体架构”。本文的...
转载2018-04-13 19:08:46490 -
python3常见错误
1 unindent does not match any outer indentation level错误日志:File "d:\ProgramFilesWer\python3.6\MachineLeaning\kNN.py", line 80, in ? ...
原创2018-04-06 14:07:26190 -
互联网数据仓库数据模型
互联网数据仓库的现实状况模型方法选择在我们的数据仓库中,除了各个主题域下的维度模型,还存在一些宽表模型。所谓宽表模型,是基于维度模型的扩展,采用退化维度的方式,将不同维度的度量放入数据表的不同的列中;它更易于理解,具有更高的查询效率;易于模型扩展;事实证明,在海量数据环境下,对业务查询的支撑,宽表...
原创2018-03-28 14:40:02280 -
数据仓库中历史拉链表的更新方法
转载:http://lxw1234.com/archives/2015/08/473.htm本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据;如果一个订单在一天内有多次状态变化,则只会记录最后一个状态的历史;订单状态包括三个:创建、支付、完成;创建时间和修改时间只取到天,...
转载2018-03-28 14:00:16510 -
数据仓库之 ETL
转载:http://lxw1234.com/archives/2015/04/31.htmETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–...
转载2018-03-27 17:05:35270 -
一个母婴电子商务网站贝贝网的大数据平台及机器学习实践
转载:http://lxw1234.com/archives/2016/02/609.htm贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的...
转载2018-03-27 16:22:361850 -
hive一些想法
1 外部表和内部表的使用场景Hive中的表分为内部表(MANAGED_TABLE)和外部表(EXTERNAL_TABLE)。内部表和外部表最大的区别内部表DROP时候会删除HDFS上的数据;外部表DROP时候不会删除HDFS上的数据;内部表适用场景:Hive中间表、结果表、一般不需要从外部(如本地...
原创2018-03-27 16:20:38170 -
hive元数据
转载:http://lxw1234.com/archives/2015/07/378.htm1 存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明10.13.0Set by Meta...
转载2018-03-27 15:22:27120 -
敏捷开发
敏捷开发以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。在敏捷开发中,软件项目在构建初期被切分成多个子项目,各个子项目的成果都经过测试,具备可视、可集成和可运行使用的特征。换言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件一直处于可使...
原创2018-03-18 10:46:00190 -
快速原型模型
快速原型模型需要迅速建造一个可以运行的软件原型 ,以便理解和澄清问题,使开发人员与用户达成共识,最终在确定的客户需求基础上开发客户满意的软件产品。 快速原型模型允许在需求分析阶段对软件的需求进行初步而非完全的分析和定义,快速设计开发出软件系统的原型,该原型向用户展示待开发软件的全部或部分功...
原创2018-03-18 10:44:41200 -
瀑布模型
瀑布模型(Waterfall Model) 是一个项目开发架构,开发过程是通过设计一系列阶段顺序展开的,从系统需求分析开始直到产品发布和维护,每个阶段都会产生循环反馈,因此,如果有信息未被覆盖或者发现了问题,那么最好 “返回”上一个阶段并进行适当的修改,项目开发进程从一个阶段“流动”到下一...
原创2018-03-18 10:43:01480 -
螺旋式开发模式
螺旋模型是一种演化软件开发过程模型,它兼顾了快速原型的迭代的特征以及瀑布模型的系统化与严格监控。螺旋模型最大的特点在于引入了其他模型不具备的风险分析,使软件在无法排除重大风险时有机会停止,以减小损失。同时,在每个迭代阶段构建原型是螺旋模型用以减小风险的途径。螺旋模型更适合大型的昂贵的系统级的软件应...
原创2018-03-18 10:41:45220 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)
https://github.com/ty4z2008/Qix/blob/master/dl.md机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你...
转载2018-02-27 15:39:56240 -
hive日志分析
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。 路径在datanode节点上:/tmp/用户名/hive.log2. Job 日志,记录了Hive 中job的执行的历史过程。 路径在datanode节点上:/tm...
原创2018-02-24 14:47:11420 -
mysql遇到常见问题
1 行级锁和并行问题 Innodb的行级锁是通过索引实现的,若你的SQL是全量扫描不是索引扫描的话,行级锁不会启动。这是多个SQL并行执行,可能其中一个SQL会锁表,导致其他SQL执行失败。
原创2018-01-16 16:15:40470 -
Liunx Shell常见用法
1 expr计算整数变量值expr 1 + 3 结果:4 注意:整数和运算符要空格开。2 冒号使用示例:{str:=expr} 如果变量str不为空,${str:=expr}就等于str的值,若str为空,就把expr的值赋值给str。 shell的冒号相当于SQL的isnull...
原创2018-01-12 16:50:14360
-
- 学院
- 下载
- 消息