自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wer0735的博客

专注于大数据数据仓库

  • 博客(128)
  • 问答 (1)
  • 收藏
  • 关注

原创 螺旋式开发模式

螺旋模型是一种演化软件开发过程模型,它兼顾了快速原型的迭代的特征以及瀑布模型的系统化与严格监控。螺旋模型最大的特点在于引入了其他模型不具备的风险分析,使软件在无法排除重大风险时有机会停止,以减小损失。同时,在每个迭代阶段构建原型是螺旋模型用以减小风险的途径。螺旋模型更适合大型的昂贵的系统级的软件应用。[1] 1988年,巴利·玻姆(Barry Boehm)正式发表了软件系统开发的“螺旋模型”,它将...

2018-03-18 10:41:45 7302

转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

https://github.com/ty4z2008/Qix/blob/master/dl.md机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些...

2018-02-27 15:39:56 1623

原创 hive日志分析

日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。   路径在datanode节点上:/tmp/用户名/hive.log2. Job 日志,记录了Hive 中job的执行的历史过程。   路径在datanode节点上:/tmp/用户名/参考资料:http://www.aboutyun.com/thread-7457-1-1....

2018-02-24 14:47:11 515

原创 mysql遇到常见问题

1 行级锁和并行问题    Innodb的行级锁是通过索引实现的,若你的SQL是全量扫描不是索引扫描的话,行级锁不会启动。这是多个SQL并行执行,可能其中一个SQL会锁表,导致其他SQL执行失败。

2018-01-16 16:15:40 237

原创 Liunx Shell常见用法

1  expr计算整数变量值expr 1 + 3结果:4 注意:整数和运算符要空格开。2 冒号使用示例:{str:=expr}    如果变量str不为空,${str:=expr}就等于str的值,若str为空,就把expr的值赋值给str。    shell的冒号相当于SQL的isnull()。3 basename  去掉文件名的目录和后缀示例一[root@web ~]# basenam...

2018-01-12 16:50:14 182

转载 京东管理层都知道自己的边界

一、管理者要知道自己的边界和大家分享下我们人事管理的八项基本规定。第一,“价值观第一”原则;秉承“价值观第一、能力第二”的用人原则,在选人和用人的过程中始终把价值观放在第一。比如我们总监级以下你说了算,但是京东价值观第一,如果是违背了京东价值观,不可以把人招进来。第二,“Backup(继任者)”原则;在现有的管理岗位上工作一年,一年期满还没有提供继任者,当年你是没有升职

2018-01-12 09:56:35 1743

转载 数字化生存时代的变与不变

数字化生存时代的变与不变陈春花|2018-01-10  五年前谈变化,我们说如果与变化共舞、走在变化的前端就没问题;三年前谈变化,我们说基于互联网转型就有机会的;两年前谈变化,我们说不确定性、黑天鹅满天飞。今天我们要用另外一个词--这是个数字化生存的时代,时代真的变了!  1速度变了  数字化生存时代最重要的改变是什么呢?是时间轴变了!时间轴的变化,其实是对我们所有人非

2018-01-12 09:52:42 633

原创 第8章 对象引用、可变性和垃圾回收

8.1 变量不是盒子变量,我们可以理解为附加在对象上的标注,在创建对象后才把变量分配给对象。因为变量只是标注,所以对象可以贴多个标注。贴的多个标注,就是别名。8.2 标识、相等性和别名示例8-3 charles和lewis指代一个对象>>> charles = {'name':'Charles L. Dodgson', 'born':1832}>>> lewis = ch

2018-01-08 21:53:39 180

原创 第7章 函数装饰器和闭包

本章的最终目标是介绍清楚函数装饰器的工作原理,包括最简单的注册装饰器和较复杂的参数化装饰器。7.1 装饰器基础知识装饰器就是函数,给另一个函数装饰的,会处理被装饰的函数,然后把它返回,返回的函数可能会被替换另外一个函数或对象。它的两大特性:能把被装饰的函数替换成其他函数。装饰器在加载模块时立即执行。7.2 Python何时执行装饰器函数装饰器在导入模块时

2018-01-07 14:08:26 306

原创 第6章 使用一等函数实现设计模式

本章将使用函数对象重构“策略”模式,还将讨论一种更简单的方式,用于简化“命令”模式。6.1 案例分析:重构“策略”模式《设计模式:可复用面向对象软件的基础》一书是这样概括“策略”模式的:    定义一系列算法,把它们一一封装起来,并且使它们可以互相替换。本模式使得算法可以独立于使用它的客户而变化。电商领域有一个经典的“策略”模式,根据客户的属性或订单中的商品计算折扣

2018-01-07 14:07:37 263

转载 超全整理】《Linux云计算从入门到精通》linux学习入门教程系列实战笔记全放送

http://www.magedu.com/74163.html?wztf-cbl为了方便Linux云计算爱好者的学习查看,马哥Linx云计算团队特别整理了《Linux云计算从入门到精通》年度重磅大放送,囊括了整个学习过程的学习精华,内容全部由马哥Linux云计算学员撰写,欢迎大家支持!!!详情请看:一、Linux运维基础实战入门从Linux0基础入门开始,全面讲解

2018-01-06 23:21:39 5071

转载 重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

转载:http://blog.csdn.net/zhongwen7710/article/details/45331915《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learnin

2018-01-06 18:07:04 7634

转载 七步精通Python机器学习

本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?我假定本文的读者不是以下任何领域的专家:▪  机器学习▪  Python▪  任何 Python 的机器学习、科学计算、数据分析库如果

2018-01-05 00:59:14 196

原创 第5章 一等函数

在Python中,函数是一等对象。符合一等对象的定义需要满足以下要求:在运行时创建能给变量或数据结构的元素赋值给函数做参数给函数做返回值除了函数外,整数、字符串和字典也是一等对象,满足上述要求。5.1 把函数视作对象#创建并测试一个函数,然后读取它的__doc__属性,再检查它的类型>>> def factorial(n): '''returns n!'''

2018-01-05 00:42:05 418

原创 第3章 字典和集合

dicti类型在各种程序中得到广泛应用,模块的命名空间、实例的属性和函数的关键字参数中都可以看到字段的身影。跟它有关的内置函数都在__builtins__.__dict__模块中。Python对dict的实现做了高度优化,而散列表是字典类型性能出众的根本原因。集合(set)的实现其实也依赖于散列表。想要进一步理解集合和字典,就得先理解散列表的原理。3.1 泛映射类型collec

2018-01-02 08:04:32 205

转载 一个程序员的年度计划

1.如何设计2016年的年度计划?2.SMART原则是什么意思?3.如何制定学习计划?这两年,我一直非常感恩,也特别幸运的是2015年我的身体能够好起来,能够有机会回到我最热爱的工作中,所以从年初在医生的许可下,逐渐恢复工作开始,一方面告诉自己一定要把工作做好,一方面也时时提醒自己要保持好的心态,照顾好自己的身体、家人的健康。回顾这一年,各方面的平衡做的不错。新

2018-01-01 18:48:29 8932 1

原创 第2章 序列构成的数组

2.1 内置序列类型概览序列可分为:容器序列               list、tuple和collections.deque这些序列能存放不同类型的数据。扁平序列               str、bytes、bytearray、memoryview和array.array,这类序列只能容纳一种类型。      容器序列存放的是它们所包含的任意类型的对象的引

2018-01-01 15:02:03 333

转载 hadoop三个配置文件的参数含义说明

1       获取默认配置配置Hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到co

2017-12-30 17:14:27 410

转载 互联网金融与大数据风控相结合的九大维度

大数据你呢个进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另一个是大数据风控,典型的场景是互联网金融的大数据风控。金融的本质是风控管理,风控是所有金融业务的核心。典型的金融借贷业务,例如抵押贷款、消费贷款、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。 传统金融的风控主要利用了信用属性强大的金融数据,一般采用

2017-12-30 17:11:32 1293

原创 如何用计算机思维解决问题

清华大学计算机系的史元春教授谈了她对计算机思维的理解:    史教授讲,计算机思维是在学习和应用计算机科学理论和技能的过程中,所体验和获得的思想方法和做事方法。    它分为三层次:    首先是宏观层面,包括对“可计算”这个思想的理解,也就是如何使用计算机这个工具,将虚拟世界处理问题的方法变成解决现实生活中的各种实际问题的方法。换句话说,计算机思维需要你针对现实生活中的问题找到计算机

2017-12-30 16:42:29 5357

转载 大数据学习资源汇总

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据

2017-12-28 14:45:13 1167

转载 数据科学工作者(Data Scientist) 的日常工作内容包括什么?

作者:阿萨姆众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容。即使在2017年,数据科学家这个岗位的依然显得“既性感又暧昧”。我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴,百度 | 海外: IBM,道明银行,Manulife保险),通过简单的归纳总结,我们不难发现其实岗位

2017-12-28 14:35:15 4349

转载 数据驱动到底是什么?如何驱动,又能驱动什么?

人人都在谈数据驱动,如数据化管理、数据驱动的运营、或者数据驱动的测试等,关于数据驱动的应用的讨论很多,但关于数据驱动基本原理的讨论较少,本文试图追根溯源,谈一谈数据驱动的基本原理:数据如何驱动?能够驱动什么? 谈原理之前,先说一个我个人的经历。有一次我老婆从首都机场T3航站楼回家,我帮她叫了一个滴滴,后来我看到账单显示是80多元,路程是20多公里,而我家离机场不过7-8公里,一

2017-12-28 14:15:51 23044 2

转载 人人都在谈的 “数据驱动” 到底是什么?

LinkedIn 作为一家职业社交网站,通过人才招聘、广告投放、付费订阅等服务实现了盈利,这三项服务的背后实际上都有着数据分析的重要贡献。LinkedIn 利用数据分析为所有职场人员作出迅捷、高质、高效的决策,提供具有指导意义的洞察和可规模化的解决方案。因此,商业数据分析不仅是一种科学,而且是实实在在可以为业务带来价值的科学。图1:EOI框架在 LinkedIn 内部,我们的团队搭建了

2017-12-28 14:12:03 1701

转载 如何通过数据驱动业务发展

本文大纲如下:关于数据化管理从0到1搭建数据运营体系数据深度分析用户管理策略以下为刘立明演讲实录,由人人都是产品经理@池吉明 依据嘉宾分享内容整理,编辑有修改:一、数据化管理的三点误区最近几年,随着移动互联网的快速发展,大数据的概念也越来越火,很多公司都在提数据化管理。那么,我们今天就聊一下数据化管理这个话题。先来看下数据化管理的

2017-12-28 14:08:20 2263

转载 大数据时代的10个重大变革!

大数据时代的到来正在改变人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变革。1、决策方式:目标驱动型—>数据驱动传统科学思维中,决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。例如,近年来,很多高新企业中的部门和岗位设置不再是“固化的”,而是根据所做

2017-12-24 10:08:47 1164

转载 未来营销闯关标配:大数据+智能硬件

像手机这样的智能设备不仅是人们时刻不离的随身物,更是生产数据的来源。而如今,大数据已成为企业中与资产、能源同等重要的战略资源。如何从海量数据中挖掘有价值的洞见、更准确地预见未来,成为企业营销管理工作的重中之重。  想要做出精彩的创意、拉近与消费者的距离、准确传递企业的信息,营销官们需要深度交往大数据和智能硬件这两个新的小伙伴。  数据技术的三个发展阶段  从大数据中挖金,需要我们回顾数

2017-12-24 09:01:12 1083

转载 数字化转型:B2C企业领袖的5条建议

在消费者行为变化、技术进步、数据爆炸式发展等因素的共同作用下,数字化转型变得愈加紧迫。CEO们需要采取五大战略举措,积极推动数字化转型,从而变被动为主动,改写其企业在数字化时代的命运。企业的生命周期从未像现在这样短暂。数字化颠覆正变得愈发强烈,不再仅仅表现为数字化企业对传统企业的颠覆,而在纯数字化企业之间这种情况也时有发生:比如HomeAway正在成为Airbnb的强劲对手,而苹果音乐正在蚕食

2017-12-24 08:56:49 1215

原创 如何建立数据分析的思维框架

曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:不是我觉得,而是数据证明这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。作为个人,应该如何建立数据分析思维呢?建立你

2017-12-24 08:48:05 322

原创 sqoop常见错误

1 导入时,报错: column not found:XXX  两种情况:1 漏了该字段;2 源字段有大小区分。

2017-12-16 11:30:50 1299

原创 hive问题集

案件背景:    大数据平台有两个环境,分正式环境和测试环境。创建hive的时候,把正式环境的表的location配置成测试的路径,测试环境的hive表的location配置成正式的路径。这样导致两张hive表无法被操作,truncate、insert、select、drop都不能。案件错误日志:    执行命令     drop table mysql4_csp_cstm_t

2017-12-15 14:48:29 336

转载 hadoop2提交到Yarn: Mapreduce执行过程reduce分析3

转载:http://www.aboutyun.com/thread-9375-1-1.html问题导读:1.Reduce类主要有哪三个步骤?2.Reduce的Copy都包含什么过程?3.Sort主要做了哪些工作?4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>Red

2017-12-08 07:45:01 229

转载 hadoop2提交到Yarn: Mapreduce执行过程分析2

转载:http://www.aboutyun.com/thread-9370-1-1.html问题导读:1.hadoop哪些数据类型,是如何与Java数据类型对应的?2.ApplicationMaster什么时候启动?3.YarnChild进程什么时候产生?4.如果在recuece的情况下,map任务完成暂总任务的多少百分比?5.run的执行步骤是什么?6.

2017-12-08 07:43:16 269

转载 hadoop2提交到Yarn: Mapreduce执行过程分析1

转载:http://www.aboutyun.com/thread-9366-1-1.html问题导读1.为什么会产生Yarn?2.Configuration类的作用是什么?3.GenericOptionsParser类的作用是什么?4.如何将命令行中的参数配置到变量conf中?5.哪个方法会获得传入的参数?6.如何在命令行指定reduce的个数?

2017-12-08 07:41:18 259

原创 MapReduce中的Shuffle和Sort分析

MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。    当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Ma

2017-12-08 00:01:16 289

原创 查看Hadoop日志

1  yarn logs -applicationId xxx可以查看运行结束的Application的日志    yarn logs -applicationId application_1512434255334_0374

2017-12-07 10:51:02 3016

原创 Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time

今天有一个任务报错:Unable to acquire IMPLICIT, SHARED lock db_ecar@bd_dw_terminal_id_city_info after 100 attempts.FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. r

2017-12-06 14:56:17 6286 1

原创 mapred-site.xml的参数说明

Hadoop版本:Hadoop-2.6.0      #    mapreduce.job.split.metainfo.maxsize    10000000        #    mapreduce.job.counters.max    120        #    mapreduce.job.counters.grou

2017-12-04 18:11:58 2518

原创 MapReduce错误集-map端jvm堆空间不足

任务:INSERT_ADD_BD_DW_GENERAL_PUSH脚本内容:hive -v -e "use db_ecar;set hive.map.aggr.hash.percentmemory = 0.25;INSERT INTO TABLE BD_DW_GENERAL_PUSH  SELECT  t4.USER_ID       ,t1.TERMINAL

2017-12-04 17:47:32 451

转载 mapreduce on yarn简单内存分配解释

关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情,单独查任何一个资料都不能很好的理解透彻。于是,最近查了大量的资料,综合各种解释,终于理解到了一个比较清晰的程度,在这里将理解的东西做一个    简单的记录,以备忘却。   首先,先将关于mapreduce和yarn关于内存分配的参数粘贴上:yarn.scheduler.minimum-allocatio

2017-12-04 16:58:12 550

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除