2017年12月_wer0735

转载 hadoop三个配置文件的参数含义说明

1 获取默认配置配置Hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到co

2017-12-30 17:14:27 409

转载互联网金融与大数据风控相结合的九大维度

大数据你呢个进行数据变现的商业模式目前就是两个，一个是精准营销，典型的场景是商品推荐和精准广告投放，另一个是大数据风控，典型的场景是互联网金融的大数据风控。金融的本质是风控管理，风控是所有金融业务的核心。典型的金融借贷业务，例如抵押贷款、消费贷款、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。传统金融的风控主要利用了信用属性强大的金融数据，一般采用

2017-12-30 17:11:32 1292

原创如何用计算机思维解决问题

清华大学计算机系的史元春教授谈了她对计算机思维的理解：史教授讲，计算机思维是在学习和应用计算机科学理论和技能的过程中，所体验和获得的思想方法和做事方法。它分为三层次：首先是宏观层面，包括对“可计算”这个思想的理解，也就是如何使用计算机这个工具，将虚拟世界处理问题的方法变成解决现实生活中的各种实际问题的方法。换句话说，计算机思维需要你针对现实生活中的问题找到计算机

2017-12-30 16:42:29 5355

转载大数据学习资源汇总

当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据

2017-12-28 14:45:13 1167

转载数据科学工作者(Data Scientist) 的日常工作内容包括什么？

作者：阿萨姆众所周知，数据科学是这几年才火起来的概念，而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容。即使在2017年，数据科学家这个岗位的依然显得“既性感又暧昧”。我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内：阿里巴巴，百度 | 海外： IBM，道明银行，Manulife保险)，通过简单的归纳总结，我们不难发现其实岗位

2017-12-28 14:35:15 4349

转载数据驱动到底是什么？如何驱动，又能驱动什么？

人人都在谈数据驱动，如数据化管理、数据驱动的运营、或者数据驱动的测试等，关于数据驱动的应用的讨论很多，但关于数据驱动基本原理的讨论较少，本文试图追根溯源，谈一谈数据驱动的基本原理：数据如何驱动？能够驱动什么？谈原理之前，先说一个我个人的经历。有一次我老婆从首都机场T3航站楼回家，我帮她叫了一个滴滴，后来我看到账单显示是80多元，路程是20多公里，而我家离机场不过7-8公里，一

2017-12-28 14:15:51 23023 2

转载人人都在谈的 “数据驱动” 到底是什么？

LinkedIn 作为一家职业社交网站，通过人才招聘、广告投放、付费订阅等服务实现了盈利，这三项服务的背后实际上都有着数据分析的重要贡献。LinkedIn 利用数据分析为所有职场人员作出迅捷、高质、高效的决策，提供具有指导意义的洞察和可规模化的解决方案。因此，商业数据分析不仅是一种科学，而且是实实在在可以为业务带来价值的科学。图1：EOI框架在 LinkedIn 内部，我们的团队搭建了

2017-12-28 14:12:03 1701

转载如何通过数据驱动业务发展

本文大纲如下：关于数据化管理从0到1搭建数据运营体系数据深度分析用户管理策略以下为刘立明演讲实录，由人人都是产品经理@池吉明依据嘉宾分享内容整理，编辑有修改：一、数据化管理的三点误区最近几年，随着移动互联网的快速发展，大数据的概念也越来越火，很多公司都在提数据化管理。那么，我们今天就聊一下数据化管理这个话题。先来看下数据化管理的

2017-12-28 14:08:20 2262

转载大数据时代的10个重大变革！

大数据时代的到来正在改变人们的生活方式、思维模式和研究范式，我们可以总结出10个重大变革。1、决策方式：目标驱动型—>数据驱动传统科学思维中，决策制定往往是“目标”或“模型”驱动的——根据目标（或模型）进行决策。然而，大数据时代出现了另一种思维模式，即数据驱动型决策，数据成为决策制定的主要“触发条件”和“重要依据”。例如，近年来，很多高新企业中的部门和岗位设置不再是“固化的”，而是根据所做

2017-12-24 10:08:47 1164

转载未来营销闯关标配：大数据+智能硬件

像手机这样的智能设备不仅是人们时刻不离的随身物，更是生产数据的来源。而如今，大数据已成为企业中与资产、能源同等重要的战略资源。如何从海量数据中挖掘有价值的洞见、更准确地预见未来，成为企业营销管理工作的重中之重。　　想要做出精彩的创意、拉近与消费者的距离、准确传递企业的信息，营销官们需要深度交往大数据和智能硬件这两个新的小伙伴。　　数据技术的三个发展阶段　　从大数据中挖金，需要我们回顾数

2017-12-24 09:01:12 1083

转载数字化转型：B2C企业领袖的5条建议

在消费者行为变化、技术进步、数据爆炸式发展等因素的共同作用下，数字化转型变得愈加紧迫。CEO们需要采取五大战略举措，积极推动数字化转型，从而变被动为主动，改写其企业在数字化时代的命运。企业的生命周期从未像现在这样短暂。数字化颠覆正变得愈发强烈，不再仅仅表现为数字化企业对传统企业的颠覆，而在纯数字化企业之间这种情况也时有发生：比如HomeAway正在成为Airbnb的强劲对手，而苹果音乐正在蚕食

2017-12-24 08:56:49 1215

原创如何建立数据分析的思维框架

曾经有人问过我，什么是数据分析思维？如果分析思维是一种结构化的体现，那么数据分析思维在它的基础上再加一个准则：不是我觉得，而是数据证明这是一道分水岭，“我觉得”是一种直觉化经验化的思维，工作不可能处处依赖自己的直觉，公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现，它依托于数据导向型的思维，而不是技巧，前者是指导，后者只是应用。作为个人，应该如何建立数据分析思维呢？建立你

2017-12-24 08:48:05 322

原创 sqoop常见错误

1 导入时，报错: column not found:XXX 两种情况：1 漏了该字段；2 源字段有大小区分。

2017-12-16 11:30:50 1299

原创 hive问题集

案件背景：大数据平台有两个环境，分正式环境和测试环境。创建hive的时候，把正式环境的表的location配置成测试的路径，测试环境的hive表的location配置成正式的路径。这样导致两张hive表无法被操作，truncate、insert、select、drop都不能。案件错误日志：执行命令 drop table mysql4_csp_cstm_t

2017-12-15 14:48:29 335

转载 hadoop2提交到Yarn： Mapreduce执行过程reduce分析3

转载：http://www.aboutyun.com/thread-9375-1-1.html问题导读：1.Reduce类主要有哪三个步骤？2.Reduce的Copy都包含什么过程？3.Sort主要做了哪些工作？4.4 Reduce类4.4.1 Reduce介绍整完了Map，接下来就是Reduce了。YarnChild.main()—>Red

2017-12-08 07:45:01 228

转载 hadoop2提交到Yarn： Mapreduce执行过程分析2

转载：http://www.aboutyun.com/thread-9370-1-1.html问题导读：1.hadoop哪些数据类型，是如何与Java数据类型对应的？2.ApplicationMaster什么时候启动？3.YarnChild进程什么时候产生？4.如果在recuece的情况下，map任务完成暂总任务的多少百分比？5.run的执行步骤是什么？6.

2017-12-08 07:43:16 268

转载 hadoop2提交到Yarn： Mapreduce执行过程分析1

转载：http://www.aboutyun.com/thread-9366-1-1.html问题导读1.为什么会产生Yarn？2.Configuration类的作用是什么？3.GenericOptionsParser类的作用是什么？4.如何将命令行中的参数配置到变量conf中？5.哪个方法会获得传入的参数？6.如何在命令行指定reduce的个数？

2017-12-08 07:41:18 259

原创 MapReduce中的Shuffle和Sort分析

MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上去执行，每一个Map 任务处理输入数据中的一部分，当Map 任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Ma

2017-12-08 00:01:16 289

原创查看Hadoop日志

1 yarn logs -applicationId xxx可以查看运行结束的Application的日志 yarn logs -applicationId application_1512434255334_0374

2017-12-07 10:51:02 3016

原创 Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time

今天有一个任务报错：Unable to acquire IMPLICIT, SHARED lock db_ecar@bd_dw_terminal_id_city_info after 100 attempts.FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. r

2017-12-06 14:56:17 6285 1

原创 mapred-site.xml的参数说明

Hadoop版本：Hadoop-2.6.0 # mapreduce.job.split.metainfo.maxsize 10000000 # mapreduce.job.counters.max 120 # mapreduce.job.counters.grou

2017-12-04 18:11:58 2518

原创 MapReduce错误集-map端jvm堆空间不足

任务：INSERT_ADD_BD_DW_GENERAL_PUSH脚本内容：hive -v -e "use db_ecar;set hive.map.aggr.hash.percentmemory = 0.25;INSERT INTO TABLE BD_DW_GENERAL_PUSH SELECT t4.USER_ID ,t1.TERMINAL

2017-12-04 17:47:32 451

转载 mapreduce on yarn简单内存分配解释

关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在这里将理解的东西做一个简单的记录，以备忘却。首先，先将关于mapreduce和yarn关于内存分配的参数粘贴上:yarn.scheduler.minimum-allocatio

2017-12-04 16:58:12 550

转载 Linux中使用Shell脚本插入mysql数据库中文字段值乱码问题

问题描述我在shell脚本写了一段insert到mysql的语句，测试语句如下：mysql -h*** -P3306 -u*** -p*** -D *** -e "insert into test values('123456', '测试')"1在插入的时候发现数据库中字段值中文是乱码，数据库、表、shell脚本设置全是utf8。解决方案通过在insert sql语句前加入se

2017-12-01 13:44:44 458

wer0735的博客