- 博客(39)
- 收藏
- 关注
原创 大数据分析工具盘点-你不知道的15个新技术
大数据中的大作为,最近几周业内都忙碌着,很多初创公司和一些老牌的公司都推出了数据分析和数据管理产品,以及更新了现有产品,提供更丰富的功能与性能。 虽然这些技术都还只是蓝图规划,但是一些常见的主题还是对其贯穿始终:为用户提供简单的获得数据的访问方式,更好的管理大规模数据以及预先分析的功能,例如Spark、HAWQ和Geode等新兴的大数据技术来实现更多的功能。 下面一起来看看吸引眼球的十
2016-04-28 13:52:28 4121 2
原创 莫衷一是——i+++j 该如何计算?
这是一个有趣的计算, 3 个加号相连。那么,到底是如何结合的呢?是按照: i + (++j)来运算,还是按照(i++) + j 来运算呢? 这个问题在类似于 C / C++中讨论是没有多大意义的,因为 C / C++依赖于实现的硬件结构,不同的环境结果也会不同。不过在 Java 中,这个结果是固定的,不受其运行的硬件环境与平台所影响。
2016-04-07 17:00:44 7673
原创 分析:在线直播与录播的区别?
最近在知乎网站看到一个对于录播教育和直播教育最核心区别的话题,看了问题我就有几个疑问:1.录播课程坚持学习的人很不多?2.直播课程存在互动使得课程完成度高?这两个结论是怎么出来的?有没有实际例子? 我个人觉得(当然是根据自己多年的经验,不是凭空感觉的),通过这几年的观察,我认为在线教育能不能做好并不取决于是选择了直播还是录播业务,而是符合你的产品,你的产品人群;现在很多的在线教育平台都是录
2016-10-09 16:45:38 3516
原创 那些容易被忽略的Python编程方式
The Zen of Python, by Tim Peters Beautiful is better than ugly. 优美胜于丑陋(Python以编写优美的代码为目标) Explicit is better than implicit. 明了胜于晦涩(优美的代码应当是明了的,命名规范,风格相似) Simple is better than complex. 简洁胜于复杂(优美的
2016-06-22 11:44:12 458
原创 高可用、开源的Redis缓存集群方案
由于单台Redis服务器的内存管理能力有限,使用过大内存的Redis又会使得服务器的性能急剧下降,一旦服务器发生故障将会影响更大范围业务,而Redis 3.0 beta1支持的集群功能还不适合生产环境的使用。于是为了获取更好的Redis缓存性能及可用性,很多公司都研发了Redis缓存集群方案。现对NetFlix、Twitter、国内的豌豆荚在缓存集群方面的解决方案进行一个汇总,以供读者参考,具体内
2016-06-22 11:35:00 466
原创 现代Web开发需要学习的15大技术
将近4年前,我写了一篇名为《Future of Web and Mobile: HTML5, CSS3 and Javascript》的博客文章,其中我提到了Javascript的出现,以及JavaScript框架,例如jQuery、Knockout等的爆 发。 快进到现在,我发现现代web开发再一次将发生压倒性的改变。信息资讯的铺天盖地令人迷惑,尤其对于初学者而言。首要原因是新的框架,例如
2016-06-14 16:56:12 366
原创 大数据问题之实时流处理系统的用例
本文阐述了为什么比起Hadoop之类的知名技术,类似Apache Storm这样的系统更加有用。 让我们以经典的笔记本品牌实时情感分析(SENTIMENT ANALYSIS)为例,在进行观点分析时,处理流程应当如下图所示: 从类似Twitter、Facebook、电子商务网站之类的不同来源收集数据。 以一些“高吞吐量”这样的关键字为基础,我们筛选出了一些数据。 为不
2016-06-13 16:47:16 488
原创 阿里小Ai之父解析阿里大数据在新兴行业的应用
“今天所有做智能芯片的,都会被迅速扫进历史垃圾堆。为什么?因为真正的智慧在云端。当所有数据汇集在云上,智慧的交融、数据的融合就变得没有成本。当没有成本成为现实时,爆发就不是以前的1+1添砖加瓦,而是像核聚变一样可怕。” 6月8日,中欧EMBA走进阿里,阿里云人工智能首席科学家闵万里进行了题为《大数据创新业务实践》的分享,在演讲中他提到了上述的观点。 尽管演讲主题是《大数据创新业务实践》
2016-06-13 16:39:21 562
原创 Java文件读写
public class ReadFromFile { /** * 以字节为单位读取文件,常用于读二进制文件,如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileName) { File file = new File(fileName); InputStre
2016-06-12 16:18:36 251
原创 大数据行业人士必知10大数据思维原理
大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的。 一、数据核心原理 从“流程”核心转变为“数据”核心 大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的
2016-06-08 14:34:32 3041
原创 数据分析入门随笔
数据分析是一个大话题,借这篇小笔记整理一下自己的思路:数据分析是什么?涉及到哪些技术?有哪些数据公司玩家?如何定位数据分析的价值? 前言 数据的一面是银弹(Silver Bullet):无所不能,增长黑客(Growth Hacking),决策分析(Decision Making);数据的另外一面是镜子(Reflection):可以看清楚很多苟且和远方的田野。如何发现利用数据的价值,就是
2016-06-07 16:34:15 866
原创 这几件事带你走出深陷的数据分析迷宫
通过真实世界中的实例,我们将共同通过种种错误的数据分析方式总结出正确的技巧与诀窍。 相信每位朋友都遇到过这样的情况:将来自各类渠道的数据收集起来,通过A/B测试进行验证,希望借此得出分析结论。但在检查结果时,我们发现这些数字似乎并不怎么合理。事实上,数据验证也是我们日常工作中的重要环节,而且与编码一样需要大量追踪与调试。在今天的文章中,我们将共同通过真实世界中的实例,在对种种错误的数据分析方
2016-06-02 16:02:34 308
原创 彼得·蒂尔:别浪费你的无知,去做那些没人做过的事
硅谷风险投资家彼得·蒂尔参加了美国汉密尔顿学院2016届的毕业典礼并作演讲。他与Max Levchin和Elon Musk一道创立了PayPal。 彼得以敢说话、说真话闻名硅谷,他此前表示高等教育对于赢家、输家和社会来说都是不好的,因此汉密尔顿学院最终选择他来作毕业演讲还挺出人意料的。不过,他演讲的主题——拥抱未知、驱动变革——对于毕业典礼这个场合来说非常合适。 谢谢!我很荣幸
2016-05-31 17:37:26 644
原创 大数据从何而来?你必须知道的7个数据源供应平台
我们都知道一句话“巧妇难为无米之炊”,数据源就是数据产生价值中的那些大米。那大数据时代企业需要哪些数据呢?根据我个人理解我觉得可以大致分为以下几类: 1、(内部)企业自身业务生产经营环节产生的内部数据(包括销售、客服、仓储、财务等) 2、(运营)可以理解为企业发展过程中掌握在第三方手中的数据,如企业的广告供应商以及一些传播与媒体数据(新媒体、H5、app等) 3、(外部)包括传统
2016-05-30 15:28:55 2567
原创 MySQL高可用之MHA—部署MHA
前提由于MHA不会自动创建主从环境,所以要手动去部署主从环境,也可以在现有主从环境部署MHA。所有slave不要设置为只读,同时也要打开binlog。如果master故障后要切换到指定的slave上,该指定的slave打开binlog,设置可读写,其它不用设置打开binlog或设置只读也可。具体以自身架构为准。部署MySQL主从可参考:配置MySQL主从复制架构
2016-05-26 16:45:34 635
原创 Java知识:(3)Tomcat
1、Tomcat下载和安装 1.1、下载地址 apache官网:www.apache.org 产品的主页:http://jakarta.apache.org Tomcat:http://tomcat.apache.org/ 1.2、版本 安装版:window (exe、msi) linux(rmp) 压缩版:window(rar,zip) linux(tar,tar.g
2016-05-25 15:28:15 302
原创 大数据技术基础-- Linux文件系统结构
一、Linux文件系统结构: Linux下的文件系统为树形结构,入口为/ 树形结构下的文件目录,为文件的根目录:无论哪个版本的Linux系统,都有这些目录,这些目录应该是标准的,不同的Linux发行版本的略有差异,但总体来说大多是一致的。 1、rootfs: 根文件系统 / :文件系统的入口,为根目录,是最高一层目录。 /boot:系统启动相关的文件,如内核、以及g
2016-05-24 15:14:14 388
原创 ES使用脚本进行局部更新的排错记录
初学Elasticsearch,在按照《Elasticsearch服务器开发(第2版)》进行学习的过程中,在P17页中1.4.5 更新文档小节,使用脚本对文档进行局部更新的时候遇到了如下报错: ~ curl -XPOST http://127.0.0.1:9200/blog/article/1/_update -d '{"script": "ctx._source.content=\"new c
2016-05-23 17:38:32 2835
原创 常用排序算法(包括:选择排序,堆排序,冒泡排序,选择排序,快速排序,归并排序)
直接插入排序:在序列中,假设升序排序1)从0处开始。1)若走到begin =3处,将begin处元素保存给tmp,比较tmp处的元素与begin–处元素大小关系,若begin处3)以此类推,依次走完序列。时间复杂度:O()代码如下://Sequence in ascending ordervoid InsertSort(int* a,int size){assert(a);for (int
2016-05-20 17:55:55 653
原创 Python爬虫和情感分析详解
这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着以豆瓣影评为例介绍文本数据的爬取,最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大,无法详细道尽,这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口,希望激发读者自
2016-05-19 15:27:01 3354
原创 新型数据准备工具来袭 你还在使用传统数据仓库架构吗?
越来越多的业务分析师正在提升自身编写临时查询和分析算法的能力。这些临时查询和分析算法用来寻找企业数据存储中的有用信息,为企业做业务决策时提供更多数据。随着企业员工越来越精通于使用分析工具,他们当中越来越多的人发现,传统的数据仓库架构阻碍了他们分析某些重要数据的能力。 新兴的自助型数据准备工具可以帮助业务分析师、数据科学家和其他最终用户绕过数据仓库,完成数据集成和制备过程的关键部分。而我们说数
2016-05-18 15:36:40 374
原创 Hadoop的shell脚本分析
这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来,也希望大家前来批评指正。 分析原因: 很多hadoop的初学者对hadoop的脚本不是很清楚,不知道为什么可以在命令行中启动hadoop,也不知道为什么有时在命令行中运行hadoop命令时
2016-05-17 15:51:26 754
原创 《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Jav
2016-05-16 16:29:33 447
原创 8张图读懂Java
一图胜千言,下面图解均来自Program Creek 网站的Java教程,目前它们拥有最多的票选。如果图解没有阐明问题,那么你可以借助它的标题来一窥究竟。 1、字符串不变性 下面这张图展示了这段代码做了什么 String s = "abcd";s = s.concat("ef"); 2.equals()方法、hashCode()方法的区别 HashCode被设计用来提高性能
2016-05-15 21:46:56 390
原创 Java的数据类型
Java四类八种基本数据类型 第一类:整型 byte short int long 第二类:浮点型 float double 第三类:逻辑型 boolean(它只有两个值可取true false) 第四类:字符型 char 在学习了第四天的内容后可以发现 在栈中可以直接分配内存的数据是基本数据类型。 引用数据类型:是数据的引用在栈中,但是他的对象在
2016-05-13 11:17:20 260
原创 大数据时代为什么都在谈Hadoop?
目前看起来,此类数据多数为日志数据,分析用户习惯,或者就是传感器之类的数据,分析环境等监控内容的变化规律。也有很多公司不使用Hadoop,比如多 数从事政府行业或者部分企业系统开发的公司,他们对系统的易部署及易维护性要求更高,虽然也会遇到一部分数据量较大,不过通常使用NoSQL数据库就能够 满足需要了,很少使用Hadoop。 这又回到了一句老话,任何技术,都是为了解决问题而存在的,没有必要为
2016-05-12 11:24:07 564
原创 大数据Java基础——移位运算的真实剖析 (一)
抛砖引玉: Java 中定义了 3 种移位运算符,分别是左移运算符“<<”、右移运算符“>>”和无符号右移运算符“>>>”,对于移位运算,移位运算两边的操作数要求为整型,即 byte、short、char、 int 和 long类型,或者通过拆箱转换后为整型。当操作数的类型为 byte、short 或 char 类型时, 会自动提升为 int 类型,运算的结果也为 int类型。对于移位运算,人们对
2016-05-11 16:21:23 659
原创 高科技+大数据:精准农业大数据
提及孟山都,大家最直观的印象就是“转基因”。这家起源于美国密苏里州圣路易斯市的跨国农业科技公司,去年在全球的销售总额达到了158亿美元。除了转基因,孟山都科研在涉及农业大数据方面的精准农业种植探索对当下科技农业发展也有借鉴意义。 Precision Planting:实现非均匀播种 2012年,孟山都以2.5亿美元的价格收购了美国伊利诺伊州的一家拥有农业大数据种植技术公司Precisi
2016-05-10 15:43:34 1451
原创 大数据分析的基本办法
大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据不仅仅意味着数据大,最重要的是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。下面介绍大数据分析的五个基本方面—— 预测性分析能力:数据挖掘可以让分析员更
2016-05-09 13:56:25 993
原创 物联网是大数据的一个重要应用
去年,大数据依然占是企业口中的热门话题。很多企业着力培育数据资产,积极探讨数据变现。一些国际巨头已经布局对大数据的垄断,但大数据技术还不够完善,大数据仍然是改变企业生产方式,完善服务链条的重要方式。Gartner就曾表示:到2020年,信息将被用于重新创造、数字化、或消除80%的业务流程和产品(相比于10年前——2010年)。对于企业来说,数据已经是一种资产,可以变现的资产。而诸如亚马逊的
2016-05-05 15:57:34 992
原创 什么叫大数据,果断让你秒懂
一个段子解释什么叫大数据?什么叫做O2O?什么叫蓝海红海?什么叫互联网思维?什么叫众筹?简单粗暴令人秒懂! 什么叫大数据 某必胜客店的电话铃响了,客服人员拿起电话。 客服:必胜客。您好,请问有什么需要我为您服务? 顾客:你好,我想要一份…… 客服:先生,烦请先把您的会员卡号告诉我。 顾客:16846146*** 客服:陈先生,您好!您是住在泉州路一号12楼
2016-05-04 15:00:53 579
原创 什么是大数据思维?
作者简介(百度百科):伊恩•艾瑞斯,计量经济学家、律师,耶鲁管理学院教授。他是《福布斯》杂志的专栏作家,目前是《法律、经济学和组织机构期刊》(Journal of Law,and Organization)的编辑,曾著有8本书,发表过100多篇文章。 什么是大数据思维?一讲到这个,我变想起耶鲁大学计量经济学家伊恩•艾瑞斯的奠基之作-----《大数据思维与决策》,这个说通过讲述各个领域的有关大
2016-05-03 14:51:24 2498
原创 什么是物联网?从大数据谈起
物联网 (Internet of Things IOT)在大数据 (Big Data) 之后顺理成章的响应起来, 比起较为看不见的大数据, 物联网看得见摸得着, 而且也是人类从19世纪第一次工业革命之后, 第一次考虑地球永续的产业升级。 物联网就是物物相连的互联网。这有两层意思:其一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;其二,其用户端延伸和扩展到了任何物品与物
2016-04-29 15:09:14 716
转载 Java时间日期格式转换
时间格式转化,做个记录Java时间格式转换大全import java.text.*;import java.util.Calendar;public class VeDate {/** * 获取现在时间 * * @return 返回时间类型 yyyy-MM-dd HH:mm:ss */public static Date getNowDate() { Date
2016-04-27 14:20:36 663
原创 什么是大数据时代?
早在互联网出现之初,我们就知道网络无秘密,在网页上敲击的每一个数据,都将被自动记录。现在,当数据的积累量足够大的时候到来时,量变引起了质变。“大数据”通过对海量数据有针对性的分析,赋予了互联网智商,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析,一句话“他开始思考了”。这是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理模式、对企业的决策、组织和业务流程、对
2016-04-26 14:42:52 2415
原创 什么是大数据概念
现在说起大数据,那是相当火的“时髦词”,大家在炒概念,大数据并不难,怎样利用大数据还是很难得,在我看来,目前很多人都在吹嘘大数据。但是真正懂大数据的人却寥寥无几
2016-04-25 12:07:26 5736
原创 大数据Java-交换变量的3种方式
本话题要讨论的是一道面试题目:交换两个变量的值。两个变量而已,看似再简单不过了,不过一道简单的题目可以使用多种方式来完成, 其中有比较普通的实现, 也有相对高明的实现,虽然是一道简单的题目,但是通过面试者对该题目的认知能力,就可以看出面试者的水平。 重点摘要: 1 通过中间变量交换。 2 通过求和与求差交换。 3 通过异或交换。 通过第 3 个变量 首先,我们给出最简单的方式。 【例】
2016-04-20 17:02:54 567
原创 Java学习——运算顺序的详细挖掘(下)
我们知道,复合运算符可以自动将右侧运算的结果类型转换为左侧操作数的类型。例如如下的代码:byte b = 1;b = b + 1; //错误b += 1; //正确因为常量 1 为 int 类型,所以右侧的结果是 int 类型,不能赋值给一个 byte
2016-04-12 19:00:52 365
原创 Java学习——运算顺序的详细挖掘
在 Java 运算中,存在一些关系到顺序的计算,这些计算顺序在 C / C++语言中是不确定的,并且最后的结果值也没有保证。不过, Java 经过编译之后,生成的是与平台无关的字节码,并且交互对象为 Java 虚拟机,与底层的硬件环境无关。因此,这些运算结果在 Java 中是确定的。
2016-04-11 12:09:21 862
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人