自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 大数据技术人员工具包最全集合

数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,本文全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具、挖掘分析处理工具、其它常...

2019-05-19 21:59:44 908

原创 Python 向人工智能方向发展的技能树

有不少同学学习 Python 的原因是对人工智能感兴趣,有志于从事相关行业。今天我们来聊聊这个方向所需要的一些技能。这里我们主要谈论的是编程技能。如果你打算采用 Python 作为主要开发语言(这也是目前人工智能领域的主流),那么Python 的开发基础是必须得掌握的,这是一切基于 Python 开发的根基。你得对 Python 的基本语法、数据类型、常见模块有所了解,能正确使用条件、...

2019-05-19 21:59:42 1608 1

原创 Python爬虫学习笔记总结(一)

〇. python 基础先放上python 3 的官方文档:https://docs.python.org/3/(看文档是个好习惯)关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.一. 最简单的爬取程序爬取百度首页源代码:来看上面的代码:对于python 3来说,urllib是一个非常重要的一个模块 ,可以非常方便的模拟浏览器访问互联网,...

2019-05-19 21:59:40 535

原创 浅析大数据与人工智能

理念篇首先给大家讲讲什么是数据。有的朋友可能认为有了计算机才有数据,其实不然。简单而言,数据就是可以被我们进行定量分析的记录。大家可以看看左边这幅图,是四百多年前第谷·布拉赫记录下的行星与恒星在太阳系内运动的轨迹。当时开普勒做了十多年相同的工作,但弟谷始终舍不得将这最宝贵的数据给他,直到身患重病,才如同传衣钵般将数据传给了开普勒。基于这些数据,开普勒发现了今天的开普勒三大定律,从而衍生...

2019-05-19 21:59:38 3031

原创 [大数据之Spark]——快速入门

为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一个简单的学习API的方式 以及 快速分析数据的工具。在shell中,既可以使用scala(运行在java虚拟机,因此可以使用java库)也可以使用python。可以在spark的bin目录下启动s...

2019-05-19 21:59:36 223

原创 2019年Java,php,运维工程师转型大数据开发怎么样?你属于哪一类?

一:java转型大数据“2019年可能会是过去十年里最差的一年,但却是未来十年里最好的一年”。市场发展的受限,不仅波及了各个行业的从业者,就连IT领域也受到了影响,很多IT人开始寻找新的出路,其中,很多java程序员将转型大数据看成是迎接“春天”的一个契机,其原因究竟是什么呢?在资本“寒冬”的影响下,互联网巨头们纷纷的传出缩招的消息,像阿里、京东等。而像华为这样的企业,也曾传出了停止社...

2019-05-19 21:59:34 708

原创 HBase和Hive的区别和各自适用的场景

先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别: Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。 Hive...

2019-05-19 10:29:59 196

原创 基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1.1数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate...

2019-05-19 10:29:57 263

原创 大数据java入门之Linux命令

大数据成神之路目录【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取必须学会的命令1.man和page1.内部命令:echo查看内部命令帮助:help echo 或者 man echo2.外部命令:ls查看外部命令帮助:ls --help 或者 man ls 或者 info ls3.man文档的类型...

2019-05-19 10:29:52 209

原创 Kafka对Java程序员有多重要?连阿里都在用它处理亿万级数据统计

一.了解淘宝Kafka架构在ActiveMQ、RabbitMQ、RocketMQ、Kafka消息中间件之间,我们为什么要选择Kafka?下面详细介绍一下,2012年9月份我在支付宝做余额宝研发,2013年6月支付宝正式推出余额宝,2013年8月担任支付宝淘宝彩票项目经理带领兄弟们一起做研发,期间需要与淘宝和500万对接竞彩接口数据,业余时间与淘宝的同事沟通,了解天猫在电商节如何处理这些大数据的...

2019-05-18 22:00:07 244

原创 零基础大数据学习框架

大数据开发最核心的课程就是Hadoop框架,几乎可以说Hadoop就是大数据开发。这个框架就类似于Java应用开发的SSH/SSM框架,都是Apache基金会或者其他Java开源社区团体的能人牛人开发的贡献给大家使用的一种开源Java框架。科多大数据大数据来带你看看。Java语言是王道就是这个道理,Java的核心代码是开源的,是经过全球能人牛人共同学习共同研发共同检验的,所以说Java是最经得...

2019-05-18 22:00:02 194

原创 大数据零基础学习,ZOOKEEPER入门

1、解压2、配置环境变量3、修改conf/zoo_sample.cfg文件为zoo.cfgserver为固定值1表示该主机的myid需要与数据目录下的myid文件中的值相同=kd01表示主机名【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取4、在数据目录中创建myid文件,值与server.值的值相...

2019-05-18 22:00:00 2802

原创 大数据学习遇到的问题,大数据薪资多高岗位空缺大

大数据为什么这么火热,从以下方面来看:人民日报官方微信公众平台发布了一篇文章,公布已有35所高校获批“数据科学与大数据技术”专业,使大数据受到更多家长的关注,大数据也被越来越多的人重视。高校开办相关专业也不能缓解大数据人才稀缺的现状,毕竟专业是2017年开办,最早的一批毕业生也要3.4年以后了,远水救不了近火,所以,快速学习成为必要。【大数据开发学习资料领取方式】:加入大数据技术学习交...

2019-05-18 21:59:58 731

原创 大数据和区块链之间的比较分析

分布式存储:HDFS vs. 区块大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。区块链,是比特币的底层技术架构,它...

2019-05-18 21:53:07 1029

原创 基于Hadoop的数据仓库Hive 基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate...

2019-05-18 21:46:27 1510

原创 23个适合Java开发者的大数据工具和框架

在许多情况下,使用SQL数据库存储/检索数据都是很好的选择。而现如今的很多情况下,它都不再能满足我们的目的,这一切都取决于用例的变化。现在来讨论一些不同的非SQL存储/处理数据工具,例如,NoSQL数据库,全文搜索引擎,实时流式处理,图形数据库等。1、MongoDB——最受欢迎的,跨平台的,面向文档的数据库。MongoDB是一个基于分布式文件存储的数据库,使用C++语言编写。旨在为We...

2019-05-18 21:44:53 1977

原创 世界最牛的25位顶尖大数据科学家

从三个类别对这25位大师进行简介,虽然这个分类可能并不那么恰当,但是可以加深读者对他(她)们的了解。科研学术界大师(Research Oriented Data Scientists)这些科学家全身心致力于在数据中发明新的算法或者模型,他(她)们更倾向于学术与科研界的创新与创造。工业界应用大师(Data Scientists Turned Entrepreneurs)这些科学家致力...

2019-05-18 21:44:50 2466

原创 经典大数据架构案例:酷狗音乐的大数据平台重构

酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。眨眼就是新的一年了,时间过的真快,趁这段时间一直在写总结的机会,也总结下上一年的工作经验,避免重复踩坑。酷狗音乐大数据平台重构整整经历了一年时间,大头的行为流水数据迁移到新平台稳定运行,在这过程中填过坑,挖...

2019-05-17 22:00:02 2711

原创 必须知道:关于大数据的七个基本概念

在大多数人根本不知道大数据(Big Data)到底是什么的时候,不可否认的是,大数据已经在 21 世纪掀起一场惊涛骇浪。根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。尽管大数据的定义各家歧异,但基本上,大数据领域里的每个人都同意一点:大数据不仅仅是指更多资料而已。这篇文章整理出 7 ...

2019-05-17 21:59:59 1443

原创 无需编程基础,Python从入门到进阶大法

本文试图概述Python编程语言的所有关键点,并专注于绝对需要理解的最重要的主题。完全零基础,你不需要具备任何先前的编程知识,并且可以非常快速地掌握所有必需的概念。好,接下来我们开始。1. Python简介Python是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言Python是交互式语言:你可以在一个Python提示符 >>>...

2019-05-17 21:59:57 803

原创 Python和人工智能到底啥关系?

我们经常听到”Python“与”人工智能“这两个词,也很容易混淆这两个词,那么Python和人工智能到底什么关系呢?Python人工智能工程师待遇怎么样?今天朗妹儿就来为大家解答一下:关于PythonPython是一门计算机程序语言,目前在人工智能科学领域被广泛应用,广泛应用就表明各种库,各种相关联的框架都是以Python作为主要语言开发出来的。谷歌的TensorF...

2019-05-17 21:59:55 14344 3

原创 专科学历能学习大数据开发吗?

近来不少想转行大数据的同学在跟我的的交流中诉说到:想做IT行业,但是学历太低啦。怕花了时间和精力来学习IT相关知识,最后却找不到相应的工作,一起努力都付诸东流。对于这类学生,一般会建议他们来学习大数据,为了前沿技术,为了高薪。具体原因是什么呢,下面一起来了解一下。1. 因为大数据是IT行业中比较炙热的项目,现在各个用人单位对于大数据相关的人才需求量特别的大。相关统计数据显示,未来3~5年,...

2019-05-17 21:59:53 8401 7

原创 Python自学书单!

自2018年3月起,在全国计算机二级考试中加入了“Python语言程序设计”科目。从 2018 年起,浙江省信息技术教材将不会再使用晦涩难懂的 VB 语言,而是改学更简单易懂的 Python 语言。也就是说,Python 将纳入高考内容之一。Python已经进入山东省小学教材,小学生都要学Python了? 这不是天方夜谈, Python进入小学课堂是已经发生的事实, 还在纠结自己要不要学习...

2019-05-17 21:59:47 1703

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除