大数据
文章平均质量分 89
teayear
《Java编程讲义》作者,华为认证讲师,微软MVP,ORACLE认证专家称号,,主要研究方向为JAVAEE、人工智能、AI/VR、算法 、机器视觉,曾经服务过中国铝业、中国烟草等央企,欢迎合作!
展开
-
如何在 GPU 上加速数据科学
数据科学家需要算力。无论您是用 pandas 处理一个大数据集,还是用 Numpy 在一个大矩阵上运行一些计算,您都需要一台强大的机器,以便在合理的时间内完成这项工作。在过去的几年中,数据科学家常用的 Python 库已经非常擅长利用 CPU 能力。Pandas 的基础代码是用 C 语言编写的,它可以很好地处理大小超过 100GB 的数据集。如果您没有足够的 RAM 来容纳这样的数据集,那...原创 2019-08-07 12:58:59 · 1195 阅读 · 0 评论 -
Netty原理架构解析
本文基于 Netty 4.1 展开介绍相关理论模型,使用场景,基本组件、整体架构,知其然且知其所以然,希望给大家在实际开发实践、学习开源项目方面提供参考。Netty 是一个异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。JDK 原生 NIO 程序的问题JDK 原生也有一套网络应用程序 API,但是存在一系列问题,主要如下:NIO 的类库和 API ...原创 2019-05-04 08:12:14 · 522 阅读 · 0 评论 -
阿里开源新一代人机对话模型 ESIM:准确率打破世界纪录,提升至 94.1%!
近日,阿里 AI 开源了新一代人机对话模型 Enhanced Sequential Inference Model(ESIM)。ESIM 是一种专为自然语言推断而生的加强版 LSTM,据阿里介绍,该算法模型自 2017 年被提出之后,已被谷歌、facebook 在内的国际学术界在论文中引用 200 多次,更曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,并将人机对话准确率的世界纪录提升至...原创 2019-08-07 12:57:49 · 2192 阅读 · 0 评论 -
《NoSQL数据库技术与应用》 MongoDB副本集
MongoDB支持两种复制类型:传统的主/从复制和副本集,副本集可以理解为传统主/从复制的一种复杂形式,支持自动故障恢复功能,拥有更高的可用性,是MongoDB部署中的一种推荐方法。默认情况下部署的MongoDB副本集不会开启安全认证功能,这样会对副本集的安全带来一定影响,任何人都可以操作副本集,这在生产环境中是不允许发生的。上一节课,我们完成副本集的部署并成功启动副本集,本节课,我们将讲解如何查看副本集成员状态、验证副本集文本同步及故障自动转移。教师可以参考课件以讲演法的方式来讲述副本集的安装与启动。原创 2024-05-21 15:24:13 · 854 阅读 · 0 评论 -
《NoSQL数据库技术与应用》MongoDB数据库操作
而Robo 3T是一个跨平台的MongoDB GUI客户端管理工具,它以图形化的方式显示操作界面,让用户可以对MongoDB进行可视化操作,并且支持Windows、MacOS、Linux系统,本节课我们将以Windows系统为例,详细讲解如何使用Robo 3T操作MongoDB。Map-Reduce操作是将集合中的批量文档进行分解处理,然后将处理后的各个结果进行合并输出。如果想要深入学习和掌握MongoDB数据库,除了学习MongoDB数据库的理论知识之外,还得掌握MongoDB数据库的实践操作。原创 2024-05-21 15:23:22 · 1010 阅读 · 0 评论 -
01 数据库和MySQL简介
你可能还没有意识到,其实你自己一直在使用数据库。每当你从自己手机的联系人簿里查找名字时,你就在使用数据库。如果你在某个搜索引擎上进行搜索,也是在使用数据库。如果你在工作中登录网络,也需要依靠数据库验证自己的名字和密码。即使是在自动取款机上使用ATM卡,也要利用数据库进行PIN码验证和余额检查。数据库这个术语的用法很多,但是对于程序开发人员而言,数据库是一个以某种有组织的方式存储的数据集合。确切地说,数据库软件应称为DBMS(数据库管理系统)原创 2022-11-22 22:35:13 · 456 阅读 · 0 评论 -
大数据工程师必备之数据可视化技术
数据:偏耀明 7800高军鹏 8000代欣 8800王国庆 20000实际可视化:可以通过最简单的Excel也有自己分析的图标。也有其他类的软件做可视化:一则使用,一则是开发。使用有成品的软件可以使用,一些SPSS软件、Tableau。开发使用的是echarts、Hights、D3等一些可视化的工具和库。通用数据分析类软件,使用于几乎所有的行业都可以拿来用,有IBM 、tableAU大的公司,专门做开发。个人版都在每年W以上。JAVAEE、BYD这些厂商,对于C端汽车消费者、个人博主、B原创 2022-11-19 10:11:31 · 1947 阅读 · 0 评论 -
Elasticsearch 搜索入门技术之一
官网:原创 2022-08-09 15:40:14 · 683 阅读 · 1 评论 -
docker 私有仓库
Docker 私有仓库一、私有仓库搭建# 1、拉取私有仓库镜像 docker pull registry# 2、启动私有仓库容器 docker run -id --name=registry -p 5000:5000 registry# 3、打开浏览器 输入地址http://私有仓库服务器ip:5000/v2/_catalog,看到{"repositories":[]} 表示私有仓库 搭建成功# 4、修改daemon.json vim /etc/docker/daemon.json原创 2020-05-27 14:41:11 · 541 阅读 · 0 评论 -
Hadoop hdfs配置
网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。Hadoop平台规划:三台linux主机使用64位CentOS7系统,采用最小化安装。用户为都为hadoop,master为192.168.80.5,slaver1为192.168.80.6,slaver2为192.168.80.7。一、在主机mast...原创 2020-03-05 22:33:14 · 725 阅读 · 0 评论 -
超详细的Elasticsearch高性能优化实践
这篇将从 ES 的 API 应用测试,性能优化,开发使用等方面展开,深入学习 ES。ES 性能调优ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。写优化假设我们的应用场景要求是,每秒 300 万的写入速度,每条 500 字节左右。针对这种对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择...原创 2019-05-22 15:18:50 · 1022 阅读 · 0 评论 -
图像识别没你想的那么难!看完这篇你也能成专家
本地生活场景中包含大量极富挑战的计算机视觉任务,如菜单识别,招牌识别,菜品识别,商品识别,行人检测与室内视觉导航等。这些计算机视觉任务对应的核心技术可以归纳为三类:物体识别,文本识别与三维重建。2018 年 11 月 30 日-12 月 1 日,由 51CTO 主办的 WOT 全球人工智能技术峰会在北京粤财 JW 万豪酒店隆重举行。本次峰会以人工智能为主题,阿里巴巴本地生活研究院人...原创 2019-05-22 15:17:08 · 6748 阅读 · 12 评论 -
解决 Unable to load native-hadoop library for your platform方法之一
安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable原因:Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本。1、首先找到对应自己hadoop版本...原创 2019-05-25 15:58:49 · 2949 阅读 · 0 评论 -
3台廉价机器每秒写入2百万!Kafka为什么那么快?
Kafka 的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但是实际上,Kafka 的特性之一就是高吞吐率。即使是普通的服务器,Kafka 也可以轻松支持每秒百万级的写入请求,超过了大部分的消息中间件,这种特性也使得 Kafka 在日志处理等海量数据场景广泛应用。针对 Kafka 的基准测试可以参考 Apache Kafka 基准测试()《...原创 2019-05-14 23:32:07 · 677 阅读 · 0 评论 -
Hbase出现ERROR: Can‘t get master address from ZooKeeper; znode data == null解决办法
问题描述如下:hbase(main):001:0> listTABLE ...原创 2019-06-18 22:32:26 · 9028 阅读 · 0 评论 -
Redis 5.0新功能介绍
Redis5.0版是Redis产品的重大版本发布,我们先看一下它的最新特点:新的流数据类型(Stream data type) https://redis.io/topics/streams-intro 新的 Redis 模块 API:定时器、集群和字典 API(Timers, Cluster and Dictionary APIs) RDB 增加 LFU 和 LRU 信息 集群管理器从...原创 2019-05-04 08:05:10 · 470 阅读 · 0 评论 -
zookeeper
相信大家对 ZooKeeper 应该不算陌生,但是你真的了解 ZooKeeper 是什么吗?如果别人/面试官让你讲讲 ZooKeeper 是什么,你能回答到哪个地步呢? 我本人曾经使用过 ZooKeeper 作为 Dubbo 的注册中心,另外在搭建 Solr 集群的时候,我使用到了 ZooKeeper 作为 Solr 集群的管理工具。前几天,总结项目经验的时候,我...原创 2019-05-31 09:58:15 · 485 阅读 · 0 评论 -
安装zookeeper时候,可以查看进程启动,但是状态显示报错:Error contacting service. It is probably not running
安装zookeeper-3.3.2的时候,启动正常没报错,但zkServer.sh status查看状态的时候却出现错误,如下:JMX enabled by defaultUsing config: /hadoop/zookeeper/bin/../conf/zoo.cfgError contacting service. It is probably not running.jps查...转载 2019-05-31 11:14:04 · 903 阅读 · 0 评论 -
zookeeper节点类型详解
znode创建类型(CreateMode),有以下四种:PERSISTENT 持久化节点PERSISTENT_SEQUENTIAL 顺序自动编号持久化节点,这种节点会根据当前已存在的节点数自动加 1EPHEMERAL 临时节点, 客户端session超时这类节点就会被自动删除EPHEMERAL_SEQUENTIA...原创 2019-05-31 11:16:25 · 4404 阅读 · 0 评论 -
ZooKeeper命令、命令行工具及简单操作
常用命令ZooKeeper 支持某些特定的四字命令字母与其的交互。它们大多是查询命令,用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令见下表 1 所示:表 1 : ZooKeeper 四字命令 ZooKeeper 四字命令 ...原创 2019-05-31 11:17:43 · 687 阅读 · 0 评论 -
在HBase的shell命令行界面输入错误项按“退格键“删除,却怎么也删除不了:
在 Xshell 中 使用 hbase shell 进入后 无法删除 问题:在hbase shell下,误输入的指令不能使用backspace和delete删除,使用过的人都知道,这是有多坑,有多苦恼!经过不懈努力,发现绝招:进入到XShell 文件 --> 属性 --> 终端 --> 键盘在 DELETE键序列 和 BACKSPACE键序列 ...原创 2019-06-18 22:42:21 · 2072 阅读 · 1 评论 -
Hive | 加载数据后,出现字段显示为 NULL的问题
进到HIVE命令下,命令格式:在root目录下创建的user.txt文件,格式如下:将创建好的文件加载到新创建的tb_user表中:成功界面:进一步查询:为什么呢?如果按照上面的格式写,会成功的。注意网上格式:规定了数据格式> row format delimited> fields terminated by ' ' //...原创 2019-06-10 17:11:22 · 5827 阅读 · 1 评论 -
hadoop配置后无法通过主机名:50070访问,只能通过ip:50070访问
需要在本地增加主机名和ip映射1.在本机中C:\Windows\System32\drivers\etc 找到host文件,注意该文件为只读不可修改,得先需要更改权限才可修改成功。2.更改host文件权限2.注意以写字板打开,这个方式比较好,直接可以编辑:3.这时候使用namenode主机名刚问可以啦!host文件说明这个文件是根据TCP/IP for Windows...原创 2019-06-23 00:38:27 · 5294 阅读 · 6 评论 -
疯狂的人工智能:谷歌AI可预测病人死亡,IBM AI击败了人类顶尖辩手
谷歌旗下的Medical Brian 团队开发了一种新的人工智能算法,可以预测病人死亡时间;IBM Research最新推出的AI系统Project Debater击败了以色列国际辩论协会主席Dan Zafrir和2016年以色列国家辩论冠军Noa Ovadia本文为数据猿推出的《大数据24小时》栏目内容,旨在让用户花最短的时间获取每日最新最全的行业信息一、谷歌发布 AI 医疗黑...原创 2019-03-12 23:10:29 · 927 阅读 · 0 评论 -
如何从单个服务器扩展到百万用户的系统?
假如你开发了一个网站(例如网上商店、社交网站或者其他任何东西),之后你把它发布到了网上,网站运行良好,每天有几百的访问量,能快速地响应用户的请求。但是有一天,不知道什么原因,你的网站出名了! 每分每秒都有成千上万的用户蜂拥而至,你的网站变得越来越慢……对你来讲,这是个好消息,但是对你的 Web 应用来说这是个坏消息。因为现在它需要扩展了,你的应用需要为全球用户提供 7*24 不宕机服务...原创 2019-04-23 22:38:38 · 939 阅读 · 2 评论 -
分布式系统Kafka和ES中,JVM内存越大越好吗?
这篇文章,给大家聊一个生产环境的实践经验:线上系统部署的时候,JVM 堆内存大小是越大越好吗?本文主要讨论的是 Kafka 和 Elasticsearch 两种分布式系统的线上部署情况,不是普通的 Java 应用系统。是否依赖 Java 系统自身内存处理数据?先说明一点,不管是我们自己开发的 Java 应用系统,还是一些中间件系统,在实现的时候都需要选择是否基于自己 Java 进程...原创 2019-04-27 02:25:54 · 743 阅读 · 0 评论 -
全球计算机与工程学科排名:MIT夺冠 中国23所高校上榜
世界四大权威大学排名之一的软科正式发布了《2018软科世界一流学科排名》,在计算机科学与工程学科排名中,MIT、斯坦福、CMU位列前三,中国清华大学首次进入前十名,排名第7。7月17日,与THE、QS和US News并称全球四大权威学校排名的软科,正式发布了2018“软科世界一流学科排名”(ShanghaiRanking’s Global Ranking of Academic Subject...原创 2019-04-09 21:36:27 · 3341 阅读 · 8 评论 -
大数据最核心的关键技术——32个算法,记得收藏!
奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次...原创 2019-04-05 23:10:11 · 1674 阅读 · 0 评论 -
2019全球AI人才报告发布:AI专家仅3.6万
有很多证据表明,顶级AI人才供不应求。然而,这类人才究竟有多么稀缺,或者他们都集中在世界各地哪些地方,却几乎不为人知。近日,加拿大Element AI首席执行官发布了最新的2019年《全球AI人才流动报告》,对AI人才的数量、分布范围等情况做了总结,可以说是目前最全的报告,主要采集了三个数据源。AI领域21个主要学术会议发表的论文,比如AAAI、CVPR等,并分析了作者的概括。有针对性...原创 2019-04-05 18:23:21 · 1353 阅读 · 0 评论 -
教育部公布新增人工智能等本科专业的高校名单
【导读】近日,教育部印发了《教育部关于公布2018年度普通高等学校本科专业备案和审批结果的通知》,全国共有35所高校获首批“人工智能”新专业建设资格,96所高校获批“智能科学与技术”专业,203所高校获批“数据科学与大数据技术”专业,25所高校获批“大数据管理与应用”专业,101所高校获批“机器人工程”专业,25所学校获批“网络空间安全”专业,14所学校获批“物联网工程”专业。以下为相关本科专业高...原创 2019-04-05 18:17:58 · 6145 阅读 · 0 评论 -
大数据24小时:腾讯拟30亿元加码云计算,谷歌母公司Alphabet成立网络安全子公司“编年史”
谷歌母公司Alphabet成立网络安全子公司“编年史”;腾讯拟30亿元入股网宿科技,加码云计算;广电运通成立人工智能研究院,Aibee创始人林元庆任院长……以下为您奉上更多大数据热点事件来源:数据猿 作者:abby一、谷歌母公司Alphabet成立网络安全子公司“编年史”日前,谷歌母公司Alphabet对外宣布,公司刚刚成立了第13家子公司——Chronicle LLC(...原创 2019-03-12 23:12:29 · 834 阅读 · 0 评论 -
快递员要失业?两位前谷歌工程师研发出自动驾驶汽车只送货不载人
一家名叫Nuro.ai的新公司在自动驾驶汽车技术上提出了一种完全不同的概念。但与目前遍布全球的自动驾驶初创公司不一样的是,Nuro的重点并不是以现有车型为基础打造自动驾驶出租车或自动驾驶卡车,而是设计出了一种全新的交通工具1月30日消息,一家名叫Nuro.ai的新公司在自动驾驶汽车技术上提出了一种完全不同的概念。Nuro.ai是由两位前谷歌工程师所创办,他们曾经在谷歌大名鼎鼎的自动驾...原创 2019-03-12 23:11:45 · 803 阅读 · 0 评论 -
三篇论文之bigtable
Bigtable:一个分布式的结构化数据存储系统译者:alex 摘要Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从UR...原创 2019-03-12 23:09:25 · 1339 阅读 · 0 评论 -
三篇论文之Google MapReduce中文版
译者: alex摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。...原创 2019-03-12 23:07:21 · 1157 阅读 · 0 评论 -
google三篇论文之GFS
Google在03至06年发表了著名的三大论文——GFS、BigTable、MapReduce,用来实现一个大规模的管理计算系统。今天先来谈谈GFS。因为论文里大段大段的文字加上专业术语读起来对我来说还是有一定困难的,这几篇论文我粗略地看了一遍,然后查询了一些资料,把我的理解以及把论文里一些原文提取出来整合了一下。把每个知识点单独列出来再分为更小的知识点,这样觉得比较容易理解。如果什么地方有理...原创 2019-03-12 23:03:52 · 1742 阅读 · 0 评论 -
Google的三篇大数据思想论文
大数据 1、什么是大数据 简单说就是身边的一切,你看到的是,听到的是,闻到的感觉到的触摸到的都是 2、具体一点 天猫淘宝的购物数据,你的聊天记录,医疗记录,看书或者挑东西时候的推荐物品大数据的问题 1、生活中的种种数据数量如此之多,如何存储 2、要让数据有意义,又该怎么去处理海量的数据Google对大数据问题的思想...转载 2019-03-12 22:59:54 · 922 阅读 · 0 评论 -
主流大数据平台及解决方案对比
个人学习总结大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储、运算、展现作为目的的平台。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。...原创 2019-03-12 22:58:28 · 2815 阅读 · 0 评论 -
大数据:2019年汽车4S店访客画像
以2018年Q4到访过全国汽车4S店的人群(剔除了汽车4S店工作人员)为研究对象,从全国汽车4S店访客画像、不同城市等级、不同档次和不同品牌汽车4S店访客画像等角度勾勒出国内4S店访客群像。极光大数据(纳斯达克股票代码:JG)发布《2019年汽车4S店访客画像》,以2018年Q4到访过全国汽车4S店的人群(剔除了汽车4S店工作人员)为研究对象,从全国汽车4S店访客画像、不同城市等级、...原创 2019-04-05 23:11:25 · 1431 阅读 · 2 评论 -
大数据平台应用 17 个知识点汇总
一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库H...原创 2019-04-07 17:02:50 · 1382 阅读 · 0 评论 -
Nginx+Tomcat windows环境下简单集群搭建
通俗点将,负载均衡就是因为访问流量太大,导致项目访问不流畅、甚至宕掉,所以通过一种分流的方式来缓解这种情况。一、 工具 nginx-1.8.0 apache-tomcat-6.0.33二、 目标 实现高性能负载均衡的Tomcat集群:三、 步骤1、首先下载Nginx,要下载稳定版:2、然后解压两个Tomcat,分别命名为apac...原创 2019-04-15 22:44:29 · 514 阅读 · 0 评论