big data
记录哥
大数据实践者,喜欢技术热爱生活,gh【记录技术记录我】
展开
-
Spark SQL
Spark SQL概念及相关的操作原创 2017-11-04 20:48:35 · 472 阅读 · 0 评论 -
Pandas基础学习
Pandas基础学习基本概念Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。使...原创 2018-06-03 19:09:22 · 270 阅读 · 0 评论 -
NumPy基础学习
NumPy基础学习 基本概念NumPy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。Numpy内部解除了Python的PIL(全局解释器锁),运算效率极好,是大量机器学习框架的基础库! 使用举例 import numpy as np# 创建列表arr1=[[ 1., 0., 0.], [ 0., ...原创 2018-06-03 16:17:41 · 260 阅读 · 0 评论 -
计算广告概述
最近看到一篇博客,是有关计算广告的.感觉写的很不错.收藏下来.转自如下地址:https://dirtysalt.github.io/html/computational-advertising.html#orgheadline3转载 2018-06-03 12:21:30 · 488 阅读 · 0 评论 -
关于Netty的一些总结
netty一,netty拷问:本质:JBoss做的一个jar包;目的:快速开发高性能,高可靠的网络服务器和客户端程序;优点:提供异步的,事件驱动的网络应用程序框架和工具;二,netty的基本信息:Netty就是基于java NIO技术封装的一套框架;(为什么要封装呢,因为原生的javaNIO试用起来没有那么方便,而且还有臭名昭著的bug,nettey把它封装后,提供了一个易于操作的使用模式和接口,...原创 2018-05-08 17:29:33 · 1152 阅读 · 0 评论 -
Zookeeper的调用-javaApi
使用Java API调用Zookeeper 一,概述: 我们知道可以通过命令来操作Zookeper的客户端和服务端并进行相应的操作,但是有时候需要使用java在程序中对其进行操作.即,通过API(JAVA)来操作Zookeeper. 二,依赖: <dependency> <groupId>org...原创 2018-05-14 12:41:02 · 323 阅读 · 0 评论 -
kafka Streams Application
kafka流式处理应用开发一,相关依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-streams</artifactId> <version>${ka...原创 2018-05-13 18:25:13 · 415 阅读 · 0 评论 -
hadoop总结
一,MapReduce基本的一些概念:MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息.Hadoop将作业分成若干个任务(task)来执行,其中包括两类任务:map任务和reduce任务.这些任务运行在集群的节点上,并通过YARN进行调度.如果一个任务失败,它将在另一个不同的节点上自动重新调度运行.Hadoop将MapReduce的输...原创 2018-05-10 00:11:16 · 423 阅读 · 0 评论 -
zookeeper总结
zookeeper解决的问题:1,单点故障,如下图:传统的是如下,可是有可能发现主节点发生故障.就会出现单点故障.2,常规的处理单点故障的解决方案.3,常规的处理单点故障的解决方案可能遇到的问题.网络问题可能造成同时有两个主节点.4,zookeeper的解决方案.5,zookeeper的解决方案2....原创 2018-04-22 23:03:40 · 165 阅读 · 0 评论 -
ELK之我见
笔者在工作之中有接触过ELK,于是把一些基础内容总结出来.Kafka:接收用户日志的消息队列;Logstash:做日志解析,统一成JSON输出给ElasticSearch;ElasticSearch:实时日志分析服务的核心技术,一个schemaless,实时的数据存储服务,通过index组织数据,兼容强大的搜索和统计功能;Kibana:基于ElasticSearch的数据可视化组件,超强的数据可视...原创 2018-04-22 12:08:27 · 211 阅读 · 0 评论 -
Flume 配置文件概述
Flume 常用配置总结原创 2017-10-28 12:09:44 · 548 阅读 · 0 评论 -
Spark 计算框架
Apache Spark™是用于大规模数据处理的快速和通用引擎.原创 2017-11-03 21:33:06 · 2317 阅读 · 0 评论 -
Parquet
ParquetParquet是面向分析型业务的列式存储格式原创 2017-11-04 16:02:04 · 482 阅读 · 0 评论 -
机器学习中常见库总结
机器学习中常见库总结一,matplotlib概述:Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建海量类型地2D图表和一些基本的3D图表.1,官网https://matplotlib.org/index.html2,完整文档https://matplotlib.org/contents.html#3,初学者入门教程https://m...原创 2018-10-19 16:53:38 · 985 阅读 · 0 评论