小敏呀-CSDN博客

原创 Spark SQL官方文档

1、概述（Overview）Spark SQL是Spark的一个组件，用于处理结构化数据。1.1 SQLSpark SQL除了用来执行SQL查询外，还可以读取Hive表数据。当使用编程语言运行sql时，结果会以数据集或数据帧（DataSet/DataFrame）的形式返回，当然，你也可以通过命令行或者JDBC/ODBC执行SQL。1.2 数据集与数据帧（DataSet/DataFr

2016-10-09 17:57:42 671

原创莫名的烦躁

最近总是莫名的烦躁，烦躁的自己都不喜欢自己。爸妈很正常的跟我说话，我也总能那么的不耐烦，我知道这么做不应该，可就是控制不住自己的情绪和语气。我要好好调整自己，或许我应该恢复每天运动的习惯，心态会变的平和。

2016-06-07 09:01:12 606

转载 oracle--delete和truncate的区别

语法delete from aa truncate table aa 区别 1.delete from后面可以写条件，truncate不可以。2.delete from记录是一条条删的，所删除的每行记录都会进日志，而truncate一次性删掉整个页，因此日至里面只记录页释放，简言之，delete from更新日志，truncate基本不，所用的事务日志空间较少。

2016-06-01 09:16:09 479

转载 Zookeeper-分布式锁简单实现

1.zookeeper实现分布式锁的作用是什么？2.ZooKeeper分布式锁的思路是什么？3.ZooKeeper锁不安全，该如何解决?4.你是否有实现ZooKeeper锁的思路？场景描述在分布式应用, 往往存在多个进程提供同一服务. 这些进程有可能在相同的机器上, 也有可能分布在不同的机器上. 如果这些进程共享了一些资源, 可能就需要分布式锁来锁定对这些资源的访问.本

2016-04-26 11:50:12 739

转载 Hadoop2.5.2 HA高可靠性集群搭建(Hadoop+Zookeeper)

一.概述1.1 hadoop1.0的单点问题Hadoop中的NameNode好比是人的心脏，非常重要，绝对不可以停止工作。在hadoop1时代，只有一个NameNode。如果该NameNode数据丢失或者不能工作，那么整个集群就不能恢复了。这是hadoop1中的单点问题，也是hadoop1不可靠的表现。如下图所示，便是hadoop1.0的架构图；1.2 hado

2016-04-12 11:50:51 1203

原创 Zookeeper安装

安装zookeeper 上面也说了 SolrCloud是基于Solr和Zookeeper的分布式搜索方案，所有要部署solrCloud+tomcat+zookeeper的集群，必须先安装zookeeper安装环境： Liux: CentOS release 6.4 JDK:1.7.0_55 因为我研究的是solr最新的版本，所以研究的是sol

2016-04-12 11:46:09 799

转载 Zookeeper原理

分布式集群中存在两大问题：1是一致性问题，2是资源管理问题。在目前的技术中，Zookeeper主要解决问题1，而Hadoop系统中的YARN主要解决问题2.ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在

2016-04-12 11:43:36 411

转载工程师的自学能力

今天看到的一篇文章，激励自己。每天我都有很多文章灵感，而绝大多数我都没公开，正所谓，忠言逆耳，我写 blog 的目的，也不是为了说大家爱听的，如果是这样，其实我可以顺顺便便就做好几个文章农场，每天传播给大家消遣时间用的文字就好了。网络工程师和其他工程师有一些很微妙的差异，这个差异就是，网络世界变化极快，范围极广，涉及可深可浅，就取决于你要放自己在那个位置。

2016-04-11 17:21:22 518

原创大数据分析--用户画像

从去年还在北京工作的时候就开始不断的听说，用户画像、用户画像，而且，有个项目，项目领导美其名曰：用户画像，这么长时间，也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章，决定整理消化，希望通过这种方式可以成为我自己的知识。一、什么是用户画像（user profile）用户画像，简而言之就是对用户信息的标签化，如图1所示。二、为什么需要用户画像用户画像的

2016-04-08 11:51:07 12410

转载大数据分析-用户画像详解

转自：百丽百灵（ID：BL100BL）转自数据分析公号，来源：数据客什么是用户画像？用户画像（User Profile），作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础，奠定了大数据时代的基石。用户画像，即用户信息标签化，就是企业通过收集与分

2016-04-08 09:29:28 170650 4

原创帕金森定律

帕金森现象。定律一：　　冗员增加原理:官员数量增加与工作量并无关系，而是由两个源动因造成的。每一个官员都希望增加部属而不是对手（如“投票”）；官员们彼此为对方制造工作（如行政审批，工商、税务、审计、公安，既得利益驱使）定律二：　　中间派决定原理:为了争取中间派的支持，双方颇费心机进行争取，特别是双方势均力敌的情况下。所以，不是竞争对手而是中间派成了主角。对决定的内容不十分清楚的人，意志薄弱

2016-03-10 11:50:47 921

原创 postgresql优化心得

1、存储过程中的游标与临时表；2、set enable_sort=off;关于这个的设置3、

2016-03-09 16:55:02 582

转载 postgre-隐藏系统列

和oracle数据库一样，postgresql也有自身的一套隐藏的系统列。下面介绍如下： 1.oid oid是object identifier的简写,其相关的参数设置default_with_oids设置一般默认是false,或者创建表时指定with (oids=false)，其值长度32bit,实际的数据库系统应用中并不能完全保证其唯一性; www.2cto.com

2016-03-09 15:01:00 1055

转载 PostgreSQL学习手册(SQL语言函数)

一、基本概念： SQL函数可以包含任意数量的查询，但是函数只返回最后一个查询(必须是SELECT)的结果。在简单情况下，返回最后一条查询结果的第一行。如果最后一个查询不返回任何行，那么该函数将返回NULL值。如果需要该函数返回最后一条SELECT语句的所有行，可以将函数的返回值定义为集合，即SETOF sometype。 SQL函数的函数体应该是用分号分隔的SQL语句列表，

2016-03-04 11:49:16 628

转载 PostgreSQL学习手册(PL/pgSQL过程语言)

一、概述： PL/pgSQL函数在第一次被调用时，其函数内的源代码(文本)将被解析为二进制指令树，但是函数内的表达式和SQL命令只有在首次用到它们的时候，PL/pgSQL解释器才会为其创建一个准备好的执行规划，随后对该表达式或SQL命令的访问都将使用该规划。如果在一个条件语句中，有部分SQL命令或表达式没有被用到，那么PL/pgSQL解释器在本次调用中将不会为其准备执行规划，这样的好

2016-03-04 11:44:25 847

转载 oracle--游标

这个文档几乎包含了oracle游标使用的方方面面，全部通过了测试-- 声明游标；CURSOR cursor_name IS select_statement--For 循环游标--（1）定义游标--（2）定义游标变量--（3）使用for循环来使用这个游标declare --类型定义 cursor c_job is select

2016-03-04 11:38:57 464

转载 oracle--物化视图

Oracle之物化视图近期根据项目业务需要对oracle的物化视图有所接触，在网上搜寻关于这方面的资料，便于提高，整理内容如下：物化视图是一种特殊的物理表，“物化”(Materialized)视图是相对普通视图而言的。普通视图是虚拟表，应用的局限性大，任何对视图的查询，Oracle都实际上转换为视图SQL语句的查询。这样对整体查询性能的提高，并没有实质上的好处。1、物化视图的类型：

2016-03-03 15:55:09 479

转载数据库设计范式

数据库设计三大范式基础知识：首先是基础概念，也就是术语：（1）实体（entity）：就是实际应用中要用数据描述的事物，一般是名词。（2）字段（fields）：就是一项数据，也就是我们平常所说的“列”。（3）记录（record）：一个实体的一个实例所特有的相关数据项的集合，也就是我们平常所说的“行”。（4）键（key

2016-03-03 11:57:36 638

转载计算广告学

Table of Contents1. 在线广告综述1.1. 广告的定义与目的1.2. 在线广告类型1.3. 在线广告简史1.4. 广告有效性原理1.5. 在线广告相关行业协会2. 计算广告基础2.1. 在线广告的技术特点2.2. 计算广告核心问题2.2.1. 在线广告技术课题2.2.2. 在线广告计费模式2.3. 计算广告系统架构2.4. 基础知识准备

2016-02-25 14:42:37 56176

转载深入分析事务的隔离级别

本文详细介绍四种事务隔离级别，并通过举例的方式说明不同的级别能解决什么样的读现象。并且介绍了在关系型数据库中不同的隔离级别的实现原理。在DBMS中，事务保证了一个操作序列可以全部都执行或者全部都不执行（原子性），从一个状态转变到另外一个状态（一致性）。由于事务满足久性。所以一旦事务被提交之后，数据就能够被持久化下来，又因为事务是满足隔离性的，所以，当多个事务同时处理同一个数据的时候，多

2016-02-25 14:37:46 568

转载大型网站架构技术一览

网站系统架构层次如下图所示：1.前端架构前端指用户请求到达网站应用服务器之前经历的环节，通常不包含网站业务逻辑，不处理动态内容。浏览器优化技术并不是优化浏览器，而是通过优化响应页面，加快浏览器页面的加载和显示，常用的有页面缓存、合并HTTP减少请求次数、使用页面压缩等。CDN内容分发网络，部署在网络运营商机房，通过将静态页面内容分发到离用户最

2016-02-25 11:42:44 582

转载 Mysql在大型网站的应用架构演变

原创文章，转载请注明：转载自http://www.cnblogs.com/Creator/本文链接地址: Mysql在大型网站的应用架构演变本文已经被多处转载，包括CSDN推荐以及码农周刊等等,阅读数超过50w+,回流到我博客流量的还是比较少,不过这不重要, 后续会分享更多技术，尽量试图把自己理解的东西描述出来(很多时候自己的理解是90分，可是描述出来就只有60分了)CSDN

2016-02-25 11:21:06 412

转载大型网站架构演化历程

大型网站系统的特点高并发，大流量需要面对高并发用户，大流量访问。Google 日均 PV 35 亿，日 IP 访问数 3 亿；腾讯 QQ 的最大在线用户数 1.4 亿（2011年数据）。高可用系统 7 x 24 小时不间断服务。海量数据需要存储、管理海量数据，需要使用大量服务器。Facebook 每周上传的照片数量接近 10 亿，百度收录的网页数目有

2016-02-25 11:19:41 569

转载 HTTP协议详解

引言 HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation

2016-02-24 18:01:12 317

转载 ab参数详解 – 压力测试

ab参数详解 – 压力测试Apache附带的ab，它非常容易使用，ab可以直接在Web服务器本地发起测试请求。这至关重要，因为我们希望测试的服务器的处理时间，而不包含数据的网络传输时间以及用户PC本地的计算时间。需要清楚的是，ab进行一切测试的本质都是基于HTTP，所以可以说它是对于Web服务器软件的黑盒性能测试，它获得的一切数据和计算结果，都可以通过HTTP来解释。

2016-02-23 09:03:58 1176

转载 Hive优化技巧

使用Hive有一段时间了，目前发现需要进行优化的较多出现在出现join、distinct的情况下，而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类：情形一：map已经达到100%,而reduce阶段一直是99%,属于数据倾斜情形二：使用了count(distinct)或者group by的操作，现象是reduce有进度但是进度缓慢，31%-3

2016-02-17 17:11:37 573

转载 Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作和SQL一样，HiveQL中同样支持DISTINCT操作，如下示例：(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROMl

2016-02-17 17:09:45 405

转载 PostgreSQL学习手册(角色和权限)

PostgreSQL是通过角色来管理数据库访问权限的，我们可以将一个角色看成是一个数据库用户，或者一组数据库用户。角色可以拥有数据库对象，如表、索引，也可以把这些对象上的权限赋予其它角色，以控制哪些用户对哪些对象拥有哪些权限。一、数据库角色： 1. 创建角色： CREATE ROLE role_name; 2. 删除角色： D

2016-01-29 09:36:57 502

转载 PostgreSQL学习手册(服务器配置)

一、服务器进程的启动和关闭：下面是pg_ctl命令的使用方法和常用选项，需要指出的是，该命令是postgres命令的封装体，因此在使用上比直接使用postgres更加方便。 pg_ctl init[db] [-D DATADIR] [-s] [-o "OPTIONS"] pg_ctl start [-w] [-t SECS] [-D DATADIR] [

2016-01-27 18:06:18 830

原创 postgre数据库

-前提：下载postgresql-9.3-1100.jdbc41.jar放到sqoop安装路径的lib路径下；sqoop的export命令将HDFS文件导入到postgre数据库，语法如下：sqoop export -D mapred.job.queue.name=default --table device_newday --connect jdbc:postgresql://192

2016-01-27 16:16:45 1076

转载数据库事务

事务（Transaction）是并发控制的基本单位。所谓的事务，它是一个操作序列，这些操作要么都执行，要么都不执行，它是一个不可分割的工作单位。例如，银行转账工作：从一个账号扣款并使另一个账号增款，这两个操作要么都执行，要么都不执行。所以，应该把它们看成一个事务。事务是数据库维护数据一致性的单位，在每个事务结束时，都能保持数据一致性。针对上面的描述可以看出，事务的提出主要是为

2016-01-25 14:39:27 408

转载 PostgreSQL学习手册(性能提升技巧)

一、使用EXPLAIN： PostgreSQL为每个查询都生成一个查询规划，因为选择正确的查询路径对性能的影响是极为关键的。PostgreSQL本身已经包含了一个规划器用于寻找最优规划，我们可以通过使用EXPLAIN命令来查看规划器为每个查询生成的查询规划。 PostgreSQL中生成的查询规划是由1到n个规划节点构成的规划树，其中最底层的节点为表扫描节点，用于从数据表中返

2016-01-25 14:38:11 480

转载 PostgreSQL学习手册(事物隔离)

在SQL的标准中事物隔离级别分为以下四种： 1. 读未提交(Read uncommitted) 2. 读已提交(Read committed) 3. 可重复读(Repeatable read) 4. 可串行化(Serializable) 然而PostgreSQL在9.1之前的版本中只是实现了其中两种，即读已提交和可串行化，如果在实际应用中选择了另外

2016-01-25 11:16:25 536

转载 PostgreSQL学习手册(索引)

一、索引的类型： PostgreSQL提供了多　　种索引类型：B-Tree、Hash、GiST和GIN，由于它们使用了不同的算法，因此每种索引类型都有其适合的查询类型，缺省时，CREATE INDEX命令将创建B-Tree索引。 1. B-Tree: CREATE TABLE test1 ( id integer,

2016-01-22 18:21:03 456

转载 PostgreSQL学习手册(函数和操作符<三>)

九、序列操作函数：序列对象(也叫序列生成器)都是用CREATE SEQUENCE创建的特殊的单行表。一个序列对象通常用于为行或者表生成唯一的标识符。下面序列函数，为我们从序列对象中获取最新的序列值提供了简单和并发读取安全的方法。函数返回类型描述nextval(regclass)bigint递增序列对象到它的下一个数值并且返回该

2016-01-21 14:43:43 588

转载 PostgreSQL学习手册(函数和操作符<二>)

六、模式匹配： PostgreSQL中提供了三种实现模式匹配的方法：SQL LIKE操作符，更近一些的SIMILAR TO操作符，和POSIX-风格正则表达式。 1. LIKE： string LIKE pattern [ ESCAPE escape-character ] string NOT LIKE pattern [ ESCAPE escape-

2016-01-21 10:31:12 560

转载 PostgreSQL学习手册(函数和操作符<一>)

一、逻辑操作符：常用的逻辑操作符有：AND、OR和NOT。其语义与其它编程语言中的逻辑操作符完全相同。二、比较操作符：下面是PostgreSQL中提供的比较操作符列表：操作符描述小于>大于小于或等于>=大于或等于=等于!=不等于

2016-01-21 10:13:35 577

转载 PostgreSQL（表的继承和分区）

一、表的继承：这个概念对于很多已经熟悉其他数据库编程的开发人员而言会多少有些陌生，然而它的实现方式和设计原理却是简单易懂，现在就让我们从一个简单的例子开始吧。 1. 第一个继承表： CREATE TABLE cities ( --父表 name text, population float,

2016-01-20 18:03:35 1761

转载 PostgreSQL学习手册（数据类型）

一、数值类型：下面是PostgreSQL所支持的数值类型的列表和简单说明：名字存储空间描述范围smallint2 字节小范围整数-32768 到 +32767integer4 字节常用的整数-2147483648 到 +2147483647bigint8 字节大范围的整数

2016-01-20 15:16:56 634

转载 PostgreSQL学习手册（模式schema）

一个数据库包含一个或多个命名的模式，模式又包含表。模式还包含其它命名的对象，包括数据类型、函数，以及操作符。同一个对象名可以在不同的模式里使用而不会导致冲突；比如，schema1和myschema都可以包含叫做mytable的表。和数据库不同，模式不是严格分离的：一个用户可以访问他所连接的数据库中的任意模式中的对象，只要他有权限。我们需要模式有以下几个主要原因： 1). 允

2016-01-20 15:15:34 557

a hough transform based voting framework fro action recognition

compoion 目标跟踪

空空如也