自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 一文彻底搞懂看似高深莫测的人工智能

欢迎关注鄙人公众号,技术干货随时看!   现在的互联网领域张口机器学习,闭口神经网络,三句不离深度学习(Oh,oh,oh!AI、DeepLearning更容易把人唬住。),外行人或甚至干了十多年的资深开发人员都会觉得触不可及,可能的原因大概是对人工智能认知的问题,大部分人都以为人工智能是指计算机...

2019-12-12 09:19:43

阅读数 1181

评论数 2

原创 Elasticsearch查询参数batched_reduce_size的解释

欢迎关注鄙人公众号,技术干货随时看!   当我们使用Elasticsearch查询数据时,如果数据量非常大时,会命中大量分片中的大量数据,可能会造成集群内存异常,此时可以通过一个高级参数batched_reduce_size进行控制。使用方法如下: GET user_order/_search?...

2019-11-27 15:26:46

阅读数 79

评论数 0

原创 理解Elasticsearch返回结果中命中数total值的具体含义

欢迎关注鄙人公众号,技术干货随时看!   自从Elasticsearch5.X进行了大改版以后,返回结果中命中数total值具体含义也变得复杂,可以说默认情况下total值不再确保准确。下面是查询时返回结果的格式: 1 { 2 "took" : 4...

2019-11-27 15:08:37

阅读数 332

评论数 0

原创 write.wait_for_active_shards参数和 refresh参数实现elasticsearch同步写入

  elasticsearch一般称为近实时的大数据处理引擎,为什么是近实时呢?原因是当我们提交索引数据时,实际上只是写到了Buffer里面,并不是立即可搜索的,最多需要等1秒才可搜索(index.refresh_interval由这个参数控制,可以通过动态API自定义设置,或在建索引时在sett...

2019-08-26 15:46:05

阅读数 25762

评论数 0

原创 图解---图和动态规划算法

  动态规划是一种算法设计思想或者说是一种编程思维,并非想快速排序、二分查找、选择排序这种具体的算法。一般应用于图论中,用来寻找“最短路径”。图模拟的是实体间的关系或连接,如网页链接、人们的社交关系,如下的图表示张三的人际交际图:   图由节点和边组成,一个节点可能与多个节点直接相连,这些节...

2019-08-09 15:05:53

阅读数 34574

评论数 0

原创 彻底理解Runnable和Thread的区别

  在实际工作中,我们很可能习惯性地选择Runnable或Thread之一直接使用,根本没在意二者的区别,但在面试中很多自以为是的菜货面试官会经常而且非常严肃的问出:请你解释下Runnable或Thread的区别?尤其是新手就容易上当,不知如何回答,就胡乱编一通。鄙人今天告诉你们这二者本身就没有本...

2019-07-30 09:45:42

阅读数 18221

评论数 3

原创 很重要的编码技巧之霍夫曼规则

  编码在我们的生活中无处不在,常见的身份证号码、电话号码、物品的分类编码、商品编码等,有的编码只要求排他性即可,但有的编码需要遵循科学的规则。   霍夫曼编码的原理很简单:出现的频次越高,编码越短。这样做的原因是,当初发电文的资源宝贵和昂贵,可以节省资源和成本。现在电话号码的区号,依然遵循了霍...

2019-07-02 14:03:44

阅读数 15370

评论数 0

原创 深刻理解数据仓库

讨论的问题 什么是数据仓库? 为什么数据仓库一定要有建模? 数据仓库怎么建模? 国内数据仓库常见的失败原因 目前发现的部分问题 数据中心探讨及建议 什么是数据仓库?业内普遍接受的定义: 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Buildin...

2017-11-14 09:35:36

阅读数 15888

评论数 2

原创 高性能搜索引擎sphinx源码解析之中文分词和mmseg

注:此文档基于sphinx及mmseg3代码整理,内容可能有疏漏,以后逐步完善术语:待分字符串:中华人民共和国 Chunk:中华,人民,共和国,为一条chunk(词组,item的组合) Item:中华,为一个item Sphinx分词器类包括四种:单字节字符集分词类器CSphTokenize...

2019-12-12 09:25:44

阅读数 15397

评论数 0

原创 shell脚本中常用的几个特殊变量

$0 这个程式的执行名字 $n 这个程式的第n个参数值,n=1…9 $* 这个程式的所有参数,此选项参数可超过9个。 $# 这个程式的参数个数 $$ 这个程式的PID(脚本运行的当前进程ID号) $! 执行上一个背景指令的PID(后台运行的最后一个进程的进程ID号) $? 执行上一个指令的返回值 ...

2019-09-11 13:36:06

阅读数 10822

评论数 0

原创 elasticsearch应用之大数据领域的三个核心问题

如何存储数据   传统的关系型数据库(Mysql,Oracle,Access等),主导了上个世纪的数据存储模式,但当数据量达到PB级,甚至TB级时,关系型数据库表现出了难以解决的瓶颈问题。为了解决海量数据存储和分布式计算问题,Google Lab提出了Map/Reduce 和 Google Fil...

2019-09-10 16:33:24

阅读数 11625

评论数 0

原创 彻底理解Linux系统下文件的软链接和硬链接的区别

  最近有同事来问鄙人,通过ln命令创建的文件的软链接和硬链接到底有啥区别,使用起来功能上貌似是一样的,感觉都像是文件的一个别名而已,而且软链接用的居多。网络上流传的资料,大多都是胡扯级别的:软链文件与源文件内容不同、硬链接会创建独立的虚拟文件、inode不同或相同之类的。建立文件链接的目的一般是...

2019-09-10 13:11:07

阅读数 11921

评论数 0

原创 阿童木评三国之街亭之败

  建兴六年(公元二二八年),彼时南方已定,兵甲已足,诸葛亮上表,请命奖率三军,北伐中原,以图先帝刘备未完的统一大业。   诸葛亮亲统大军三十万,声势浩大,势如破竹,兵临渭水,直逼长安,南安、天水和安定三郡反魏附蜀,关中震动。情势危急之下,魏明帝曹叡拜请司马懿出山,此时诸葛大军屯兵祁山,司马懿令张...

2019-08-23 17:40:38

阅读数 11806

评论数 0

原创 成功之路散文连载之伪君子岳不群

  在金庸先生塑造的江湖世界里,凡大成者,皆是浪荡不羁,淡泊名利,但都胸怀侠义之心,以苍生为念。而那些所谓的名门正派,皆是带着君子面具的伪君子,金庸先生对这些伪君子都进行了猛烈的抨击,全面褒扬了真正的侠义之士。我们可以看出金庸先生的人生观:侠义之道在内心,不再外。   笑傲江湖世界里,岳不群可谓是...

2019-08-23 13:48:14

阅读数 11783

评论数 0

原创 成功之路散文连载之名师出高徒

  飞雪连天射白鹿,笑书神侠倚碧鸳。少年时代有金庸先生的江湖世界陪伴我们,我们是幸福的。小说、电视剧、电影等每一部作品中都穿插着作者或导演本人的人生观,或多或少,或隐或显,但不可否认。   在金庸塑造的江湖世界里,每位主角最后扬名天下,都是经过名师指点的,我们可以看出金庸先生的人生观:名师出高徒!...

2019-08-22 16:07:20

阅读数 11654

评论数 0

原创 成功之路散文连载之笨人论

  水向低处流,人往高处走!我们从出生开始就时刻感受着贫富的差距、社会地位的悬殊,不管你是否意识到,承认与否,这个感觉伴随着我们成长而愈渐强列。   少儿时,我们立下童年志:像孙悟空一样上天入地;少年时,我们立下少年志:像杨过一样意外跌入一个山洞,然后练成盖世武功,天下无敌,不再被人欺负。   弱...

2019-08-22 13:54:05

阅读数 11661

评论数 0

原创 论互联网公司技术团队Leader的重要性

  一个企业的失败,终究是人的失败!说什么市场饱和,国家政策问题,都不过是庸人自欺欺人的借口罢了!   鄙人从一个资深的码农走到今天的团队Leader,自认为有资格讨论Leader对团队的重要性,以及对整个公司发展的影响。 ...

2019-08-19 18:05:55

阅读数 19138

评论数 1

原创 用户相关的常用搜索转化率指标

  作为代码界的老司机,除了开发新的业务需求,就剩优化代码了。但优化后的效果如何,会不会更差了,如何衡量呢?相信很多人都不知道,甚至根本没考虑过这个问题。作为企业最终追求的唯一目标是:利润!评价优化后的效果主要看:销售额和利润是否有提升! 如何把这个问题量化呢?本文主要讨论和用户相关的几种常用的...

2019-08-01 16:34:35

阅读数 19148

评论数 0

原创 elasticsearch常用接口和集群动态设置

查看接口,返回的结果是目录,也就是可用的URL节点,自己把每个节点试一次就基本上明白其用处了 http://10.202.250.91:9200/_cat/ /_cat/shards /_cat/shards/{index} /_cat/master /_cat/nodes /_cat/task...

2019-07-05 10:22:28

阅读数 15235

评论数 0

原创 离职原因之3B分类问题

  当我们准备离职时,几乎没人都会被问到离职的原因。我们把整个应聘流程分为三个阶段: 第一阶段:电话沟通阶段,我们称为S1 第二阶段:现场面试阶段,我们称为S2 第三阶段:薪资和入职事宜沟通阶段,我们称为S3   我们可以依据离职原因这个问题,大概推测出您正在应聘的公司的品行(物以类聚...

2019-05-31 09:32:58

阅读数 15438

评论数 2

原创 elasticsearch重要但容易被忽略的几个参数设置

elasticsearch目前是业内应用最广泛的大数据存储、搜索和分析引擎。因为开源免费,笔者认为没有之一!笔者多年的开发经验,elasticsearch可以完成大数据实时搜索、海量数据存储(PB级)、BI报表产出(kibana)等大数据所需的绝大多数应用。如果你用elasticsearch存储T...

2019-05-06 18:10:04

阅读数 15635

评论数 0

原创 org.elasticsearch.common.util.concurrent.EsRejectedExecutionException 查询超时异常处理记录---一定要用单例模式

elasticsearch client 即TransportClient(最常用的一个实现),一定要使用单例模式,不懂单例模式的自己去学!不用单例模式的代价是残酷的,鄙人作为开发经理,曾被一个二笔开发坑得一塌糊涂,原因就是这个二笔把client封装成了线程池(越是二笔往往越以为自己是大神,鄙人还...

2019-04-22 18:43:18

阅读数 16249

评论数 2

原创 hanlp源码解析word2vec词向量算法

one-hot表示法   词向量就是把一个词用向量的形式表示,以前的经典表示法是one-hot,这种表示法向量的维度是词汇量的大小。它的处理方式简单粗暴,一般就是统计词库包含的所有V个词,然后将这V个词固定好顺序,然后每个词就可以用一个V维的稀疏向量来表示,向量中只有在该词出现的位置的元素才...

2019-01-29 15:21:49

阅读数 15510

评论数 0

原创 elasticsearch 6.x 集群布署与head、Kibana和IK分词插件的配置

  首先准备三台linux服务器,在三台服务器上安装ElasticSearch.6.3,及其head、Kibana插件,插件只需安装在其中一台即可。elasticsearch 6.x以后变化有点的,head和Kibana,不能放在elasticsearch的 plugins、modules 目录下...

2018-07-23 12:49:27

阅读数 16080

评论数 1

原创 centOS下安装rasa_core(亲自测试可行)

  本文讲解在python3.6下安装rasa_core,安装rasa_core不用再单独安装rasa_nlu。   首先要确保安装了gcc,g++,python3,pip本文不再详解,在下面的安装过程中如果提示少了哪些东西,安装上就可以了   第一步,安装conda   wget ...

2018-07-18 17:57:06

阅读数 16050

评论数 0

原创 linux系统lib64中的libc.so.6版本升级

  libc.so.6 是c运行时库 glibc的软链接,而系统几乎所有程序都依赖c运行时库。程序启动和运行时,是根据libc.so.6 软链接找到glibc库。删除libc.so.6将导致系统的几乎所有程序不能工作。   每个glibc.so文件有它支持的libc版本,可以通过 string...

2018-07-18 14:29:12

阅读数 22335

评论数 0

原创 centOS系统gcc升级步骤(亲自测试成功)

  第一步,下载你需要的gcc源码,https://mirror.sergal.org/gnu/gcc/ 到这个地址去找就可以了。这里我们假设安装的是gcc-4.9.0.tar.gz      第二步,tar -xzvf gcc-4.9.0.tar.gz 然后 cd gcc-4.9.0...

2018-07-18 11:37:17

阅读数 21216

评论数 1

原创 论世界杯中的团队意识的重要性

  俄罗斯世界杯已进入1/4决赛阶段,四强尘埃落定,然而本届世界杯却被一些球迷(鄙人认为是伪球迷)称为是史上“最弱四强”,4支球队总共只拿过2次世界杯冠军。当初的夺冠热门德国、阿根廷、巴西、西班牙相继出局,意大利小组都没能出线!那么本届世届杯四强真的是“史上最弱吗,其实恰恰相反,本届四强是理所当然...

2018-07-09 10:54:35

阅读数 15613

评论数 0

原创 数据中心建设-赵建亭-专题视频课程

用形像、深刻、通俗的方式展示数据仓库的实质、数据中心建设的技术、建模的重要性及数据仓库建设失败常见原因分析

2018-06-26 16:49:58

阅读数 116

评论数 0

原创 深度学习核心技术与实战视频教程-赵建亭-专题视频课程

该深度学习算法培训课程会教大家使用5W1H(what、why、when、who、where、how)方式来分析深度学习算法相关基础、卷积神经网络核心技术、应用领域等相关知识。然后通过经典的卷积神经网络模型LeNet-5来进行实战教学,深入浅出。...

2018-06-22 13:10:43

阅读数 140

评论数 0

原创 实战神经网络-赵建亭-专题视频课程

详细全面讲解神经网络的核心技术及编程实现,包括前向传播,反向传播,参数初始化,梯度下降,隐藏层解密等神经网络核心技术。

2018-06-21 15:18:21

阅读数 83

评论数 0

原创 神经网络三之权重参数的初始化技巧

  神经网络的结构是开发都自己定义的,主要包括神经网络的层数、每层的结点数、层与层之间的连接方式,神经网络的训练过程就是学习参数的过程,而刚开始训练时参数矩阵都是通过一定的方式生产的。下面分别介始常用的参数矩阵的生产方式 基本原则   一般情况下较大的初始权重经过前向传播过程,到输出层的的...

2018-06-14 15:32:06

阅读数 15304

评论数 0

原创 为什么损失函数多用交叉熵entropy来计算

  我们知道对于回归问题一般采用均方差来计算损失,这是因为回归输出的是一个实数,这样来计算一个batch中预测值与实际的均方差是自然而然的选择的,而且导数非常简单(神经网络参数的更新依据就是梯度也就是偏导),这里不再推导均方差的偏导。   但对于分类问题,输出的是一个n维的向量,向量的每个值是...

2018-06-13 16:35:25

阅读数 16444

评论数 0

原创 神经网络二之神经网络反向传播原理与python编程实现

误差   样本数据的真实值与神经网络的输出值之间的差值称为误差,当然一般不会直接使用直接的差值,常用的有回归算法的均方差、分类的交叉熵,这方面不影响我们来讨论神经网络的反向传播原理与过程,所以不做过多讨论。 梯度下降   目前的神经网络层数可达百层以上,激活函数又是非线性...

2018-06-07 11:00:35

阅读数 19995

评论数 0

原创 tensorflow滑动平均模型ExponentialMovingAverage的使用

  滑动平均模型可以在一定程度上提高最终模型在测试集或实际预测数据的准确性。神经网络中每层的参数矩阵W都建一个对应的影子变shade_w量,一般情况下每一批数据更新一次W,shade_w也会随着更新但更新的幅度小有W。影子变量更新值由下面的公式决定:   shadow_w = decay * s...

2018-06-06 12:16:41

阅读数 15434

评论数 0

原创 tensolrflow中get_variable和tf.Variable区别

  先来看下二者的定义:    Variable:必须给定的参数只有一个initial_value,如果名字没指定会自己生成一个Variable:0类似于此 def __init__(self, initial_value=None, ...

2018-06-04 18:00:49

阅读数 15189

评论数 0

原创 神经网络一之神经网络结构与原理以及python实战

  本系列埔文由浅入深介绍神经网络相关知识,然后深入神经网络核心原理与技术,最后浅出python神经网络编程实战。通过本系列博文,您将彻底理解神经网络的原理以及如何通过python开发可用于生产环境的程序。本博文论讨神经网络的结构与原理    计算机所长:    了解计算机源理的人...

2018-06-04 13:05:29

阅读数 16827

评论数 1

原创 hanlp关键词提取算法TextRank

  TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。引用...

2018-05-24 15:44:05

阅读数 18336

评论数 0

原创 java并发编程之CyclicBarrier原理分析与实例

  CyclicBarrier是栅栏的意思,线程要越过这个栅栏才能继续执行,但是必须是所有的线程到齐后才能一起越过这个栅栏。主要适用了两个或多个线程的线程组在预定的执行点进行等待,直达线程组中所有的线程都到达执行点再继续执行。   例如一个团队游戏,总共10人参加,其中有一个项目是跨越高墙,跨越...

2018-05-22 13:22:06

阅读数 15264

评论数 0

原创 java并发编程之CountDownLatch原理分析与实例

  CountDownLatch的原理与Semaphore是类似的,其内部是用一个计数器控制线程间的同步,也是通过一个AbstractQueuedSynchronizer中state来实现的,state是一个private volatile long类型的对象。CountDownLatch使用st...

2018-05-22 12:47:59

阅读数 15254

评论数 0

提示
确定要删除当前文章?
取消 删除