自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bigdatafly

老骥伏枥志在千里烈士暮年壮心不已

  • 博客(22)
  • 收藏
  • 关注

原创 [置顶]搜索引擎-一种提示词推荐算法

搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单:用户输入查询词,搜索引擎返回搜索结果。但是,搜索引擎需要达到的目标:更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。  公司最近在开发某行业的垂直搜索引擎,我作为该项目组的核心成员主要是负责核心算法的研究工作。我也是刚开始接触这个行业,目前还处于摸索阶段,还有很长的路要走。言归正传,先谈一下这个项目

2015-12-05 23:47:04 2266

原创 将博客搬至CSDN

在csdn也开通了博客。以博客园为主,本博客会第一时间持续更新最新的文章和算法研究

2015-12-05 23:46:59 234

原创 mapreduce导出MSSQL的数据到HDFS

今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQL SERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误   奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻看了DBInputFormat类的源码, 1 protected RecordR

2015-12-05 23:46:55 370

原创 基于信息熵的无字典分词算法

这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集 。其中,为一个文本,。设 为文档的分片集合。其中,为文档的一个词语分片,分片就是按st

2015-12-05 23:46:50 1993

原创 搜索引擎手记(三)之网页的去重

015年4月1日(星期二) 晴 南风  今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!My GOD!通过和群里进行技术交流,大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操

2015-12-05 23:46:48 575

原创 算法之常用的距离和相似度度量

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。   为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=...

2015-12-05 23:46:44 3788

原创 搜索引擎手记(二)之爬虫的开发

2015年3月23日(星期一) 晴、南风  今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路。一、        架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取

2015-12-05 23:46:41 288

原创 搜索引擎手记(一)之引擎工作的开始

2015年3月06日(星期五)       阴、南风,天空依旧没有太阳。   项目的进展好比这天气一样,说变就变。搜索引擎的会议开完了。会议开完了的同时,也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划,项目的失败也必然的。虽然项目开始时候,大家都预见到了结局,但是当结局来临的那一刻,心情还是沉重。  失败是成功之母,可是我敢说,对于大多数人来说,一直苦尝失败的

2015-12-05 23:46:39 331

原创 Hive安装(三)之奇怪的错误

启动hive命令报错 “Metastore contains multiple versions”解决方案:因为hive metastore存储在mysql中,所以登录mysql,use hive所使用的DB,然后 查询下VERSION表  1 mysql> select * from VERSION; 2 3 +——–+—————-+——————+ 4 | VER

2015-12-05 23:46:34 295

原创 Hive安装(二)之表不见了

重启一下电脑,发现表不见了,原来我用的derby存储hive的meta,网上找了一下资料,说是要用mysql,于是安装mysql 1 sudo apt-get install mysql-server  首先用root登陆给root用户赋予权限1 $mysql -u root -p hive2 mysql> GRANT ALL PRIVILEGES ON *.* TO ro

2015-12-05 23:46:32 734

原创 Hive安装(一)之环境配置

Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择。由于hive-bin包中没有包含HWI的页面,只有Java代码编译好的jar包:hive-hwi-1.0.1.jar因此需要下载源码从中提取jsp文件并打包成war文件到hive-lib目录中:cd apache-hive-1.0.

2015-12-05 23:46:29 269

原创 Java锁(一)之内存模型

想要了解Java锁机制、引发的线程安全问题以及数据一致性问题,有必要了解内存模型,机理机制了解清楚了,这些问题也就应声而解了。一、主内存和工作内存  Java内存模型分为主内存和工作内存,所有的变量都存储在主内存中。每条线程还有自己的工作内存,线程的工作内存中保存了被该线程使用到变量的主内存副本拷贝,线程对变量的所有操作都必须在工作内存中进行,而不能直接读写主内存中的变量。不同的线程之间也

2015-12-05 23:46:24 326

原创 遗传算法(二)之组卷算法

组卷算法主要用于编制科学、公正的试卷的一种算法,具体大家可以百度看一下。我这篇文章主要是讲解如何通过遗传算法来实现组卷,遗传算法大家不清楚的地方仍然可以查看百度,不是这篇文章的重点。一、遗传算法的表示基本遗传算法(SGA)可以定义为一个8元数组:。其中:C:个体的编码,SGA种一般采用固定长度的二进制编码;E:适应度评价函数;:初始种群;M:群体大小,一般取20;

2015-12-05 23:46:22 7785

原创 Ubuntu 14 Trusty安装hue

想开始学习一下hive,需要一个使用起来方便的客户端,网上搜了一下发现hue是个很常用的工具。于是,就在自己的ubuntu14系统里,尝试安装hue。下面就是自己的安装步骤,记录如下:1、先查看自己的ubuntu的版本号 2、安装git  sudo apt-get install git3、下载hue的源码  git clone https://github.com/clo

2015-12-05 23:46:20 758

原创 算法(三)粒子群算法之算法分类

粒子群算法主要分为4个大的分支:(1)标准粒子群算法的变形       在这个分支中,主要是对标准粒子群算法的惯性因子、收敛因子(约束因子)、“认知”部分的c1,“社会”部分的c2进行变化与调节,希望获得好的效果。      惯性因子的原始版本是保持不变的,后来有人提出随着算法迭代的进行,惯性因子需要逐渐减小的思想。算法开始阶段,大的惯性因子可以是算法不容易陷入局部最优,到算法的后期,

2015-12-05 23:46:15 899

原创 算法(三)粒子群算法之局部粒子

在全局版的标准粒子群算法中,每个粒子的速度的更新是根据两个因素来变化的,这两个因素是:1. 粒子自己历史最优值pi。2.  粒子群体的全局最优值pg。如果改变粒子速度更新公式,让每个粒子的速度的更新根据以下两个因素更新,A. 粒子自己历史最优值pi。B. 粒子邻域内粒子的最优值pnk。其余保持跟全局版的标准粒子群算法一样,这个算法就变为局部版的粒子群算法。      一般一个粒子i 的邻域随着

2015-12-05 23:46:13 1091

原创 算法(三)粒子群算法PSO的介绍

一、引言在讲算法之前,先看两个例子:例子一:背包问题,一个书包,一堆物品,每个物品都有自己的价值和体积,装满书包,使得装的物品价值最大。例子二:投资问题,n个项目,第i个项目投资为ci 收益为pi,总投资不得超过C,如何选择项目总收益最大。如前所述,PSO模拟鸟群的捕食行为。设想这样一个场景:一群鸟在随机搜索食物。在这个区域里只有一块食物。所有的鸟都不知道食物在那里。但是他们知道当

2015-12-05 23:46:11 1528

原创 算法(二)之遗传算法(SGA)

算法(二)之遗传算法(SGA)遗传算法(Genetic Algorithm)又叫基因进化算法或进化算法,是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,属于启发式搜索算法一种。下面通过下面例子的求解,来逐步认识遗传算法的操作过程。我参考了博客(http://blog.csdn.net/b2b160/article/details/4680853/),这个博客没提供代码,为了新手更

2015-12-05 23:46:06 5412

原创 算法(一)之洗牌算法

洗牌算法是我们常见的随机问题,在玩游戏、随机排序时经常会碰到,一个最常用的地方就是组卷。它可以抽象成这样:M以内的所有自然数的随机顺序数组。 package com.math;import java.util.Random;/** * @author summer * */public class Shuffle { static fina

2015-12-05 23:46:01 586

原创 你真的说的清楚ArrayList和LinkedList的区别吗

参见java面试的程序员,十有八九会遇到ArrayList和LinkedList的区别?相信很多看到这个问题的人,都能回答个一二。但是,真正搞清楚的话,还得花费一番功夫。  下面我从4个方面来谈谈这个问题一、结构上的区别从UML图来看,我们很容易看出ArrayList和LinkedLIst最大区别是ArrayList实现了RandomAccess 接口,而LinkedList是继承

2015-12-05 23:45:59 280

原创 Solr5.0源码分析-SolrDispatchFilter

年初,公司开发法律行业的搜索引擎。当时,我作为整个系统的核心成员,选择solr,并在solr根据我们的要求做了相应的二次开发。但是,对solr的还没有进行认真仔细的研究。最近,事情比较清闲,翻翻solr的源码,加深对solr的认识。在博客园上看到Ryan的Solr4.8.0源码分析(http://www.cnblogs.com/rcfeng/),跟着前人的脚步学习一下,并把5.0版本改动后的源码做

2015-12-05 23:45:57 306

原创 我面试电商行业的经历-负载均衡

一、发发牢骚  转眼之间,在IT行业的道路上已经走过了8载,虽然每天没日没夜的辛苦的工作,辛苦的学习,加上年龄越大,学习越吃力,但是仍然跟不上新技术涌现的脚步,有种被技术抛弃的感觉,这是一个技术更新换代日新月异的时代。知识的积累很重要,从事了很久的编程,但是仔细想起来,没有那一项技术真正很透彻的了解其原理,每天机械的coding,很少去思考事情的本质。最近,下定决心利用辞职这段时间来梳理一

2015-12-05 23:45:52 883

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除