2015年12月_晨晨的使魔

原创 [置顶]搜索引擎-一种提示词推荐算法

搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单：用户输入查询词，搜索引擎返回搜索结果。但是，搜索引擎需要达到的目标：更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。　　公司最近在开发某行业的垂直搜索引擎，我作为该项目组的核心成员主要是负责核心算法的研究工作。我也是刚开始接触这个行业，目前还处于摸索阶段，还有很长的路要走。言归正传，先谈一下这个项目

2015-12-05 23:47:04 2266

原创将博客搬至CSDN

在csdn也开通了博客。以博客园为主，本博客会第一时间持续更新最新的文章和算法研究

2015-12-05 23:46:59 234

原创 mapreduce导出MSSQL的数据到HDFS

今天想通过一些数据，来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQL SERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误　　奇怪了，我的SQL语句中没有LIMIT，这LIMIT哪来的。我翻看了DBInputFormat类的源码， 1 protected RecordR

2015-12-05 23:46:55 370

原创基于信息熵的无字典分词算法

这几天在研究如何用统计方法来发现新词，扩充自己的词典。看到了几篇很有想法的文章，作者阐述了一下思路。文章里面的数据，我计算了一下，发现文有很多数据不够严谨，最主要的问题，并没有给出很详细的理论方面的说明。结合作者的思路，我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集。其中，为一个文本，。设为文档的分片集合。其中，为文档的一个词语分片，分片就是按st

2015-12-05 23:46:50 1993

原创搜索引擎手记（三）之网页的去重

015年4月1日(星期二) 晴南风　　今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！My GOD！通过和群里进行技术交流，大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操

2015-12-05 23:46:48 575

原创算法之常用的距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，这里整理罗列下。　　为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3， … xn），Y=...

2015-12-05 23:46:44 3788

原创搜索引擎手记（二）之爬虫的开发

2015年3月23日(星期一) 晴、南风　　今天数据组开会说爬虫已经开发完毕，在尝试爬网站。由于我们采集的网站，网址都是固定的，并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库，爬虫的架构思路借鉴了下面的思路。一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取

2015-12-05 23:46:41 288

原创搜索引擎手记（一）之引擎工作的开始

2015年3月06日(星期五) 阴、南风，天空依旧没有太阳。　　项目的进展好比这天气一样，说变就变。搜索引擎的会议开完了。会议开完了的同时，也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划，项目的失败也必然的。虽然项目开始时候，大家都预见到了结局，但是当结局来临的那一刻，心情还是沉重。　　失败是成功之母，可是我敢说，对于大多数人来说，一直苦尝失败的

2015-12-05 23:46:39 331

原创 Hive安装（三）之奇怪的错误

启动hive命令报错 “Metastore contains multiple versions”解决方案：因为hive metastore存储在mysql中，所以登录mysql，use hive所使用的DB，然后查询下VERSION表 1 mysql> select * from VERSION; 2 3 +——–+—————-+——————+ 4 | VER

2015-12-05 23:46:34 295

原创 Hive安装（二）之表不见了

重启一下电脑，发现表不见了，原来我用的derby存储hive的meta，网上找了一下资料，说是要用mysql，于是安装mysql 1 sudo apt-get install mysql-server 首先用root登陆给root用户赋予权限1 $mysql -u root -p hive2 mysql> GRANT ALL PRIVILEGES ON *.* TO ro

2015-12-05 23:46:32 734

原创 Hive安装（一）之环境配置

Hive Web Interface（HWI）简介：Hive自带了一个Web-GUI，功能不多，可用于效果展示，如果没有安装Hue的话，是个不错的选择。由于hive-bin包中没有包含HWI的页面，只有Java代码编译好的jar包：hive-hwi-1.0.1.jar因此需要下载源码从中提取jsp文件并打包成war文件到hive-lib目录中：cd apache-hive-1.0.

2015-12-05 23:46:29 269

原创 Java锁（一）之内存模型

想要了解Java锁机制、引发的线程安全问题以及数据一致性问题，有必要了解内存模型，机理机制了解清楚了，这些问题也就应声而解了。一、主内存和工作内存　　Java内存模型分为主内存和工作内存，所有的变量都存储在主内存中。每条线程还有自己的工作内存，线程的工作内存中保存了被该线程使用到变量的主内存副本拷贝，线程对变量的所有操作都必须在工作内存中进行，而不能直接读写主内存中的变量。不同的线程之间也

2015-12-05 23:46:24 326

原创遗传算法（二）之组卷算法

组卷算法主要用于编制科学、公正的试卷的一种算法，具体大家可以百度看一下。我这篇文章主要是讲解如何通过遗传算法来实现组卷，遗传算法大家不清楚的地方仍然可以查看百度，不是这篇文章的重点。一、遗传算法的表示基本遗传算法（SGA）可以定义为一个8元数组：。其中：C：个体的编码，SGA种一般采用固定长度的二进制编码；E：适应度评价函数；：初始种群；M：群体大小，一般取20；

2015-12-05 23:46:22 7785

原创 Ubuntu 14 Trusty安装hue

想开始学习一下hive，需要一个使用起来方便的客户端，网上搜了一下发现hue是个很常用的工具。于是，就在自己的ubuntu14系统里，尝试安装hue。下面就是自己的安装步骤，记录如下：1、先查看自己的ubuntu的版本号 2、安装git　　sudo apt-get install git3、下载hue的源码　　git clone https://github.com/clo

2015-12-05 23:46:20 758

原创算法（三）粒子群算法之算法分类

粒子群算法主要分为4个大的分支：（1）标准粒子群算法的变形在这个分支中，主要是对标准粒子群算法的惯性因子、收敛因子（约束因子）、“认知”部分的c1，“社会”部分的c2进行变化与调节，希望获得好的效果。惯性因子的原始版本是保持不变的，后来有人提出随着算法迭代的进行，惯性因子需要逐渐减小的思想。算法开始阶段，大的惯性因子可以是算法不容易陷入局部最优，到算法的后期，

2015-12-05 23:46:15 899

原创算法（三）粒子群算法之局部粒子

在全局版的标准粒子群算法中，每个粒子的速度的更新是根据两个因素来变化的，这两个因素是：1. 粒子自己历史最优值pi。2. 粒子群体的全局最优值pg。如果改变粒子速度更新公式，让每个粒子的速度的更新根据以下两个因素更新，A. 粒子自己历史最优值pi。B. 粒子邻域内粒子的最优值pnk。其余保持跟全局版的标准粒子群算法一样，这个算法就变为局部版的粒子群算法。一般一个粒子i 的邻域随着

2015-12-05 23:46:13 1091

原创算法（三）粒子群算法PSO的介绍

一、引言在讲算法之前，先看两个例子：例子一：背包问题，一个书包，一堆物品，每个物品都有自己的价值和体积，装满书包，使得装的物品价值最大。例子二：投资问题，n个项目，第i个项目投资为ci 收益为pi，总投资不得超过C，如何选择项目总收益最大。如前所述，PSO模拟鸟群的捕食行为。设想这样一个场景：一群鸟在随机搜索食物。在这个区域里只有一块食物。所有的鸟都不知道食物在那里。但是他们知道当

2015-12-05 23:46:11 1528

原创算法（二）之遗传算法（SGA）

算法（二）之遗传算法（SGA）遗传算法（Genetic Algorithm）又叫基因进化算法或进化算法，是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型，属于启发式搜索算法一种。下面通过下面例子的求解，来逐步认识遗传算法的操作过程。我参考了博客（http://blog.csdn.net/b2b160/article/details/4680853/），这个博客没提供代码，为了新手更

2015-12-05 23:46:06 5412

原创算法(一)之洗牌算法

洗牌算法是我们常见的随机问题，在玩游戏、随机排序时经常会碰到，一个最常用的地方就是组卷。它可以抽象成这样：M以内的所有自然数的随机顺序数组。 package com.math;import java.util.Random;/** * @author summer * */public class Shuffle { static fina

2015-12-05 23:46:01 586

原创你真的说的清楚ArrayList和LinkedList的区别吗

参见java面试的程序员，十有八九会遇到ArrayList和LinkedList的区别？相信很多看到这个问题的人，都能回答个一二。但是，真正搞清楚的话，还得花费一番功夫。　　下面我从4个方面来谈谈这个问题一、结构上的区别从UML图来看，我们很容易看出ArrayList和LinkedLIst最大区别是ArrayList实现了RandomAccess 接口，而LinkedList是继承

2015-12-05 23:45:59 280

原创 Solr5.0源码分析-SolrDispatchFilter

年初，公司开发法律行业的搜索引擎。当时，我作为整个系统的核心成员，选择solr，并在solr根据我们的要求做了相应的二次开发。但是，对solr的还没有进行认真仔细的研究。最近，事情比较清闲，翻翻solr的源码，加深对solr的认识。在博客园上看到Ryan的Solr4.8.0源码分析（http://www.cnblogs.com/rcfeng/），跟着前人的脚步学习一下，并把5.0版本改动后的源码做

2015-12-05 23:45:57 306

原创我面试电商行业的经历-负载均衡

一、发发牢骚　　转眼之间，在IT行业的道路上已经走过了8载，虽然每天没日没夜的辛苦的工作，辛苦的学习，加上年龄越大，学习越吃力，但是仍然跟不上新技术涌现的脚步，有种被技术抛弃的感觉，这是一个技术更新换代日新月异的时代。知识的积累很重要，从事了很久的编程，但是仔细想起来，没有那一项技术真正很透彻的了解其原理，每天机械的coding,很少去思考事情的本质。最近，下定决心利用辞职这段时间来梳理一

2015-12-05 23:45:52 883

bigdatafly