zimohuakai-CSDN博客

转载百度分词算法分析(一）(二）(三）

查询处理以及分词技术百度分词算法分析(一）请见：http://topic.csdn.net/u/20101231/22/763e8601-972f-4459-acba-47435410a7ed.htmlSpelling Checker拼写检查错误提示(以及拼音提示功能) 百度分词算法分析(二）请见：http://topic.csdn.net/u/20101231/22/e8

2012-05-23 19:45:58 925

转载 svn cleanup报错

当使用svn时，有时会碰到svn死掉的问题，然后再使用snv时会说　　svn: 工作副本“某某某某”已经锁定　　svn: 运行“svn cleanup 某某某某”删除锁定 (输入“svn help cleanup”得到用法)　　运行“svn cleanup 某某某某”。SVN又报告一个错误　　svn: 在目录“某某某某”中　　svn: 处理命令 “modif

2012-04-26 13:32:05 2566

原创分词技术杂记

1. "切分标志字串"预处理方法是一个毫无必要的技术,它增加了一遍扫描"切分标志词典"的时空复杂性，却并没有提高分词精度，因为所谓的切分标志其实都已经隐含在词典之中，是对词典功能的重复。实际上"切分标志"也没有标记歧义字段的任何信息。2. 词性分词一体化：存在词的兼类问题和规则集的确定问题。3. 未登录词的介入会引起新的切分歧义，从而使分词系统所面临的形势更加复杂化。Sun M.S. an

2012-04-17 11:27:57 961

转载 [转载]中文搜索引擎技术揭密：中文分词

前言信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的Excite，以及alt

2012-04-17 11:11:13 4523

原创 0x00310030指令引用的0x00310030内存, 不能为written。

0x00310030指令引用的0x00310030内存。该内存不能为written。开始-运行-输入：regedit（这是个注册表、编辑器）然后找到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Uninstall\Wdf01005删除ok~~

2012-03-17 22:18:37 1242

转载 mmseg 分词算法

MMSEG是中文分词中一个常见的、基于词典的分词算法（作者主页：http://chtsai.org/index_tw.html），简单、效果相对较好。由于它的简易直观性，实现起来不是很复杂，运行速度也比较快。关于算法的原文，可以参见：http://technology.chtsai.org/mmseg/总的来说现在的中文分词算法，大概可以笼统的分为两大类：一种基于词典的，一种是非基于词典

2012-03-04 14:28:11 775

转载 rsync 常用参数

Rsync 常用组合rsync -avzSHP -e 'ssh -p 22' root@21andy.com:/www/21andy.com /21andy.com/*rsync -avzSHP root@21andy.com::21andy ./rsync -avzP --ignore-existing --exclude='cache/*' root@21andy.com::2

2012-03-04 13:44:07 1556

转载 python 列表操作

list:一种顺序存储结构，序列的一种，列表元素可以是任何类型，类似数组，引用类型。格式定义:olist=[1,'str',{'name':'goofy'},...]定义一个空的list:olist=[]获取列表元素个数:len(olist)删除一个列表:del olist删除一个列表元素:del list[i]“+”支持：olist1+

2012-03-03 21:08:47 14021

转载大规模SNS中兴趣圈子的自动挖掘

转自http://www.infoq.com/cn/articles/zjl-sns-automatic-mining一．为何要在大规模SNS中挖掘兴趣圈子随着国外的facebook、twitter以及国内的人人、新浪微博等SNS及内容分享平台的逐步流行，如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。所谓“兴趣圈子”，指的是在同一分享平台下，有着共同的兴趣爱好的用户

2012-02-25 23:21:17 1789

转载小世界网络 Small-world networks

直观的讲，网络就是一些点和连接这些点的线段。这些线段可以有方向，可以没有方向（双向）。方便起见，只看那些纽带是无方向的网络。大致上，可以把各种不同的网络按照放在“极端有序”（左边）到“极端无序”（右边）这个谱系上。它们都对应一个唯一的数学表达（N*N的矩阵，N是节点的数目，矩阵里的元素不是0，就是1）。来源：Bordalier Institute无序有无序的好处。对于

2012-02-09 13:34:13 10076 1

转载中文分词和TF-IDF

转自月光博客：http://www.williamlong.info/archives/1839.html　中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。　　TF-IDF（term frequency–inverse

2012-01-03 21:13:34 861

转载 14款中文分词开源软件

链接：http://www.oschina.net/project/tag/264/segment 开源中国社区‍1、IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词

2012-01-03 21:11:47 1766

转载 Google基于HillTop算法的更新

转载自车东的Bolg http://www.chedong.com/blog/archives/000034.htmlHillTop算法为何物及其工作原理=============================如果PR对于你来说是一个全新的概念，建议阅读有关Google的PageRank算法的文章。在最基本的搜索结果排序中，Google的PageRank算法决定了一

2011-11-20 21:58:37 544

转载 Google PageRank 算法

1.Google PageRank 算法1.1、PageRank(网页级别)的概念互联网发展早期的搜索引擎，对web页面的排序，是根据搜索的词组（短语）在页面中的出现次数（occurence ），并用页面长度和html标签的重要性提示等进行权重修订。链接名气(link popularity)技术通过其它文档链接到当前页面（inbound links）的链接数量来决定当前页的重要性，

2011-11-20 21:50:13 2315

转载机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

发布于http://leftnoteasy.cnblogs.com 决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，但是还是不够的。模型组合（比如说有Boosting，Bagging

2011-10-30 13:25:50 914

转载机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

发布于http://leftnoteasy.cnblogs.com,最近看的一些论文中发现了模型组合的好处，比如GBDT(Gradient Boosting Decision Tree)或者rf，都是将简单的模型组合起来，效果比单个更复杂的模型好。组合的方式很多，随机化（比如random forest），Boosting（比如GBDT）都是其中典型的方法，今天主要谈谈Gradient Bo

2011-10-30 13:21:57 713

转载机器学习中的数学(2)-线性回归，偏差、方差权衡

发布于http://leftnoteasy.cnblogs.com。想要像看《算法导论》这样看机器学习是个不可取的方法，机器学习里面有几个东西一直贯穿全书，比如说数据的分布、最大似然（以及求极值的几个方法，不过这个比较数学了），偏差、方差的权衡，还有特征选择，模型选择，混合模型等等知识，这些知识像砖头、水泥一样构成了机器学习里面的一个个的算法。想要真正学好这些算法，一定要静下心来将这些基础

2011-10-30 13:20:03 964

转载机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

转载自 http://leftnoteasy.cnblogs.com一些机器学习的书和视频，其中很推荐两个：一个是stanford的machine learning公开课，在verycd可下载，可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书，而且是2008年的，算是比较新的一本

2011-10-30 13:18:08 1111

李博士首先用AdaBoost算法在人脸识别领域的重要应用展现了机器学习对我们日常生活的影响。基于统计理论的学习以大量的训练数据作为学习基础，学习的最终过程是产生机器自动处理与自动决策的智能。接下来李博士介绍了监督学习，他首先使用了一组简单的01预测序列（可以表征在某种条件下明天会不会下雨的预测等等）介绍了监督学习的简单模型，并介绍了监督学习的三种形式的损失函数——指数损失、离散损失和平方损失，接下

2011-10-30 13:07:55 5391

原创 RMS Error

给定一个x, 回归线预测出一个平均的y值, 为了评价y值与平均值的spread状况, 定义了平方平均数误差(root-mean-square error, r.m.s. error).ref: http://www-stat.stanford.edu/~susan/courses/s60/split/node60.html

2011-10-30 12:59:58 4201

转载梯度下降法-python代码

一个通过迭代求解convex function最小值的方法: Gradient descent(梯度下降法)http://en.wikipedia.org/wiki/Gradient_descent这里给出一个python的代码:The gradient descent algorithm is applied to find a local minimum of the

2011-10-30 12:56:33 4251

转载 AdaRank和AdaBoost

这篇论文的题目是AdaRank: A Boosting Algorithm for InformationRetrieval。作者是微软亚洲研究院的的徐君和李航。这篇文章的主要思想就是利用boosting算法的思想在learning to rank里直接优化评价方法（directoptimization of performance measure）.涉及到learning to rank

2011-10-30 11:29:15 4045 2

转载 BM25算法

BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。BM25算法的一般性公式如下：其中，Q表示Query，qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素

2011-10-29 22:50:37 1423

转载 vc demension

VC 维在有限的训练样本情况下，当样本数 n 固定时，此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力，VC 维越大则学习机器越复杂(容量越大)。所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。推广的界（经验风险和实际风险之间的关系，注意引入这个原因是什么？因为训练误差再

2011-10-29 22:33:20 626

转载无法找到称心职位的25个原因

记住这些问题，很多读者在找工作时，一定会增加成功的机会。当你找工作时，若你觉得许多因素你不能掌控从而影响了你得到工作的可能性那会使你发狂。经济，你所在的地理位置，行业趋势，甚至招聘者的心情，都会对你是否能得到工作产生影响。然而，你可以责备自己缺少这些外部因素，但你不能忘了找工作时从投简历到面试，最重要的还是你。这里有25个方面可能不知不觉地破坏你的求职：

2011-10-29 22:31:45 573

转载刘铁岩-learning to rank

转载-刘铁岩在研究院工作快5年了，没想到电子工程出身的我会和SIGIR注1，这一信息检索领域的顶级会议，结下如此的不解之缘。从2004年到2008年，自己在信息检索这个方向上走过的道路，也是自己在微软亚洲研究院不断成长的过程：从熟悉信息检索这个领域，量身定做地投出第一篇SIGIR论文，到提高研究能力和写作技巧，到确定自己的主攻方向，到为引领一个研究学

2011-10-29 13:35:51 4567

转载 learning to rank 评价指标 MAP NDCG

MAP（Mean average precision）：评价一个rank方法性能的一个指标，现在有很多query，首先看rank方法对各个query来说性能分别是怎么样的（也就是AP），再平均起来，就是MAP。AP怎么算那？举个例子，现有一个query，与之相关的文档有4——D1

2011-10-06 18:05:20 6016

转载 vi常用快捷键

一、移动光标1) h或向左方向键(←)→ 光标向左移动一个字元 2) j或向下方向鍵(↓)→ 光标向下移动一个字元 3) k或向上方向鍵(↑)→ 光标向上移动一个字元 4) l或向右方向鍵(→

2011-10-06 17:25:00 723

转载 bootstrps、bagging 与boosting

bootstrps bagging boosting这几个概念经常用到，转载以备用：他们都属于集成学习方法，(如:Bagging，Boosting，Stacking)，将训练的学习器集成在一起,原理来源于PAC学习模型（Probably Approximately Corre

2011-08-21 21:50:37 1019

转载会议排名

说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同分的按字母序排列. 不很严谨地说, tier-1是可以令人羡慕的, tier-2是可以令人尊敬的,由于AI的相关会议非常多, 所以能列进tier-3的也是不错的tier-

2011-07-14 10:26:43 1192

转载 Semantic Search: The Myth and Reality 及其中文翻译

Semantic Search: The Myth and RealityWritten by Alex Iskold / May 29, 2008 2:15 PM / 15 CommentsFor a few years now people have be

2011-07-05 11:12:23 1305

转载 CoNLL大会内容

CoNLL（Conference on Computational Natural Language Learning）大会有论文集和评测06年：13种语言的依存句法分析评测（有汉语）07年：多语言依存分析（有汉语）；英文依存分析的跨领域测试 http://cs.jhu.edu/EMNLP-CoNLL-2007/08年：英语的依存句法-语义角色联合标注09年：7种语言的依存句法-语义角

2011-07-01 13:26:00 1682

转载皮尔逊相关系数

欧几里德距离欧几里得度量定义欧几里得空间中点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为但是当评价结果中,评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度.还有一种评价方法就是使用皮尔逊相关系数,它可以完成"夸大值纠偏":皮尔逊相关度系数两个变量之间的相关系数越高，从一个变量去预测另一个变量的精确度就越高，这

2011-07-01 10:16:00 12298

转载 [转]知乎上某人写面试豆瓣产品经理的经历

面试豆瓣产品经理的题目，你能答出来么？ 经过长达一周的时间，我终究还是没能弄明白这道题目，在我面试史上那个光灿灿的问题！ 话说给豆瓣投了移动产品经理职位的简历，当天收到人力回信，让提交一个豆瓣社区或是类街旁LBS产品的研究报告，心想，哇！“豆瓣”，多么金光闪闪的互联网招牌，不能怠慢呀。于是开始细心收集LBS的相关数据、案例，觉得这还不够，又自己用fireworks画了一个原型，提出的方案是结合豆瓣同城，如何能够让用户满意又能赚钱的LBS方案。<br /

2011-04-23 20:37:00 1743

原创 ubuntu10.04下配置nutch-1.2

首先安装jdk和tomcat，见前面两篇博文。下载apache的官方网站 http://www.apache.org/dyn/closer.cgi/lucene/nutch/或http://www.apache.org/dyn/closer.cgi/nutch最新版本是apache-nutch-1.2-bin.tar.gz安装解压缩到某个目录下即可，如/home/username/nutch准备工作(1) 在nutch-1.2目录下新建一个文件weburls.txt，写入初始网址，如http://www

2011-04-20 23:02:00 2542

原创 ubuntu10.0.4下安装tomcat

从tomcat的官方下载新的tomcat版本 http://tomcat.apache.org/download-70.cgi注意，一定要下载非源码文件（题目中不带src的），否则运行tomcat时会出现错误：could not find the main class:org.apache.catalina.startup.Bootstrap配置环境变量：(1) sudo gedit /home/username/tomcat/tomcat6/bin/environment加入： TOMCAT_HOME=/

2011-04-19 10:52:00 2107 2

原创 ubuntu10.04下配置java

安装sun-java6(http://wiki.ubuntu.org.cn/Sun-java6)添加partner源 sudo add-apt-repository "deb http://archive.canonical.com/ubuntu maverick partner"(注：如果系统提示没有add-apt-repository命令，则需要先安装python-software-properties，命令sudo apt-get install python-software-properties

2011-04-18 22:37:00 993 1

原创占位~

最近读了一本好书《我是一只it小小鸟》，深有感触。先占位，有空再细读一遍，再写点摘要出来~

2011-04-14 20:22:00 481

原创弹球游戏2--间隔计时器，信号

间隔计时器（interval timer） int setitimer(int which, const struct itimerval *new_value, struct itimerval *old_value); 系统为每个进程提供了三个间隔时钟，当其中一个时间累计满，就发送一个信号到进程并且间隔时钟重置。每个计时器有两个设置：初始时间(it_value)和重复间隔(it_interval)设置。 ITIMER_REAL 计量真实事件，不管进

2011-04-11 11:07:00 677

原创实践教程--弹球游戏

弹球游戏有三个主要因素：球，墙，用户输入。（1）球以一定的速度运行；（2）球碰到墙或挡板会逆行；（3）用户输入会改变球的运行状态：加速、减速或退出；向上、向下或斜行（二维）。程序主要功能设计：（1）计时器驱动间隔计时器被设置为产生固定的SIGALRMS信号流。响应一个信号，球向前移动一步。（2）等待键盘输入程序阻塞等待键盘输入。根据用户按下的键，采取不同的动作。（3）状态变量变量记录了球的速度和方向。用户输入修改的变量值决定了小球的速度。计时器处理函数根据速度和位置变量来决定在何时何处画小球。一维动画：一个

2011-04-11 10:51:00 2011

umdhmm-v1.02

我是一只IT小小鸟.pdf

空空如也