专注成就专业

原创论文笔记《Convolutional Neural Networks for Sentence Classification》

CNN+word2vec

2016-02-12 19:53:05 4327

原创定制带第三方库的python，解决spark/hadoop环境中sklearn的调用问题

Conda, Miniconda (Python)这是一个python定制的好工具。忙活了一整天，终于发现了它，这个工具可以让我们定制python和对应的第三方的库，方便我们在不同机器上执行这些第三方的库。http://scikit-learn.org/stable/install.htmlconda/condahttps://github.com/conda/condaMinic

2015-09-29 20:53:55 5117

原创随机森林（random forest）可以解决样本分布不均匀维度大且特征缺失的问题

随机森林的定义：上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a），即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感

2015-09-20 17:02:59 39283 3

原创处理样本分布不平衡，偏斜比较厉害的方法总结

由于，之前一直从事数据挖掘和机器学习方面的学习和工作。在学习和工作中经常会遇到训练的样本中的各个类别的数量存在比较大的差异，而这种差异给模型训练和预测到来了很多困难和挑战。针对这个问题，我们一般的处理方法有4种：1.上采样（over-sample）；2.下采样（under-sample）；3.smote方法；4.调整机器学习算法；一、上采样也叫过采样，是指用大于信号

2015-09-11 18:59:19 8079 1

原创用python写MapReduce函数

尽管Hadoop框架是用java写的，但是Hadoop程序不限于java，可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例，而不是用Jython把python代码转化成jar文件。例子的目的是统计输入文件的单词的词频。输入：文本文件输出：文本（每行包括单词和单词的词频，两者之间用'\t'隔开） 1. Pyth

2015-08-05 21:14:02 1726 1

原创 HMM MEMM CRF 区别联系

声明：本文主要是基于网上的材料做了文字编辑，原创部分甚少。参考资料见最后。隐马尔可夫模型（Hidden Markov Model，HMM），最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）以及条件随机场（Conditional Random Field，CRF）是序列标注中最常用也是最基本的三个模型。HMM首先出现，MEMM其次，CRF最后。三个算法

2015-07-20 15:45:14 5211

原创 map 的插入方法下标法和 insert 法的区别

对于STL中的map，插入有两种方法：1、map a; a[1 ]=1 //此方法初始化a[1]，并给a[1]赋值。 a[1]=2 //此方法修改了a[1的值。2 map a; a.insert(map::value_type(1,1)); //此方法初始化a[1]，并给a[1]赋值。 a.insert(map::value_type(1,

2015-07-17 15:06:43 2651

转载 python 中文编码问题文件

python 中文编码问题中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？我们要知道python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？首先我们先看一下源代码文件中使用字符

2015-06-23 19:15:12 852

转载 gdb调试多线程

gdb 多线程调试http://hi.baidu.com/hcq11/blog/item/9f5bfc6e696209d680cb4a25.html http://hi.baidu.com/litto/blog/item/759389dd198111375882dd1e.html http://blogold.chinaunix.net/u3/94700/showart_23894

2015-06-06 11:13:22 660

原创特征选择方法

1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1）它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多，而其它类出现少，即考察各类的文档频率的差异。如果一个特征词，在各个类间分布比较均匀

2015-06-04 18:18:08 4082

转载在C++中使用TinyXML2解析xml

读取和设置xml配置文件是最常用的操作，试用了几个C++的XML解析器，个人感觉TinyXML是使用起来最舒服的，因为它的API接口和Java的十分类似，面向对象性很好。 TinyXML是一个开源的解析XML的解析库，能够用于C++，能够在Windows或Linux中编译。这个解析库的模型通过解析XML文件，然后在内存中生成DOM模型，从而让我们很方便的遍历这棵XML树。

2015-05-27 17:07:26 720

转载 AdaBoost--从原理到实现

一.引入对于Adaboost，可以说是久闻大名，据说在Deep Learning出来之前，SVM和Adaboost是效果最好的两个算法，而Adaboost是提升树(boosting tree)，所谓“提升树”就是把“弱学习算法”提升(boost)为“强学习算法”(语自《统计学习方法》)，而其中最具代表性的也就是Adaboost了，貌似Adaboost的结构还和Neura

2015-05-19 21:15:23 690

原创字符串流 istringstream 和 ostringstream 的用法

stringstream 特定的操作stringstream strm; // 创建自由的 stringstream 对象stringstream strm(s); //创建存储 s 的副本的 stringstream 对象，其中 s 是 string 类型的对象strm.str() //返回 strm 中存储的 string 类型对象strm.str(s) //将 strin

2015-03-29 17:15:10 1126

原创文本分类中遇到的小问题总结

1.当语料很大，并且编码和自己期望的不一样，用iconv命令单独转换很麻烦，可以考虑下边的形式。比如要转换当前目录下所有文件的编码为utf8for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done2.使用fscanf读取文件中的数据时，当数据很大时，往往会失败。这个时候很有可能是我们的语料中出现了它不能识别的

2015-03-23 08:47:14 1277

原创学习KNN算法体会和总结

k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。索引结构中相似性查询有两种基本的方式：一种是范围查询（range searches），另一种是K近邻查询（K-neighbor searches）。范围查询就是给定查询点和查询距离的阈值，从数据集中找出所有与查询点距离小于阈值的数据；K近邻查询

2015-03-15 10:17:55 5129

原创 HMM的学习笔记1：前向算法

HMM的学习笔记 HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测的随机过程。HMM由两个状态和三个集合构成。他们分别是观测状态序列，隐藏状态序列，转移概率，初始概率和混淆矩阵（观察值概率矩阵）。HMM的三个假设：1、有限历史性假设，p(si|si-1,si-2,..

2015-03-12 20:49:11 1114

转载推荐系统的循序进阶读物（从入门到精通）

转载一篇文章，作为记录，有时间去看一遍～为了方便大家从理论到实践，从入门到精通，循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读，也欢迎提出意见和指出未标明的经典文献以丰富各学科需求（为避免初学者疲于奔命，每个方向只推荐几篇经典文献）。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了

2014-11-01 14:08:09 846

转载机器学习相关——文本分类综述

文本分类的定义　　文本分类是现在非常热门的一个研究领域，也是机器学习中最为重要最为基础的组成部分。文本分类有各种各样的方法，有些简单易懂，有些看上去非常复杂。其实只要搞清楚他们背后的原理，理解文本分类并不是一件很困难的事情。今天先从宏观上介绍一下文本分类，后续会在其他博文中分门别类对文本分类这一课题进行深入的分析，敬请关注。也希望各位高手们多提建议，毕竟我也是菜鸟一个。　　文本分类

2014-11-01 14:05:41 1076

转载基于隐马尔可夫模型的有监督词性标注

词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。词性标注本质上是一个分类问题，对于句子中的每一个单词W，

2014-07-31 00:42:51 2315

原创标记偏置隐马尔科夫最大熵马尔科夫 HMM MEMM

隐马尔科夫模型（HMM）：图1. 隐马尔科夫模型隐马尔科夫模型的缺点： 1、HMM只依赖于每一个状态和它对应的观察对象：序列标注问题不仅和单个词相关，而且和观察序列的长度，单词的上下文，等等相关。 2、目标函数和预测目标函数不匹配： HMM学到的是状态和观察序列

2014-07-26 17:23:39 5975

转载中科院大牛博士是如何进行文献检索和阅读(好习惯受益终生)

1.如何进行文献检索我是学自然科学的，平时确实需要不少外文文献，对于自然科学来讲英文文献检索首推Elsevier，Springer等。虽然这些数据库里面文献已经不算少了。但是有时还会碰到查不到的文献，而这些文献的数据库我们所在研究所或大学又没有买，怎么办？我基本通过以下向个途径来得到文献。 1．首先在Google 学术搜索里进行搜索，里面一般会搜出来你要找的文献，在Google学术搜索

2014-04-19 00:06:42 1784

原创总结一下当前游戏服务器的结构

2013-07-14 14:20:07 1188 1

原创 erlang的进程树Supervisor

erlang的进程树SupervisorSupervisor Behaviour是一个用来实现一个supervisor进程来监控其他子进程的模块子进程可以是另一个supervisor，也可以是一个worker进程 worker进程一般使用gen_event，gen_fsm或gen_server behaviour来实现一个使用该模块来实现的supervisor有一个接口方法的标

2013-07-10 10:48:57 2444

原创 erlang集成开发环境搭配配置出现的问题

问题：Unable to create the selected preference page. com.avaya.exvantage.ui.interfaces.eclipse.plugin 解决办法: 解决: 将path路径中的%JAVA_HOME%\bin 移动到最前面即可. 系统级别path高于用户级别path jdk路径一定在系统path比较保险问题：虚拟机

2013-06-24 21:11:57 1295

原创 Mnesia基本用法

查看表结构查看mnesia表的结构:mnesia:info().查看此表的基本信息:mnesia:table_info(, all).Mnesia初使化mnesia:stop(),mnesia:create_schema([node()]),mnesia:start().创建表mnesia:create_t

2013-06-19 15:43:44 2685

原创在 CentOS 上安装Erlang开发环境

在 CentOS 上安装Erlang开发环境1、 yum groupinstall Base "Development Tools" "Perl Support" 2、 yum install gcc glibc-devel make ncurses-devel openssl-devel autoconf3、 yum install unixODBC unixODBC-dev

2013-06-17 19:00:53 1567

原创配置Erlang shell的工作路径

按照Joe Armstrong在Programming Erlang中的叙述，对于Windows用户要想在启动Erlang shell时就进入自己的代码存放目录，可以在Erlang的安装路径下创建命名为.erlang的文件，将如下代码写入文件： io:format("consulting .erlang in ~p~n", [element(2,file:get_cwd())]

2013-06-14 20:34:50 1486

原创 C/C++中用Lua函数

1.简介　　偶们这次主要说说怎么由Lua定义函数, 然后在C或者C++中调用. 这里偶们　　暂不涉及C++的对象问题, 只讨论调用函数的参数, 返回值和全局变量的使用.　　　　2.程序　　这里偶们在e12.lua里先定义一个简单的add(), x,y为加法的两个参数,　　return 直接返回相加后的结果.　　　　例e12.lua　　-- add two num

2013-05-16 20:54:15 1040

原创 mysql数据库id重复无法删除的解决方法

由于好长时间没有搞数据库了，SQL语句忘了好多。最近，要用到这方面的只是，这个是由于服务器后台使用Mysql来对数据进行存储数据造成的，为了要做个在线时间的统计的功能，服务端必须要记录一些时间段的用户在线情况。其实，实现起来不是很难，但是多条线的情况时，可能会涉及多个服务器对数据库的写入，这个时候，如果id是有上层来确定是很困难的。所以呢，应该做成自动更新id的方式。例

2013-05-08 19:34:01 1165

原创代码优化之循环展开

数组的循环与分割，利用了计算机系统的两个特点： 1. 有多块高速缓存; 2. Cpu是可以多指令并行执行（要求多条指令之间没有数据相关性）。在我们的例子中：数组切分: 将1个数组切分为2个数组。这样就能用2块高速缓存来存数据，高速缓存的访问速度是内存的 10倍以上循环展开: 我们将的步进设置为4,每次处理的数据之间没有任何关系，这样

2013-04-22 20:18:24 1373

原创记录一下查找资料的方法

goagent 和Windows 平台下使用 Chrome 浏览器的使用步骤如下：【1】到GoogleApp Engine ，如果还没有帐号，点击注册来申请一个帐号。【2】点击Create Application 来创建新的应用。【3】输入一个应用名，点击 Check Availability 检测可用后，点击 CreateApplication 来创建应用。【4】到goagen

2013-04-11 18:25:59 915

转载游戏开发资源列表

国内站点:http://www.gameres.com/ 中国游戏开发技术资源网(国内知名游戏技术站)http://bbs.gamedev.csdn.net/web/default.aspx 中国游戏开发者CGD(论坛)http://www.chaosstars.com/ 北京混沌星辰科技有限公司-ChaosStars(之前的开发GBA程序的小组)http://www.cgfron

2013-04-11 12:16:58 3118

原创 setmetatable的一点总结

local obj = {}setmetatable( obj, { __index = mission_t } )return objmission_t为对应模块的文件名。在LUA中的文件中使用module("mission_t",package.seeall )这样的形式，可以防止某些命名的冲突，相当于C++的namespace，在调用这个模块的函数的时候，加上模块名：函

2013-04-10 10:08:09 2132

原创 setmetatable的一点总结

local obj = {}setmetatable( obj, { __index = mission_t } )return objmission_t为对应模块的文件名。在LUA中的文件中使用module("mission_t",package.seeall )这样的形式，可以防止某些命名的冲突，相当于C++的namespace，在调用这个模块的函数的时候，加上模块名：函

2013-04-10 10:02:17 14546

原创搜索引擎：第一章布尔查询学习笔记

第一章布尔查询学习笔记倒排序记录提取词文档ID 对词排序去重New 1 Forcasts ForcastsHome 1

2013-04-07 19:35:52 1271

原创调研：开源搜索引擎

本文档是对现有的开源的搜索引擎的一个简单介绍1. LuceneLucene的开发语言是java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索, 但linkedin和twitter有分别对Luc

2013-03-30 14:44:20 5436

转载 Windows下Critical Section、Event、Mutex、Semaphores区别

临界区（Critical Section）保证在某一时刻只有一个线程能访问数据的简便办法。在任意时刻只允许一个线程对共享资源进行访问。如果有多个线程试图同时访问临界区，那么在有一个线程进入后其他所有试图访问此临界区的线程将被挂起，并一直持续到进入临界区的线程离开。临界区在被释放后，其他线程可以继续抢占，并以此达到用原子方式操作共享资源的目的。临界区包含两个操作原语

2013-03-21 17:40:27 791

原创 LUA中函数返回表的时候的问题

今天，在处理游戏中人物状态数据的时候，出现了很诡异的问题。搞了好久才解决，不过LUA到目前为止连学代做也就搞了不到一个礼拜，其中有很多不是很适应的地方。这个可能是由于LUA和C/C++有些不太一样吧。言归正传，LUA函数在返回相关表的时候，注意返回的是引用，假如返回去后，数据可能被修改哦。。。。记住！！！！当然，我们可以通过做一个中间变量来返回。保持

2013-03-18 16:50:49 1928

原创 LUA注意事项

编写LUA脚本的时候，有些问题一定得注意了，尤其是那些喜欢在VS的IDE下进行开发的用户了，尤其是那些喜欢VA插件的用户。大多数时候，LUA作为一个辅助性的语言，对项目中的某些逻辑进行编写。在编写这些脚本的时候，我们常常需要注意拼写是否正确，因为这个时候，没有有帮你检查这些。假如拼写错误了，当用C++这些语言调用脚本里边的某些函数或者数据的时候就会出现某些nil等错误。。今天，就为

2013-03-14 18:56:07 1233

原创抽奖分析

抽奖分析游戏当中有一个抽奖的活动，抽奖肯定是一个随机的过程，作为游戏的后端而言，就是要产生一个随机的过程。产生这个随机的过程的方法，一般也就是我们常用的利用当前时间作为一个种子，然后调用rand函数来产生一个随机数X。得到这个产生的随机数的方法取决于X对什么求模。下边我们用4399游戏中的神将世界作为一个例子描述。这个抽奖，实际上就是用X % 16 。因

2013-03-13 10:19:28 1304

链表问题，真的很有用！！！！！！！

广州多益网络2013校园招聘上机题目2

2011广州多益上机题

自己动手写内核 源码

编译技术期末考题-199502005

经典的课程设计，帮你解决一切！！

机器人足球教程,给每个热爱机器人足球的人!!!!!!!!!!

空空如也

自己动手写内核源码