自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xum2008的专栏

专注成就专业!!!

原创 论文笔记《Convolutional Neural Networks for Sentence Classification》

CNN+word2vec

2016-02-12 19:53:05

阅读数 3200

评论数 1

原创 定制带第三方库的python,解决spark/hadoop环境中sklearn的调用问题

Conda, Miniconda (Python)这是一个python定制的好工具。忙活了一整天,终于发现了它,这个工具可以让我们定制python和对应的第三方的库,方便我们在不同机器上执行这些第三方的库。 http://scikit-learn.org/stable/install.html ...

2015-09-29 20:53:55

阅读数 4247

评论数 1

原创 随机森林(random forest)可以解决样本分布不均匀维度大且特征缺失的问题

随机森林的定义:上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类...

2015-09-20 17:02:59

阅读数 23229

评论数 3

原创 处理样本分布不平衡,偏斜比较厉害的方法总结

由于,之前一直从事数据挖掘和机器学习方面的学习和工作。在学习和工作中经常会遇到训练的样本中的各个类别的数量存在比较大的差异,而这种差异给模型训练和预测到来了很多困难和挑战。针对这个问题, 我们一般的处理方法有4种: 1.上采样(over-sample); 2.下采样(under-sample...

2015-09-11 18:59:19

阅读数 5150

评论数 1

原创 用python写MapReduce函数

尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。       例子的目的是统计输入文件的单词的词频。 输入:...

2015-08-05 21:14:02

阅读数 1014

评论数 1

原创 HMM MEMM CRF 区别 联系

声明:本文主要是基于网上的材料做了文字编辑,原创部分甚少。参考资料见最后。 隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Fiel...

2015-07-20 15:45:14

阅读数 3277

评论数 0

原创 map 的插入方法 下标法 和 insert 法的区别

对于STL中的map,插入有两种方法: 1、map a;      a[1 ]=1   //此方法初始化a[1],并给a[1]赋值。      a[1]=2   //此方法修改了a[1的值。 2 map a;     a.insert(map::value_type(1,1)); //此...

2015-07-17 15:06:43

阅读数 1876

评论数 0

转载 python 中文编码问题 文件

python 中文编码问题 中文编码问题是用中文的程序员经常头大的问题,在python下也是如此,那么应该怎么理解和解决python的编码问题呢? 我们要知道python内部使用的是unicode编码,而外部却要面对千奇百怪的各种编码,比如作为中国程序经常要面对的gbk,gb2312,...

2015-06-23 19:15:12

阅读数 480

评论数 0

转载 gdb调试多线程

gdb 多线程调试 http://hi.baidu.com/hcq11/blog/item/9f5bfc6e696209d680cb4a25.html  http://hi.baidu.com/litto/blog/item/759389dd198111375882dd1e.html  ...

2015-06-06 11:13:22

阅读数 514

评论数 0

原创 特征选择方法

1. TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。 1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在...

2015-06-04 18:18:08

阅读数 3459

评论数 0

转载 在C++中使用TinyXML2解析xml

读取和设置xml配置文件是最常用的操作,试用了几个C++的XML解析器,个人感觉TinyXML是使用起来最舒服的,因为它的API接口和Java的十分类似,面向对象性很好。       TinyXML是一个开源的解析XML的解析库,能够用于C++,能够在Windows或Linux中编译。这个解析库...

2015-05-27 17:07:26

阅读数 547

评论数 0

转载 AdaBoost--从原理到实现

一.引入          对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升(boost)为“强学习算法”(语自《...

2015-05-19 21:15:23

阅读数 547

评论数 0

原创 字符串流 istringstream 和 ostringstream 的用法

stringstream  特定的操作 stringstream strm; // 创建自由的 stringstream 对象 stringstream strm(s); //创建存储 s 的副本的 stringstream 对象,其中 s 是 string 类型的对象 strm.str()...

2015-03-29 17:15:10

阅读数 910

评论数 0

原创 文本分类中遇到的小问题总结

1.当语料很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。 比如要转换当前目录下所有文件的编码为utf8 for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done 2.使用fscanf...

2015-03-23 08:47:14

阅读数 715

评论数 0

原创 学习KNN算法体会和总结

k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。 索引结构中相似性查询有两种基本的方式:一种是范围查询(range searches),另一种是K近邻查询(K-neighbor searche...

2015-03-15 10:17:55

阅读数 2477

评论数 0

原创 HMM的学习笔记1:前向算法

HMM的学习笔记   HMM是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测的随机过程。 HMM由两个状态和三个集合构成。他们分别是观测状态序列,隐藏状态序列,转移概率,初始概率和混淆矩...

2015-03-12 20:49:11

阅读数 911

评论数 0

转载 推荐系统的循序进阶读物(从入门到精通)

转载一篇文章,作为记录,有时间去看一遍~ 为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。 1. 中文综述(了解概念...

2014-11-01 14:08:09

阅读数 685

评论数 0

转载 机器学习相关——文本分类综述

文本分类的定义   文本分类是现在非常热门的一个研究领域,也是机器学习中最为重要最为基础的组成部分。文本分类有各种各样的方法,有些简单易懂,有些看上去非常复杂。其实只要搞清楚他们背后的原理,理解文本分类并不是一件很困难的事情。今天先从宏观上介绍一下文本分类,后续会在其他博文中分门别类对文本分...

2014-11-01 14:05:41

阅读数 843

评论数 0

转载 基于隐马尔可夫模型的有监督词性标注

词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发...

2014-07-31 00:42:51

阅读数 1705

评论数 0

原创 标记偏置 隐马尔科夫 最大熵马尔科夫 HMM MEMM

隐马尔科夫模型(HMM): 图1. 隐马尔科夫模型 隐马尔科夫模型的缺点:         1、HMM只依赖于每一个状态和它对应的观察对象:               序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。       ...

2014-07-26 17:23:39

阅读数 5200

评论数 0

转载 中科院大牛博士是如何进行文献检索和阅读(好习惯受益终生)

1.如何进行文献检索   我是学自然科学的,平时确实需要不少外文文献,对于自然科学来讲英文文献检索首推Elsevier,Springer等。虽然这些数据库里面文献已经不算少了。但是有时还会碰到查不到的文献,而这些文献的数据库我们所在研究所或大学又没有买,怎么办?我基本通过以下向个途径来得到文献。...

2014-04-19 00:06:42

阅读数 1534

评论数 0

原创 总结一下当前游戏服务器的结构

2013-07-14 14:20:07

阅读数 1084

评论数 1

原创 erlang的进程树Supervisor

erlang的进程树Supervisor Supervisor Behaviour是一个用来实现一个supervisor进程来监控其他子进程的模块  子进程可以是另一个supervisor,也可以是一个worker进程  worker进程一般使用gen_event,gen_fsm或gen_s...

2013-07-10 10:48:57

阅读数 1850

评论数 0

原创 erlang集成开发环境搭配配置出现的问题

问题:Unable to create the selected preference page.  com.avaya.exvantage.ui.interfaces.eclipse.plugin  解决办法:  解决: 将path路径中的%JAVA_HOME%\bin 移动到最前面即可....

2013-06-24 21:11:57

阅读数 1135

评论数 0

原创 Mnesia基本用法

查看表结构 查看mnesia表的结构: mnesia:info(). 查看此表的基本信息: mnesia:table_info(, all). Mnesia初使化 mnesia:stop(), mnesia:create_schema([node...

2013-06-19 15:43:44

阅读数 2287

评论数 0

原创 在 CentOS 上安装Erlang开发环境

在 CentOS 上安装Erlang开发环境 1、  yum groupinstall Base "Development Tools" "Perl Support"   2、  yum install gcc glibc-devel make ncur...

2013-06-17 19:00:53

阅读数 1371

评论数 0

原创 配置Erlang shell的工作路径

按照Joe Armstrong在Programming Erlang中的叙述,对于Windows用户要想在启动Erlang shell时就进入自己的代码存放目录,可以在Erlang的安装路径下创建命名为.erlang的文件,将如下代码写入文件:  io:format("...

2013-06-14 20:34:50

阅读数 1325

评论数 0

原创 C/C++中用Lua函数

1.简介   偶们这次主要说说怎么由Lua定义函数, 然后在C或者C++中调用. 这里偶们   暂不涉及C++的对象问题, 只讨论调用函数的参数, 返回值和全局变量的使用.      2.程序   这里偶们在e12.lua里先定义一个简单的add(), x,y为加法的两个参数,   r...

2013-05-16 20:54:15

阅读数 870

评论数 0

原创 mysql数据库id重复无法删除的解决方法

由于好长时间没有搞数据库了,SQL语句忘了好多。 最近,要用到这方面的只是,这个是由于服务器后台使用Mysql来对数据进行存储数据造成的, 为了要做个在线时间的统计的功能,服务端必须要记录一些时间段的用户在线情况。 其实,实现起来不是很难,但是多条线的情况时,可能会涉及多个服务器对数据库的写...

2013-05-08 19:34:01

阅读数 864

评论数 0

原创 代码优化之循环展开

数组的循环与分割, 利用了计算机系统的两个特点:     1. 有多块高速缓存;     2. Cpu是可以多指令并行执行(要求多条指令之间 没有数据相关性)。     在我们的例子中:     数组切分: 将1个数组切分为2个数组。 这样就能用2块高速缓存来存数据, 高速缓存的访问速度是...

2013-04-22 20:18:24

阅读数 873

评论数 0

原创 记录一下查找资料的方法

goagent 和Windows 平台下使用 Chrome 浏览器的使用步骤如下: 【1】到GoogleApp Engine ,如果还没有帐号,点击注册来申请一个帐号。 【2】点击Create Application 来创建新的应用。  【3】输入一个应用名,点击 Check Availab...

2013-04-11 18:25:59

阅读数 724

评论数 0

转载 游戏开发资源列表

国内站点: http://www.gameres.com/ 中国游戏开发技术资源网(国内知名游戏技术站) http://bbs.gamedev.csdn.net/web/default.aspx 中国游戏开发者CGD(论坛) http://www.chaosstars.com/ 北京混沌星辰...

2013-04-11 12:16:58

阅读数 833

评论数 0

原创 setmetatable的一点总结

local obj = {} setmetatable( obj, { __index = mission_t } ) return obj mission_t为对应模块的文件名。   在LUA中的文件中使用module("mission_t",package.see...

2013-04-10 10:08:09

阅读数 1835

评论数 0

原创 setmetatable的一点总结

local obj = {} setmetatable( obj, { __index = mission_t } ) return obj mission_t为对应模块的文件名。   在LUA中的文件中使用module("mission_t",package.see...

2013-04-10 10:02:17

阅读数 11296

评论数 0

原创 搜索引擎:第一章布尔查询学习笔记

第一章布尔查询学习笔记   倒排序记录   提取词              文档ID             对词排序                   去重 New                   1                          Forcasts     ...

2013-04-07 19:35:52

阅读数 1057

评论数 0

原创 调研:开源搜索引擎

本文档是对现有的开源的搜索引擎的一个简单介绍 1.    Lucene Lucene的开发语言是java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去...

2013-03-30 14:44:20

阅读数 4208

评论数 0

转载 Windows下Critical Section、Event、Mutex、Semaphores区别

临界区(Critical Section)     保证在某一时刻只有一个线程能访问数据的简便办法。在任意时刻只允许一个线程对共享资源进行访问。如果有多个线程试图同时访问临界区,那么在有一个线程进入后其他所有试图访问此临界区的线程将被挂起,并一直持续到进入临界区的线程离开。临界区在被释放后,其他...

2013-03-21 17:40:27

阅读数 635

评论数 0

原创 LUA中函数返回表的时候的问题

今天,在处理游戏中人物状态数据的时候,出现了很诡异的问题。 搞了好久才解决,不过LUA到目前为止连学代做也就搞了不到一个礼拜,其中有很多不是很适应的地方。 这个可能是由于LUA和C/C++有些不太一样吧。 言归正传,LUA函数在返回相关表的时候,注意返回的是引用,假如...

2013-03-18 16:50:49

阅读数 1335

评论数 0

原创 LUA注意事项

编写LUA脚本的时候,有些问题一定得注意了,尤其是那些喜欢在VS的IDE下进行开发的用户了,尤其是那些喜欢VA插件的用户。 大多数时候,LUA作为一个辅助性的语言,对项目中的某些逻辑进行编写。 在编写这些脚本的时候,我们常常需要注意拼写是否正确,因为这个时候,没有有帮你检查这些。 假如拼写错...

2013-03-14 18:56:07

阅读数 1022

评论数 0

原创 抽奖分析

抽奖分析     游戏当中有一个抽奖的活动,抽奖肯定是一个随机的过程,作为游戏的后端而言,就是要产生一个随机的过程。     产生这个随机的过程的方法,一般也就是我们常用的利用当前时间作为一个种子,然后调用rand函数来产生一个随机数X。     得到这个产生的随机数的方法取决于X对什么求模...

2013-03-13 10:19:28

阅读数 952

评论数 2

提示
确定要删除当前文章?
取消 删除