自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

NeoMT的专栏

偶尔装装文艺的ML Coder

  • 博客(7)
  • 收藏
  • 关注

原创 【算法】未知长度序列等概率采样

给一个序列,长度未知,要求从中随机等概率采样出m个元素。

2016-04-10 15:38:37 2125

原创 【算法】非重复随机序列生成

问题描述:给定整数N,求一整型序列,该序列包含N个整数(0到N-1),呈随机分布状态,且不重复。解决方法: 很简单的一个问题,每次从初始序列S中随机选取一个元素加到结果序列R中,同时将该元素从序列S中删除,重复以上过程,直到序列S为空,此时序列R即为所求。 此算法需要生成N个随机数,因此时间复杂度为O(N),因序列S和序列R总计有N个元素,因此空间复杂度也为O(N) 具体步骤:首先初始一个0~

2016-04-10 13:57:03 2143

原创 自然语言处理(NLP)学习笔记(一)——NLP应用

NLP:Natural Language Processing(自然语言处理了),接触和认识它也有快五年了吧,当初是以“应用语言学”的中文系专业名称认识它的,和每一个因之进入中文系的人一样,脑袋中除了迷惑还是迷惑,因为不知道它是做什么的。在这四年多的时间中,从迷惑到认识,再到喜欢,到了现在也可以说对NLP也有了一定的了解,加之这学期要开始学习“自然语言处理高级专题”,结合课程内容,建此系列,写

2014-09-09 21:29:52 1024

原创 自然语言处理(NLP)学习笔记(二)——NLP技术

NLP:Natural Language Processing(自然语言处理了),接触和认识它也有快五年了吧,当初是以“应用语言学”的中文系专业名称认识它的,和每一个因之进入中文系的人一样,脑袋中除了迷惑还是迷惑,因为不知道它是做什么的。在这四年多的时间中,从迷惑到认识,再到喜欢,到了现在也可以说对NLP也有了一定的了解,加之这学期要开始学习“自然语言处理高级专题”,结合课程内容,建此系列,写

2014-09-09 21:29:45 736

原创 利用Dropbox搭建Git远程仓库

Git是一款很好用的分布式版本管理工具,因为它是分布式的,所以跟SVN不同的是,即使离线也能执行版本发布(commit)、代码回滚(reset)等操作,因此平时完全可以在脱机的环境下把它作为一个本地的代码版本控制工具来用。这点是SVN怎么也做不到的,SVN只能在联网的环境才能执行版本的发布。关于Git的使用可以说很多,以后再慢慢说。上面也说到Git可以作为本地代码版本控制工具来

2014-09-09 21:22:24 803

原创 WordNet 数据文件格式

两种基本数据文件:index.pos 和 data.pos,其中pos包括noun、verb、adj和adv,分别对应名词、动词、形容词和副词。Index.posWordNet中所有词的索引文件,通过这个文件,可以直接找到每个词汇对应的synset_offsets,从而快速地得到待搜索词的语义解释。Index.pos文件格式每个index文件头都有几行包括版权说明、

2014-09-09 21:22:00 2133 1

原创 在Python上使用Berkeley DB ——bsddb

前段时间要用最大熵进行自动分词和新词抽取,在处理小文本的时候没什么问题,直接将候选词及其频率、邻接词等信息存入词典放入内存即可。但后来要处理大文本,候选词太多直接导致MemoryError了,就想着先将候选词的信息放入硬盘,虽然降低了点儿速度,但至少也能跑出来结果。所以就找到了比较好用且存储性能较好的Berkeley DB,更棒的是Python自带处理模块——bsddb(Python3以后版本

2014-09-09 21:02:29 4844

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除