自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 关于分词的一些解惑

1.目前用CRF做分词,一般分词效果是最好的,而且对于未登录词的识别也较为有效.。但为什么很多商业搜索引擎还是用基于词典的方法来做呢。是因为人力成本,还是 其他方面的考量?Ans:学术界用CRF多,工业界几乎没有使用CRF。解决不了分词一致性的问题。2. 所说的分词一致性指的是同一个短文本,上下文发生了变化,切出来的词  就不一样了? 是么?Ans:对的。CRF的上下文太强了。在搜索这

2015-12-30 23:00:15 572

原创 如何查找一个新领域的景点文献

1. 使用关键字 overview, summary, review等词 ,在搜索引擎里检索。2. 看综述比较快吧 先看中文再看外文3. 我觉得有个方法可以试试——看CNKI上优秀的博硕士论文。学位论文的一般问题阐述比较详细,解决方法也偏向成熟方案的改进,想了解经典的文献可以从学位论文的参考文献里找找。

2015-12-30 22:37:27 537

转载 BM25算法浅析

本文转自http://luokr.com/p/7。BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship bet

2015-12-30 22:26:11 684

转载 Vim中显示不可见字符

在Linux中,cat -A file可以把文件中的所有可见的和不可见的字符都显示出来,在Vim中,如何将不可见字符也显示出来呢?当然,如果只是想在Vim中查看的话,可以这样:%!cat -A在Vim中调用cat转换显示。这样的做法不便于编辑,其实Vim本身是可以设置显示不可见字符的。只需要:set invlist即可以将不可见的字符显示出来,例如,会以^I表示一个tab符,$表示

2015-12-30 16:18:32 100628 1

转载 期刊分区以及影响因子是什么?

问:请问什么是期刊的分区?如何查询期刊的分区?答:期刊的分区问题首先要从期刊的评价说起。尽管期刊的评价指标有很多种,比如:被引频次、他引率、引用半衰期、被引半衰期、即年指标和影响因子等等,但是对于需要经常评价科研成果的科技工作者来说,用到最多的则是“影响因子”,(其含义为:某刊某年的影响因子是指该刊前两年发表论文在统计当年被引用的总频次和前两年发表论文总数之比),影响因子越高,

2015-12-27 21:19:30 10596

转载 java提高篇(二四)-----HashSet

在前篇博文中(java提高篇(二三)-----HashMap)详细讲解了HashMap的实现过程,对于HashSet而言,它是基于HashMap来实现的,底层采用HashMap来保存元素。所以如果对HashMap比较熟悉,那么HashSet是so  easy!!一、定义public class HashSet extends AbstractSet implem

2015-12-27 13:56:44 395

转载 java提高篇(二三)-----HashMap

HashMap也是我们使用非常多的Collection,它是基于哈希表的 Map 接口的实现,以key-value的形式存在。在HashMap中,key-value总是会当做一个整体来处理,系统会根据hash算法来来计算key-value的存储位置,我们总是可以通过key快速地存、取value。下面就来分析HashMap的存取。一、定义      HashMap实现了Map接口,继承A

2015-12-27 13:55:55 311

转载 你的隐私安全吗:Cookie到底是什么?

你的隐私安全吗:Cookie到底是什么?2013年03月18日 19:42  创事记微博 作者:杨永林  网易免费邮箱:【公告】用户对信息安全的重视,网易感同身受,并一向注重对用户隐私的保护。网易邮箱一天处理约2亿封邮件,不存在任何个人参与窥探用户隐私的可能性。网易现在和将来都不存在、也不会容忍收集用户隐私用于商业目的的行为。同时,我们将

2015-12-26 21:25:58 699

转载 Cookie/Session的机制与安全

Cookie和Session是为了在无状态的HTTP协议之上维护会话状态,使得服务器可以知道当前是和哪个客户在打交道。本文来详细讨论Cookie和Session的实现机制,以及其中涉及的安全问题。因为HTTP协议是无状态的,即每次用户请求到达服务器时,HTTP服务器并不知道这个用户是谁、是否登录过等。现在的服务器之所以知道我们是否已经登录,是因为服务器在登录时设置了浏览器的Cookie!Ses

2015-12-26 18:47:20 373

转载 老生常谈session,cookie的区别,安全性

一,为什么session,cookie经常会有人提到做web开发的人基本上都会用session和cookie,但是仅仅只是会用,并不知道session和cookie的真正的工作原理,都只是凭着感觉来猜测。web开发者只要利用它们来完成工作就行了,所以每个人的理解基本都会有大同小异,我想这就是session,cookie经常会被讨论的原因。本文也是根据个人经验,以及个人所学,对session

2015-12-26 18:45:07 472

转载 SecureCRT 绝佳配色方案, 保护你的眼睛

SecureCRT 绝佳配色方案, 保护你的眼睛关键词:SecureCRT配色, SecureCRT设置颜色, Linux终端颜色设置.终端有一个好的配色,不仅能保护自己的眼睛,也能给人一个好心情,本配色方案适合任意一种SSH客户端软件.设置背景颜色Options => Sessions options => Terminal =>

2015-12-22 10:13:01 872

原创 如何improve一个有着复杂策略的已有项目

最近这段时间在做分词相关的事情。1.前段时间主要是看源代码,对于代码的核心逻辑已经了解得很充分了。核心逻辑大概占5000行代码中的1000行到1500行,而剩下的代码都是一些非常细节的的策略代码,其作用主要是:针对不同特性的query实行不同的策略。2.目前这几天在对bad case池子里面seg bad case进行分门别类。归类的依据是这些bad case 产生的原因。换句话说来说

2015-12-21 22:52:44 459

转载 除了影响因子 还有哪些指标可以评价论文的价值

除了影响因子,还有哪些指标可以评价论文的价值?一提起论文价值,恐怕首先想到的是影响因子。尤其是在中国,影响因子对于科研人员和工作者真是命根,晋级,升迁,申请基金,评奖等等无不与影响因子有关。但是除了影响因子,还有许多其它的评价论文价值的方法。本文就介绍一下常见和新兴的评价论文价值的指标。评价一个论文价值,无非从量化和质化两个方面来评价,或者期刊和论文的角度来评价。下面提到的指标,有的是从量

2015-12-16 20:31:25 7342

转载 How to deal with an SVM with categorical attributes?

原文链接:http://stats.stackexchange.com/questions/52915/how-to-deal-with-an-svm-with-categorical-attributesQ:I have a space of 35 dimensions (attributes). My analytic problem is a simple classific

2015-12-15 12:57:01 597

原创 阅读分词核心代码的 几点感触

1. 一定要搞懂数据结构,从class、struct 等数据类型的定义(里面的一些数据),甚至某些代码片段,可以推测出大致的数据结构。2. 要快速搞懂一个复杂的工程,可以通过一个输出样例,然后跟踪 在每一步,项目会做些什么工作。来快速掌握 算法框架。3.不要小看printf和fprintf等输出语句。通过输出语句,不仅可以帮你验证自己的想法,而且在你对某些代码段的逻辑感觉不清晰时,输出语句

2015-12-11 20:27:13 422

中文分词-北大常宝宝

北大计算语言学 常宝宝老师的课件,关于中文分词的。

2015-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除