自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 VsCode相关事项

VsCode使用gitbash配置

2023-01-26 15:49:58 70

原创 智能信息处理复习6——完整搜索系统中的评分计算

精确top K检索及其加速办法目标从文档集的所有文档中找出K 个离查询最近的文档步骤对每个文档评分(余弦相似度),按照评分高低排序,选出前K个结果如何加速快速计算余弦检索排序就是找查询的K近邻,一般而言,在高维空间下,计算余弦相似度没有很高效的方法,但是如果查询很短,是有一定办法加速计算的,而且普通的索引能够支持这种快速计算。堆法N中选K检索时,通常只需要返回前K条结果:可以对所有的文档评分后排序,选出前K个结果,但是这个排序过程可以避免。提前终止计算接下来将采用与查询无关的另外一种

2020-11-18 10:55:22 283

原创 智能信息处理5——文档评分、词项权重计算及向量空间模型

文档评分第一种方法: Jaccard系数计算两个集合重合度的常用方法令 A 和 B 为两个集合Jaccard系数的计算方法:JACCARD (A, A) = 1JACCARD (A, B) = 0 如果 A ∩ B = 0A 和 B 不一定要同样大小Jaccard 系数会给出一个0到1之间的值不足不考虑词项频率 ,即词项在文档中的出现次数罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息没有仔细考虑文档的长度因素词项频率词项t的词项频率 tft,d 是指t 在d中出

2020-11-18 09:51:28 875

原创 智能信息处理复习4——索引构建

硬件基础在内存中访问数据会比从硬盘访问数据快很多(大概10倍左右的差距)硬盘寻道时间(seek time)是闲置时间:磁头在定位时不发生数据传输为优化从磁盘到内存的传送时间,一个大(连续)块的传输会比多个小块(非连续)的传输速度快硬盘 I/O是基于块的: 读写时是整块进行的。块大小:8KB到256 KB不等IR系统的服务器的典型配置是几个GB的内存,有时内存可能达到几十GB,数百G或者上T的硬盘。容错处理的代价非常昂贵:采用多台普通机器会比一台提供容错的机器的价格更便宜基于块的排序索引方法

2020-11-17 19:21:38 182

原创 智能信息处理复习3——词典及容错式检索

词典词典是指存储词项词汇表的数据结构。词项词汇表(Term vocabulary): 指的是具体数据词典(Dictionary): 指的是数据结构哈希表每个词项通过哈希函数映射成一个整数尽可能避免冲突查询处理时: 对查询词项进行哈希,如果有冲突,则解决冲突,最后在定长数组中定位优点: 在哈希表中的定位速度快于树中的定位速度查询时间是常数缺点:没办法处理词项的微小变形 (resume vs. résumé)不支持前缀搜索 (比如所有以automat开头的词项)如果词汇表不断增大,需

2020-11-17 18:48:22 579

原创 智能信息处理复习2——词项词典及倒排记录表

文档分析将字节序列转换成线性字符序列待索引文档集可能同时包含多种语言的文档有时文档或者其部件中包含多种语言/格式文档单位选择 索引粒度:比如,我们可以将每个句子作为索引单位。 很显然,这里存在着一个正确率和召回率之间的权衡问题:如果索引粒度太小,那么由于词项散布在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高而召回率低;反之,如果索引粒度太大,我们就很可能找到很多不相关的匹配结果,即正确率低而召回率高。词项集合的确定词条化词条与词项的概念词条是指在文档中出现

2020-11-16 09:40:00 689

原创 智能信息处理复习1——布尔查询

信息检索概述 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 信息检索系统还可以通过它们的运行规模来区分,还能区分三个突出的规模。网络搜索 例如百度搜索等个人信息检索 例如电子邮件通常不仅提供搜索,而且还提供文本分类:它们至少提供垃圾邮件(垃圾邮件)过滤器,并且通常还提供手动或自动方式对邮件进行分类企业,机构或特定领域搜索 例如提供诸如公司内部文件,专利数据库或有关软件工程的研究文章之类的集合。 这些文档通常将存

2020-11-14 19:39:01 420

原创 智能信息处理复习0

智能信息处理的概念1. 信息处理: 信息是反映一切事物属性及动态的消息、情报、指令、数据和信号所包含的内容。认识信息的三个方面:含义、表现形式、载体。 智能信息处理技术 就是将不完全、不可靠、不精确、不一致和不确定的知识和信息逐步改变为完全、可靠、精确、可查询、一致和确定的知识和信息的过程和方法,就是利用对不精确性、不确定性的容忍来达到问题的可处理和鲁莽性。2. 智能的涵义非常广泛,包括: 知识如何获取、表达、存储和查询; 智能行为如何产生和学习; 传感器信号如何转换成各种符号; 怎样利用各

2020-11-12 15:02:20 2637

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除