自然语言处理系列六十七》搜索引擎项目实战》搜索引擎项目概述

51 篇文章 1 订阅
29 篇文章 0 订阅

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

自然语言处理系列六十七

搜索引擎项目实战》搜索引擎项目概述

所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括索引更新、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
我们这个章节讲的搜索引擎是全文检索垂直搜索引擎。什么叫垂直搜索引擎呢?垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是根据特定用户的特定搜索请求,对网站(页)库中的某类专门信息进行深度挖掘与整合后,再以某种形式将结果返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的、有特定用途的信息和相关服务。比如电商平台京东的搜索就是一个电商行业的垂直搜索引擎,搜索返回的统一都是商品信息,没有像百度一样抓取的各种网页信息。再比如我们充电了么在线教育平台,搜索返回的统一都是课程信息。
搜索引擎在各大公司平台都是非常核心重要的项目,比如电商京东,用户想购买自己想要的商品,经常需要通过输入关键词来搜索找到自己想要的商品,这个搜索功能是必不可少的,假如没有这个功能,我们从分类导航里通过翻页的方式找的话,找到你想要的商品不知道得翻多少页,找不到或者需要花费大量的时间。那么搜索就是通过关键词查找的方式快速的找到你想要的商品,节省大量时间提高效率!
实际工作中,在公司的技术组织架构里,搜索引擎项目一般是由搜索推荐部门负责,主要原因是推荐系统会用到搜索技术,同时搜索技术想要做的更好,也需要用到推荐技术。搜索和推荐的联系非常紧密。比如搜索的个性化,需要结合用户的个性化用户行为结合推荐技术来达到输入相同的关键词不同用户得到各自的搜索结果。再比如推荐系统的ContentBase的文本挖掘策略,也需要搜索的文本相似度找到相关商品推荐结果。所以建议搜索和推荐安排在同一个部门更适应公司的整体发展。
另外搜索引擎除了关键词搜索功能,还会围绕搜索项目展开提高用户体验,做一些相关的搜索项目,比如搜索Query意图识别、智能联想词、搜索输入框默认关键词猜您喜欢、相关搜索关键词推荐、搜索综合排序算法、Learning to rank排序学习与NDCG搜索评价指标、个性化搜索猜您喜欢、搜索此关键词的用户最终购买推荐算法等等,这些相关的搜索项目都是为了更好的用户体验做的更深入的探索工作。下面我们从系统架构、技术选型到各个搜索模块的实现给大家详细讲解!

搜索引擎系统技术架构设计

搜索引擎系统技术架构设计内容可参见
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】
视频特色:把目前互联网热门、前沿的项目实战汇聚一堂,通过真实的项目实战课程,让你快速成为算法总监、架构师、技术负责人!包含了推荐系统、智能问答、人脸识别等前沿的精品课程,下面分别介绍各个实战项目:
1、推荐算法系统实战
听完此课,可以实现一个完整的推荐系统!下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目!
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程!
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向,从理论到源码实战、再到服务器操作给大家深度讲解!

自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

人工智能《分布式机器学习实战》 视频教程【陈敬雷】
视频特色:视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)。

上一篇:自然语言处理系列六十六》对话机器人项目实战》对话机器人原理与介绍
下一篇:自然语言处理系列六十八》搜索引擎项目实战》搜索引擎系统架构设计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值