大数据
文章平均质量分 94
陈敬雷-充电了么-CEO兼CTO
这个作者很懒,什么都没留下…
展开
-
大数据用户画像系统架构设计
文章目录前言一、搜索数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、Java Web毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结前言个性化搜索目前发展阶段不是要替换掉传统搜索,而是对传统搜索的一个补充。我们先看下它的架构如图2.3所示:图2.3 用户画像系统架构图用户画像是一个非常通用普遍使用的系统,从我们的架构图中可以看出,从数据计算时效性上来讲分离线计算和实时计算。离线计算.原创 2020-11-21 09:52:11 · 2559 阅读 · 4 评论 -
自然语言处理系列三十一》文本相似度算法》余弦相似度》Python代码实现
此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-17 21:16:51 · 1552 阅读 · 2 评论 -
自然语言处理系列二十九》文本相似度算法》余弦相似度》算法原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十九文本相似度算法余弦相似度算法原理总结自然语言处理系列二十九文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中原创 2021-02-17 20:31:50 · 500 阅读 · 1 评论 -
自然语言处理系列二十七》文本相似度算法》字符串编辑距离》Java代码实现
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十七文本相似度算法字符串编辑距离Java代码实现总结文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的原创 2021-02-09 21:37:57 · 392 阅读 · 1 评论 -
自然语言处理系列二十六》文本相似度算法》字符串编辑距离》算法原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十六文本相似度算法字符串编辑距离算法原理总结自然语言处理系列二十六文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题原创 2021-02-08 17:00:35 · 288 阅读 · 0 评论 -
自然语言处理系列二十五》词性标注》词性标注原理》CRF词性标注
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十五词性标注CRF词性标注总结自然语言处理系列二十五词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)原创 2021-02-07 22:12:00 · 535 阅读 · 1 评论 -
自然语言处理系列二十二》词性标注》词性标注原理》词性介绍
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十二词性标注词性介绍总结自然语言处理系列二十二词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)原创 2021-02-06 20:48:26 · 525 阅读 · 0 评论 -
自然语言处理系列二十一》词性标注》词性标注原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十一词性标注词性标注原理总结自然语言处理系列二十一词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中原创 2021-02-05 20:05:31 · 1784 阅读 · 0 评论 -
自然语言处理系列二十》中文分词》分词工具实战》Java的mmseg4j分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十分词工具实战Java的mmseg4j分词总结自然语言处理系列二十分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-05 20:02:20 · 250 阅读 · 0 评论 -
自然语言处理系列十九》中文分词》分词工具实战》Java的IK分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十九分词工具实战Java的IK分词总结自然语言处理系列十九分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-05 19:58:15 · 210 阅读 · 0 评论 -
自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十八分词工具实战Java的HanLP分词总结自然语言处理系列十八分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-04 17:03:58 · 401 阅读 · 0 评论 -
自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十七分词工具实战Python的Jieba分词总结自然语言处理系列十七分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常原创 2021-02-04 16:59:11 · 436 阅读 · 0 评论 -
自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战
此文章有有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-04 16:40:20 · 329 阅读 · 1 评论 -
自然语言处理系列十四》中文分词》机器学习统计分词》感知器分词
此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-03 21:16:48 · 484 阅读 · 0 评论 -
自然语言处理系列十三》中文分词》机器学习统计分词》隐马尔可夫模型HMM分词
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-03 21:08:40 · 296 阅读 · 0 评论 -
自然语言处理系列十二》中文分词》机器学习统计分词
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-03 20:56:06 · 298 阅读 · 1 评论 -
自然语言处理系列十一》中文分词》规则分词》正向最大匹配法、逆向最大匹配法、双向最大匹配法
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-02 18:32:19 · 1394 阅读 · 1 评论 -
自然语言处理系列十》中文分词》规则分词》双向最大匹配法
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-02 18:20:48 · 361 阅读 · 0 评论 -
自然语言处理系列九》中文分词》规则分词》逆向最大匹配法
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-02 18:11:53 · 555 阅读 · 0 评论 -
自然语言处理系列八》中文分词》规则分词》正向最大匹配法
此文章有对应的配陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-02 18:03:38 · 826 阅读 · 0 评论 -
自然语言处理系列七》中文分词》规则分词
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-02 17:51:39 · 266 阅读 · 0 评论 -
自然语言处理系列六》中文分词》中文分词原理
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-01 17:51:26 · 463 阅读 · 2 评论 -
自然语言处理系列五》新词发现与短语提取》短语提取
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-01 17:24:30 · 854 阅读 · 1 评论 -
自然语言处理系列四》新词发现与短语提取》新词发现
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-01-28 17:01:54 · 973 阅读 · 0 评论 -
自然语言处理系列三》Python代码实现TF-IDF
本文将详细为大家介绍Pyfhon代码实现TFIDF此文章内容摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!原创 2021-01-28 15:41:08 · 500 阅读 · 1 评论 -
自然语言处理系列二》Java代码实现TF-IDF
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-01-28 10:58:30 · 1296 阅读 · 0 评论 -
自然语言处理系列一》TF-IDF算法原理
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-01-28 10:35:41 · 439 阅读 · 0 评论 -
必备干货 | Hbase简介以及数据结构和表详解
本文将详细为大家介绍Hbase及其数据结构和表详解此文章内容摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!原创 2021-01-27 17:22:26 · 3947 阅读 · 6 评论 -
大数据基础——Hadoop大数据平台搭建
文章目录前言Hadoop大数据平台搭建一.Hadoop原理和功能介绍二.Hadoop安装部署三.Hadoop常用操作总结此文章摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!原创 2021-01-27 16:19:37 · 5467 阅读 · 8 评论