自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 自然语言处理系列三十一》文本相似度算法》余弦相似度》Python代码实现

此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-17 21:16:51 1574 2

原创 自然语言处理系列三十》文本相似度算法》余弦相似度》Java代码实现

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列三十文本相似度算法余弦相似度Java代码实现总结自然语言处理系列三十文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,我们需要提前准备好问题和一些答案,让用户输入的问题与题

2021-02-17 21:03:10 574 1

原创 自然语言处理系列二十九》文本相似度算法》余弦相似度》算法原理

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十九文本相似度算法余弦相似度算法原理总结自然语言处理系列二十九文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中

2021-02-17 20:31:50 513 1

原创 自然语言处理系列二十八》文本相似度算法》字符串编辑距离》Python代码实现

此文章有有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-10 21:40:19 341

原创 自然语言处理系列二十七》文本相似度算法》字符串编辑距离》Java代码实现

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十七文本相似度算法字符串编辑距离Java代码实现总结文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的

2021-02-09 21:37:57 395 1

原创 自然语言处理系列二十六》文本相似度算法》字符串编辑距离》算法原理

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十六文本相似度算法字符串编辑距离算法原理总结自然语言处理系列二十六文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题

2021-02-08 17:00:35 289

原创 自然语言处理系列二十五》词性标注》词性标注原理》CRF词性标注

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十五词性标注CRF词性标注总结自然语言处理系列二十五词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)

2021-02-07 22:12:00 539 1

原创 自然语言处理系列二十四》词性标注》词性标注原理》感知器词性标注

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十四词性标注感知器词性标注总结自然语言处理系列二十四词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)

2021-02-06 20:59:55 1396

原创 自然语言处理系列二十三》词性标注》词性标注原理》HMM词性标注

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十三词性标注HMM词性标注总结自然语言处理系列二十三词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)

2021-02-06 20:56:50 496

原创 自然语言处理系列二十二》词性标注》词性标注原理》词性介绍

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十二词性标注词性介绍总结自然语言处理系列二十二词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)

2021-02-06 20:48:26 551

原创 自然语言处理系列二十一》词性标注》词性标注原理

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十一词性标注词性标注原理总结自然语言处理系列二十一词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中

2021-02-05 20:05:31 1797

原创 自然语言处理系列二十》中文分词》分词工具实战》Java的mmseg4j分词

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十分词工具实战Java的mmseg4j分词总结自然语言处理系列二十分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写

2021-02-05 20:02:20 257

原创 自然语言处理系列十九》中文分词》分词工具实战》Java的IK分词

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十九分词工具实战Java的IK分词总结自然语言处理系列十九分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写

2021-02-05 19:58:15 217

原创 自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十八分词工具实战Java的HanLP分词总结自然语言处理系列十八分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写

2021-02-04 17:03:58 433

原创 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十七分词工具实战Python的Jieba分词总结自然语言处理系列十七分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常

2021-02-04 16:59:11 437

原创 自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战

此文章有有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-04 16:40:20 336 1

原创 自然语言处理系列十五》中文分词》机器学习统计分词》CRF分词

此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-03 21:20:50 299 1

原创 自然语言处理系列十四》中文分词》机器学习统计分词》感知器分词

此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-03 21:16:48 485

原创 自然语言处理系列十三》中文分词》机器学习统计分词》隐马尔可夫模型HMM分词

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-03 21:08:40 299

原创 自然语言处理系列十二》中文分词》机器学习统计分词

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-03 20:56:06 302 1

原创 自然语言处理系列十一》中文分词》规则分词》正向最大匹配法、逆向最大匹配法、双向最大匹配法

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-02 18:32:19 1544 1

原创 自然语言处理系列十》中文分词》规则分词》双向最大匹配法

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-02 18:20:48 372

原创 自然语言处理系列九》中文分词》规则分词》逆向最大匹配法

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-02 18:11:53 580

原创 自然语言处理系列八》中文分词》规则分词》正向最大匹配法

此文章有对应的配陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-02 18:03:38 904

原创 自然语言处理系列七》中文分词》规则分词

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-02 17:51:39 274

原创 自然语言处理系列六》中文分词》中文分词原理

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-01 17:51:26 467 2

原创 自然语言处理系列五》新词发现与短语提取》短语提取

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-02-01 17:24:30 857 1

原创 自然语言处理系列四》新词发现与短语提取》新词发现

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-01-28 17:01:54 993

原创 自然语言处理系列三》Python代码实现TF-IDF

本文将详细为大家介绍Pyfhon代码实现TFIDF此文章内容摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!

2021-01-28 15:41:08 505 1

原创 自然语言处理系列二》Java代码实现TF-IDF

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-01-28 10:58:30 1318

原创 自然语言处理系列一》TF-IDF算法原理

此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html

2021-01-28 10:35:41 452

原创 必备干货 | Hbase简介以及数据结构和表详解

本文将详细为大家介绍Hbase及其数据结构和表详解此文章内容摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!

2021-01-27 17:22:26 3968 6

原创 大数据基础——Hadoop大数据平台搭建

文章目录前言Hadoop大数据平台搭建一.Hadoop原理和功能介绍二.Hadoop安装部署三.Hadoop常用操作总结此文章摘自充电了么创始人,CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》(人工智能科学与技术丛书)。更多内容请关注充电了么APP,更多实用技能和理论知识都可以在这里找到!

2021-01-27 16:19:37 5891 8

原创 新一代CTO修炼之路all-in-AI系列-大数据+AI人工智能驱动技术变革之大数据部门组织架构及团队建设

文章目录1.2.1大数据部门组织架构1.大数据平台组2.算法组3.数据分析组4.更细化的大数据部门划分总结随着大数据和人工智能技术的火热发展,传统的老一代CTO,除了有过硬的工程能力外,尚需充电学习大数据和AI人工智能技术!大数据和人工智能技术在公司整个技术体系中是不可或缺的一部分,并且成为公司的核心竞争力,同时大数据+AI人工智能在驱动产品创新、变革、升级都起着举足轻重的作用!作为新一代CTO必须要掌握之。工程能力+大数据+AI人工智能=新一代CTO,对!不学就out了!对于互联网公司来说,技术是核

2020-12-30 17:06:32 2138

原创 大数据人工智能技术全攻略(二)

文章目录大数据人工智能常见技术框架和算法的知识详细概要HadoopSparkHiveStromHbaseSolrElasticsearchLDA潜在狄利克雷分布模型MinHash聚类Kmeans聚类Canopy聚类贝叶斯分类算法总结大数据人工智能常见技术框架和算法的知识详细概要HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop

2020-12-23 09:29:36 464

原创 大数据人工智能技术全攻略(一)

文章目录大数据介绍人工智能介绍机器学习算法介绍深度学习算法大数据和人工智能的关系和区别大数据部门下分几个小部门或组几个组分工合作关系大数据部门都有哪些职位岗位技能与职责各个职位之间的协作配合关系各个职位对应的职业生涯规划和发展路线总结大数据介绍1、一般说到大数据,自然会提到Hadoop2、Hadoop是大数据平台的标配3、数据必须足够大吗?够大才算大数据?4、小数据能否做出大数据的价值?5、Hive数据仓库,基本都会跟随Hadoop左右6、大数据生态圈:Hadoop、Spark、Storm.

2020-12-19 09:29:29 3352 6

原创 人工智能之随机森林算法项目实战

文章目录(1)随机森林算法介绍随机性体现(2)随机森林应用场景(3) Spark随机森林训练和预测过程训练预测分类回归(4) Spark随机森林模型参数详解(5) Spark随机森林源码实战工作原理随机森林的优势随机森林的缺点(6)Spark随机森林训练和预测过程(7) 随机森林和GBDT的联系和区别总结随机森林(Random Forest)是一个集成算法,多棵决策树就组成了一个森林,下面具体讲一下这个算法和应用的源码。(1)随机森林算法介绍随机森林是以决策树作为基础模型的集成算法。随机森林是机器学

2020-12-16 20:42:28 1370

原创 Hive数据仓库实战

文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、Hive SQL操作UDF函数Hive 数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库,分布式机器学习的训练数据和数据处理也经常用它来处理,下面介绍下它的常用功能。一、Hive原理和功能介绍Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

2020-12-05 16:40:36 2419 3

原创 大数据部门各个职位的职业生涯规划和发展路径

从职业发展路径来看,一般可以分两个路线来走,一个是专业技术路线,也叫T序列,另一个是管理路线,也叫M序列,每个序列都分很多级别。T序列一般职位从低到高是工程师、资深工程师、架构师/专家、高级架构师/高级专家、资深架构师/资深专家、首席架构师/首席专家/首席科学家等,当然每个公司的叫法可能不太一样,但大同小异。T序列一般主攻技术,当然级别高了也会带团队,只是T序列带的团队人数,比同级别的M序列带的人少而已。M序列一般从低到高是工程师、资深工程师、TeamLeader/主管、技术经理、高级技术经理、副总监、总监

2020-12-02 10:55:42 3975 1

原创 Spark项目案例实战和分布式部署

前面讲到Hbase的时候可以通过Java API的方式操作Hbase数据库,由于Java和Scala可以互相调用,本节使用Scala语言通过Spark平台来实现分布式操作Hbase数据库,并且打包部署到Spark集群上面。这样我们对Spark+Scala项目开发有一个完整的认识和实际工作场景的一个体会。我们创建一个Spark的工程,然后创建一个HbaseJob的object类文件,项目的功能是从Hbase批量读取课程商品表数据然后存储到Hadoop的HDFS上的功能,如代码3.15所示:【代码3.15】

2020-11-29 19:40:35 561 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除