
人工智能AI实战系列代码全解析
文章平均质量分 91
向着星辰大海出发吧
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
普通网友
这个作者很懒,什么都没留下…
展开
-
人工智能从概念到实战
什么是人工智能?在各大网站上搜索人工智能的定义可谓各不相同,但核心思想就是实现让计算机拥有人类的智能。如果让我用一句话通俗总结AI是什么,我认为它分为两步,那就是先让计算机进行学习,然后让计算机预测未知。02AI早期应用AI在互联网中的早期应用有识别垃圾邮件。我们的邮箱每天会收到众多邮件,而把垃圾邮件剔除就可以大大节约人们在垃圾邮件中浪费的时间。我们传统的方法是制定规则,比如一篇文章中大量出现“免费”“特价”“发财”“代理”“稳赢”等等关键词,我们就把它定义为垃圾邮件,根据设原创 2022-05-14 03:45:00 · 941 阅读 · 0 评论 -
【数学建模】第五届全国工业互联网数据创新应用大赛 短期风况预测实战案例
题目描述近年来随着陆上风电机组装机厂址的扩展,在天气突变较多的地区安装的风力发电机组受到气象变化的影响愈发显著。在风况突变时,由于控制系统的滞后性,容易导致机组出现载荷过大,甚至是倒机的情况,造成重大近年来随着陆上风电机组装机厂址的扩展,在天气突变较多的地区安装的风力发电机组受到气象变化的影响愈发显著。在风况突变时,由于控制系统的滞后性,容易导致机组出现载荷过大,甚至是倒机的情况,造成重大经济损失。同时,现有超短期风功率预测的准确性较差,导致风功率预测系统对电网调度的参考价值不大,并且会导致业主产生大量原创 2022-03-22 05:00:00 · 1697 阅读 · 1 评论 -
opencv基础篇3讲(三)-滤波&直方图均衡化&模板匹配
滤波图像基础常识:噪声原图与加了高斯噪声后的图片 椒盐噪声(Salt & Pepper):含有随机出现的黑白亮度值。(加了胡椒粉,很形象了) 盐=白色,椒=黑色 高斯噪声:含有亮度服从高斯或正态分布的噪声。高斯噪声是很多传感器噪声的模型,如摄像机的电子干扰噪声。 滤波器 线性滤波器 线性滤波器的原始数据与滤波结果是一种算术运算,即用加减乘除等运算实现, 如均值滤波器(模板内像素灰度值的原创 2022-02-04 05:00:00 · 1146 阅读 · 0 评论 -
opencv基础篇3讲(二)-色彩空间转换&像素运算&ROI与泛洪填充
色彩空间的转换1.常见色彩空间及色彩空间转换 RGB 红色:Red,绿色:Green,蓝色:Blue HSV 色相:Hue(0-180),饱和度:Saturation(0-255),明度;Value(0-255) 常用于颜色检测 HSL/HLS 色相:Hue、饱和度:Saturation、亮度:Lightness/Luminance 色相H:用角度度量,取值范围为0°~360°,从红色开始按逆时针方向计算原创 2022-02-03 05:00:00 · 1301 阅读 · 0 评论 -
opencv基础篇3讲(一)-环境配置&图像加载保存及处理
python3.6+OpenCV4.0环境配置1.OpenCv简介OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。参自维基百科[3]2.OpenCv安装1.创建虚拟环境condacreate–n...原创 2022-02-05 05:30:00 · 1129 阅读 · 0 评论 -
【知识图谱】知识图谱概论,通读知识图谱相关概念
语言与知识首先我将从“语言与知识”两个视角出发引出我们这门课的主角——知识图谱。我们的故事从人工智能的起源开始。大家可能都有所了解,早期的人工智能有两个主要流派,一个流派称为连接主义,主张智能的实现应该模拟人脑的生理结构,即用计算机模拟人脑的神经网络连接结构,这个流派发展至今,即所谓大红大紫的深度学习;另外一个流派称为符号主义,主张智能的实现应该模拟人类的心智,即用计算机符号记录人脑的记忆,表示人脑中的知识等,即所谓知识工程与专家系统等。我们这门课的主角知识图谱可原创 2022-02-01 05:15:00 · 1407 阅读 · 0 评论 -
你的画像是怎么来的?推荐系统是如何找到相似用户的?
前言 在构建推荐系统的过程中,冷启动是我们要面临的一个很现实的问题,而除了加特征,加样本,加图谱,加规则,还有其他方法吗?以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!MATLAB-30天带你从入门到精通MATLAB深入理解高级教程(附源码)tableau可视化数据分析高级教程推荐系统用户画像,是解决冷启动和兴趣探索问题一种有效地方法,但item上的标签要通过一种怎么样的方式转移到用户身上呢?常见的做法是用户点击或者购...原创 2021-09-27 04:00:00 · 1339 阅读 · 0 评论 -
从零开始学自然语言处理-十万字长文带你深入学习自然语言处理全流程
前言内容会涉及自然语言处理的各个方面知识内容和具体操作:包括但不仅限于词法分析,句法分析,语义分析,文本聚类,文本分类,情感分析,文本摘要生成,主题模型,词嵌入,文本语义相似度,自然语言推理,机器翻译,语言模型,信息抽取,关系预测,对话,指代消解等等。针对中文的自然语言处理,我们需要先将段落和句子切分为词语,这是最基础的一步操作,分词属于词法分析的基础部分。以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!MATLAB-30天带你从入门到精通MAT原创 2021-09-12 11:57:29 · 3355 阅读 · 3 评论 -
深度学习核心技术精讲100篇(五十七)- 自动驾驶车会看地图吗?它是如何认路、找准定位的?
本期划重点» 高精地图之拓扑地图的应用» 高精地图之3D栅格地图的应用» 自动驾驶车辆如何定位高精度地图之拓扑地图的应用传统拓扑地图我们先了解下传统拓扑地图,这是从地图app里截出来的图,从这张图我们可以得到很多信息:◆拓扑信息:我们可以从地图里辨认出北清路的主干道,以及了解到北清路能延伸向哪些其他道路等,这些都是人们可辨认的拓扑信息。◆各类 POI(信息点):我们能看到许多 POI 信息,包括中关村壹号-A1座,拉卡拉大...原创 2021-07-15 09:31:04 · 1047 阅读 · 0 评论 -
深度学习核心技术精讲100篇(五十五)- 基于OpenCV实现棋盘图像识别
本文我们将一起学习如何使用计算机视觉技术识别棋子及其在棋盘上的位置我们利用计算机视觉技术和卷积神经网络(CNN)为这个项目创建分类算法,并确定棋子在棋盘上的位置。最终的应用程序会保存整个图像并可视化的表现出来,同时输出棋盘的2D图像以查看结果。(左)实时摄像机进给的帧和棋盘的(右)二维图像01. 数据我们对该项目的数据集有很高的要求,因为它最终会影响我们的实验结果。我们在网上能找到的国际象棋数据集是使用不同的国际象棋集、不同的摄影机拍摄得到的,这导致我们创建了自己的数据集。我使用原创 2021-07-08 09:02:29 · 1755 阅读 · 0 评论 -
SENet双塔模型:在推荐领域召回粗排的应用及其它
前言目前,双塔结构在推荐领域里已经是个常规方法了,在召回和粗排环节的模型选型中,被广泛采用。其实,不仅仅是在推荐领域,在其它领域,双塔结构也已经被越来越多得用起来了。比如,在当代搜索引擎的召回环节,除了常见的经典倒排索引来对Query和Document进行文本字面匹配外,经常也会增加一路基于Bert模型的双塔结构,将用户查询Query和搜索文档,各自通过一个塔形结构来打Embedding,以此增加Query和Document的深层语义匹配能力;再比如,在自然语言处理的QA领域,一般也会在第一步召回环节,原创 2021-06-08 09:24:52 · 1770 阅读 · 1 评论 -
深度学习核心技术精讲100篇(三十七)-利用Contrastive Learning对抗数据噪声:对比学习在微博场景的实践
前言对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面的对比学习模型。两个模型的具体技术方案并不复杂,应该说主要受到了SimCLR和CLIP模型的启发(当然,其实CLIP模型明显也受到SimCLR模型的影响)。从后面介绍可以看出原创 2021-05-21 10:04:53 · 1272 阅读 · 4 评论 -
深度学习核心技术精讲100篇(三十六)-EdgeRec:边缘计算在淘宝推荐系统中的大规模应用
导读:在全面进入无线的时代,为了解决信息负载的问题,越来越多的推荐场景得到兴起,尤其是以列表推荐形式为主的信息流推荐。以手淘信息流为例,进入猜你喜欢场景的用户,兴趣常常是不明确的,用户浏览时往往没有明确的商品需求,而是在逛的过程中逐渐去发现想买的商品。而推荐系统在用户逛的过程中,会向客户端下发并呈现不同类型的商品让用户从中挑选,推荐系统这个过程中会去捕捉用户的兴趣变化,从而推荐出更符合用户兴趣的商品。然而推荐系统能不能做到用户兴趣变化时立刻给出响应呢?01推荐系统中的痛点推荐系统以往的做法都是通原创 2021-05-21 08:44:06 · 1184 阅读 · 3 评论 -
深度学习核心技术精讲100篇(三十四)-智能化搜索,旅行场景下的个性化营销平台揭秘
导读:个性化投放的"无人驾驶"平台何以自动化支持上千个场景的千人千面投放?商家、运营、小二,我们如何做到极致赋能和提效?面对旅行场景下用户需求低频、行为稀疏,特别是在营销活动大促期间,用户量迅速增长,用户的冷启动问题更加严峻,如何提高冷启动用户的推荐效果成为关键。另外,面对旅行场景下的丰富多样的的货品需求依赖关系,我们如何来组织和呈现给用户?阿里飞猪个性化推荐团队将通过本文,为大家带来旅行场景下的个性化营销平台揭秘。主要分享内容包括: 背景 个性化营销平台架构 个性化营销平台算原创 2021-05-19 08:43:08 · 1182 阅读 · 8 评论 -
深度学习核心技术精讲100篇(三十二)-网易实时数仓实战应用
导读:随着大数据技术的进步,各种计算框架的涌现,数据仓库相关技术难题已经从离线数仓逐渐过渡到实时数仓,越来越多的企业对数据的实时性提出了严格的要求,如何满足企业的低延时的数据需求,如何看待批量处理和实时处理的关系,实时数仓应该如何分级,各家可能都有自己的理解,本文主要介绍网易的实时计算平台的建设实践以及网易对于实时数仓方面的一些规划及展望,希望能够起到抛砖引玉的作用。01实时计算平台实践1. 网易实时计算平台:Sloth网易的实时计算平台Sloth译成中文是树懒的意思,继承了网易喜欢用动原创 2021-05-16 06:54:13 · 1462 阅读 · 6 评论 -
MATLAB在AI领域的应用,语音信号处理全解析(附代码)
数字信号处理课设,我们使用MATLAB对语音信号进行了一系列处理,并将其所有功能集中于下图界面中:这个界面涉及功能众多,其中包括语音信号的观察分析、音色变换、AM调制解调、减抽样、加噪去噪、相频分析和幅频滤波等,最重要的是对MATLAB中函数的掌握,通过不同函数的组合实现你想要实现的功能。本篇不会给出整个界面的程序,下面会分块给出每个功能的程序,整个界面只需GUI设计界面文件、定义结构体并把对应键程序打进去即可。1、语音信号的采集1.1题目要求使用windows下的录音机录制一段语音原创 2020-09-18 08:55:23 · 3245 阅读 · 0 评论 -
深度学习核心技术精讲100篇(五十六)- 自动驾驶感知技术的实践与探索
导读:自动驾驶中的感知技术如同驾驶员的"眼睛"和"耳朵",在高速重卡的场景中,感知技术将面临哪些挑战?在量产化道路中,如何让感知技术与产品相结合去看清和理解足够的场景,本文将分享我们的一些心得体验。以下Enjoy~大家好,很高兴今天给大家分享智加科技在感知技术上的实践和探索,在前面的环节,江博士已经介绍了很多深度学习在智加自动驾驶中的很多应用,这里我特地给大家多介绍一些感知方面,深度学习(还包括其它的一些传统方法)能够落地的一些方法和实践,尤其是我们在实践过程中遇到的一些技术问题和一些有意思的cas原创 2021-07-13 09:35:57 · 1086 阅读 · 0 评论 -
深度学习核心技术精讲100篇(四十六)-情感分析算法在阿里小蜜的应用实践
导读:人机对话一直是自然语言处理领域内的重要研究方向之一,近年来随着人机交互技术的进步,对话系统正逐渐走向实际应用。其中,智能客服系统受到了很多企业尤其是中大型企业的广泛关注。智能客服系统旨在解决传统客服模式需要大量人力的状况,在节约人力的同时,使得人工客服在针对特别问题或者特别用户时能够提供更高质量的服务,从而实现 '智能客服+人工客服' 在服务效率和服务质量两个维度上的整体提升。近年来,许多中大型公司都已经构建了自己的智能客服体系,例如富士通的FRAP[1]、京东的JIMI[2]和阿里巴巴的AliMe[原创 2021-06-07 06:37:22 · 1176 阅读 · 2 评论 -
推荐系统架构治理
导读:在数字化革命和AI赋能的大背景下,推荐场景逻辑越来越复杂,推荐细分场景越来越丰富,对业务迭代和效果优化的效率有了更高的要求。推荐系统业务和技术在传统架构支撑下自然堆砌,变得越来越臃肿,开发维护困难,推荐系统在应用架构上正面临新的挑战。本文就第四范式在智能推荐系统架构方面的探索实践,聊一聊在应用架构治理方面提升推荐服务开发维护效率,增强系统灵活性和扩展性的新探索。重点探讨在开发推荐系统乃至智能系统领域时遇到的问题,解决方法及未来的发展趋势。主要内容包括: 推荐系统业务现状、趋势及挑战原创 2020-09-06 07:17:19 · 1277 阅读 · 0 评论 -
深度学习核心技术精讲100篇(四十二)-阿里妈妈深度树匹配技术演进:TDM->JTM->BSAT
导读:召回阶段作为互联网搜索、推荐、广告服务架构中的重要一环,是决定了系统整体服务质量的天花板。从召回算法技术发展的过程来看,大致经历了启发式规则方法及向量检索两代技术体系。为了突破召回阶段模型能力的限制,阿里妈妈定向广告团队于2017年提出了新一代的深度树匹配技术,使得任意复杂模型都能应用于召回阶段来做全库最优检索。近年来,这一技术框架围绕着检索技术本身进行了一系列的迭代,逐步建立了一套基于Learning to Retrieve思想的方法论,实现了对超大规模匹配问题中模型、索引、检索过程三者联合的最优理原创 2021-06-02 09:03:26 · 1283 阅读 · 3 评论 -
NLPCC:预训练在小米的推理优化落地
导读:本文主要分享小米AI实验室NLP团队在NLPCC轻量级语言模型比赛上的经验,以及我们在预训练模型推理优化上所作的工作和达到的实际落地后的效果。此次分享的目的是帮助大家快速进入比赛,以及了解工业界中使用BERT之类的大型预训练模型时进行推理的相关优化手段。01背景介绍首先和大家说一下比赛的背景和预训练模型中存在的问题。1.NLP中的预训练随着BERT的推出和发展,预训练模型成为目前工业界和比赛使用最广泛的模型。目前在各大NLP任务SOTA榜单上排前几名都是大型的预训练模型,比如原生.原创 2021-06-14 06:41:18 · 1125 阅读 · 2 评论 -
深度学习核心技术精讲100篇(四十三)-人工智能新技术-知识普及篇:一文带你深入认识下联邦学习的前世今生
导读 1联邦学习(Federated Learning)作为人工智能的一个新分支,为机器学习的新时代打开了大门。JDD风控算法团队将通过联邦学习白话三部曲,为大家揭秘联邦学习的前世今生。本段为您解读: 1. 联邦学习为什么这么热? 2. 联邦学习能做什么? 3. 三合一速成法则告诉你联邦学习是什么? 4. “百万富翁”带你揭秘如何直观理解隐私保护技术? 5. 联邦学习会损害模型效果吗?最热门的新技术如果投票问人工智能和...原创 2021-06-03 09:05:39 · 1142 阅读 · 4 评论 -
深度学习核心技术精讲100篇(五十)-爱奇艺逗芽表情搜索分析与实践
随着互联网时代的发展,表情包成为现在大家网上交流的必备工具,针对表情搜索的产品需求,爱奇艺逗芽技术团队经历了从ElasticSearch到Lucene再到结合语义的搜索实践之路。不同阶段的技术选型可能可以为大家提供一些中小体量业务垂直领域搜索的落地思路。逗芽表情搜索爱奇艺逗芽表情(https://douya.iqiyi.com)是一款通过视频AI算法算法,针对UGC、PGC等来源进行表情图片生产,并在爱奇艺内外部多渠道分发的创新产品。用户通过文字输入搜索好玩有趣的...原创 2021-06-21 06:57:19 · 1051 阅读 · 1 评论 -
深度学习核心技术精讲100篇(四十)-微信“看一看“内容理解与推荐,背后深层次的技术知多少?
内容理解与推荐相信对于不少人而言微信已经成为获取资讯的主要场景。与此同时,由于微信用户群体的庞大,也吸引了大量的内容生产者在微信公众平台创造内容,以获取用户关注、点赞、收藏等。微信内的内容推荐产品:看一看应运而生。结合微信用户的内容消费需求,以业务目标为导向,我们的推荐系统从基于属性召回、到协同&社交召回、再到深度模型召回进行了演进,深度模型涵盖了序列模型、双塔模型、混合模型、图模型,最终形成了多种召回并列、多路模型共同作用的看一看内容召回系统。如果把推荐系统中...原创 2021-05-25 08:42:45 · 1103 阅读 · 3 评论 -
深度学习核心技术精讲100篇(四十二)-Seq2seq框架下的文本生成
前言文本生成,旨在利用NLP技术,根据给定信息产生特定目标的文本序列,应用场景众多,并可以通过调整语料让相似的模型框架适应不同应用场景。本文重点围绕Encoder-Decoder结构,列举一些以文本摘要生成或QA系统文本生成为实验场景的技术进展。Seq2seq框架2014年NLP界有两份重要的成果,Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation和Sequen原创 2021-05-29 08:17:27 · 1313 阅读 · 1 评论 -
AI前言技术,一文带你深入了解语音识别的前世今生
导读:语音识别是一门综合性学科,涉及的领域非常广泛,包括声学、语音学、语言学、信号处理、概率统计、信息论、模式识别和深度学习等。语音识别的基础理论包括语音的产生和感知过程、语音信号基础知识、语音特征提取等,关键技术包括高斯混合模型 ( Gaussian Mixture Model,GMM )、隐马尔可夫模型 ( Hidden Markov Model,HMM )、深度神经网络 ( Deep Neural Network,DNN ),以及基于这些模型形成的GMM-HMM、DNN-HMM和端到端 ( End-t原创 2020-12-16 15:07:10 · 2028 阅读 · 0 评论 -
以网易严选为例,人工智能实战系列之预训练语言模型
导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。01前言文本的表征经历了漫长的发展历程,从最简单经典的bow词袋模型、以LDA为代表的主题模型、以word2vec为代表的稠密向量模型、到现在以Bert为代表的通用语言模型。词语是文本细粒度的表达,早期的预训原创 2020-12-21 08:50:03 · 1198 阅读 · 0 评论 -
深度学习核心技术精讲100篇(三十八)-滴滴司机调度系统实践
导读:随着移动互联网的兴起,网约车逐渐成为了大众常用的一个出行选择。但在网约车平台上经常出现这种情况:有时候乘客抱怨打不到车,与此同时其他地方的司机却没有订单接,长时间空驶。这就是典型的供需不平衡问题,即乘客和司机的自然分布出现了错配。这一方面让很多乘客的出行需求得不到满足,另一方面也让很多司机空驶等待,运力资源没有充分利用。如何解决供需不平衡问题呢?01背景出租车为人们提供了方便灵活的出行服务,在公共交通中扮演了重要角色。出租车在道路上空载行驶寻找乘客的过程,称为空车巡游过程。这一过程可能会占原创 2021-05-23 08:59:45 · 1473 阅读 · 3 评论 -
深度学习核心技术精讲100篇(三十)-ClickHouse在字节跳动广告业务中的应用
导读:广告是支撑互联网高速发展的经济基石,也是很多互联网公司的重要收入来源。字节跳动的广告平台管理着 EB 量级的数据和服务着数以千万的商业用户,其中 ClickHouse 作为核心引擎支撑了海量数据在线分析的需求。本次分享,将介绍 ClickHouse 在字节跳动广告业务上的应用与实践,包含人群预估、数据分析、人群画像等多个场景。并重点介绍如何通过深度优化高效解决广告人群预估的问题,以及未来的迭代计划。01业务背景众所周知,广告是很多互联网公司的主要收入,对于字节跳动来说也是如此。那么,在字节原创 2021-05-09 06:29:11 · 1245 阅读 · 0 评论 -
深度学习核心技术精讲100篇(二十九)-基于内容和上下文的音乐推荐
导读:随着在线音乐商城及流媒体音乐服务的出现,数字音乐分发已经使得音乐触手可及。然而,面对突然出现的海量可收听内容,听众很容易面临信息过载的问题。因此,本次分享的主题音乐推荐系统,将为那些面临海量内容的用户提供一些引导。本文将重点介绍其中的两种音乐推荐系统:基于内容和上下文的音乐推荐。01基于内容的音乐推荐内容信息涵盖了任何可以用于描述音乐内容的信息,包括从音频信号中抽取的信息和外部信息源 ( 网络文档、音乐作品目录和标签 ) 提供的元数据。在本节中,我们将概述基于内容的音乐推荐算法,并根据采用原创 2021-05-07 08:43:38 · 1270 阅读 · 0 评论 -
阿里妈妈:基于动态背包的多场景广告序列投放算法
导读:ROI提升10%!阿里妈妈定向广告技术团队首次采用基于长期价值的动态背包问题来建模和求解序列广告投放问题。本文将为大家分享具体的建模方案和细节,并通过离线和在线实验进行验证。01背景在电商平台中,在预算约束下优化一段时间的GMV是广告主的核心诉求之一。作为电商平台,从广告主视角如何帮助其实现该诉求是非常重要的问题。 对广告主:一段时间预算约束下的GMV优化帮助广告主实现更多营收和更高的投资回报率 ( ROI ),从而让广告主真正满意; 对平台:消费者和广告主的满意度提升为平原创 2021-05-10 06:27:25 · 1103 阅读 · 1 评论 -
深度学习核心技术精讲100篇(三十三)-微博推荐算法实践与机器学习平台演进
导读:微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中我们遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。主要内容包括: 微博简介 相关推荐场景描述 微博推荐算法实践 微博机器学习平台 01微博简介财报显示:微博拥有2.4亿日活D原创 2021-05-17 06:12:11 · 1203 阅读 · 0 评论 -
人工智能应用实战系列-如何在新闻推荐中使用迁移学习
导读:新闻推荐已经成为移动设备中的一项重要服务,其目的是让大多数用户知道世界上发生了什么。在本文中,我们将重点介绍向新用户推荐最新的新闻文章。我们假设用户在某个新闻推荐服务中首次注册,并且以前没有读过任何新闻文章。此任务与新用户冷启动挑战和新物品 ( 即新闻文章 ) 冷启动挑战相关,因此称为双冷启动推荐 (Dual Cold-Start Recommendation, DCSR )。对于双冷启动推荐问题,现有的新闻推荐方法 (Das等人,2007;Liu等人,2010a ) 不适用,因为这些方法依赖..原创 2020-12-03 08:37:18 · 1075 阅读 · 0 评论 -
深度学习核心技术精讲100篇(三十九)-医疗健康领域的短文本理解
导读:本次分享的主题为医疗健康领域的短文本理解,主要介绍在丁香园的业务场景下,短文本理解的技术实践,并讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用,希望能够给大家的日常工作提供一些思路。主要内容包括: 丁香园主要的业务和所服务的对象,以及在垂直领域下NLP工作可能需要面对的挑战 在医疗健康领域短文本理解上的尝试 结合工业场景,展示一些应用案例 01业务场景及文本解析困境思考1. 关于丁香园丁香园的起点是打造一个专业的医学学术论坛,为医生、医学生及其原创 2021-05-24 06:47:01 · 1181 阅读 · 4 评论 -
自然语言处理NLP,如何使用AMBERT算法建立多粒度token预训练语言模型
字节跳动 Xinsong Zhang、李航两位研究者在细粒度和粗粒度标记化的基础上,提出了一种新的预训练语言模型,他们称之为 AMBERT(一种多粒度 BERT)。在构成上,AMBERT 具有两个编码器。预训练语言模型如BERT在自然语言理解(NLU)的许多任务中表现出色。模型中的tokens通常是细粒度的,像英语是单词或sub-words或者是像中文字符。在英语中,例如,有多词表达形式的自然词汇单位,因此使用粗粒度标记似乎也是合理的。事实上,细粒度和粗粒度的标记化在学习预训练语言模型..原创 2020-12-23 08:51:53 · 1343 阅读 · 2 评论 -
耗时3天,上亿数据如何做到秒级查询?
最近在忙着优化集团公司的一个报表。优化完成后,报表查询速度由从半小时以上(甚至查不出)到秒查的质变。从修改 SQL 查询语句逻辑到决定创建存储过程实现,花了我 3 天多的时间,在此总结一下,希望对朋友们有帮助。数据背景首先项目是西门子中国在我司实施部署的 MES 项目,由于项目是在产线上运作(3 years+),数据累积很大。在项目的数据库中,大概上亿条数据的表有 5 个以上,千万级数据的表 10 个以上,百万级数据的表,很多…(历史问题,当初实施无人监管,无人监控数...原创 2020-08-28 08:37:50 · 1493 阅读 · 0 评论 -
基于依存句法分析的关键短语抽取算法实战
由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具。目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。算法流程关键词短抽取成算法主要分为两部分:1.候选短语抽取;2.候选短语打分候选短语抽取:一般可以采取 "ngram" + 文法规则的做法:比如下方例子中的2gram短语原创 2020-08-07 08:33:12 · 1854 阅读 · 0 评论 -
15 分钟搭建一个基于XLNET的文本分类模型——keras实战
今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型——XLNET ,下图是XLNET在中文问答数据集CMRC 2018数据集(哈工大讯飞联合实验室发布的中文机器阅读理解数据,形式与SQuAD相同)上的表现。我们可以看到XLNET的实力略胜于BERT。XLNET 的一些表现这里笔者会先简单地介绍一下XLNET精妙的算法设计,当然我尽量采用通俗的语言去表达那些深奥的数学表达式,整个行文过程会直接采用原论文的行文流程:Observition—>Motivition—.原创 2020-07-26 08:28:24 · 2432 阅读 · 0 评论 -
摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践
NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义,所以在做长文本分类任务时,我们可以采用文本摘要算法将长文本的摘要抽取出来,在采用短文本分类模型去做文本分类,有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类:一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是sequence2sequence原创 2020-09-25 08:39:54 · 1936 阅读 · 0 评论 -
keras 实战系列之Self-Attention详细解析
Attention技术在 NLP 模型中几乎已经成了不可或缺的重要组成部分,最早Attention主要应用在机器翻译中起到了文本对齐的作用,比如下图,Attention 矩阵会将 法语的 La Syrie 和英语的 Syrie 对齐,Attention 机制极大的提升了机器翻译模型的性能。attention 文本对齐而最近各种花式的Attention机制相继被提出,同时这些Attention机制也不断的刷新着各种NLP任务的SOTA(state of the art)。Attention 机制原创 2020-07-20 10:04:46 · 2285 阅读 · 0 评论