- 博客(745)
- 资源 (5)
- 收藏
- 关注
原创 深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点
激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。
2024-02-27 21:53:36 1165
原创 Pytorch卷积层原理和示例 nn.Conv1d卷积 nn.Conv2d卷积
一,前提二,卷积层原理1.概念2.作用3. 卷积过程三,nn.conv1d1,函数定义:2, 参数说明:3,代码:4, 分析计算过程四,nn.conv2d1, 函数定义2, 参数:3, 代码4, 分析计算过程在开始前,要使用pytorch实现以下内容,需要掌握tensor和的用法卷积层是用一个固定大小的矩形区去席卷原始数据,将原始数据分成一个个和卷积核大小相同的小块,然后将这些小块和卷积核相乘输出一个卷积值(注意这里是一个单独的值,不再是矩阵了)。特征提取卷积的本质就是用卷积核的
2024-02-05 20:43:33 3148
原创 绘制频率分布直方图的三种方法,总结的很用心
直方图能帮助迅速了解数据的分布形态,将观测数据分组,并以柱状条表示各分组中观测数据的个数。简单而有效的可视化方法,可检测数据是否有问题,也可看出数据是否遵从某种已知分布。本次案例通过生成深圳市疫情个案数据集中所有患者的年龄参数直方图。分别使用Matplotlib、Pandas、Seaborn模块可视化Histogram。其中,Matplotlib和Pandas样式简单,看上去吸引力不大。Seaborn可往单变量直方图上添加很多东西,更美观,pandas可成组生成直方图。
2024-02-04 11:31:00 5034
原创 Tensorflow 中的损失函数 —— loss 专题汇总
标准的损失函数并不合适所有场景,有些实际的背景需要采用自己构造的损失函数,Tensorflow 也提供了丰富的基础函数供自行构建。例如下面的例子:当预测值(y_pred)比真实值(y_true)大时,使用 (y_pred-y_true)*loss_more 作为 loss,反之,使用 (y_true-y_pred)*loss_lesstf.greater(x, y):判断 x 是否大于 y,当维度不一致时广播后比较。
2024-01-24 21:49:46 2949 1
原创 「2023 | 快手」PEPNet:融合个性化先验信息的多场景多任务网络
之前梳理过多场景建模方法:推荐系统(二十四)「知识梳理」多场景建模梳理,现在介绍快手提出的多场景多任务方法PEPNet。From: 2023 快手。
2024-01-18 16:05:49 2438
原创 端智能在大众点评搜索重排序的应用实践
端智能重排序是大众点评搜索在边缘计算方向的一次探索实践,并且在核心指标上取得了较为显著的效果。通过利用端上计算的能力,更高效地捕捉用户的实时兴趣偏好,弥补云端服务决策延迟、用户反馈信息获取延迟等问题。及时调整未曝光候选结果的顺序,把更符合用户意图的商户排上来,从而带来更好的用户搜索触达体验。同时,我们对前后端训练、部署预估框架进行了升级,为后续进一步快速迭代实验奠定了良好的基础。
2024-01-16 21:36:25 1548 1
原创 推荐系统模型(一) DFN 详解 Deep Feedback Network for Recommendation
在大多数的推荐系统中,往往注重于隐式正反馈(例如:点击),而忽略掉用户的其他行为(例如大多数CTR模型只考虑用户的喜欢,而忽略了不喜欢)。腾讯在Deep Feedback Network for Recommendation 一文中,提出了一个新颖的推荐系统模型,该模型使用了一个新的神经网络框架,考虑了,通过大量的实验证实了该模型的有效性和鲁棒性。
2024-01-16 20:41:21 1715
原创 大模型在广告ctr预估中的应用
预训练大模型在ctr预估方面取得了不错的效果,但是应用大模型方面还主要停留在提取离线预训练,然后使用大模型的打分结果或者中间的embedding向量,这种级联的应用方式相对灵活方便。但是这种使用大模型提取特征的方式存在自身的问题,那就是通过独立训练得到的特征,对于最终的ctr模型来说不是最优的。主要原因是预训练的大模型和ctr模型存在不对齐的问题,造成大模型提取的特征存在冗余重叠的情况。为了解决这个问题,微软ad团队提出了预训练+联合学习和蒸馏学习的方式,对大模型进行端到端的应用,从而返回大模型真正的威力。
2024-01-11 20:12:02 702
原创 NLP技术在搜索推荐场景中的应用
本文主要介绍了NLP技术在搜索推荐场景中的应用。在搜索推荐中,文本信息是很常见的一种信息来源,因此如何利用文本信息提升CTR预估、推荐等模型效果,以及如何利用NLP技术解决相关性问题,都是搜推广场景中很有价值的研究点。
2024-01-10 18:55:29 742
原创 互联网广告行业发展历程
1994年全球第一个互联网广告诞生。1995年左右是互联网大众化的启蒙期,也开启了门户广告时代。这个阶段互联网用户规模有限,广告主对互联网的认知也较弱,尝鲜者并不多。电视、报纸、广播、户外等仍是广告主流媒体。由于媒体特点、流量规模、交易成本等的限制,当时的流量通常是打包售卖的,CPM、CPT是主流。广告销售顾问提前与客户确定广告位置、广告内容、广告展示时间,媒体在相应的时间展示广告。随着雅虎、谷歌等搜索引擎的发展,互联网广告有了第一次革命性变化。
2024-01-05 21:15:10 1050
原创 一文快速了解oCPX
o是Optimized,优化一词的首字母。CPX即Cost Per X,“X”即泛指传统的那些按不同方式进行结算的模式,如:CPC(Cost Per Click,按点击付费)、CPM(Cost Per Mille,按千次曝光付费)、CPA(Cost Per Action,按转化效果付费(转化效果例如:表单留销售线索、App下载安装、新注册用户、领优惠劵、加购物车、甚至下单等))等;
2023-12-19 11:36:34 2490
原创 当大语言模型遇见广告:新变革还是新泡沫?
人工智能可能从未受到过如此之高的关注度。2022年11月30日,OpenAI正式发布了ChatGPT,它是一款基于GPT3.5架构 1 进行训练的人工智能聊天机械人。ChatGPT像是一个全能的人,无论是有关文化、历史、艺术还是科技和商业的问题,它都能给出有理有据的回答。因此,相比传统搜索引擎,ChatGPT显然更加易用,这给搜索引擎的广告带来了直接的冲击。
2023-12-13 17:49:51 943
原创 传谷歌拟在广告中使用新AI模型,并为YouTuber提供建议
据内部文件显示,该公司已经批准了在大型语言模型(LLM)的推动下,使用生成式人工智能来自动化广告和广告支持的消费者服务的计划。值得一提的是,谷歌最近提供了 Google Duet 和 Google Chat 帮助,允许人们使用简单的自然语言来获得与云相关的问题的答案,例如如何使用某些云服务或功能,或者为他们的项目获得详细的实施计划。现如今,随着人工智能聊天机器人的热潮迅速席卷整个科技行业,并吸引了华尔街的关注,谷歌及其同行,包括微软 Meta 和亚马逊,正急于将自己最复杂的模型嵌入尽可能多的产品中。
2023-12-13 16:08:06 425
原创 语义搜索与LLM可以做些什么
然而,随着语义搜索的引入,搜索的体验类似于与朋友交谈,让搜索结果得到了显著的改善。这种新的方法可以根据单词和句子的含义进行搜索,而不仅仅是特定的术语,从而产生更准确的播客搜索体验。包括利用他们的一体化播客创作应用程序Anchor的语义搜索,以增强播客API和使用自然语言的播客搜索功能。虽然Stack Overflow在最近在其搜索中集成了语义模型,但早在去年ChatGPT在互联网上名声大开时,就有一些人预测语义搜索与语言模型结合的方式可以成为实现更好的搜索体验的合适方法。但谷歌并不是唯一一家这样做的公司。
2023-12-13 15:49:01 464
原创 眼花缭乱的ADN/ADX/DSP/DMP/SSP和他们的关系链
做过互联网广告尤其是程序化广告的同学都遇到过以下这些名词,或许正被他们折磨的焦头烂额,这篇文章,我们就来说说这些概念的含义及他们之间的关系链。ADN:AD Network——广告网络或广告联盟。连接广告主和媒体的中间商。ADX:ADExchange——广告交易平台。连接广告主/SSP和DSP的平台。DSP:需求方平台——Demand SidePlatform。代表广告主利益的平台。SSP:供应方平台——Supply Side Platform。代表媒体利益的平台。
2023-12-08 18:12:08 3702
原创 互联网广告的发展历程
1994年全球第一个互联网广告诞生。追本溯源,网络广告发源于美国。1994年10月14日是网络广告史上的里程碑,美国著名的Hotwired杂志推出了网络版的Hotwired,并首次在网站上推出了网络广告,这立即吸引了AT&T等14个客户在其主页上发布广告,10月27日当一个468x60的Banner广告出现在页面上时,标志着网络广告正式诞生。1995年左右是互联网大众化的启蒙期,也开启了门户广告时代。这个阶段互联网用户规模有限,广告主对互联网的认知也较弱,尝鲜者并不多。
2023-12-05 15:26:57 2280
原创 这5种软实力,在职场上很重要
汇报项目成果、需要别人支持、跨部门合作等,也需要你能用简洁明了的语言表达清楚需求,并让别人听起来觉得合情合理,能舒服地接受你的“说服”,心甘情愿地配合。如果你能力很强,但总是搞分裂、扰乱军心,在职场是不受欢迎的。美国密歇根大学发表的一篇文章称,只有全员合作才能带来更好的结果,组织中的每个人都要有意识地去贡献自己的技能和经验,才能加快共同目标的实现。所以,在一个团队里,不要轻易嚼人舌根、说人坏话、散播谣言和消极情绪,多一些和谐友好的合作、乐于助人、尊重他人,善于协调工作、处理冲突,才能凝聚力量、集思广益。
2023-12-04 16:57:04 374
原创 作为项目经理,你少不了要有的软实力
如果确实近期没有话题,或者可以更新的内容很好,那么也不要轻易取消会议,可以适当缩短会议时间,也可以和团队成员闲聊一会,对团队的建设也是不无裨益的,甚至有意想不到的收获。这样才方便接收者在不打开邮件的情况下,快速识别你邮件的主要内容,以决定邮件的优先级,对于老板来说尤其是这样,他们每天可能收到几百封邮件,不可能每封邮件都马上阅读,甚至有些邮件根本就不读。那么,你就会发现,你的软实力就会不断上升,而这种实力会变成你的个人魅力,从你的每个毛孔里散发出来,这就是重复的力量!如果计划做得好,怎么老是有紧急的事情呢?
2023-12-04 15:35:28 420
原创 LLM Fine-Tuning大模型FT方法
Here we discuss fine-tuning Llama 2 with a couple of different recipes. We will cover two scenarios here:This helps make the fine-tuning process more affordable even on 1 consumer grade GPU. These methods enable us to keep the whole model frozen and to jus
2023-11-28 21:28:11 1111
原创 Huggingface 超详细介绍
Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。其之所以能够获得如此巨大的成功,一方面是让我们这些甲方企业的小白,尤其是入门者也能快速用得上科研大牛们训练出的超牛模型。
2023-11-26 10:58:37 10642 1
原创 FlagEmbedding目前最好的sentence编码工具
请注意,预训练的目标是重构文本,预训练后的模型无法直接用于相似度计算,需要进行微调之后才可以用于相似度计算。08/02/2023: 🎉 🎉 发布中英文向量模型BGE(BAAI General Embedding的缩写), 在MTEB和C-MTEB榜单上取得最好的性能。更新向量模型:发布bge-*-v1.5向量模型,缓解相似度分布问题,提升无指令情况下的检索能力(但检索任务仍建议使用指令)10/12/2023: 发布 LLM-Embedder, 专为大语言模型各种检索增强任务设计的英文向量模型。
2023-11-25 22:48:38 1721
原创 gpt是如何进行训练的?
input经过矩阵计算得到权重att后,经过masked_fill掩码处理,得到了掩码的att权重,然后经过softmax归一化处理,最后的v乘积得到了每个output字符用前面input字符权重加权的表示,最后经过矩阵变换成voc_size大小的输出,就是我们要求的output输出,最后把我们计算得到output和target进行交叉熵损失函数计算,得到最终的loss,从而进行梯度下降优化整个模型。是的你没有看错,输入输出就是一个字符的错位。sentence:如何理解gpt的原理。
2023-11-25 22:46:23 1347 3
原创 问答知识库快速构建技术解析及行业实践
现阶段对话式 AI 技术应用的业界难题,主要是新场景中对话机器人的冷启动问题。上面介绍了我们在快速构建问答知识库上的工作,在一定程度上解决了冷启动问题,使冷启动和知识库更新时间缩短近 70%,但是仍然需要一定的人力在工具的辅助下进行知识库审核和构建。目前流行的基于提示学习 prompt 的小样本学习,可充分利用预训练模型在大量无监督数据集上学习到的丰富知识,进一步减少冷启动所需要的数据量和人力投入。
2023-11-23 15:08:10 231
原创 SELF-RAG: 让LLM集检索,生成跟评判等多种能力于一身
尽管基础能力出众,但是大模型只能依赖于被压缩到模型参数中的知识,所以经常会生成不符合事实的回复。针对这种事实性错误,目前主流的解决方案是知识增强,引入外部的知识源来引导模型生成。但是不考虑具体情形,一味地去检索外部文档可能会损害语言模型的多样性,生成不合适的回复。基于此,有研究人员提出了Self-Reflective Retrieval-Augmented Generation(SELF-RAG),一种新的大模型知识增强框架,可以通过检索跟自我反思提升大模型生成的质量跟事实可靠性。
2023-11-18 11:07:06 955
原创 值得收藏!基于LLM的推荐系统全面综述!
大型语言模型(LLMs)已在自然语言处理(NLP)领域崭露头角,并在推荐系统(RS)领域近期受到了极大关注。这些模型通过自监督学习在大量数据上进行训练,已在学习通用表示上取得了显著成功,并有可能通过一些有效的迁移技术(如微调和提示调整等)来增强推荐系统的各个方面。利用语言模型的力量来提高推荐质量的关键在于利用它们对文本特征的高质量表示以及对外部知识的广泛覆盖,以建立项目和用户之间的关联。
2023-10-22 00:01:11 1694
原创 Bag of Tricks for Efficient Text Classification(FastText)
主要的有点就是快,用途就是用于文本分类,模型结构如上,主要是通过embedding将文本转换成向量,然后进行mean-pooling,然后输入到hidden隐向量中,通过softmax输出多分类,损失函数是对数似然损失函数(log-likelihood loss).
2023-10-21 23:38:04 216
原创 全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent
近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并推出大模型「超级英雄」——XAgent。通过任务测试,XAgent 在真实复杂任务的处理能力已全面超越 AutoGPT。现已在 GitHub 正式开源,地址 https://github.com/OpenBMB/XAgent案例展示地址:https://x-agent.net/博客地址:https://blog.x-agent.net。
2023-10-17 20:53:58 3002
原创 AutoGPT:自动化GPT原理及应用实践
当输入prompt时,其会被编码器映射至潜在空间特定维度的高语义表征向量。这些向量通过解码器解码生成我们所需要的回答。
2023-10-17 20:05:30 1914
原创 SGPT: GPT Sentence Embeddings for Semantic Search
语义搜索分为两个部分:1.搜索和query 相关的topk文档。2.理解文档和query后面隐藏的语义信息,而不是字面含义。这篇论文提出了SGPT模型,只用decoder-only的transformer来进行语义搜索和sentence向量的提取。
2023-10-16 16:54:52 644
原创 Retrieve Anything To Augment Large Language Models
论文主要介绍了一套通过对比学习和蒸馏学习的方法,来增强学习了embedding向量,然后能够在知识增强,长上下文建模,ICL和工具学习等方面来增强大模型能力。
2023-10-14 23:30:08 816
原创 RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
提出了RetroMAE算法,算法有三个主要的设计:1.A novel MAE workflow一种全新的MAE预训练方法,输入数据会被masked处理两次,一个masked数据用于encoder,另一个会被用于decoder。encoder用来对sentence进行embedding编码,decoder根据编码后的句子隐向量和masked输入,还原句子。
2023-10-13 14:49:29 472
原创 C-Pack: Packaged Resources To Advance General Chinese Embedding
最主要的来源是wudao语料库,对于其中的每一篇文章,我们解析了title和passage正文作为文本对,用同样的方法也整理了很多其他的开源语料。2.C-MTP (labeled)同时收集了84w高质量的预料对,大多数的labeled的语料对,都是通过人工标注的方式进行的。由于集合的规模和多样性,主要的中文embedding能力可以被很好的评估,可以很好的评估embedding模型的通用性。利用上面的语料训练了一些列模型(包括24M,102M,326M三种模型),模型在中文基准上取得了非常好的效果。
2023-10-12 21:55:07 626
原创 试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读
一周之前,ChatGPT迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版GPT-4V模型相关文档也一并放出。当时 OpenAI 放出的文档只有18页,很多内容都无从得知,对于想要更深入了解GPT-4V应用的人来说,难度还是相当大的。短短几天时间,当大家还在死磕OpenAI 放出的18页文档时,微软就公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。
2023-10-12 11:03:32 291
原创 【转载】LLM-Native 产品的变与不变
《银河系漫游指南》的作者——道格拉斯·亚当斯曾经对「技术」一词做出这样一种解释:「技术」是描述某种尚未发挥作用的东西的词汇。这是一个充满实用主义的定义,这句话可以被更直观地表述为:当我们还在热烈讨论某种技术时,往往意味着该技术还未真正发挥作用。事实上所有底层技术驱动的产业革命都将经历一个市场焦点从技术向应用转移的过程,而当这种转移开始发生时,才意味着该技术开始兑现其价值。对于大语言模型技术(下文称:LLMs)来说,在经历了注定载入科技史册的技术狂飙后,虽然目前其技术进展依然占据绝大多数的市场关注度,但已有
2023-10-07 18:59:49 178
原创 ChatGPT是如何产生心智的?
如果要问,现阶段GPT和人类说话方式最大的不同是什么,我认为,答案是他不会说谎。对于语言模型来说,说和想是一件事情,他只是一个字一个字的把他的思考过程和心理活动说出来了而已。GPT从不回答我不知道,因为他并不知道自己不知道,这就是AI的幻觉,看起来就像是一本正经的胡说八道,他只是想让对话继续下去,是否正确反而没那么重要。优化这个问题的方法也很简单,只需要在提问的时候多补充一句,Let’s think step by step,请逐步分析,让GPT像人一样多想几步,对他来说也就是把想的过程说出来。
2023-10-07 16:05:51 2018 3
原创 Agent开发的一小步,大模型应用的一大步
在这之中,亚马逊云科技不断降低生成式AI的门槛,无论是初创企业还是传统行业,无论是处于生成式AI进程的哪一层,都能在这里找到合适的工具,无需耗费太多精力在底层逻辑之上,便可快速投入实际业务。当然,最值得说道的是这次最新推出的Amazon OpenSearch Serverless服务,它最大的优点就是让企业只关心向量数据的存储和检索,而不用背上任何底层运维的负担。如何集成这些丰富的资源到我们的Agent之中,保证我们的大模型应用在执行任务时能够高效访问到正确的信息——是当下每一个企业都要面对的问题。
2023-09-28 18:30:39 466
原创 腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景
也有一些大众熟知的标志性事件,比如,IBM的专用超算机深蓝,在1995年,通过穷举棋盘上所有可能性,夺得国际象棋世界冠军。但是有一点我想讲的是,技术的发展、演进、变化,总是超出人的想象,而人类拥抱变化的勇气,创新的智慧,化挑战为机遇的能力,也往往超出我们自己的想象。大语言模型不仅能与人沟通,更重要的是通过模型的精调,可以按需求产生一系列的执行步骤,比如联网调用不同插件的能力,加上多模态让AI同时能看懂图,听懂话,会规划,能行动,这样就可以做出更强大的应用,让AI更像真正意义上的智能助手,完成更高级的任务。
2023-09-28 18:19:22 435
原创 以人为本是AI大模型的最终落脚点——读《大模型时代:ChatGPT开启通用人工智能浪潮》
对此,作者在书中提出一个比较有意思的观点:新技术对人类就业的贡献常常会低开高走,在新技术刚出现时,对人力的替代效应较为明显,会引起部分群体的反抗,而随着技术应用的逐步加深和扩散,将催生更多创新,放大市场规模,然后就有可能为人类创造更多的就业岗位。但同时,越来越多的社会学者和业内人士也对AI大模型进行反思,甚至提出质疑:一是AI大模型的数据挖掘和开放性的网络应用具有很强的规模化效应,如果AI独特的学习和预测能力被应用到更多领域,则可能会引发知识产权纠纷,并且将涉及数据隐私等更深层次的问题。
2023-09-28 17:49:26 1098
数据结构试验 山东大学
2011-05-19
数据库课程设计-图书馆信息管理系统
2011-05-18
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人