
程序猿的AI快车道
文章平均质量分 89
让每个人的AI学习之路走的更容易些,若我的经验能为你前行的道路增添一丝轻松,我将倍感荣幸🌈🌈🌈
让知识传递更容易,用知识让生活更美好!
青松ᵃⁱ
北京大学硕士,前中国电信算法专家。希望用我的经验,让“程序猿”的AI学习之路走的更容易些,若我的经验能为你前行的道路增添一丝轻松,我将倍感荣幸!共勉~
展开
-
AIGC时代大模型信息安全隐私保护技术方案
因为采用了全标签替换的方法,导致其对原始文本中提示词的语言表达能力较弱,这可能对云端的大型语言模型的性能产生负面影响。然而这种传统的匿名化处理方法无法在LLM生成的结果中还原出被替换的隐私敏感信息,从而限制了其可用性及准确性。使用构造的匿名化数据训练小的隐藏模型(Hide-Model):基于第一步标注的数据,使用lora或qlora方法基于bloomz来微调得到Hide Model。可以看到,原始输入中的敏感信息在送到大模型之前进行了脱敏处理,在大模型处理后,被脱敏替换的内容又被还原成了原始信息。原创 2024-09-28 20:59:54 · 1669 阅读 · 1 评论 -
【程序员 NLP 入门】词嵌入 - 如何基于计数的方法表示文本? (★小白必会版★)
🌟🌈。原创 2025-04-22 17:12:21 · 399 阅读 · 0 评论 -
【AI入门】如何让向量具有语义信息?
通常情况下,我们可以维护一个如下图所示的查询表。表中每一行都存储了一个特定词语的向量值,每一列的第一个元素都代表着这个词本身,以便于我们进行词和向量的映射(如“我”对应的向量值为 [0.3,0.5,0.7,0.9,-0.2,0.03] )。得到每个单词的向量表示后,我们需要思考下一个问题:比如在多数情况下,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似;在上面的句子中,我们通过上下文可以推断出第一个“苹果”指的是苹果手机,第二个“苹果”指的是水果苹果,而第三个“菠萝”指的应该也是一个手机。原创 2025-04-22 16:44:59 · 404 阅读 · 0 评论 -
【大厂AI实践】美团:基于知识图谱的问答在美团智能交互场景中的应用和演进
智能交互的划分基本上是根据人类需求拆分:- 检索式交互—信息获取,比较经典的方法 FAQ:QA 匹配,QQ 匹配;- 任务式交互—执行任务,比如订机票 ( 酒店 ) 的特定任务;- 闲聊式交互—娱乐与休闲,基于深度学习的端到端的学习系统。原创 2025-04-11 13:59:44 · 969 阅读 · 0 评论 -
【大厂AI实践】腾讯:可控、可靠的数据到文本生成技术
这里定义了三种操作符,Chain、Sibling和Combination。首先是Chain,比如给定三元组信息<John, residence, London>(John住在伦敦),<England, capital, London>(英国的首都是伦敦),规定Chain的描述顺序,那么整个句式就是序列化的描述方式,中间不会有and或者or去连接。另外一个结构Sibling,两个信息是并列的,会有一个and去做连接。第三个操作Combination,就是把前面两种结构连在一起,最终产生一个描述的句子。原创 2025-02-26 05:00:00 · 859 阅读 · 0 评论 -
【大厂AI实践】腾讯:微信搜一搜中的智能问答技术
搜索引擎是人们获取信息的重要途径,其中包含了很多问答型的query。但传统的搜索只能返回TopK的网页,需要用户自己从网页中分析甄别答案,体验较差。原因是传统搜索引擎只是对query和doc做“匹配”,并不是真正细粒度地理解query。智能问答正好可以弥补这个局限,它的优势在于能够更好地分析query,直接返回精准、可靠的答案。原创 2025-02-28 11:30:00 · 726 阅读 · 0 评论 -
【大厂AI实践】腾讯:QQ浏览器搜索中的智能问答技术
问答的核心是通过理解语言和运用知识来进行提问和回答。从应用角度看,由于人类有获取信息的需求和旺盛的好奇心,问答的场景无处不在;从研究角度看,问答是认知智能的前沿之一。问答在搜索场景的应用可以分为两类。一类是满足用户的直接搜索需求,即在搜索结果页给用户提供精准的答案,例如Top1问答卡片。另一类是通过问答的方式与用户交互,来帮助用户澄清、细化和延伸需求,例如推荐和对话形式的问答。原创 2025-02-27 11:30:00 · 908 阅读 · 0 评论 -
【大厂AI实践】腾讯:QQ音乐命名实体识别技术
NER就是识别文本中具有特定意义的实体,在音乐领域中实体主要包括歌曲名、歌手名、影视、综艺、版本、音乐流派等,例如:Block B在一周的偶像中挑战二倍速的Her,rap部分感觉Zico的舌头都要打结了这里有歌曲名(Her、东方红)、歌手名(Block B、Zico)、综艺(一周的偶像)。在音乐领域中,NER在多种类型的文本上都有着广泛的应用,这里我们主要分为两大类:用户query理解和音乐文本结构化。原创 2025-02-26 11:30:00 · 986 阅读 · 0 评论 -
【大厂AI实践】微软:基于预训练的自然语言生成在搜索与广告中的应用
在介绍先知网络之前,简单介绍研究背景。我们起初是想把生成模型应用在广告关键词生成task上。我们背后有很多广告,每个广告都有一个keywords set,用户输入一个query,所有广告的keywords set就得到一个候选集,我们要通过这个query,到候选集里面去找相关的keywords。这本身是一个检索任务,已经有各种检索模型在线上使用了,我们想把生成模型也应用到这个task上。原创 2025-02-25 19:06:58 · 998 阅读 · 0 评论 -
【AI工程实践】阅文集团:NLP在网络文学领域的应用
技术如何与业务结合。很多时候不能避免返工,但要保证这件事或者方向正确,要对业务问题非常清楚。如何快速构建正负样本。样本标注不是硬标注,应结合技术手段尽可能减少标注的工作量(例如谷歌流体标注改造),标注尽可能使用二值判断的方式,避免使用从多个选项中选择一个的方式。另一点是配套监控与记录、校验,确保整个标注过程可控。如何充分利用用户行为。不要觉得用户行为是无效的,用户行为能提供很多信息。文本本身是通过共识达成的,而用户行为记录的是更本质的共识系统。如果业务上会产出用户行为,则优先考虑用户行为贡献的知识。原创 2025-02-19 14:30:00 · 1006 阅读 · 0 评论 -
【大厂AI实践】中原银行:中原银行 AI 平台建设实践
本文将分享中原银行在 AI 平台建设过程中的一些实践和思考原创 2025-02-19 09:15:21 · 900 阅读 · 0 评论 -
【NLP入门】一文搞懂注意力机制(★小白必会版★)
计算这个表示各个单词重要度的权重和单词向量 hs 的加权和,可以获得目标向量。基于Softmax的正规化,将相似度得分转化为注意力权重:使用 Softmax 函数之后,输出的 a 的各个元素的值在 0.0 ~ 1.0,总和为 1,这样就求得了表示各个单词权重的 a。我们只将编码器 LSTM 层的最后的隐藏状态传递给解码器,编码器未充分利用编码器产生的信息。:将编码器 LSTM 层产生的所有时刻的隐藏状态向量 hs 都传递给解码器,让解码器可以使用更多的信息进行解码。原创 2025-02-13 14:00:00 · 375 阅读 · 0 评论 -
【NLP入门】一文搞懂 Seq2Seq模型(★小白必会版★)
> - 使用Seq2Seq模型进行AI文本生成> - 改进Seq2Seq生成更加自然的文本原创 2025-02-12 23:53:33 · 1118 阅读 · 0 评论 -
【NLP入门】一文搞懂 LSTM (★小白必会版★)
RNN 虽然可以记忆过去的信息,但许多情况下它都无法很好地学习到时序数据的长期依赖关系,实际效果并不好。原因在于 BPTT 会发生梯度消失和梯度爆炸的问题。原创 2025-02-13 11:00:00 · 910 阅读 · 0 评论 -
【NLP入门】一文搞懂 RNN 循环神经网络(★小白必会版★)
循环的神经网络(Recurrent Neural Network)简称RNN。RNN的循环环路可以使数据不断循环。通过数据的循环,RNN 能一边记住过去的数据,一边更新到最新的数据。原创 2025-02-13 09:00:00 · 696 阅读 · 0 评论 -
【NLP入门】一文搞懂 Word2Vec 词向量化技术(★小白必会版★)
自然语言处理的目标就是让计算机理解人说的话,进而完成对我们有帮助的事情。我们的语言是由文字构成的,而语言的含义是由单词构成的。因此,为了让计算机理解自然语言,让它理解单词含义可以说是最重要的事情了。原创 2025-02-13 07:00:00 · 2604 阅读 · 4 评论 -
【NLP入门】一文搞懂 Tokenizer 分词(★小白必会版★)
分词是将连续的文本字符串分割成有意义的词语序列的过程。对于中文等没有明显分隔符的语言,分词显得尤为复杂。分词不仅是自然语言处理(NLP)的基础环节,而且直接影响后续处理步骤如词性标注、句法分析、机器翻译等的质量。原创 2025-02-12 23:38:21 · 940 阅读 · 0 评论 -
【NLP百面百过】史上最全大模型(LLMs)面试题系列:帮你彻底搞定大模型高效微调(PEFT)-干货!
这是我自己跳槽时的私用秘籍,希望也能帮助你快速完成面试准备,先人一步顺利拿到高薪Offer🎉🎉🎉原创 2025-02-12 07:30:00 · 1027 阅读 · 0 评论 -
【NLP百面百过】史上最全大模型(LLMs)面试题系列:帮你彻底搞定LSTM-干货!
这是我自己跳槽时的私用手册,希望也能帮助你快速完成面试准备,先人一步顺利拿到高薪Offer原创 2025-02-11 17:30:00 · 1538 阅读 · 0 评论 -
【大厂AI实践】OPPO:对话式 AI 助手小布演进之路
开放域知识问答场景占到小布交互量的 15% 左右,属于比较刚需的场景。知识问答可以看成搜索引擎的一种终极形态的期望。它可以直接给用户简短精准的答案,这也是用户使用它的原因之一。针对这种开放域的知识问答问题,我们将其拆分为几个不同的场景进行处理。原创 2025-02-11 10:26:18 · 929 阅读 · 0 评论 -
【小米AI实践】小爱同学:音乐垂域的自然语言理解
接下来介绍下音乐领域实现了那些功能,第一个就是用户的个性化推荐,如随便放首歌、歌单等。再往后就是一个搜索意图,比如我要听周杰伦的歌,周杰伦的简单爱,抽取“歌手/歌名/专辑/标签”四类字段(slot)信息。字段消歧,如“三生三世十里挑花的歌”,其实这是一个专辑,同时也有首歌叫三生三世十里桃花,通过用户原始信息知道应该是专辑而不是歌名。ASR不可能完全准确还有用户发音问题,因此需要纠错,纠错太多召回存在问题,一言不合就放歌,把握不好就会觉得你太笨,对“歌手/歌名/专辑/标签”字段的”同音/补全/乱序”纠错。原创 2025-02-10 17:45:13 · 951 阅读 · 0 评论 -
【Arxiv 大模型最新进展】TableRAG: 提高大语言模型在理解和推理大规模表格数据的效率和性能
之前的方法主要包括基于模式的方法和基于行列检索的方法,前者主要关注schema信息,降低了令牌复杂度,但是会丢失一些有价值的单元格数据;按部就班(如 Zero-Shot CoT、Auto-CoT)、三思后行(如 ToT、GoT)、集思广益(如 Self-Consistency)三种 CoT 模式有何异同?在最坏的情况下,不同值和单元格总数相当,这里引入编码预算$B$, 如果不同值的数量超过$B$,那么将编码限制在出现最频繁的对。💯 动态秩分配(如AdaLoRA)如何根据层的重要性调整秩?原创 2025-02-09 06:45:29 · 1057 阅读 · 0 评论 -
【大厂AI实践】OPPO:大规模知识图谱及其在小布助手中的应用
导读:OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱,目前已达到数亿实体和数十亿三元组的规模,主要落地在小布助手知识问答、电商搜索等场景。本文主要分享OPPO知识图谱建设过程中算法相关的技术挑战和对应的解决方案,主要包括实体分类、实体对齐、信息抽取、实体链接和图谱问答query解析等相关算法内容。全文围绕下面四点展开:背景OPPO知识图谱知识图谱在小布助手中的应用总结与展望首先和大家分享下小布助手和知识图谱的背景。小布助手是OPPO旗下有趣原创 2025-02-09 11:00:00 · 766 阅读 · 0 评论 -
【职业发展】五级工程师和职业发展
朗道等级最核心的思想是,人和人的差距,能力和能力的差距,是数量级的差别,而不是通常人们想象的差一点点。其次,作为一个教育者,他建立了一个被称为“朗道堡垒”的理论物理进阶练习,这实际上是一系列越来越难的物理学练习题,一个学习理论物理的人可以看看自己能攻克多少朗道堡垒,知道自己的水平,提高自己的水平,这有点像游戏中的通关。但是在中国,很多人从工科大学一毕业,公司就在他的名片上印上工程师,然后就似乎已经成为工程师了,很多人有这个头衔,但并不具有工程师所应该有的基本的技能。当然再往上,就不是很多人能够做到的了。原创 2025-02-02 06:37:02 · 954 阅读 · 0 评论 -
【职业规划】粗调和精调:从一道Google的面试题看程序员的职业成长
至于NSX为什么还有第三、第四个发动机,那是分别安装在两个前轮上的,主要是给它转向时提供动力,这两个很小的发动机甚至可以让轮子一个加速,一个减速,以减小拐弯半径,做大家在电影里看到的特技转弯的动作。虽然你把摔碎高度的范围从1-100减小到30-80,但接下来你就犯难了,因为你就剩一个球了,再这样凭感觉做试验,可能两个球都摔碎了,也测不出想知道的高度。因为大部分公司招人是做未来的事情,而不是重复过去的事情,尤其是对于大学刚毕业的年轻人,过去在大学几年学的东西,和后来一辈子要不断学习的东西相比,实在少得可怜。原创 2025-02-02 06:27:10 · 1148 阅读 · 0 评论 -
【大厂AI实践】OPPO:大规模知识图谱及其在小布助手中的应用
导读:OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱,目前已达到数亿实体和数十亿三元组的规模,主要落地在小布助手知识问答、电商搜索等场景。本文主要分享OPPO知识图谱建设过程中算法相关的技术挑战和对应的解决方案,主要包括实体分类、实体对齐、信息抽取、实体链接和图谱问答query解析等相关算法内容。全文围绕下面四点展开:首先和大家分享下小布助手和知识图谱的背景。小布助手是OPPO旗下有趣贴心、无处不在的AI助手,搭载在OPPO手机、OnePlus、Realme以原创 2025-01-30 06:39:33 · 751 阅读 · 0 评论 -
【小米AI实践】NLP 技术在小米语音助手中的应用
以上介绍了的复杂的模型,怎么让这些复杂的模型快速地进行上线和部署?我们简单介绍一下小米的 Model Pipeline。目前对于小爱(一个语音助手)来说,我们刚提到数据是我们最重要的部分,我们把整体的 Model Pipeline 分成三部分:对于数据,我们现在有统一的数据平台。数据平台分为三部分:一个是公共的 public corpus,用来预训练一个大量的模型,它是由我们的团队内部收集的数据,小爱内部的线上数据,以及我们的 label 数据组成。原创 2025-01-23 16:56:03 · 1662 阅读 · 0 评论 -
【AI工程实践】中科院:面向非结构化文本的信息抽取
比如“豫园”和“建造于”分别是一个三元组的头实体和关系短语,所以“豫”和“建”交叉的位置上有两个标签,分别是“片段开始-片段开始”和“头实体-关系短语”。然后对于每种关系构建二维标注矩阵,比如图4.6对应的是Located-In关系的三元组标注结果,文本中的“故宫博物院”和“北京”两个实体参与了一个类型为Located-In的三元组,那么头实体的开始词“故”和尾实体的开始词“北”在表格中的交点位置标注为一对实体的开始位置,同样,头实体的结束词“院”和尾实体的结束词“京”的交点位置标注为一对实体的结束位置。原创 2025-01-22 10:43:27 · 955 阅读 · 0 评论 -
【京东AI实践】基于知识图谱的商品营销文案自动生成实践
导读:知识图谱为人工智能提供了丰富的知识,是实现机器认知智能的重要基石;智能创作旨在教机器自动生成流畅合法的文本,是人类与机器沟通的桥梁。当知识图谱遇到智能创作,相信一定会发生有趣的故事。本文将分享京东科技在基于知识图谱的商品营销文案自动生成的实践经验。原创 2025-01-21 17:28:17 · 1991 阅读 · 0 评论 -
一文搞懂 NLP核心概念(小白必会版(●‘◡‘●))
自然语言处理(NaturalLanguageProcessing,简称NLP)被誉为人工智能皇冠上的明珠,是计算机科学和人工智能领域的一个重要方向。它主要研究人与计算机之间,使用自然语言进行有效通信的各种理论和方法。简单来说,计算机以用户的自然语言数据作为输入,在其内部通过定义的算法进行加工、计算等系列操作后(用以模拟人类对自然语言的理解),再返回用户所期望的结果,如所示。图1:自然语言处理示意图自然语言处理是一门融合语言学、计算机科学和数学于一体的科学。原创 2025-01-20 10:02:46 · 1274 阅读 · 0 评论 -
【大模型入门指南 08】微调和分布式训练
我们构建了一个最小的训练和推理流程。大多数时候开发者需要自定义一个训练流程和对应的数据集。原创 2025-01-10 13:48:16 · 1883 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 06】基于 Prompt 的小样本文本分类实践
模板(Template)的功能是在原有输入文本上增加提示语句,从而将原任务转化为 MLM 任务,可以分为离散型和连续型两种。更多信息可参考Prompt 文档介绍。本实践使用了 AutoTemplate API,支持快速定义手工初始化的连续模板,同时支持自动切换离散型和连续型模板。只定义用于初始化连续型向量的文本提示,即可得到拼接到句尾的连续型模板输入。例如,"这条新闻标题的主题是"等价于"{'text': 'text_a'}{'soft': '这条新闻标题的主题是'}{'mask'}"模板关键字。原创 2024-12-03 08:40:14 · 2184 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 05】使用LSTM完成情感分析任务
介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验介绍:该仓库主要分享了数百本 AI 领域电子书介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器介绍:该仓库汇总了 NLP 算法工程师高频面题人类自然语言具有高度的复杂性,相同的对话在不同的情景,不同的情感,不同的人演绎,表达的效果往往也会迥然不同。例如"你真的太瘦了",当你聊天的对象是一位身材苗条的人,这是一句赞美的话;当你聊天的对象是一位肥胖的人时,这就变成了一句嘲讽。原创 2024-12-02 08:24:16 · 1361 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 04】层次化多标签文本分类如何做?
与多标签分类类似,给定一个文档样本可以有一个或者多个类标签与之对应,不同的是,这些标签是以层次结构存储的,层次结构中低的标签受到层级较高的标签的约束,层次结构在带来类标签之间层次关系的同时,也带来了计算复杂等更具有挑战性的特点。原创 2024-12-01 09:30:41 · 1637 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 03】长文本多标签分类分类如何做?
transformer-xl提出了一个状态复用的块级别循环用以解决长序列问题,虽然这个模型的提出主要是为了解决文本生成任务,但我们可以参考其解决长序列问题的思路。原创 2024-11-30 09:48:30 · 1355 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 02】使用DL方法做文本分类任务
NLP中, 文本分类是一项基础且广泛应用的任务, 它将文本依据。原创 2024-11-29 08:36:31 · 1222 阅读 · 0 评论 -
【人人都能学得会的NLP - 文本分类篇 01】使用ML方法做文本分类任务
但是上述指标评估存在一定局限,以情感分析任务为例,如果我们想评测模型**(1)返回的正面情绪结果中的正确数量**,或者在**(2)所有真实的正面情绪文本中,模型识别出来的数量,,我们就需要一个新的指标**:F1分数**。基于上述情况,需要考虑新的评测指标,如果我们用的是个二分类的模型,那么把预测情况与实际情况的所有结果两两混合,结果就会出现以下4种情况,就组成了如下所示的。(3)且在样本类别数量极度不平衡下**,准确率的意义不大,例如,一批数据中,正样本只有几个,即使没能正确预测出来,准确率依旧很高。原创 2024-11-28 10:57:21 · 735 阅读 · 0 评论 -
【RAG 项目实战 08】为 RAG 添加历史对话能力
介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验介绍:该仓库主要分享了数百本 AI 领域电子书介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器介绍:该仓库汇总了 NLP 算法工程师高频面题NOTE] 为 RAG 添加多轮对话能力改写链问答链RAG链session_idsession_idsession_idNOTE] 问题调试。原创 2024-11-27 07:45:00 · 1342 阅读 · 0 评论 -
【RAG 项目实战 07】替换 ConversationalRetrievalChain(单轮问答)
介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验介绍:该仓库主要分享了数百本 AI 领域电子书介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器介绍:该仓库汇总了 NLP 算法工程师高频面题。原创 2024-11-26 20:00:00 · 859 阅读 · 0 评论 -
【模型部署】vLLM 部署 Qwen2-VL 踩坑记 01 - 环境安装
为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验。原创 2024-11-17 21:31:19 · 1076 阅读 · 0 评论