- 博客(702)
- 资源 (3)
- 收藏
- 关注
转载 Java 28岁了!好书推荐
导读>>Java 28岁了,当打之年,并且还会打很多年。为即将或正在使用Java的你推荐Java“此生错过必遗憾”系列书单。看看你还缺哪本?请补齐。优惠购书链接就在文中,拿好不谢。01《Java核心技术》>>开发基础+高级特性(套装共2册)原书第12版推荐理由>>“Java四大名著”之一Core Java最新版,一键打包全套2册!建议入门小白和准备升级到J...
2023-05-24 08:08:30
10
原创 系统学习大模型的20篇论文
【引子】“脚踏实地,仰望星空”, 知其然还要知其所以然。读论文是一条重要的途径,这一篇文章https://magazine.sebastianraschka.com/p/understanding-large-language-models非常值得借鉴,不敢私藏,编译成文。大型语言模型已经成为公众关注的焦点,这几乎彻底改变了自然语言处理领域,甚至是在过去的五年中,大型语言模型中的transform...
2023-05-21 20:23:21
404
原创 深度学习架构的对比分析
深度学习的概念源于人工神经网络的研究,含有多个隐藏层的多层感知器是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示,以表征数据的类别或特征。它能够发现数据的分布式特征表示。深度学习是机器学习的一种,而机器学习是实现人工智能的必经之路。那么,各种深度学习的系统架构之间有哪些差别呢?1. 全连接网络(FCN)完全连接网络(FCN)由一系列完全连接的层组成,每个层中的每个神经元都连接到另...
2023-05-14 20:23:44
4274
5
原创 解读ChatGPT中的RLHF
无论是 ChatGPT 还是 GPT-4,它们的核心技术机制之一都是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。这是大型语言模型生成领域的新训练范式,即以强化学习方式依据人类反馈优化语言模型。那么,什么是 RLHF 呢?RLHF 背后的基本思想是采用预先训练好的语言模型,并让人们对其输出的结果进行排序。这个输出的排名作为...
2023-05-07 20:23:14
524
原创 解读Toolformer
【引子】读论文Toolformer: Language Models Can Teach Themselves to Use Tools,https://arxiv.org/pdf/2302.04761.pdf,再阅读了几篇关于Toolformer的网络热文,于是“无知者无畏”,开始自不量力地试图解读Toolformer。大语言模型(LLM)在利用有限的文本数据解决新任务方面表现出令人难以置信的优...
2023-05-03 20:23:22
669
原创 解读TaskMatrix.AI
ChatGPT在广泛的开放域任务上展现出令人瞩目的强大对话、上下文学习和代码生成能力,而且它所获得的常识知识还可以为特定领域的任务生成高级解决方案概要。不过,除了更强大的学习、理解和生成能力,ChatGPT还有哪些问题需要解决呢?微软最近发布了TaskMatrix.AI,可能是人工智能生态系统中的另一个方向,将基础模型与数百万个API连接起来以完成任务,是Toolformer和chatGPT的结合...
2023-04-28 07:27:34
641
原创 老码农眼中的大模型(LLM)
即便全力奔跑,也不一定能跟上时代的步伐。但如果失去了学习的动力,很可能会被时代淘汰。而且,当时代淘汰我们的时候,往往不会有任何预警。基于大模型的 ChatGPT 给我们带来了极大的震撼,那么什么是大模型呢?1.大型语言模型大型语言模型 (LLM) 被简称为大模型,是一类基础模型。这些模型可以通过微调转移到许多下游任务,因为它们已经在大量无监督和非结构化数据的情况下进行了训练。像 GPT-3 或 B...
2023-04-24 23:33:21
1259
原创 《深入浅出Embedding》随笔
ChatGPT的核心运行机制或许是Transformer, ChatGPT的核心数据机制或许就是嵌入(Embedding)了。什么是Embedding呢?了解Embedding可以为我们的软件研发工作带来哪些帮助呢?鉴于此,老码农阅读了《深入浅出Embedding》(吴茂贵 王红星著,机械工业出版社,2021年)一书,本文是阅读该书的读书笔记和随感。1. 关于EmbeddingEmbedding是...
2023-04-23 12:23:02
133
原创 从数据管理到数据资产管理
数据已经与土地、劳动力、资本、技术并称为五种生产要素,数据的价值是毋庸置疑的。数据甚至成为了国家的基础性战略资源,数字经济也正在成为经济增长的强大创新动力。那么——数据到底指的是什么?数据管理又是怎么回事?数据如何成为了数据资产?数据资产又是如何进行估值的呢?我们如何实现数据资产管理呢?1.关于数据长期以来,对数据的定义强调了它在反映客观事实方面的作用。在信息技术中,数据也被理解为以数字形式存储的...
2023-04-22 20:23:02
493
原创 关于原子服务的思考
在我们以往的工作中经常会遇到“原子服务”或“原子化服务”的概念,如果没有一个清晰的概念边界,会使大家的沟通和讨论无法在同一个共识上展开,大家不在同一频道上,割裂于不同的领域空间,难以产生一致性的进展。那么,原子服务到底是什么呢?1. 原子服务的辨析原子服务一词由“原子”和“服务”两个单元组成,那么语义的重心是原子还是服务呢?个人认为是服务。然而服务的概念范围仍然很大, 外卖小哥送货是一种服务,理发...
2023-04-16 20:23:55
137
原创 老码农眼中的SBOM
在QCon2022的“工程师成长”论坛上,我分享了《QCon:工程师成长的金字塔思维》,其中在金字塔思维示例中引用了悬镜安全的敏捷安全金字塔——其中,在解释“SCA”的时候, 谈到了SBOM,那么,具体什么是SBOM呢?除了与系统的安全性紧密相关之外,SBOM还有怎样的价值呢?1. 从BOM到SBOM在详细了解SBOM之前,理解什么是BOM可能大有裨益。BOM(Bill of Material)即...
2023-04-09 20:23:53
120
原创 温故知新之GPU计算
据说,ChatGPT用了5000块GPU,而对于普通工程师而言,看看过去,或许可以帮助望见未来。那么,GPU是什么呢?图形处理器(GPU,Graphic Processing Unit)是面向吞吐率设计、片上集成大量并行计算部件的处理器。2006年采用统一架构的GPU和使用高级语言编程的开发平台的出现,引发了GPU通用计算领域的迅猛发展。1. GPU 溯源早在计算机图形学发展初期,图形显示受硬件条...
2023-04-02 20:23:12
253
原创 异想天开!没有CPU的操作系统
【引子】“The Last CPU”(https://doi.org/10.1145/3458336.3465291),ACM上的这一篇论文非常有趣,核心思想是如果计算机的体系结构中没有了CPU,那么,操作系统又会是怎样的呢?......不敢私藏,分享给大家。失去了,才可能知道珍惜,试图减压的时候不妨去读一点论文,呵呵。CPU的设计目的很单一,对存储的内存执行逻辑操作。协处理器(如IO通道处理器...
2023-03-29 21:51:46
749
原创 一种编译器视角下的python性能优化
“Life is short,You need python”!老码农很喜欢python的优雅,然而,在生产环境中,Python这样的没有优先考虑性能构建优化的动态语言特性可能是危险的,因此,流行的高性能库如TensorFlow 或PyTorch 主要使用python作为一个接口语言,用于与优化后的C/C++库进行交互。Python 程序的性能优化有很多方法,从编译器视角来看,高性能可以通过嵌入到...
2023-03-26 20:23:30
801
原创 机器学习与微分方程的浅析
大家都已经使用机器学习了,尤其是基于神经网络的深度学习,chatGPT甚嚣尘上,还需要深入理解微分方程么?不论答案是啥,都会涉及到二者的对比,那么,机器学习与微分方程的区别又是什么呢?从爱情模型的微分方程说起这两个方程预测了夫妻恋爱关系的长久性,基于心理学家 John Gottman 的开创性工作,该模型预测持续的积极情绪是婚姻成功的有力因素。关于模型的更多解读,可以参考《幸福的婚姻》一书,作者还...
2023-03-19 20:22:53
121
原创 操作系统中的系统抽象
抽象通常被认为是计算思维的基本原则,抽象思维能力被认为是工程们最重要的能力之一。2021年图灵奖庆祝了由阿尔弗雷德·阿霍和杰夫·乌尔曼设计的编程语言和编译器抽象,展示了向更高级抽象的方向迈出了一步。那么,什么抽象呢?对操作系统而言, 抽象又是怎样的呢?什么是抽象?在哲学里,“抽象”是一种将观念抽离原本客体的思想过程, 是指认知某类个体内的普遍性质之概念形成及形成其性质概念之准则的过程。具体一些,抽...
2023-03-12 20:23:37
79
原创 数据架构中的数据问题
识别假设对于打破假设至关重要ーー而打破假设是创造力和技术创新。近来,chatGPT再一次激发了人们对通用人工智能的热情,甚至到了人人都在谈AIGC的地步。然而,大模型对数据丰富性的依赖更加严重,面向机器学习以及深度学习的数据架构又是怎样的呢?“Garbage in,Garbage out”,数据获取已经成为许多机器学习应用中的关键问题,甚至成为了瓶颈,深度学习的兴起进一步加剧了这一问题。尽管高质量...
2023-03-05 20:23:53
64
原创 机器学习系统架构的10个要素
这是一个AI赋能的时代,而机器学习则是实现AI的一种重要技术手段。那么,是否存在一个通用的通用的机器学习系统架构呢?在老码农的认知范围内,Anything is nothing,对系统架构而言尤其如此。但是,如果适用于大多数机器学习驱动的系统或用例,构建一个可扩展的、可靠的机器学习系统架构还是可能的。从机器学习生命周期的角度来看,这个所谓的通用架构涵盖了关键的机器学习阶段,从开发机器学习模型,到部...
2023-03-01 21:44:18
414
2
原创 一文弄清混合云架构模式
当我们在说云架构的时候,通常指的并不是云平台的自身架构,而是基于云平台的软件系统基础架构。云平台的自身架构满足了很多通用层面的需求,例如对象存储,弹性主机,虚拟网络等等,只有云服务厂商的工程师才会涉及。对于一般企业中的工程师而言, 鉴于云服务的各种优势,基于云平台构建软件系统才是工作的内容之一,尤其是面向混合云的基础架构才是云架构的关键要素。无论是公有云和私有云的融合,还是多个公有云的混合环境,其...
2023-02-26 20:23:39
124
原创 软件架构的10个质量属性
一般地,对于软件系统的需求而言,分为两类:功能性需求和非功能性需求。软件系统的架构设计既要满足软件的功能性需求,还要满足软件的非功能性需求。特别地, 系统架构对软件非功能性需求的支撑成为架构的质量属性。本文描述了软件的10个质量属性, 但不意味着每个质量属性都会在架构设计中呈现,可以挑选对产品最重要的质量属性,然后进行实现。1 可伸缩性随着用户或请求数量的增加,系统运行和操作的能力也随之增加。在云...
2023-02-23 20:43:21
62
原创 端边云协同:从云到边缘
SDX是Software Defined X 的缩写,即软件定义范式,强调的是软件的意义及系统的融合。我们可能需要特别关注物理系统和网络空间之间的关键边界、运营技术(OT)和信息技术(IT)之间的关键边界技术,在这些边界上,需要充分展开具有挑战性的文化和技术融合。数字转型的成功在很大程度上取决于这个复杂的融合过程。数字转型的主要目标之一是将人类和“智能”应用到管理、优化和控制接触物理世界的系统。这...
2023-02-19 20:23:43
271
原创 不了解持续架构会落伍么?
信息技术是一个日新月异的领域,从自身的发展到学科的教程,再到应用场景的无处不在,导致每天甚至每时每刻都可能会有新的技术或者新的方法涌现出来。“吾生也有涯,而知也无涯”,那么,对于一个工程师而言,不了解并学习持续架构会落伍么?不学习就会落伍在前不久QCon2022( 由于疫情的原因延迟到今年举办)上有个分论坛主题是“工程师成长实战”,无论是宗刚老师的《三倍速成长实现职场跃迁》,还是《Maven实战》...
2023-02-12 20:23:51
1155
原创 QCon: 工程师成长的金字塔思维
QCon线下会议终于来了,但这次的分享有一些意外,不是性能、架构、内核、缓存,而不是AI实践相关的内容,论坛的主题是“工程师成长实践”,而我的topic 是“工程师成长的金字塔思维”。本以为这是一个非热门话题,却出现了爆场,有些不可思议。会场上有很多现场的发挥,本文就作为PPT的一个简要版本吧——“练拳不练功,到老一场空”,工程师成长的基本功是什么?是知识和技能吗?个人觉得可能是思维方式和思维...
2023-02-06 22:22:35
256
原创 《 持续架构实践 》译者序
当我们接触到《持续架构实践》这本书的时候,因为它的名字,心里面是带着一丝好奇的。系统架构涉及到方方面面的知识,庞大而复杂,每一个知识点钻研下去都可以出许多的著作。对技术人员来说,精力和时间有限,很难精通架构的每个细节,而某些细节的疏漏,恰恰决定了系统最终的成败。那么,有没有一本书,可以归纳出必须要解决的细节,并给出可以落地的解决方案呢?本书恰恰就是这一问题的解药,它...
2023-02-04 20:24:21
616
原创 《机会成本》的阅读札记
【引子】第一次接触机会成本,大约还是十几年前自己在读MBA的时候,在徐华老师《管理经济学》的课上听到过一耳朵,但没有太多的认知。这个春节,阅读了《机会成本——做出高效决策的策略思维》才有了些许进一步的认识,那么什么是机会成本呢?机会成本:做出一项选择所导致的利益净损失。人们常常能够看清自己所为之事的成本和回报,但那些看不见、不曾做、不能做的事情,往往更加关键,这就是机会成本。机会成本的根本问题就在...
2023-01-28 20:23:29
415
原创 走近软件生态系统
生态系统(Ecosystem)原本是一个生物学术语,意思是由一些生命体相互依存、相互制约而形成的大系统,就像我们学生时代在生物学课堂上学到的那样。隐喻无处不在,人们把这个术语移植到了 IT 领域中来,比如我们常说的“软件生态系统”,实际上,这个问题涉及到所谓“巨型系统”、“复杂系统”、“异构系统”等等,那么——什么是软件生态系统呢?如何评估和构建软件生态系统呢?如何评估软件生态系统的健康性呢?软件...
2023-01-15 20:23:02
551
原创 对于NPS 的学习和认知
企业存在的唯一使命是创造顾客 —— 彼得·德鲁克对于现代的多数组织而言,净推荐值(NPS)是一种衡量顾客满意度的“温度计”。NPS看似是一种管理工具,其实更多的是对企业基因的一种改变,其倡导的是内生性的问题,使企业要像一个有机的生命体—样,能够在不断变化的环境中始终健康向上地活着。1. 什么是NPSNPS,NetPromoterScore,是净推荐值。“你有多大的可能性向亲朋好友推荐我的公司、产品...
2023-01-08 20:23:03
480
原创 温故知新:从计算机体系结构看操作系统
知识诅咒(Curse of Knowledge),是指我们掌握了某知识,就很难体会没有它的感觉,不理解获得知识以前的状态及还未获得该知识的人,从而产生沟通障碍。计算机体系结构正在消亡 (Architecture is dying)?其背后可能是对传统的冯·诺伊曼体系结构在应对多样化应用时局限的无奈,以及对摩尔定律的放缓甚至终结的担心。那么,计算机体系结构又将面对怎样的未来呢?1. 关于计算机体系结...
2023-01-02 20:23:52
248
原创 2022年,来者犹可追
始料未及的是, 疫情持续到了2022年。好在“大疫不过三年”,只不过是结束来的同样措不及防,全家的一次高烧免疫,没有朋友圈中的云淡风轻,冷暖自知,希望明年能够拥有平安喜乐的时光。回首这一年,“往者不可谏,来者犹可追。”告别百度自2017年以渡鸦科技CTO的身份加入百度,正式投身到智能硬件领域。NLP的长足进步使人工智能真正开始走进了人们的生活,但是88天诞生一台智能音箱,每一天都有悬崖之上走钢丝的...
2022-12-24 20:22:05
1141
1
原创 图计算的学习与思考
好的软件不是靠程序分析、查错查出来的,而是由正确的人构建出来的。图成为日益重要的运算对象,图结构是对群体关系的一种抽象,可以描述丰富的对象和关系。图计算的核心是如何将数据建模为图结构以及如何将问题的解法转化为图结构上的计算问题,当问题涉及到关联分析时,图计算往往能够使得问题的解法很自然地表示为一系列对图结构操作和计算的过程。例如,使用基于网页链接的图结构的PageRank算法得到网页权重,作为搜索...
2022-12-18 20:22:40
371
原创 X 随笔
从人机交互到用户界面,从GUI到窗口系统,进而到X 系统。从X 系统的设计思想,到Xserver和Xclient以及X11协议,一直到窗口管理器乃至wayland。温故知新,那就从用户界面开始吧!1. 从用户界面开始用户界面(User Interface)是进行人机交互活动的系统部件,是人与计算机通讯与对话的接口。早期的计算机是通过面板上的指示灯来显示二进制数据和指令,人们则通过面板上的开关、扳键...
2022-12-11 20:22:01
154
原创 从IPC到分布式软总线的随笔
在Linux 系统中, 客观来说,缺乏相对开发者比较友好的进程间通信框架。谈到Linux上进程间通信,一般都会想起管道(匿名、有名)、信号/信号灯、共享内存、消息队列和socket。这些都是偏低层的技术,有没有方便开发者使用的技术或者框架呢?软件总线以及分布式软总线或许是一种不错的候选。Linux 中的进程间通信一瞥Linux环境下通信机制众多,各种通信方式都有其适用的场合。管道是Linux支持的...
2022-12-04 20:22:58
355
原创 Agent 与对象的辨析
如果说对象是70年代以来软件界最激动人心的革新之一,那么,Agent的相关理论和技术,为分布式开放系统的设计与实现提供了新的途径,可以称之为软件开发的又一重大突破。讨论问题的前提是概念的澄清,什么是对象?什么是Agent ?二者又有哪些区别和联系呢?对象与OOP对象是具有明确边界和意义的事物.也是某些问题的概念抽象,是一个封装了数据和方法的实体,一个对象的实质是一组数据和与它相关的方法及操作。它的...
2022-11-27 20:22:18
545
原创 隐私计算与区块链的融合思考
隐私计算是使数据“可用不可见”的技术,实践中仍存在着一些问题,例如,多方安全计算受到网络带宽或者延迟的影响,联邦学习对参与方和服务器之间的通信稳定性和带宽要求较高,可信执行环境依靠的是硬件,硬件的升级改造成本较高而且存在侧信道攻击的问题。区块链是能够解决多方信任和协作的有利工具,可以记录从数据发布到使用的全过程,通过智能合约制定策略,实现权限控制、记录、回溯等功能,还能够实现点对点的高效传输网络。...
2022-11-20 20:22:33
1138
原创 隐私计算中可信执行环境的一知半解
隐私计算是使数据“可用不可见”的技术,它包括了密码学、人工智能、安全硬件等众多领域交叉的学科体系。对于隐私计算而言,业界通常分为三大路径技术:以安全多方计算为代表的密码学路径、以可信任执行环境为代表的硬件路径和以联邦学习为代表的人工智能路径。老码农在了解了《从隐私到隐私计算》之后,对《隐私计算之全同态加密》和《隐私计算中的联邦学习》学习之后,如果不再了解一下可信执行环境,总觉得有点怅然若失。尽管“...
2022-11-13 20:22:23
410
原创 一文读懂 Data Mesh
将一个系统置于恒定的约束之下可能会导致脆弱性的进化。-- C.S. Holling, ecologist成为一个数据驱动的组织是许多公司的战略目标之一,因为数据驱动的好处显而易见: 基于数据和个性化提供最好的客户体验; 通过数据驱动的优化降低运营成本和时间; 给予员工具有趋势分析和商业智能的力量。然而,尽管在构建数据平台方面付出了越来越多的努力和投资,仍然会发现结果并不理想。当前的技术进步解决了数...
2022-11-06 20:22:08
543
原创 隐私计算之全同态加密
【引】走近任何一个领域,都会发现自己的渺小和微不足道,会越发地敬畏技术和未知,隐私计算也不例外。读了一点儿文章和paper,觉得还是ACM 上的这篇综述(https://queue.acm.org/detail.cfm?id=3561800)可以对全同态加密有一个概貌,从而了解其脉络方向,进而对隐私计算增加一点点认知。隐私计算中的完同态加密为加密数据提供量子安全级的计算,保证明文数据及其衍生计算结...
2022-10-30 20:22:22
556
原创 服务计算的思考
服务计算,也称为面向服务的计算,可以定义为寻求开发计算抽象、体系结构、技术和工具以广泛支持服务。服务导向将物理、硬件和软件资产转变为一种范式,在这种范式中,用户和资产建立按需交互、绑定资源和运营,提供一种抽象层,将重点从基础设施和运营转移到服务。但是,服务计算还没有充分发挥其潜力。技术进步为服务计算提供了越来越多的机会。为了避免过去的问题,这里首先评估了服务计算的当前状态,然后制定了一个利用新兴概...
2022-10-24 10:24:40
2098
原创 组件化与服务化的辨析
在几乎每一个软件设计的基础上都有一种感知、抽象和分解的方法论。这种理念采用特定的抽象和分解技术将导致更好的设计。在处理变更的场景中,主要有软件开发的组件方法和服务方法,本文分析了它们在处理变更方面的差异。1 核心的问题: 需求的改变对企业而言,应对变化是日常生活中必须加以利用和实现的一个事实。合并、收购和新技术的引入是业务环境变化的驱动因素。业务敏捷性是指企业在不断变化和不可预测的环境中蓬勃发展的...
2022-10-18 22:02:52
444
原创 架构软件工程的未来(精要版)
【引言】《架构软件工程的未来》一文共有近5万字,很多朋友反映阅读耗费的时间较多,导致很多人没有耐心读完,特推出4000字精要版。1. 软件工程作为一种战略优势我们生活在一个由软件驱动的变革时代。软件以及所有软件工程的过程、实践、技术和支持它的科学领域,使我们的医疗、国防、商业、通信、教育和能源系统成为可能。它也是几乎所有研究领域的关键赋能组件,如智能基础设施(纳米技术)、人类增强(生物技术)和自主...
2022-10-16 20:22:54
440
计算机世界1000期特稿——信息革命的流金岁月
2008-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人