自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

叫好与叫座虽然不是对立面,但想在同一个作品中达到双重效果很难。

---阅读文字让我踏实(专注IC、安全、TEE、TrustZone、Keyladder、IC等领域)

  • 博客(1504)
  • 收藏
  • 关注

原创 《AI Flow: Perspectives, Scenarios, and Approaches》论文解读

家族模型:一组“尺寸不同但隐藏特征对齐”的模型,共享中间计算结果(无需额外中间件转换),可灵活切换以适配端、边、云硬件。关键优势:灵活伸缩:参数规模可从数百万(端侧)到数十亿(云端)调整;高效协作:小模型的中间特征可直接被大模型复用,减少重复计算与数据传输。AI Flow的核心创新在于打破AI与通信的技术壁垒,通过“硬件分层协同+模型家族适配+智能交互涌现”的三位一体设计,解决了大模型落地的“资源-通信”双重瓶颈。技术层面:首次提出标准化的AI-CT融合框架,为泛在智能提供可落地的技术路径;

2026-01-24 09:22:53 552

原创 高增长科技股投资法 核心内容深度拆解

最近读了《高增长科技股投资法》,我发现这个很不错,也很符合这次周期的内容。于是用AI生成了一个概要记录,给朋友们分享一下做个参考。有时间推荐去读一下原书,内容很有意思,可惜的就是很多时候晚上太困了,看的时候脑袋瓜不甚清晰。没有链接很多其它的内容。

2026-01-23 15:10:14 655

原创 大模型面试题91:合并访存是什么?原理是什么?

合并访存的核心:让同一个线程束的32个线程访问连续、对齐的全局内存地址,将32次分散请求合并成1~2次批量请求;底层原理:匹配GPU内存控制器的“批量处理规则”,充分利用内存带宽,减少访存请求次数;优化要点:线程索引和内存地址一一对应(步长=数据类型大小),保证起始地址对齐,避免跨步访问。对小白来说,合并访存是GPU编程中“投入最少、收益最大”的优化手段——只需调整线程访问地址的方式,就能让全局内存访存效率提升10倍以上,是写CUDA代码必须掌握的核心知识点。

2026-01-21 15:35:58 503

原创 大模型面试题90:half2,float4这种优化 与 pack优化的底层原理是什么?

核心原理:打包多个基础数据成一个单元,利用GPU的SIMD向量指令一次处理多个数据,同时减少内存访问次数,充分利用硬件宽度;收益来源:一是减少运算指令数(提升运算速度),二是减少内存访问次数(提升带宽利用率);使用原则:优先用half2/float4(简单高效),常规浮点场景足够用;只有定制化场景(如int8量化)才需要通用pack优化。

2026-01-21 15:35:17 481

原创 大模型面试题89:GPU的内存结构是什么样的?

GPU内存的核心逻辑:速度和容量成反比,越靠近计算核心越快、越小,编程时要尽量让数据停在高层级(寄存器/共享内存);程序员可控的内存:寄存器(少用临时变量避免溢出)、共享内存(优化访问避免Bank Conflict),这是GPU优化的重点;性能瓶颈点:全局内存访问速度慢,优化重点是“合并访问+减少访问次数”,多用共享内存缓存数据。对小白来说,不用一开始就掌握所有细节,先记住“金字塔模型”和“数据尽量待在快内存里”这两个核心,后续写CUDA代码时,就能针对性优化了。

2026-01-21 15:29:28 390

原创 大模型面试题88:cuda core的数量 与 开发算子中实际使用的线程 关系是什么?过量线程会发生什么情况?

核心关系:CUDA Core是硬件运算单元,线程是软件任务,线程数需适配SM资源(让占用率接近100%),而非和Core数相等;过量线程的后果:先导致资源不足、占用率下降(性能降),再增加调度开销(性能更差),极端情况程序崩溃;新手原则:线程块大小选32的倍数,总线程数设为SM最大线程数的总和,逐步测试找到最优值。对新手来说,不用追求“线程数越多越好”,先保证“线程数能让SM占满”,再微调优化,就能避开90%的线程相关问题。

2026-01-21 15:28:37 803

原创 大模型面试题87:CUDA出现bank conflict,应该怎么解决?

要理解bank conflict,先搞懂CUDA里的共享内存(Shared Memory)——这是GPU线程块(block)内所有线程共享的高速内存,速度比全局内存快几十倍,是CUDA优化的核心,但它的“存储结构”是导致冲突的关键。Bank Conflict本质:多个线程同时访问共享内存的同一个Bank,导致并行访问变成串行。核心解决思路:让线程访问的地址分散到不同Bank,优先用「调整访问模式」和「Padding」(最简单有效)。验证方法:用Nsight Compute查看冲突率,降到0%即解决。

2026-01-21 15:27:45 825

原创 大模型面试题86:在Qwen2.5-VL中,一张560*560 pixel的图片,应该换算成多少个token?

这个数字不是凭空来的,我们用“切蛋糕”的思路一步步拆解,保证零基础也能看懂。

2026-01-21 11:49:10 438

原创 大模型面试题85:Qwen2.5-VL的预训练流程。

婴儿期(视觉预训练):学“看”东西,认识世界。儿童期(多模态预训练):学“说”和“想”,能看图说话、答题。少年期(长上下文预训练):学“读长篇”,理解复杂内容。成年期(后训练优化):学“讲人话”,按人类指令做事,符合人类偏好。经过这四个阶段,Qwen2.5-VL从一个“睁眼瞎”变成了“能看懂、会说话、懂思考”的多模态AI助手,能处理图像描述、视觉问答、文档解析、视频理解等多种任务。

2026-01-21 11:48:33 665

原创 大模型面试题84:是否了解 OpenAI 提出的Clip,它和SigLip有什么区别?为什么SigLip效果更好?

模型训练逻辑核心优势适合场景CLIP全局排名赛:在所有样本中找最佳匹配零样本能力强,开创性强资源充足(超大算力+大显存),追求开创性研究SigLip成对判断题:只看这对图文是否匹配效率高、批量灵活、效果好实际应用(产品落地)、资源有限、大规模训练简单说:CLIP是“开创者”,SigLip是“优化者”——站在CLIP的肩膀上,用更聪明的训练方式,让多模态模型更高效、更稳定、更易落地。

2026-01-21 11:46:32 946

原创 大模型面试题83:ViT一般怎么进行预训练?

把图片切成小方块,加位置信息,让模型在海量数据上要么“按标签分类”,要么“猜被挡住的方块”,学完通用视觉特征后,再微调做具体任务。

2026-01-21 11:44:15 851

原创 大模型应用的三大核心方向及进化

能感知环境、自己思考、主动干活的AI助手,相当于一个“不用发工资的虚拟员工”。规划步骤(先查行业数据→找竞品动态→分析趋势→整理报告);调用工具(联网搜数据、用Excel算图表、用PPT生成文档);调整优化(如果数据不全,再补充检索;如果格式不对,重新排版)。从“能说话”(ChatGPT)→“会查资料”(RAG)→“能干活”(Agent)→“能协作”(多Agent+MCP),本质是大模型从“信息生成工具”变成“自主决策的生产力工具”。

2026-01-20 15:59:18 732

原创 大模型面试题82:你有什么办法避免LLM输出时的幻觉问题?

不让瞎猜:限定知识范围,调低温度,告诉AI“不知道就说不知道”;让它查资料:用RAG给AI配“随身小抄”,先检索再回答;说完再核对:让AI标来源,用工具或人工校验。这一套组合拳下来,LLM的幻觉问题就能减少90%以上。

2026-01-20 08:36:43 720

原创 大模型面试题81:是否使用过OpenAI Plugin、LangChain Agents相关的框架?

OpenAI Plugin = ChatGPT 的“官方外挂商店”,简单好用但局限多。LangChain Agents = 大模型的“万能工具箱”,灵活强大但要稍微折腾。MCP = 让所有 AI 和工具“说同一种话”的规则,适合大规模协作。对比维度MCP(模型上下文协议)OpenAI Plugin(ChatGPT插件)LangChain Agents(大模型工具框架)核心定位一套通用技术协议(像“普通话”),规范大模型和外部工具的沟通方式OpenAI 官方的插件生态。

2026-01-20 08:33:45 855

原创 大模型面试题80:MCP有哪些缺点?

MCP是个好东西,能让AI帮我们干很多事,但它不是“万能神器”——就像手机能打电话、上网,但没电了就是块砖头。这些缺点不是MCP本身的问题,而是“AI联动外部工具”这个事儿,目前就存在这些技术门槛。

2026-01-20 08:30:56 570

原创 大模型面试题79:举例一个你用到过的MCP的场景

这个爬山规划场景里,MCP就像一个**“全能行程管家”**,它不自己干活,而是帮你协调天气、交通、门票等所有“小帮手”,还帮你把控安全权限,最后给你一个省心的结果。

2026-01-20 08:29:52 1573

原创 大模型面试题78:是否了解MCP,简单讲一下MCP的工作流程

用户提需求 → Host接收 → Client+LLM规划工具调用方案 → 用户授权 → Server执行工具 → 结果返回并整理成自然语言 → 呈现给用户,同时记录上下文。现在你已经完全理解MCP了!它就像给AI装上了“手脚”和“安全意识”,让AI能真正融入我们的工作和生活,帮我们解决各种实际问题。

2026-01-20 08:28:53 576

原创 大模型面试题77:你在训练GRPO和DPO的时候使用了什么强化学习框架?

小白入门首选:TRL(Hugging Face),内置DPO直接用,GRPO基于PPO改核心逻辑即可,适配LLM生态,上手最快;学习原理选:先TRL跑通效果,再用CleanRL手写核心逻辑,或用SB3理解通用RL框架;核心原则:不用追求“多框架精通”,先把一个框架用熟,再拓展,重点是先跑通GRPO/DPO的训练流程,再理解底层逻辑。

2026-01-15 08:59:19 869

原创 大模型面试题76:强化学习中on-policy和off-policy的区别是什么?

强化学习里的策略,就是智能体(比如机器人、LLM)的“行动指南”——在什么状态下,该做什么动作。游戏AI:血量低于30%(状态)→ 立刻加血(动作);前备箱防夹算法:检测到障碍物(状态)→ 停止关闭并反向(动作);LLM的GRPO训练:收到数学题(状态)→ 生成解题步骤(动作)。策略的本质,就是一个“状态→动作”的映射函数,咱们后面说的“学”和“用”,都是围绕这个函数展开的。on-policy是“自己动手,边做边改”,off-policy是“借鉴经验,择优升级。

2026-01-15 08:57:52 938

原创 大模型面试题75:讲解一下GRPO的数据回放

建缓冲区:训练每轮后,筛选优势值>0的样本存起来,设容量上限;抽样本:每轮新训练前,随机抽30%的回放样本;混合练:新数据:回放数据=7:3,一起喂给模型训练。

2026-01-15 08:57:01 794

原创 大模型面试题74:在使用GRPO训练LLM时,训练数据有什么要求?

选对数据集:优先用公开的高质量数据集(比如数学用GSM8K、代码用HumanEval),不用自己从零造数据;格式化清洗:转成JSON格式,包含“问题+参考答案+候选答案”,删除脏数据;梯度划分:按难度分成“简单→中等→复杂”三组,按顺序训练。

2026-01-15 08:56:22 609

原创 大模型面试题73:简单介绍下GRPO的训练流程。

GRPO训练就是“给模型出一题→让它多写几个答案→挑出比平均分好的→让模型记住好思路→不跑偏地反复练”,全程围绕“对比选优”,把复杂的推理训练变得简单高效。

2026-01-15 08:55:29 516

原创 大模型面试题72:DPO如果在训练中不稳定应该怎么处理?

咱们不用纠结复杂原理,按的顺序排查解决——先从不用改代码的「数据检查」开始,再调简单的「超参数」,最后用进阶的「训练策略」兜底,小白也能一步步搞定。

2026-01-14 09:43:36 627

原创 大模型面试题71: DPO有什么缺点?后续对DPO算法有哪些改进?

DPO的缺点,本质是「为了简单,牺牲了灵活性」;而后续改进,就是在不丢掉「简单稳定」的前提下,把灵活性补回来。从「必须手动标成对数据」到「自动生成样本」,从「只懂二元对比」到「懂多元排序」,从「只看相对好坏」到「兼顾绝对质量」——DPO的改进,就是一步步让它从「专用工具」变成「通用工具」。

2026-01-14 09:42:29 605

原创 大模型面试题70:在训练DPO时遇到了什么问题?是如何解决的?

训练 DPO 的核心逻辑就是「数据优先,参数微调,早停防过拟合」数据是根基:宁可少样本,也要高质量的「明显好坏对」;超参数别瞎调:学习率往小了设,batch size 往大了设;训练别贪多:早停是神器,混合数据防遗忘。

2026-01-14 09:40:39 794

原创 大模型面试题69:为什么DPO在训练LLM时,绕开了reward model?

RLHF 的思路是「先打分,再奖励」,但多了 RM 这个中间环节,就多了很多麻烦;DPO 的思路是「不打分,直接比」,跳过 RM,直接让模型学会「选好的、弃差的」。RLHF 做饭:先做一个「评分工具」,再用工具判断菜好不好吃,最后调整菜谱;DPO 做饭:直接尝两口,觉得 A 比 B 好吃,就直接调整菜谱,不用做评分工具。

2026-01-14 09:39:16 653

原创 大模型面试题68:简单介绍下DPO的训练流程。

准备「好坏回答对」→ 拿预训练模型当基础 → 让模型学「选好的、弃差的」→ 测试效果并优化。

2026-01-14 09:38:34 847

原创 大模型面试题67:PPO中奖励稀疏的解决办法

奖励稀疏,就是“模型只有完成最终任务才能拿到一次奖励,中间所有步骤都没任何反馈”。学徒做菜场景:学做餐厅招牌番茄炒蛋,只有把菜端给食客吃完(最终步骤),食客才给一次打分(比如85分);中间的切番茄、调蛋液、控火候、翻炒这些关键步骤,没人说“切得好”或“火太大了”。LLM训练场景:模型生成一篇300字的回答,只有全部写完(最终token生成完),奖励模型(RM)才给一次总分;中间生成的“缓解头痛”“多休息”“遵医嘱”这些关键内容,都没任何即时反馈。解决PPO奖励稀疏的核心,就是。

2026-01-13 15:18:17 820

原创 大模型面试题66:PPO中的广义优势函数

广义优势函数,就是把“单步的好坏”扩展到“整个做事流程的好坏”,同时兼顾“当下的奖励”和“未来的潜在收益”,最终算出一个更全面的优势评估值。举个做菜的例子:学徒做番茄炒蛋的流程是“切番茄 → 打蛋 → 热油 → 翻炒 → 装盘”,这是一个5步的序列。普通优势值:只看“装盘后食客打分(R)”和“装盘步骤的平均基准分(V)”,忽略了前面切番茄、打蛋的影响;广义优势函数:把每一步的即时反馈和后续步骤的潜在价值都算进去,最终评估“整个做菜流程到底比平均水平好多少”。

2026-01-13 15:14:11 416

原创 大模型面试题65:LLM的PPO训练中 Critic Model和Reward Model的区别

管“这个回答人类喜不喜欢”,是模型优化的“指南针”;管“这个回答比平时好多少”,是模型优化的“刻度尺”。两者缺一不可——没有指南针,模型不知道往哪走;没有刻度尺,模型不知道自己进步了多少。LLM的PPO训练:RM、CM、策略网络 协作流程图(小白版)我们用「文字流程图+学徒做菜比喻」结合的方式,直观展示三者的互动逻辑,全程无复杂术语,每个步骤都对应实际训练动作。策略网络是“执行者”,负责生成回答;RM是“方向标”,给人类偏好的绝对分数;CM。

2026-01-13 15:11:36 627

原创 大模型面试题64:介绍下PPO的训练流程

PPO 就是**“小步快跑”的优化算法** —— 不像有些强化学习算法“大刀阔斧”地改,容易把模型改废;而是“一点点调,边调边看”,既安全又高效,这也是它能成为 RLHF 首选算法的原因。想简单、稳定、通用→ 选 PPO(尤其是做RLHF)玩游戏AI、简单离散任务→ 选 DQN追求训练速度、有并行算力→ 选 A2C要极致稳定、不怕麻烦→ 选 TRPO。

2026-01-13 15:08:45 756

原创 大模型面试题63:介绍一下RLHF

基础大模型→ [监督微调 SFT] →会模仿的模型→ [训练奖励模型 RM] →有打分标准的模型→ [强化学习微调 RL] →贴合人类偏好的最终模型RLHF 就是通过“人类教→人类评→模型自己改”的三步法,让 AI 从“只会背书”变成“会按人类喜好做事”的训练套路。

2026-01-13 15:04:58 406

原创 大模型面试题62:PD分离

PD分离把位置编码和解码器的词嵌入解耦不再把位置编码和词嵌入相加后输入解码器;位置信息只在Attention计算阶段引入,而不是在解码器的输入层引入。传统做法:给每个快递盒(词嵌入)贴一个“地址标签”(位置编码),然后把盒子和标签绑在一起送仓库(解码器);PD分离做法:快递盒(词嵌入)直接进仓库,只有在分拣时(Attention计算),才查这个盒子的地址标签(位置编码)。小白级认知:PD分离=位置编码不和词嵌入绑定,只在Attention计算时加位置信息,解决传统位置编码的固定长度痛点;

2026-01-12 10:07:25 1043

原创 大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式

online softmax的核心:把K/V分块,边算边更新全局max和sum_exp,不存储完整的L×L score矩阵,显存占用从O(L²)降到O(L);实现的核心逻辑:双Pass策略(先算全局max/sum_exp,再算output)+ 数值稳定性缩放(适配更新后的max);核心难点:数值稳定性(防止exp溢出/下溢)、GPU内存层级优化(共享内存利用)、反向传播的online计算、分块边界的硬件适配。

2026-01-12 10:04:51 1167

原创 大模型面试题60:vLLM中PageAttention的实现原理

小白核心:PageAttention是把KV Cache切成固定大小的Block(像分页内存),解决传统KV Cache的碎片化和浪费问题;每个Block存固定数量token的K/V。进阶核心:PageAttention通过“虚拟-物理Block映射”管理内存,计算时只加载有效Block/有效Slot,用CUDA核函数加速;Block不仅存K/V,还包含状态、引用计数等管理信息。关键优化:Block池复用、稀疏计算、前缀缓存是PageAttention高效的核心,也是vLLM比传统推理框架快的关键原因。

2026-01-12 10:01:56 1034

原创 RNN(循环神经网络)

RNN 的价值:首次实现序列数据的时序依赖建模,解决了 Word2Vec 忽略语序的问题;RNN 的关键:隐藏层的循环连接 + 权重共享,让模型能“记住”前面的时序信息;RNN 的致命缺陷:梯度消失/爆炸 → 无法处理长序列,这也直接催生了后续的 LSTM/GRU(用门控机制解决该问题)。

2026-01-10 11:22:28 959

原创 大模型面试题59:vLLM使用TP时MHA head数非GPU整数倍的解决方案?

核心矛盾:TP对MHA最优拆分是按head均分,非整数倍会导致负载不均;小白省心方案:直接启动TP,vLLM自动兼容,只是性能略有损失;进阶优化方案:优先调整TP的GPU数量,让其成为head数的约数,性能直接拉满;专家方案:修改模型head数或手动指定TP拆分方式。

2026-01-10 11:05:08 440

原创 大模型面试题58:vLLM的Swap和Recompute?

Swap 直译是“交换”,在 vLLM 里特指——把暂时用不上的 KV Cache 数据,从 GPU 显存“挪”到 CPU 内存,甚至硬盘里;等需要的时候,再“搬”回 GPU 显存继续用。Recompute 直译是“重计算”,在 vLLM 里特指Transformer 层重计算——推理时,不存储 Transformer 注意力层的中间计算结果;等后续需要这些结果时,再重新跑一遍注意力计算,生成需要的数据。Swap 和 Recompute 都是显存优化工具,目的是让小显存也能跑大模型/长序列;

2026-01-10 11:03:09 909

原创 大模型面试题57:是否了解LLM的分词器,LLM中的词表文件是如何生成的?

分词器是LLM的“翻译官”:核心作用是把自然语言拆成子词(Token),转换成数字ID,词表文件是它的“字典”;词表不是人工编的:主流用BPE算法,从海量语料中迭代合并高频子词生成,平衡“词汇覆盖”和“Token数量”;生成流程有标准步骤:语料准备→预处理→选算法训练→加特殊Token→验证保存,小白可用tokenizers库快速上手。

2026-01-10 10:59:49 481

原创 大模型面试题56:如何在vllm推理时,保证大模型输出的确定性,有在vllm中哪些参数与之相关?

阶段参数名作用小白推荐值入门控制随机性核心0(必设)入门确定性生成(质量更高)可选开启入门束搜索候选数2(平衡质量和速度)进阶--seed固定随机种子12345(任意固定整数)进阶量化开关追求确定则不设高阶禁止CUDA异步执行1(环境变量)高阶开启PyTorch确定性算子True(代码设置)

2026-01-10 10:59:03 494

A TC Architecture of Embedded System Based on Improved TPM

A TC Architecture of Embedded System Based on Improved TPM

2023-08-20

atpg atpg-gd.pdf

atpg atpg-gd.pdf

2023-08-06

dftc-cmd.pdf

dftc-cmd.pdf

2023-08-06

夏闻宇Verilog-PPT.ppt

夏闻宇Verilog-PPT.ppt

2023-08-06

《数字逻辑电路》学习指导

《数字逻辑电路》学习指导

2023-08-06

dftug-dftug.pdf

dftug-dftug.pdf

2023-08-06

dftc-vars.pdf

dftc-vars.pdf

2023-08-06

Technical Background of the Android Suspend Blockers Controversy

Technical Background of the Android Suspend Blockers Controversy

2023-02-22

secure-boot-image-authentication-11.30.16

secure-boot-image-authentication-11.30.16

2023-01-31

开源安全操作系统-OPTEE

开源安全操作系统-OPTEE

2023-01-02

DEN0021D-Trusted-Base-System-Architecture-Client

DEN0021D-Trusted-Base-System-Architecture-Client

2023-01-02

DEN0006D-Trusted-Board-Boot-Requirements

DEN0006D-Trusted-Board-Boot-Requirements

2023-01-02

DEN0028E-SMC-Calling-Convention-1.4eac0

DEN0028E-SMC-Calling-Convention-1.4eac0

2023-01-02

DEN0056E-System-Control-and-Management-Interface-v3.2-BETA

DEN0056E-System-Control-and-Management-Interface-v3.2-BETA

2023-01-02

DEN0022E-Power-State-Coordination-Interface-BETA

DEN0022E-Power-State-Coordination-Interface-BETA

2023-01-02

trustedfirmware-a-readthedocs-io-en-v2.6

trustedfirmware-a-readthedocs-io-en-v2.6

2023-01-02

深入理解Linux虚拟内存管理.pdf

深入理解Linux虚拟内存管理,

2024-07-28

串行外设接口(SPI)主设备.pdf

串行外设接口(SPI)主设备.pdf

2024-07-13

车规级半导体功率器件测试认证规范

车规级半导体功率器件测试认证规范

2024-06-24

ASIC 综合后的静态验证方法的研究.pdf

ASIC 综合后的静态验证方法的研究.pdf

2024-06-24

EDA 技术文档,非常稀缺

EDA 技术文档,非常稀缺

2024-06-24

安全认证和合规中心.pdf

安全认证和合规中心.pdf

2024-06-24

TRACE32工具的SiFive RISC-V调试和跟踪方案

TRACE32工具是一个功能强大的调试和跟踪解决方案,它可以用于各种处理器架构,包括SiFive的RISC-V处理器。以下是一个关于如何使用TRACE32工具进行SiFive RISC-V调试和跟踪的基本方案: 一、硬件连接与配置 确保TRACE32调试器与SiFive RISC-V目标板之间的物理连接正确无误。这通常包括将调试器的JTAG或SWD接口与目标板的相应接口相连。 根据目标板的硬件配置,设置TRACE32工具的相应参数,如时钟频率、处理器型号等。 二、软件安装与配置 在计算机上安装TRACE32调试软件,并确保软件版本与目标板和处理器兼容。 配置TRACE32软件的调试环境,包括选择正确的处理器型号、加载目标板的固件或程序等。 三、调试过程 启动TRACE32调试软件,并连接到目标板。 在软件中加载目标板的程序或固件,以便进行调试。 设置断点:在需要调试的代码行或函数处设置断点,以便在程序执行到这些位置时暂停。 单步执行:通过TRACE32的单步执行功能,可以逐步跟踪程序的执行过程,观察变量的值和寄存器的状态。 查看内存:使用TRACE32的内存查看功能,可以实时检

2024-03-11

ChatGPT芯片算力:研究框架

ChatGPT芯片算力的研究框架可以从以下几个维度进行构建: 一、引言 首先,需要简要介绍ChatGPT的背景、应用以及其对算力的需求。ChatGPT作为一种先进的自然语言处理模型,其训练和推理过程需要强大的计算能力来支撑。随着模型的不断迭代和升级,对芯片算力的需求也在不断增加。 二、算力需求分析 技术原理角度:分析ChatGPT基于Transformer技术的特点,随着模型层数的增加,对算力的需求也相应增加。 运行条件角度:探讨ChatGPT完美运行所需的三个条件:训练数据、模型算法和算力。特别是在大规模预训练过程中,对算力的需求尤为突出。 三、芯片算力支撑 芯片类型:分析不同类型的芯片如何支撑ChatGPT的算力需求,包括GPU、CPU、FPGA以及AI专用芯片等。探讨它们各自的优势和适用场景。 芯片性能:评估芯片的性能指标,如计算能力、功耗、集成度等,以及这些指标如何影响ChatGPT的运行效率和效果。 四、市场趋势与产业链分析 市场趋势:分析随着ChatGPT等AI应用的普及,对芯片算力的需求如何推动芯片市场的增长。同时,探讨芯片价格与数量的变化趋势。 产业链分析:

2024-03-11

on-chip networks:片上网络(On-chip Networks)

片上网络(On-chip Networks)是数字电路中各子系统之间进行通信的一种手段。它通过在硬件层面上搭建类似于“计算机网络”的电路结构,实现各组成部分之间的数据交换。与更高维度的“计算机网络”相比,片上网络具有信道距离短、数据传输速率快等根本特点。 片上网络可以被视为一个系统,因为它集成了许多组件,包括通道、缓冲器、开关和控制逻辑。各terminal多为processor、memory这一级别的组件。随着芯片上组件数的增加,直接链接所有元件所需的布线量将变得难以承受,因此片上网络的出现解决了这一问题。 片上网络的设计可以分解为各种构建块,包括拓扑结构、路由、流量控制、路由器微体系结构和设计以及链路体系结构。与传统的基于总线结构的信息传输系统相比,片上网络突破了SoC在长总线传输、设计方法和结构可拓展性方面存在的技术瓶颈,提高了处理核的利用率、链路使用率及网络的可拓展性。 随着技术的发展,片上网络正在快速取代总线和crossbar,成为数字电路中的主流通信方式。如需更多信息,建议查阅片上网络相关的专业书籍或咨询相关领域的专家。

2024-03-11

TEE and its Key Management:

TEE(Trusted Execution Environment,可信执行环境)是一种安全环境,旨在提供隔离和保护,使应用程序和安全关键操作能够在不被其他应用程序或操作系统干扰的情况下执行。它常用于存储和处理敏感数据,例如密码、密钥和生物识别信息等。 在密钥管理(Key Management)方面,TEE发挥着至关重要的作用。以下是一些TEE在密钥管理中的关键方面: 密钥存储位置的要求:TEE提供了安全的存储位置,用于存储任何加密密钥、信任文件或类似值的加密数据。这些敏感数据被保存在TEE内部,从而避免了被外部攻击者或其他不受信任的应用程序访问的风险。 密钥的用法:与保密密钥相关的任何加密操作都应在TEE内进行,与TEE之外的正常应用程序隔离。这样可以确保机密密钥在运行时只暴露给属于TEE的安全内存,从而防止了密钥的泄露或被非法使用。 安全密钥的安装:初始机密密钥配置通常在工厂生产环境中进行,并且仅允许通过可信通道进行受限访问,以避免机密和敏感信息的泄露或被修改。 密钥的重用:对称和私有非对称密钥应该是唯一的,并且只能在一组组件或单个组件中使用,这确保了密钥的安全性和完整性,避免

2024-03-11

keystone-eurosys20.pdf

keystone-eurosys20.pdf

2024-03-11

ARM:Base Boot Security Requirements 1.2

ARM:Base Boot Security Requirements 1.2

2023-09-02

A new IoT Security certification scheme with trust signals

A new IoT Security certification scheme with trust signals

2023-09-02

Secure-by-Design-NXP-Webinar-Series-OP-TEE

Secure-by-Design-NXP-Webinar-Series-OP-TEE

2023-08-20

Scalable Private Membership Test Using Trusted Hardware

Scalable Private Membership Test Using Trusted Hardware

2023-08-20

TCG Guidance for Secure of Software and Firmware on Embedded Sys

TCG Guidance for Secure of Software and Firmware on Embedded Sys

2023-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除