自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(410)
  • 收藏
  • 关注

原创 软件工程 | 需求三层次:用正反对比例子,把复杂概念讲明白

摘要: 软件工程需求分为三个递进层次:业务需求(为什么做)、用户需求(做什么)和功能需求(怎么做)。业务需求是顶层目标(如"提升转化率20%"),用户需求是任务导向(如"一键领取优惠券"),功能需求是具体实现(如"系统自动识别优惠券并抵扣")。常见误区包括:混淆层次(把功能当目标)、需求模糊(如"系统要好看")或偏离核心(如增加无关主题颜色)。成功的需求分析需要三者对齐——业务定方向,用户需求搭桥,功能需求落地,且每层需求都应具

2026-04-01 10:50:31 432

原创 [论文阅读] AI + 软件工程 | 从1对1到规模化,Lacy用AI+专家代码漫游重构软件入职指导

软件企业均面临新员工熟悉复杂代码库的入职痛点,专家一对一讲解效果好但成本高、无法规模化,纯AI工具则缺乏全局理解和隐性知识。本文提出首个人机混合的AI+专家协同代码漫游系统Lacy,其设计基于与倍科一年合作提炼的8项工业需求,核心为AI辅助的专家引导式漫游和纯AI探索式漫游,配套Voice-to-Tour、测验、播客、专家仪表盘等功能。在倍科3万行遗留金融系统的受控实验中,使用引导式漫游的学习者测验得分达83%(纯AI为57%),专家认为漫游创作远低于现场讲解的负担,且Lacy能无缝融入企业工作流。

2026-03-28 20:50:09 393

原创 从零学会写需求规格说明书

本文提供了一个新手友好的需求规格说明书(PRD)写作指南,通过奶茶店点单系统案例,将复杂文档拆解为简单步骤: 用大白话明确需求背景、核心目标和用户群体 将大需求拆解为可执行的小功能点(品类选择、配料选择、订单结算) 补充约束条件(使用限制、异常处理、业务规则) 整合为结构化文档(概述、功能需求、约束条件、验收标准) 通过他人验证和模拟操作确保文档可落地 核心方法是:避免专业术语,注重实际可操作性,通过具体案例演示如何将复杂需求转化为任何人都能理解的清晰说明文档。

2026-03-18 01:17:31 504

原创 一文吃透瀑布模型:软件工程的“线性通关指南”

摘要:瀑布模型是软件工程的经典线性开发方法,将软件开发分为需求分析、设计、开发、测试、运行维护5个阶段。每个阶段必须完成后才能进入下一阶段,强调文档化和流程控制。其优势在于流程清晰、易于管理,适合需求稳定的项目;但缺乏灵活性,难以应对需求变更。尽管现代开发方法更灵活,瀑布模型仍是理解软件工程基础的重要框架,尤其适合新手掌握软件开发的基本流程和规范。

2026-03-17 00:01:43 426

原创 [论文阅读] AI +软件工程 | 无需执行代码,LLM也能精准分析代码语义?Meta提出半形式化推理新方法

本文研究了LLM智能体的**Agentic Code Reasoning(智能体代码推理)** 能力——即无需执行代码,通过迭代探索代码库、追踪依赖完成深度语义分析的能力,并提出**半形式化推理**这一结构化提示方法。该方法通过任务定制化模板,强制智能体明确陈述前提、追踪执行路径、推导形式化结论,避免无依据断言。在补丁等价验证、故障定位、代码问答三大任务中的评估表明,半形式化推理实现了全面的精度提升:精选补丁验证精度从78%升至88%,真实智能体补丁验证达93%,RubberDuckBench代码问答达87

2026-03-03 23:51:35 386

原创 [论文阅读] AI + 软件工程 | AI辅助编程时代,新手真能替代资深开发者吗?这份实证研究给出答案

AI编码工具让开发者快速生成代码,也引发了“低经验Vibe Coder能否替代资深开发者”的问题。本研究分析AIDev数据集1719名Vibe Coder的22953个GitHub PR,将开发者分为低/高经验组,对比贡献规模和PR合并难度。结果显示,低经验组PR的提交次数是高经验组的2.15倍、修改文件数1.47倍,但评审评论数4.52倍、接受率低31%、解决时间5.16倍。研究发现低经验者聚焦代码生成,将验证负担转移给评审者,其核心问题为基础设施不匹配和集成摩擦。研究建议,项目管理者不可直接用低经验者替

2026-03-03 00:01:25 1068

原创 [论文阅读] AI + 软件工程 | 基于大语言模型的需求依赖检测新突破:LEREDD方法实现高精度与强鲁棒性

需求间存在固有依赖关系,其识别对软件开发至关重要,但自然语言需求的模糊性、需求规模的扩大使该任务极具挑战,现有方法也存在诸多局限。大语言模型(LLM)在自然语言处理中表现优异,但在需求依赖检测中的应用尚未被探索。本文提出LLM赋能的需求依赖检测方法LEREDD,融合检索增强生成(RAG)和上下文学习(ICL),可直接从自然语言需求中识别多类依赖。在813个标注需求对的实证评估中,LEREDD实现0.93的准确率和0.84的F1分数,无依赖类F1达0.96,Requires依赖F1相对基线平均提升94.87%

2026-03-01 01:06:06 1077

原创 [论文阅读] AI + 软件工程 | 突破LLM上下文瓶颈:上下文内存虚拟化CMV的设计与实践

LLM在扩展推理任务中会在上下文窗口积累大量架构映射、决策等状态,而会话触达窗口上限后的有损压缩会丢失这些理解。本文提出上下文内存虚拟化(CMV),将LLM积累的理解视为版本化状态,借鉴OS虚拟内存,将会话历史建模为带快照、分支、修剪原语的DAG,实现跨并行会话的上下文复用。本文设计三阶段结构无损修剪算法,在保留用户和助手响应原文的前提下剥离原始工具输出等机械冗余,平均减少20%令牌数,高冗余会话达86%。基于76个真实编码会话的单用户案例评估表明,该算法在提示缓存下具备经济可行性,混合工具使用会话平均压缩

2026-02-28 08:58:01 1380

原创 [论文阅读] AI + 软件工程 | AI编码代理的代码评审融合之道:协作信号才是核心关键

自主编码代理日益频繁地在GitHub提交拉取请求(PR),但这类贡献如何融入人类主导的代码评审工作流仍知之甚少。本研究基于公共AIDev数据集对代理编写的PR开展大规模实证研究,分析其整合结果、决议速度和评审期协作信号。通过带仓库聚类标准误的逻辑回归发现,评审者参与度与整合成功的相关性最强,而更大的改动量、强制推送等破坏协调的行为会降低合并概率,考虑协作信号后,单纯的迭代强度仅具有有限的解释力。定性分析进一步表明,当代理参与可操作的评审循环并贴合评审者预期时,整合会取得成功。研究结果表明,代理编写PR的有效

2026-02-27 17:22:24 608

原创 [论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道

该研究由新西兰坎特伯雷大学等机构学者开展,旨在探究软件工程专业学生和行业从业者对**视频化培训结合游戏化**的看法,通过对85名学生和100名专业人士开展基于AVW-Space平台的调研,发现两类群体对视频化培训的三项核心活动(观看、评论、审阅评论)在难度、实用性和激励性上认知**高度相似**,均支持二者结合但**专业人士对游戏化的学习效果更持怀疑态度**;同时识别出两类群体认可的游戏化激励因素(进度可视化、成就感等)和反感因素(设计缺陷、技术问题等)存在群体差异,研究结果为软件工程领域**游戏化视频培训的

2026-02-24 23:54:21 641

原创 [论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解

本文详细解析了论文《Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation》的核心内容,针对AI系统概率性导致的评估难题,重点介绍了作者提出的统计置信度功能正确性(SCFC)四步评估方法,包括量化规格限值定义、分层概率抽样、自助法置信区间估算、非参数化Cₚₖ指数计算的具体操作步骤。同时,梳理了研究的工业案例验证结果和专家反馈,挖掘了方法的范式、

2026-02-24 11:39:39 1153

原创 [论文阅读] AI + 软件工程 | 告别意图丢失!基于算法的LLM代码翻译新范式来了

该研究针对大语言模型(LLMs)直接一键代码翻译易丢失程序意图、引发各类错误的问题,提出**基于算法的代码翻译流水线**,通过生成**与语言无关的中间规范**捕捉程序I/O、数据结构等关键细节后再生成目标代码;研究在Avatar和CodeNet数据集上,用DeepSeek R1/V3、Llama 4 Maverick、GPT-4o、Qwen2.5五款LLMs开展Python与Java双向翻译的自动化配对实验,对比直接翻译与算法基方法的效果,结果显示算法基方法将**微平均准确率从67.7%提升至78.5%(提

2026-02-23 08:15:00 1422

原创 [论文阅读] 代码也有社交圈?用意见动力学解码开源代码库的演化奥秘

本文围绕论文《Social Life of Code: Modeling Evolution through Code Embedding and Opinion Dynamics》展开深度解读,旨在帮助读者快速理解这一跨软件工程与计算社会科学的创新研究。文章首先介绍了研究背景——传统代码演化研究缺失社交维度的痛点,随后提炼了论文的四大核心创新点,再将研究方法拆解为数据准备、代码嵌入量化、PCA降维、EPO模型构建、实验验证五个核心步骤,清晰讲解了“将代码修改转化为技术意见”的量化链路。同时,本文整理了研究

2026-02-18 15:43:35 891

原创 [论文阅读] AI + 软件工程 | 谁是最佳AI编码助手?5款主流工具的任务分层实证研究揭晓

AI编码助手的快速普及正在重塑软件工程实践,但不同代理在不同任务类型和时间维度的有效性对比仍较为缺乏。本文通过分析AIDev数据集中7156个拉取请求(PR),对OpenAI Codex、GitHub Copilot、Devin、Cursor和Claude Code五款主流代理开展实证研究。时间趋势分析显示代理演变模式存在异质性:Devin是唯一呈现PR接受率持续正向增长的代理(32周内每周+0.77%),其余代理性能基本稳定。研究发现任务类型是影响接受率的主导因素,文档类任务接受率(82.1%)比新功能类

2026-02-11 20:37:24 1031

原创 [论文阅读] AI + 软件工程 | 34.43%性能提升!TraceCoder解锁LLM生成代码自动化调试新范式

大语言模型(LLMs)生成的代码常含隐性关键缺陷,现有自动化修复方法依赖二值反馈,故障定位模糊且无法从失败中学习,易陷入低效循环。为此提出迹驱动多智能体框架TraceCoder,模拟人类专家调试流程:通过插装智能体捕获细粒度运行时迹,分析智能体做因果故障分析,修复智能体执行靶向修复;结合历史经验学习机制(HLLM)避免重复错误,回滚机制(RM)保证修复稳定收敛。多基准实验表明,TraceCoder的Pass@1准确率相对先进基线最高提升34.43%,消融实验验证了各组件的重要性,迭代修复流程单独贡献65.6

2026-02-11 10:06:59 880

原创 [论文阅读] 软件测试 | 跨语言模糊测试大揭秘:C++/Rust/Python谁更胜一筹?

模糊测试是通过生成异常输入自动检测漏洞的主流技术,现已集成至持续集成流水线形成持续模糊测试,但现有研究未探究其效果是否随编程语言变化。本研究开展大规模跨语言分析,基于559个OSS-Fuzz项目的61444个模糊测试漏洞和999248次构建,分析C、C++、Go、Java、Python、Rust六大语言的模糊测试特征。研究发现:C++和Rust的漏洞检测频率更高;Rust和Python漏洞占比低但高危漏洞更多;Go的不可复现漏洞最多,而Rust几乎无此问题;Python补丁覆盖率高但检测耗时最长,且不同语言

2026-02-10 09:33:17 1258

原创 [论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路

TensorFlow、PyTorch等深度学习库因设计复杂易存在bug,现有模糊测试工具的输入有效率极低。本文提出利用机器学习分类器判断API输入有效性,核心是以张量形状为抽象特征编码输入,通过随机和成对策略生成标注数据集,基于AutoGluon训练模型。实验针对183个API展开,结果显示分类器在未见过数据上准确率超91%;集成到ACETest工具后,有效输入通过率从29%提升至61%,且不影响漏洞检测能力。该研究证明机器学习能有效提升深度学习库测试的效率与规模。

2026-02-06 06:53:52 634

原创 [论文阅读] 软件工程 | 从“第一个计算机bug”到团队表情包:揭秘软件工程民俗的前世今生

本文结合民俗学理论与软件工程实践,通过文献综述和12名瑞典工业从业者的半结构化访谈,界定了软件工程民俗的核心内涵,即由职业群体非正式传播的传统与新兴叙事、启发法和人工制品。研究梳理了10倍开发者传说、技术债务认知等典型民俗案例,分析其叙事形式、象征意义及对软件工程各领域的作用,指出这类民俗既有简化决策的实用价值,也存在传播非实证观点的潜在问题。该研究为后续的民族志研究和反思性实践奠定了基础。

2026-01-31 19:30:14 939

原创 [论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准

大语言模型(LLMs)在代码生成任务中表现优异,但面对复杂问题时仍受限于外部知识缺失。检索增强生成(RAG)虽能整合外部知识,却存在检索不精准、生成易幻觉等问题。本文提出编程知识图谱(PKG),用于代码和文本的语义表示与细粒度检索。该方法通过树剪枝提升检索精度,借助重排序机制融合非RAG解决方案以减少幻觉,并将外部数据拆分为细粒度节点以优化检索粒度。在HumanEval和MBPP基准上的评估显示,该方法相较于无RAG方案pass@1准确率最高提升20%,相较于传统稀疏/稠密检索在MBPP上提升34%。研究表

2026-01-31 11:23:20 1056

原创 [论文阅读] AI | TOFU-D与COD:两款Dialogflow聊天机器人数据集,为质量与安全研究赋能

近年来,任务型聊天机器人应用广泛,但大规模精选数据集的缺失限制了其质量与安全研究。本文提出TOFU-D和COD两个数据集:TOFU-D是来自GitHub的1788个Dialogflow聊天机器人快照,COD是从中筛选的185个验证样本。两个数据集覆盖多领域、多语言和多实现模式。通过Botium测试框架和Bandit静态分析工具的初步评估,发现聊天机器人存在测试覆盖缺口和安全漏洞,凸显了多平台系统性研究的必要性。

2026-01-28 20:42:44 669

原创 [论文阅读] AI + 软件工程 | 4万+PR实证分析:揭秘影响人机代码合并的关键因素

AI自动生成Pull Request(PR)日益普及,但合并率低于人工PR。本文基于AIDev数据集的40214个PR样本,提取6大类别64个特征,构建逻辑回归模型对比人机PR及不同AI智能体PR的合并影响因素。研究发现:提交者属性对两类PR的合并结果起主导作用;评审活动对人工PR合并有正向影响,对AI PR则为负向;不同AI智能体的PR合并特征存在显著差异。本文的模型预测性能优异,结论为优化人机协作开发流程提供了直接依据,相关数据集和复现包已开源。

2026-01-28 06:13:15 612

原创 [论文阅读] AI + 软件工程 | RubberDuckBench横空出世!20个LLM编码助手大测评,幻觉率竟高达58.3%

程序员越来越依赖AI编码助手解答代码相关问题,但现有基准无法有效评估这类上下文相关问答功能。为此,本文提出RubberDuckBench:一个源自GitHub拉取请求评论的多语言基准,包含15个上下文代码问题及详细评分准则。通过对20个LLM(含专有和开源模型)的评估发现,即使顶尖模型也无法持续给出正确答案,Grok 4(69.29%)、Claude Opus 4(68.53%)和GPT-5(67.80%)表现最佳但无显著优势;模型平均仅能完全正确回答0-2个问题,且58.3%的回答存在幻觉;成本与性能无相

2026-01-27 21:34:33 590

原创 [论文阅读] AI + 软件工程 | 突破AAA游戏测试瓶颈!选择性插桩让代码覆盖“轻装上阵”

代码覆盖是测试的重要指导,但在3A游戏中,插桩带来的开销与严格的性能要求冲突,还会破坏自动化测试稳定性。本文提出并评估了一种针对大型C++游戏引擎的选择性插桩方案,在保留提交相关覆盖数据的同时缩小插桩范围。该框架集成到工业级游戏测试流水线,能为开发者提供即时覆盖反馈。其编译开销极小,可支持2000次提交插桩而编译时间不翻倍;运行时最坏情况下帧率仍保持在非插桩基准的50%以上;在两个生产测试套件中未引发任何自动化测试失败,避免了全量插桩的不稳定性。研究表明,大型C++游戏引擎可实现提交级或构建级代码覆盖,且兼

2026-01-26 22:23:45 671

原创 [论文阅读] AI + 软件工程 | 33k+ AI编码PR实证揭秘:为什么AI提交的代码常被拒绝?

AI编码代理已开始向软件项目提交拉取请求(PR),成为自主贡献者而非仅作为助手。随着这类代理贡献在真实仓库中快速增长,其实际表现及失败合并的原因尚不明晰。本文对GitHub上5个编码代理提交的33k个PR开展大规模研究:首先从任务类型、代码变更、CI构建结果和评审动态四个维度定量分析合并与未合并PR的差异,发现文档、CI和构建更新类任务合并率最高,而性能和漏洞修复类最低,未合并PR多涉及更大规模代码变更且常未通过CI验证;其次通过定性分析600个PR,构建了包含评审者、PR、代码和代理四个层面的拒绝模式分类

2026-01-26 07:06:30 1608

原创 [论文阅读] 软件工程 + 供应链安全 | 别忽视构建代码安全!“阶段隔离”让管道投毒无处遁形

开源C代码是社会计算基础设施的核心,但C项目的构建系统代码(用于自动化编译、测试等)易遭受管道投毒攻击(如XZ Utils后门、SolarWinds攻击),现有技术却忽视了对构建系统的防护。本文提出“开发阶段隔离”策略,将构建自动化的信息和行为权限建模为程序代码,以此强化构建系统安全。原型工具Foreman通过动态监控构建阶段的文件访问,成功检测出XZ Utils攻击中的恶意测试文件。本文还规划了四阶段研究计划,未来将实现权限自动推断、细粒度控制等功能,目标让构建系统安全检查器像程序代码检查器一样普及,为软

2026-01-16 15:00:00 663

原创 [论文阅读] AI + 软件工程 | DepRadar:AI时代DL库缺陷检测神器,让静默Bug无处遁形

深度学习库(如Transformers、Megatron)已广泛应用于现代AI程序,但这些库引入的缺陷(从静默计算错误到微妙的性能退化)往往难以被下游用户评估影响。此类分析需理解缺陷语义,且需检查客户端代码是否满足含配置标志、运行环境、间接API使用的复杂触发条件。本文提出多智能体协作框架DepRadar,用于DL库更新的细粒度缺陷及影响分析。该框架协调四大专用智能体,分三步完成任务:(1)PR挖掘器和代码差异分析器从提交或PR中提取结构化缺陷语义;(2)协调器将这些信号合成为含触发条件的统一缺陷模式;(3

2026-01-16 06:42:21 825

原创 [论文阅读] AI + 软件工程 | 拯救软件维护者!AI代理PR审查负担预测模型:20%预算拦截69%高成本任务

本研究分析了33,707个AI代理生成的拉取请求(PR),发现其呈现双模式行为:28.3%可即时合并,其余易陷入审查循环。研究首次定义了"代理幽灵现象"(3.8%发生率,Codex达10.0%),并提出基于结构特征(补丁大小/修改文件数)的预测模型,AUC达0.958,在20%审查预算下可拦截69%高成本任务。研究证实AI代理PR的审查负担由修改内容而非描述文本决定,为自动化治理提供了重要依据。

2026-01-06 07:31:54 967

原创 MySQL | 文本数据类型(CHAR/VARCHAR/TEXT/BLOB):区别、场景与实战

MySQL文本数据类型(CHAR/VARCHAR/TEXT/BLOB)的选择对数据库性能和存储效率至关重要。CHAR适合固定长度短字符串,存储时自动填充空格;VARCHAR适合长度可变的中短文本,仅占用实际空间。TEXT用于存储大文本(如文章内容),BLOB用于二进制数据(如图片)。CHAR/VARCHAR数据直接存储在行内,访问更快;TEXT/BLOB数据可能存储在行外,访问较慢。实战案例展示了不同类型的数据存储、查询差异,帮助开发者根据实际场景选择最合适的数据类型。

2026-01-02 23:21:30 1122

原创 Springboot3 | 核心注解实战教程

本文介绍了Spring Boot核心注解的使用方法,通过实战案例展示如何搭建一个完整的Spring Boot 3 Web项目。教程详细讲解了10个核心注解的作用和使用场景,包括@SpringBootApplication、@Configuration、@Autowired等常用注解。案例实现了一个支持跨域的用户信息查询与新增接口,涵盖从项目创建、配置类编写到控制器开发的全过程。文章适合对注解有初步认识的开发者学习,要求JDK 17+和Spring Boot 3.2.x环境,通过Maven管理依赖。

2026-01-02 10:24:02 967

原创 [论文阅读] AI +软件工程 | 从Simulink到ROS 2:一键生成并行代码,自动驾驶开发效率翻倍

近年来,嵌入式系统(尤其是快速发展的自动驾驶系统)的复杂度和规模显著增长,推动了机器人操作系统(ROS 2)和多核处理器等软硬件方案的采用。传统手动程序并行化面临数据完整性维护、死锁规避等挑战,而模型驱动开发(MBD)虽能自动化并行化过程,但在ROS 2多输入场景下的集成存在困难。本文提出一种MBD框架,将兼容ROS 2的Simulink模型分为事件驱动型和定时器驱动型,进行针对性并行化。该框架扩展了传统MBD的并行化能力,支持多输入的ROS 2模型。评估结果表明,应用该框架后,所有模式的执行时间均有所缩短

2026-01-01 10:01:03 980

原创 JavaScript | 数组方法实战教程:push()、forEach()、filter()、sort()

本文介绍了JavaScript中四个核心数组方法:push()用于向数组末尾添加元素,返回新长度;forEach()遍历数组元素执行操作,无返回值;filter()根据条件筛选元素,返回新数组;sort()对数组元素排序,默认按字符串Unicode排序。每个方法都包含适用场景、代码示例和常见错误解决方案,帮助开发者掌握这些数组操作的实战应用技巧。

2025-12-30 21:30:09 1378

原创 前端 | CSS animation 与 transform 协同使用完全教程

本文详细介绍了CSS中animation与transform的协同使用方法。首先解析了animation复合属性的语法规则,包括8个子属性的对应关系和注意事项。然后对比了两者的核心差异:transform负责定义元素变换效果,而animation控制动画播放时序。文章通过协同作用机制说明二者如何配合工作,并提供了两个实战案例:基础旋转移动动画和多状态缩放透明度动画,展示如何通过@keyframes定义变换状态,用animation控制播放规则。这些知识可以帮助开发者更好地实现CSS动画效果。

2025-12-29 15:00:00 2175

原创 前端 | 伪类选择器:理论、分类与实战应用

本文全面解析CSS伪类选择器的核心用法,分为状态型和结构型两大类。状态型伪类响应元素交互状态,包括:hover(鼠标悬停)、:active(点击按压)、:focus(输入框聚焦)等,通过代码示例展示按钮悬浮效果、输入框高亮等实用场景。结构型伪类基于元素在DOM中的位置匹配,如:first-child/:last-child用于定制列表首尾项样式。文章强调伪类选择器无需修改HTML即可实现动态样式,是提升Web交互体验的关键技术。

2025-12-29 09:15:00 1015

原创 [论文阅读] AI安全 | 突破LLM安全防线:SPELL框架如何精准生成恶意代码?

随着AI辅助编码工具的普及,LLM生成恶意代码的安全风险日益突出,但现有测试方案受限于固定模板或低效评估。本文提出SPELL框架,通过构建853,037个句子的先验知识数据集,采用时分epsilon-greedy策略动态组合句子生成攻击提示,突破传统模板局限。在GPT-4.1、Claude-3.5、Qwen2.5-Coder上,SPELL的攻击成功率分别达83.75%、19.38%、68.12%,覆盖8类恶意代码,且在Cursor工具中验证有效。配套的意图提取防御机制实现90%-100%的攻击拒绝率。SPE

2025-12-27 09:30:00 949

原创 前端 | 吃透CSS视觉特效:圆角、渐变、动画与变换核心解析

本文深入解析CSS四大视觉特效:圆角、渐变、动画与变换的核心概念与实现原理。通过实战案例演示如何使用border-radius创建圆形头像和胶囊按钮,利用linear-gradient和radial-gradient实现渐变色按钮和光斑背景,以及transform属性实现悬停缩放卡片和旋转图标效果。文章强调理解底层机制而非简单复制代码,帮助开发者灵活运用这些特性打造精美UI,同时兼顾性能优化。每个特性均配有可运行代码示例,便于读者快速掌握核心应用场景。

2025-12-26 15:15:00 1154

原创 前端 | 代码可读性 + SEO 双提升!HTML 语义化标签实战教程

本文详细介绍了HTML语义化标签的核心概念和实践价值。通过对比传统div布局与语义化标签的代码示例,展示了语义化标签在提升代码可读性、优化SEO效果、增强无障碍访问等方面的优势。文章提供了语义化标签的定义对照表,列举了常见标签的正确使用场景,并特别指出了新手容易混淆的语义误用情况。最后强调语义化标签的核心价值在于让HTML代码具有自解释性,同时为开发者、用户和搜索引擎提供更清晰的内容结构。

2025-12-26 09:00:00 1080

原创 前端 | 一篇搞懂CSS盒模型核心:padding、margin、border与box-sizing、border-radius

CSS盒模型是布局的核心概念,主要包含padding(内边距)、margin(外边距)、border(边框)三大部分。padding是元素内容与边框间的缓冲,margin控制元素间的间距,border则是元素的"外壳"。box-sizing属性决定width/height是否包含padding和border(border-box包含,默认的content-box不包含)。border-radius用于设置圆角,支持px和百分比值。理解这些概念的关系,配合box-sizing:border

2025-12-24 21:46:56 1192

原创 [论文阅读] AI + 硬件开发 | 硬件设计新范式:LLM赋能行为驱动开发,解决验证痛点的实战方案

测试与验证是硬件和系统设计中的核心环节,但随着系统规模扩大,其复杂度显著增加。行为驱动开发(BDD)在软件工程中已被证明有效,但在硬件设计中尚未普及,实际应用受限,主要原因是需手动从文本规格中推导精确的行为场景。大型语言模型(LLMs)的最新进展为自动化该步骤提供了新可能。本文研究了基于LLM的技术在硬件设计BDD中的应用,证明从文本规格出发,LLM可自动生成适用于BDD流程的高层行为描述。通过16位算术逻辑单元(ALU)的案例研究表明,LLM能直接生成相关场景,并在对应的Verilog实现上进行仿真。该方

2025-12-23 21:57:38 980

原创 [论文阅读] 软件供应链 | JavaScript捆绑包 vs CDN:谁更安全?Aletheia揭秘依赖更新真相与漏洞风险

本文针对 JavaScript 生态中依赖包版本检测难、更新行为不明确的问题,提出包无关的捆绑包版本检测方法 Aletheia。该方法借鉴抄袭检测算法,通过文件选择、转译、捆绑三步预处理,实现了对任意 JavaScript 捆绑包的高精度版本检测,实验室和真实场景的补丁级正确率分别达 87% 和 82%,显著优于现有方法。基于 Tranco 前 100,000 个域名的 6 周爬取数据,研究发现:捆绑包普及率高于 CDN,且更新更快(16 周内 18%+ 域名更新),漏洞风险更低(2.7%-3.7% vs

2025-12-21 14:16:49 737

原创 [论文阅读] 远程工作中的“隐形障碍”:残障开发者在软件开发团队的挑战与破局之道

本研究聚焦混合能力软件开发团队中残障人士(PWD)的远程/混合工作体验,通过99人在线调查(含残障人士、领导、非残障队友)和14名残障开发者的半结构化访谈,探究三大核心问题:两类群体对远程工作的评价、残障人士面临的挑战、积极体验的促进因素。结果显示,所有群体对远程工作(尤其远程优先模式)满意度高,但残障人士存在工具可访问性、沟通协调、社会隔离等隐性障碍,且未被非残障群体感知。支持性团队文化、清晰沟通、灵活工作安排是关键促进因素。研究为企业优化包容性远程工作环境提供了实证依据,填补了该领域研究空白。

2025-12-18 17:38:30 714

软件工程基于协作信号的AI代理代码审查集成研究:GitHub平台下自主编码代理拉取请求的实证分析

内容概要:本文基于AIDev数据集对由AI编码代理提交的拉取请求(pull requests)进行了大规模实证研究,探讨其在人类主导的代码审查流程中的集成情况。研究发现,评审者的参与度是决定AI生成请求能否成功合并的最强关联因素,而较大的变更规模和破坏协调的行为(如强制推送)则显著降低合并可能性。迭代频率本身在考虑协作信号后解释力有限。定性分析进一步表明,当AI能响应具体反馈并收敛于评审者期望时,集成更可能成功。整体上,AI提交请求的成功不仅取决于代码质量,更关键的是与现有审查和协作规范的一致性。; 适合人群:从事软件工程、AI辅助开发及相关领域研究的研究人员与开发者,尤其是关注人机协作、代码审查机制和自动化编程工具实际应用效果的专业人士。; 使用场景及目标:①理解AI代理在开源项目中提交代码的实际整合表现及其影响因素;②优化AI编程工具的设计,使其行为更符合人类团队的协作规范;③为构建高效的人-AI混合开发团队提供理论依据与实践指导。; 阅读建议:此资源结合了定量回归分析与定性案例归纳,建议读者重点关注图2中的回归结果以及表1中的失败归因分类,在阅读过程中思考如何将研究结论应用于改进AI代理的协作策略。

2026-02-28

豆包翻译 LLM-Performance-for-Code-Generation-on-Noisy-Tasks

豆包翻译 LLM-Performance-for-Code-Generation-on-Noisy-Tasks

2025-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除