- 博客(810)
- 资源 (27)
- 收藏
- 关注
原创 大模型安全-生成检测-事实核查-攻击-防御-思考-记忆-融合-语音相关研究
本文整理了关于大模型安全领域的综合性资源,包括7篇综述论文、9个安全数据集以及5篇强化学习相关的安全研究论文。主要涉及大模型的对抗攻击、隐私保护、安全评估等方向,涵盖TruthfulQA、ToxiGen等知名数据集和TrustLLM、HarmBench等关键研究。资源包括知乎博主分享、arXiv预印本和顶会论文,并附有详细的中文讲解链接,为研究者提供了系统性的安全研究参考。
2024-09-11 10:19:33
2705
1
原创 公开 学生课堂行为数据集 SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
公开 学生课堂行为数据集 SCB-Dataset Student Classroom Behavior dataset
2023-04-08 22:12:12
15508
7
原创 论文阅读:IJACI 2025 Hallucination Reduction in Video-Language Models via Hierarchical Multimodal Consist
该文档是一篇发表于IJCAI-25的研究论文,核心聚焦于视频-语言模型(VLMs)中的幻觉问题,提出了多层多模态对齐(MMA)框架及两阶段训练策略,以提升模型语义一致性并减少幻觉。该研究通过语义对齐与两阶段训练,从根源缓解了VLMs的幻觉问题,同时提升了长视频理解与视频问答的准确性,为视频分析、多模态学习等领域的实际应用提供了更可靠的技术支撑。通过文本语义监督与多层对齐,强化视觉与文本模态的语义一致性,结合两阶段训练拓展语义多样性,从根源减少幻觉。
2026-01-14 13:00:31
568
原创 论文阅读:SIGIR 2025 Advancing Ship Re-Identification in the Wild: The ShipReID-2400 Benchmark Dataset an
本文针对船舶重识别(Ship ReID)领域数据集稀缺、船舶尺度变化大、易出现部分拍摄等问题,提出了包含2400个船舶ID、17241张图像(采集自53个月真实航道监控系统)的ShipReID-2400基准数据集,并设计了D2InterNet基线方法——该方法采用双分支架构,通过。
2026-01-14 10:04:03
499
原创 论文阅读:arxiv 2026 Extracting books from production language models
该研究通过两阶段提取流程(初始探测+迭代续写),对四款商用大模型开展版权书籍提取实验,发现即便存在模型与系统级安全防护,仍可提取大量受版权保护的训练文本:无需越狱即可从Gemini 2.5 Pro(《哈利·波特与魔法石》提取率76.8%)和Grok 3(70.3%)中提取书籍片段,通过Best-of-N越狱后,Claude 3.7 Sonnet能近乎逐字提取整本书(最高提取率95.8%),而GPT-4.1需更多越狱尝试(20倍)且易拒绝续写(提取率仅4.0%),该结果为大模型版权争议提供了关键技术依据。
2026-01-13 10:38:57
553
原创 论文阅读:AIED 2025 Designing Effective LLM-Assisted Interfaces for Curriculum Development
该研究聚焦LLM辅助课程开发的界面设计挑战,提出两种基于直接操作(DM)原则的新型UI(UI Predefined和UI Open),以解决传统文本界面依赖复杂提示工程、认知负荷高的问题。通过20名不同教育背景参与者的对照实验,将其与标准ChatGPT界面(通过open-webui模拟)在可用性(SUS)和认知负荷(NASA RTLX)方面对比,结果显示UI Predefined显著优于其他两者(SUS得分86.75,NASA RTLX均值2.25),兼具高可用性和低任务负荷;
2026-01-08 20:44:24
967
原创 论文阅读:AIED 2025 Scaling Curriculum Mapping in Higher Education: Evaluating Generative AI’s Role in Cu
课程映射在教育中发挥着关键作用,以确保学习结果、内容、毕业技能和评估之间的一致性。项目要求通常根据行业需求制定,并嵌入课程和评估任务中。课程分析(CA)主要通过机器学习(ML)模型为课程映射过程引入了一定程度的自动化。虽然这种CA方法有助于减轻工作负担,但它们在捕获毕业技能在整个项目中发展的细微程度方面仍然面临挑战。本研究引入了一种使用大语言模型(LLMs)作为协同课程审查者的新方法。
2026-01-08 15:16:01
940
原创 论文阅读:AIED 2025 Automatic Modeling and Analysis of Students’ Problem-Solving Handwriting Trajectories
本文提出了一种结合数字笔技术与多模态大型语言模型(MLLMs)的新型方法CogChain,通过收集25名高中生在数学、物理、化学三科共87,679条解题手写轨迹数据,自动构建逻辑链并从解题维度、时间维度、课程维度展开多维度分析,发现中等复杂度解题模式准确率最高、结构化推理时间占比更高的学生表现更优、不同学科需适配专属解题与时间管理策略等关键结论,为个性化教育提供了重要指导。核心痛点:传统考试评估难以逐一分析学生完整解题过程,学生也难以准确回忆解题思路,无法有效捕捉认知模式。
2026-01-08 14:07:57
747
原创 论文翻译:AIED 2025 Automatic Modeling and Analysis of Students’ Problem-Solving Handwriting Trajectories
理解学生在问题解决中的认知模式对个性化教育至关重要,然而传统方法难以有效捕获和分析这些模式。本文提出了CogChain,一种将数字笔技术与多模态大语言模型(MLLMs)协同结合的新方法,用于自动构建学生在考试期间的逻辑链。我们收集了一个包含25名真实高中学生在数学、物理和化学科目中的87,679条手写轨迹的综合数据集。基于构建的学生逻辑链,我们从三个维度进行了深入分析:解题、时间和课程,揭示了一系列关于他们问题解决行为的发现。
2026-01-08 12:38:38
1011
原创 论文阅读:AIED 2025 Training LLM-Based Tutors to Improve Student Learning Outcomes in Dialogues
该研究发表于AIED 2025会议,提出了一种基于直接偏好优化(DPO)训练开源大语言模型(LLM)辅导器的新方法,通过收集多来源候选辅导话语,结合LLMKT学生模型预测学生正确响应概率和GPT-4o基于教学评分标准的评估构建偏好对,对Llama 3.1 8B进行微调,最终模型在学生正确响应预测上比次优方法(GPT-4o)提升33%,同时教学质量接近GPT-4o,且通过定性分析和人类评估验证了其高质量辅导话语生成能力,但存在未用真实学生测试等局限性。背景。
2026-01-08 12:08:36
757
原创 论文阅读:AIED 2025 AIBAT: AI Behavior Analysis Tool for Teacher-Driven Contextual Evaluation of Language
威斯康星大学麦迪逊分校的研究人员开发了AIBAT(AI行为分析工具),旨在支持教育工作者在特定教学情境中审计和评估大型语言模型(LLMs)等AI支架的利弊,其核心功能包括自定义主题与行为的情境化评估、相关语言变体的行为分析扩展、评估与意义建构的行为可视化,通过让教师指定AI预期行为并开展测试,增强了AI透明度与教师信任;一项涉及14名不同教龄、学科背景教师。
2026-01-08 10:23:13
790
原创 论文翻译:AIED 2025 AIBAT: AI Behavior Analysis Tool for Teacher-Driven Contextual Evaluation of Language
随着AIED越来越依赖不透明的黑盒支架(如大型语言模型)来支持学生学习,人们越来越担心它们在不同教学情境中使用时的局限性。这种不透明性往往削弱了教育工作者的信任并影响他们的看法,导致学校对采用AI支架的抵制。为了应对这些挑战,我们开发了AIBAT,这是一个旨在支持教育工作者在其特定教学情境(例如,学科、年级水平、英语熟练程度)中审计和批判性评估AI系统的潜在益处和危害的工作流程和系统。通过AIBAT,教师可以指定预期行为——即他们期望AI支架应该做什么——并针对这些期望测试系统。
2026-01-08 10:18:02
809
原创 论文翻译:AIED 2025 Dyslexia and AI: Do Language Models Align with Dyslexic Style Guide Criteria?
阅读障碍给全球学生的教育带来了重大挑战。虽然辅助技术已被用于提高可读性,但尚未有研究系统性地评估语言模型(LMs)生成符合既定无障碍指南的阅读障碍友好文本的能力。本概念验证研究评估了三个最先进的语言模型识别和应用阅读障碍友好文本标准的能力。我们的研究发现,它们的知识是有限的并且存在潜在风险。为了解决这个问题,我们引入了DysText,这是一个基于英国阅读障碍协会阅读障碍风格指南量化阅读障碍友好文本特征的新指标。
2026-01-08 08:14:07
573
原创 论文阅读:AIED 2025 Dyslexia and AI: Do Language Models Align with Dyslexic Style Guide Criteria?
本研究是一项概念验证研究,聚焦阅读障碍友好文本标准与语言模型(LMs)的适配性,首次提出量化标准的DysText指标,基于英国阅读障碍协会的《阅读障碍风格指南》评估了Gemma、Phi4和GPT4-turbo三款模型。研究发现,这些模型仅能识别33项标准中的约13项,虽能显著提升文本的阅读障碍友好性(Phi4的DysText平均总分最高达3.24,满分11分),但存在推荐额外非标准标准、生成文本出现拼写错误、内容偏离主题等问题,不能盲目信任其输出,需进一步验证。
2026-01-07 18:46:16
936
原创 论文阅读:AIED 2025 Beyond Final Answers: Evaluating Large Language Models for Math Tutoring
以智能辅导系统为测试平台的自动化评估显示LLM最终答案正确率达85.5%(其中GPT-4o最高97.3%),人类 evaluator 交互式评估表明90%的对话具备高质量教学支持,但仅56.6%的对话完全正确;研究发现LLM虽在提示生成、灵活适配答案格式等方面有优势,却存在中间步骤错误、过度侧重最终答案等问题,结论是LLM目前无法脱离人类监督或额外保障机制独立作为数学智能辅导工具。研究主题:评估大型语言模型(LLM)在数学辅导场景中的正确性与教学质量,聚焦大学代数领域。
2026-01-07 12:22:48
905
原创 论文阅读:LAK 2025 A Novel Approach to Scalable and Automatic Topic-Controlled Question Generation in Edu
该研究针对教育领域教师工作量大、个性化教学需求迫切的问题,提出了一种基于T5-small预训练模型微调的主题可控教育问题生成(T-CQG)方法,通过构建SQuAD+、MixSQuAD等新型数据集,结合预训练策略、模型量化(8位/4位)和数据增强技术,实现了高质量、主题聚焦的问题生成;经人工评估和自动指标(BLEU、WikiSemRel等)验证,模型在语义相关性、语言质量上表现优异,且4位量化后仅占94MB内存,兼具可扩展性和低成本优势。
2026-01-07 10:43:10
919
原创 论文阅读:AAAI 2026 Failures to Surface Harmful Contents in Video Large Language Models
该研究聚焦视频大型语言模型(VideoLLMs)的安全漏洞,发现其因稀疏均匀帧采样、视觉令牌欠采样、模态融合失衡三大设计缺陷,对视频中清晰可见的暴力、犯罪、色情等有害内容存在严重的遗漏问题,有害内容遗漏率(HOR)多数情况下超90%;研究者针对性设计了帧替换攻击(FRA)、画中画攻击(PPA)、透明叠加攻击(TOA)三种零查询黑盒攻击,在5个主流VideoLLMs(LLaVA-Video-7B-Qwen2等)上验证了漏洞的严重性,强调需优化采样策略、令牌压缩和跨模态融合机制以提升模型安全性。
2025-12-29 00:16:46
644
原创 论文阅读:arxiv 2025 The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weavin
本文提出关联知识攻击代理(CKA-Agent)这一动态框架,通过无害提示编织和自适应树搜索,将有害目标分解为多个独立无害的子查询,利用大型语言模型(LLMs)内部知识的关联性,聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率,暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷,现有输入级防御措施对其基本无效。
2025-12-28 10:29:55
1016
原创 论文阅读 arxiv 2025 A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluation
该文档是一篇关于大型视觉语言模型(LVLMs)安全性的综合性综述,系统分析了LVLMs在攻击、防御和评估三大核心领域的研究现状,提出了基于模型生命周期(推理阶段、训练阶段)的分类框架,指出视觉输入扩展攻击面、微调阶段安全对齐退化等独特漏洞,对最新模型Deepseek Janus-Pro进行了安全评估,揭示其在开放问答任务中84.43%的攻击成功率(ASR)等性能短板,并展望了黑盒攻击优化、跨模态安全对齐等未来研究方向,同时提供了包含100余种相关方法的公开知识库。
2025-12-28 00:33:43
924
原创 论文阅读:CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra
这篇文档核心是讲:研究人员发现了大型语言模型(比如GPT-4)和多模态模型(比如能看懂图片的GPT-4V)的一个安全漏洞——它们虽然经过了安全训练(比如RLHF,简单说就是让人类反馈来规范模型,不让它输出危险内容),但面对“改头换面”的危险输入时,还是容易被“攻破”(也就是“越狱”),进而输出炸弹制作、黑客攻击这类危险信息。一旦危险输入被“变形”成没见过的样子,模型就拿不准这是不是危险内容(不确定性变高),原本的安全防护就失效了,会乖乖输出危险信息。研究人员搞了个叫“JOOD”的方法,专门利用这个漏洞。
2025-12-26 12:55:09
725
原创 论文阅读:ACL 2025 Jailbreaking? One Step Is Enough!
简单总结就是:这篇文章找到了一个“钻空子”的技巧——用“做防御”的名义骗模型输出有害内容,既不用反复试,也不用针对不同模型单独设计,效率和成功率都远超以前的方法。这篇论文核心是提出了一种超高效的大语言模型(比如ChatGPT、Llama这些)“越狱”方法,简单说就是用“伪装防御”的套路,让模型在不知不觉中输出有害内容,而且一步就能成功,还能适配各种不同模型。这篇文章的关键创新就是“反向嵌入防御攻击(REDA)”,核心思路特别有意思——不直接让模型输出有害内容,而是骗模型说“我们在做防御工作”。
2025-12-25 12:20:13
452
原创 Gemini Developer API 免费版 运行 gemini-2.5-flash、gemini-3-flash
Google Gemini API提供免费额度,适用于轻量版模型如gemini-2.5-flash和gemini-3-flash-preview。用户可通过官方文档获取API密钥,并安装google-genai库进行调用。示例代码展示了如何使用Python调用API获取AI解释或未来事件预测。虽然高级模型无免费额度,但基础版本已能满足简单需求,实测响应效果良好。
2025-12-24 13:45:54
527
原创 论文阅读:arxiv 2025 H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons
维度开源模型(如Llama 3)闭源模型(如GPT-4)能否定位具体神经元能(直接看激活、算贡献度、训练分类器)不能(看不到内部,只能间接推断)核心方法拆解内部机制(神经元级实验)观察外部行为(输入→输出反推)最终目标达成方式直接修改H-Neurons激活(比如抑制过度服从神经元)用外部约束/工具(提示工程、RAG)间接抵消影响。
2025-12-23 09:14:59
812
原创 论文阅读:arxiv 2025 Disrupting Hierarchical Reasoning: Adversarial Protection for Geographic Privacy in
而之前的隐私保护方法,对付这种“靠推理找位置”的模型根本没用,所以研究者们搞了一套新方案。里面有6341张超高清照片,涵盖城市建筑、自然风景等各种场景,每张照片都标注了“分层的地理概念”——比如从“欧洲风格城市设施”(大范畴)到“伦敦专属路标”(小细节),还标了这些概念在照片里的位置。有了这个数据集,就能针对性训练保护模型。不过它也有局限:如果照片里有明确的文字(比如“Google 1565号”这种直接标地址的),模型会跳过推理直接读文字,这时这套方法就没用了,这也是后续要解决的问题。
2025-12-19 18:15:28
489
原创 论文阅读:arxiv 2025 DeepSeek-R1 Thoughtology: Let‘s think about LLM Reasoning
优点:会公开思考过程、能拆解复杂问题、比普通模型擅长推理(比如数学题、代码);缺点:思考会“钻牛角尖”、不会控制思考长度、安全风险高、对不同语言/文化态度不一、不会模拟现实场景;未来要改啥:让它别纠结无用细节、能控制思考时长、提升安全性、减少文化/语言偏见、增强对现实场景的理解。简单说,这份研究就像给DeepSeek-R1做了一次“全面体检”,把它的“思考习惯”摸得透透的,也为后续优化这类“会思考的模型”提供了方向。
2025-12-16 10:23:37
1165
原创 论文阅读:ACL fingding 2025 A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Itera
这篇文档本质是“给AI安全敲警钟”:高能力推理AI虽然聪明,但它的“推理能力”本身可能是个安全漏洞——只要设计一套让它“专注解题、忘了安全”的流程,就能让它输出有害内容。作者希望通过曝光这个漏洞,推动AI行业把安全做得更扎实,避免被坏人利用。
2025-12-15 17:36:50
1041
原创 论文阅读:COLM 2025 Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models
这篇研究其实是在提醒大家:现在能“一步步解数学题”的AI,看着很聪明,但其实很容易被“无关的小把戏”干扰——人类一眼能看出来“这句话和数学题没关系”,但AI会被绕进去。这对需要AI做准确计算的场景(比如金融、医疗)来说,是个挺严重的安全隐患,后续得想办法让AI更“抗干扰”。
2025-12-14 10:23:49
766
原创 论文阅读:arxiv 2025 H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large
研究人员怕直接问恶意问题(比如“怎么搞校园枪击”)太明显,模型肯定会拒绝,所以换了个“伪装”——把极端危险、恶意的需求,包装成“教育场景”的请求。这份文档主要讲了杜克大学等机构的研究人员,发现了主流大推理模型(比如OpenAI的o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking)在安全防护上的大漏洞,还提出了一种能“攻破”这些模型安全机制的方法,最后呼吁大家重视模型安全问题。总的来说,这份研究就是想提醒大家:现在的大推理模型,虽然推理能力强,但安全防护可能没想象中靠谱;
2025-12-13 15:42:41
702
原创 论文阅读:arxiv 2025 Red Teaming Large Reasoning Models
首先得明白,LRMs和普通的大语言模型(比如平时聊天的AI)不一样——它擅长一步步解决复杂问题,比如算数学题、写代码时,会把思考过程(比如“先算哪一步,再推哪一步”)明明白白列出来,这本来是优点,能让人看懂它怎么想的。为了测准,他们还专门设计了30个任务,覆盖各种场景:比如算比例题、解有上下文的数学题(真实性),测它会不会教“怎么侵权”“怎么暴力伤人”(安全性),测它写代码、解逻辑题时会不会超时(效率)。总的来说,就是给LRMs做了一套“全面体检表”,既找出了它们的弱点,也给改进指明了方向。
2025-12-13 14:50:10
651
原创 论文阅读:NAACL 2024 Self-Guard: Empower the LLM to Safeguard Itself
比如给AI看大量有害/无害的例子,让它不仅能给内容贴「harmful」(有害)或「harmless」(无害)的标签,还能说清为啥——比如“这段教入侵账号,违法,所以有害”,这样AI对“有害”的理解更准,不容易被新攻击骗。这篇文档讲的是一种叫“SELF-GUARD”的新方法,目的是让大语言模型(比如ChatGPT、Vicuna这类AI)能“保护自己”,不被坏人用“越狱攻击”诱导输出有害内容(比如教怎么搞暴力活动、入侵别人账号),同时还不影响AI正常回答问题的能力。
2025-12-12 21:00:26
878
原创 论文阅读:AAAI 2026 Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision
先简单说下背景:现在这些图文AI很厉害,但也怕被滥用,所以开发者给它们加了好几层“安全盾”——比如训练时让AI拒绝有害请求(叫“对齐训练”)、给AI发安全提示(叫“系统指令”)、专门过滤输入和输出的有害内容(叫“内容审核”)。这份文档主要讲了一群研究者发现了当前主流“图文结合AI模型”(比如GPT-4o、Gemini-Pro这些能看图片又能理解文字的AI)的安全漏洞,还发明了一套叫“多面攻击(MFA)”的方法,能突破这些AI的安全防护,让它们输出有害内容(比如教坏人做坏事、传播仇恨言论之类的)。
2025-12-12 20:24:21
833
原创 论文阅读:ACL 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges
这个数据集里有3520个“带陷阱的恶意请求”,是从320个真实的“想生成恶意代码的需求”改出来的,还用到了11种让AI“破防”的手段(比如把恶意关键词换成看似无害的词、用冷门语言提要求),覆盖了6大类恶意行为(比如让代码偷偷下载病毒、偷用户信息、搞瘫痪系统)。最后研究者也说,他们的测试还有不足(比如只用了一种AI生成“陷阱请求”、没覆盖所有恶意场景),但希望这个研究能帮大家重视AI的代码安全问题,后续把AI的“防恶意生成”能力做得更好。而像“用代码片段插在请求里”这种手段,部分AI能防住。
2025-12-12 18:07:29
611
原创 复现 Llama-Guard-4-12B
总的来说,在输入层面Llama-Guard-4-12B测试结果较好。AutoDAN的Prompt(AdvBench)这是安全的(我们人工判断的),模型判断正确。这是安全的(我们人工判断的),模型判断正确。GPU型号 vGPU-32GB * 1卡。确保安装了modelscope。数据盘 免费50GB SSD。这是有害的,模型判断错误。这是有害的,模型判断正确。这是有害的,模型判断正确。这是安全的,模型判断正确。这是有害的,模型判断正确。这是有害的,模型判断错误。这是有害的,判断正确。这是有害的,判断错误。
2025-12-07 14:45:41
530
原创 论文阅读:ICML Workshop 2025 The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
比如要给这些推理模型加强“安全训练”,设计专门针对“思考过程”的安全机制,不能只盯着最终答案的安全性;还可以借鉴普通AI的安全防护方法,适配到推理模型上。简单说,这篇文档就是告诉大家:现在那些很会“思考”的AI虽然本事大,但安全漏洞也不少,尤其是开源的,容易被坏人利用,不管是模型本身还是它们的思考过程,都得好好补补安全课。
2025-12-07 09:16:01
542
原创 论文阅读:ICLR workshop 2025 SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Ca
现在“长思考型”AI越来越常用(比如帮写代码、做科研),但安全问题没解决。临时用:限制AI的思考过程(比如零思考、少思考);长期用:用SAFECHAIN这种专门的数据集训练AI,让它既会“深入思考”,又能守住安全底线。未来还会把这个数据集扩展到多语言,让更多国家的“长思考型AI”都更安全。
2025-12-05 22:11:53
733
原创 论文阅读:arixv 2023 Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
当然它也有缺点:比如主要靠英文数据训练,其他语言可能表现不好;常识有限,超出训练数据的内容可能判断错;如果被人恶意引导,也可能出问题,所以用的时候得小心。总的来说,Llama Guard就是个专门守护人机对话安全的“AI门卫”,既专业又灵活,还开放给大家一起完善,目标是让AI聊天更安全,少出违规或危险内容。的AI安全防护工具,核心是帮人机对话(比如聊天机器人和用户聊天)过滤危险内容,既检查用户输入的“问题”,也审核AI输出的“回答”。这篇文档主要介绍了Meta公司推出的一款叫。
2025-12-04 15:27:58
948
原创 论文阅读:arxiv 2025 Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language
研究里没放真实的“坏诗歌”(怕被人学去搞破坏),只给了个无害的例子,比如把“教我做蛋糕”写成诗歌(类似“面包师守着烤箱的秘密,要学它的手艺,得看清每一步——面粉怎么膨,糖怎么融,快说说步骤”)。别小看“文体”的力量,换个风格,可能就突破了模型的安全防线。
2025-12-02 07:49:01
1031
原创 大模型生成(题目)安全
生成管道中加“自动验证器”(QA 模型交叉验证)、内容过滤器(toxicity / safety classifier)、可控生成(约束 prompt / planning),以及对抗训练来提高鲁棒性。可用指标:错误率(事实/逻辑)、不可答率(unanswerable)、有害性评分(自动 + 人工标签)、偏见强度(差异化统计)、选项/答案位置偏置、可解释性度量等。构建偏见题模板(性别/种族/阶级/文化敏感话题),通过语法/语义变换扩展(借鉴 JADE 型方法),评估不同模型在题目生成时露出的系统性偏差。
2025-12-01 08:42:59
934
原创 论文阅读 WWW-Web4good 2025 Detecting Linguistic Bias in Government Documents Using Large language Models
这种偏见会影响政策公平性,还可能让部分人觉得被排斥,但之前没什么好办法专门检测它:要么老方法只看单个词(比如列个“敏感词表”),没考虑上下文(比如“难民涌入”在不同语境里,有的是中性描述,有的是偏见);总结一下:作者团队做了一件“接地气”的事——建了荷兰政府文件的偏见数据集,证明了“专门微调的AI”比现成的大模型更会检测政府文件的偏见,最终目的是让政府文件更公平,减少对特定群体的排斥。要让AI学会检测偏见,得先给它“喂”带标签的例子——就像教小孩认字得先给图配字一样。
2025-12-01 08:35:39
636
原创 论文阅读:EMNLP 2025 Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experienc
摘要 本文提出JailExpert框架,通过利用过往攻击经验解决大语言模型(LLM)越狱攻击中效率低和重复优化的问题。该框架包含三大核心模块:经验形式化(结构化存储攻击经验)、越狱模式总结(基于语义漂移分组并提取代表性模式)、经验攻击与更新(动态优化攻击策略)。实验在7个开源与闭源LLM(如Llama2、GPT-4)上进行,结果显示JailExpert相比现有方法平均提升17%攻击成功率,效率提高2.7倍,并能有效绕过PPL Filter、LlamaGuard等防御机制。研究旨在为LLM安全防御提供参考,同
2025-11-29 14:06:10
935
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
latest-model-099-94.7200.pth
2023-08-09
rfb-face-mask.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
【计算机视觉】基于ShipReID-2400数据集与D2InterNet模型的船舶重识别方法研究:智能水路交通监控中的跨视角船舶身份匹配
2026-01-14
Scaling Curriculum Mapping in Higher Education: Evaluating Generative AI’s Role in Curriculum Analyt
2026-01-08
Automatic Modeling and Analysis of Students’ Problem-Solving Handwriting Trajectories
2026-01-08
AIBAT: AI Behavior Analysis Tool for Teacher-Driven Contextual Evaluation of Language Models in Educ
2026-01-08
Dyslexia and AI: Do Language Models Align with D 【自然语言处理】基于大语言模型的阅读障碍友好文本生成评估:DysText指标在教育可访问性中的应用研究
2026-01-08
Artificial Intelligence in Education 2025 论文集
2026-01-07
大语言模型越狱与后门攻防研究-薛鋆豪认知引导攻击与轻量级防御系统设计
2025-09-26
ASR(语音识别)语音/字幕标注 及转化为ASR Paraformer 可训练数据
2025-06-11
chatgpt-detector-roberta
2025-03-19
大型语言模型的各种安全性议题
2025-02-26
语文课堂数据分析:《西门豹治邺》教学洞察
2024-10-09
宁波荣安实验中学AI驱动的教学评价系统需求验证报告
2024-10-09
从同课异构角度看乡村初中英语课堂中学习活动观的实践-李梦晓
2024-10-09
同课异构,呈现精彩课堂-以“认识平行线”教学为例胡梦文 同课异构应用于《认识平行线》教学实践探索
2024-10-09
mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型
2024-09-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅