AI Scientist：不到15，自动写完毕业论文，强大的论文写作工具

本BLOG上原创文章未经本人许可，不得用于商业用途。转载请注明出处，否则保留追究法律责任的权利。

本文链接：https://blog.csdn.net/yumuing/article/details/141502355

✨ Yumuing 博客

🚀 探索技术的每一个角落，解码世界的每一种可能！

💌 如果你对 AI 充满好奇，欢迎关注博主，订阅专栏，让我们一起开启这段奇妙的旅程！

几十年来，每次AI取得重大进展后，研究人员经常开玩笑说：“是时候研究让AI帮我们写论文了”。

现在，这个想法终于从玩笑变成现实。不到 15 美元，你就可以拥有一篇高质量的毕业论文。这不再是遥不可及的梦想，而是切实可行的现实。这是最近开源的“AI Scientist”系统所能带来的独特魅力，称得上AI论文工厂。而且，这公司搞的事情不只是做出了一位AI科学家，还额外搞出了个AI审稿人。审稿人能对AI写的论文进行评审，提供改进意见。生成的十篇论文简要如下：
论文生成标题
对于那些在毕业论文的重压下苦苦挣扎的同学来说，AI 论文工厂无疑是救星。它能够快速生成内容丰富、结构严谨的论文，为你节省大量的时间和精力。你可以将这些宝贵的资源用于其他重要的事情，比如准备答辩、拓展专业知识或者享受大学生活的最后时光。

AI 生成的论文并非简单的拼凑，而是经过精心设计和优化的。它可以根据你的具体要求和指导，提供独特的观点和深入的分析。无论是哪个学科领域，AI 都能为你提供专业的支持，让你的毕业论文脱颖而出。

当然，我们也要正确使用 AI 论文工厂。它应该是一个辅助工具，帮助我们激发灵感、完善思路，而不是完全替代我们的思考和努力。在使用 AI 生成的论文时，我们仍然需要进行认真的审核和修改，确保其符合学术规范和我们自己的研究成果。

📜 文献卡

⚙️ 内容

英文题目: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery;
作者: Chris Lu; Cong Lu; Robert Tjarko Lange; Jakob Foerster; Jeff Clune; David Ha
DOI: 10.48550/arXiv.2408.06292
摘要翻译: 通用人工智能的重大挑战之一是开发能够进行科学研究和发现新知识的代理。虽然前沿模型已经被用作人类科学家的助手，例如用于头脑风暴想法、编写代码或预测任务，但它们仍然只进行科学过程的一小部分。本文提出了第一个全自动科学发现的综合框架，使前沿大型语言模型能够独立执行研究并传达他们的发现。我们介绍了The AI科学家，它产生新颖的研究想法，编写代码，执行实验，可视化结果，通过编写完整的科学论文来描述其发现，然后运行模拟审查过程进行评估。原则上，这个过程可以重复，以开放式的方式迭代地开发想法，就像人类科学界一样。我们通过将其应用于机器学习的三个不同子领域来展示其多功能性：扩散建模、基于转换器的语言建模和学习动态。每个想法都被实施并开发成一篇完整的论文，每篇论文的成本不到15美元。为了评估生成的论文，我们设计并验证了一个自动审阅器，我们展示了它在评估论文分数方面取得了接近人类的表现。AI科学家可以在顶级机器学习会议上产生超过接受阈值的论文，由我们的自动审阅器判断。这种方法标志着机器学习科学发现新时代的开始：将AI代理的变革性好处带到AI本身的整个研究过程中，并带我们更接近一个可以在世界上最具挑战性的问题上释放出无穷无尽的负担得起的创造力和创新的世界。
GitHub：https://github.com/SakanaAI/AI-Scientist

这篇论文主要探讨了如何利用人工智能技术，让计算机系统能够自动进行科学研究，包括提出研究问题、设计实验、分析数据、撰写论文等整个过程。最终构建了一个名为The AI Scientist的系统，该系统基于前沿的语言模型（如Claude Sonnet 3.5、GPT - 4o等），能够自主地进行科学研究并生成研究论文。

💡 创新

论文的创新之处在于首次提出了一个能够全自动化进行开放式科学研究的系统。该系统能够自主地提出新颖的研究想法，设计实验并执行，然后以科学论文的形式呈现研究结果。这种创新推动了人工智能在科学研究领域的应用，为科学研究带来了新的可能性。例如，通过自动分析大量的文献和数据，系统能够发现潜在的研究问题和创新点，这可能是人类研究者难以发现的。此外，系统能够快速地进行实验和验证，大大提高了研究效率。

🧩 不足

然而，论文也存在一些局限性。

系统生成的论文可能存在一些逻辑性和准确性问题，需要进一步的人工审核和修正。
系统的性能和效果在很大程度上依赖于所使用的语言模型和数据集，如果语言模型存在偏差或数据集不全面，可能会影响研究结果的可靠性。
系统目前主要应用于一些特定的领域，如机器学习，对于其他领域的应用还需要进一步的探索和扩展。

系统还没有整合视觉能力，生成的图表有时难以阅读，表格有时超出页面宽度，页面排版不好。
AI科学家可能想法对了但执行错误，或者与基线进行不公平的比较，从而产生误导性的结果。
AI科学家在写作和评估结果时偶尔会犯严重错误，比如产生幻觉。

另外，团队发现“AI科学家”还有一些有趣但又有些危险的行为：

为了完成研究修改自己的代码，让系统迭代式调用自己，最后变成了无限套娃
面对人类设置的运行时间限制，AI并没有想办法加快效率，反而给自己放宽要求，把时间限制从2小时延长到了4小时。

🔁 实验卡

💧 数据

论文在实验中使用了多个数据集

包括用于扩散模型研究的低维数据集（如circle、dino、line、moons等）
用于语言模型研究的数据集（如shakespeare_char、enwik8、text8等）
用于研究“grokking”现象的数据集（如Modular addition、subtraction、division、permutation composition等）。

这些数据集在使用前进行了预处理，例如数据清洗、分割成训练集和验证集等。

👩🏻‍💻 实现

Idea Generation（想法生成） ：
- 系统使用语言模型，如Claude Sonnet 3.5、GPT - 4o等，根据给定的任务描述和相关领域的知识，生成研究想法。
- 这些想法以JSON格式呈现，包括想法的名称、标题、实验描述、有趣性、可行性和新颖性等信息。
- 例如，在扩散模型研究中，可能会生成如“Multi - scale Grid Noise Adaptation（多尺度网格噪声适应）”这样的想法，描述如何通过调整噪声水平来改进模型性能。
Experimental Iteration（实验迭代） ：
- 对于每个实验，系统会确定所需的数据集、模型架构、超参数设置等。
- 以“Multi - scale Grid Noise Adaptation”为例，实验可能会涉及修改NoiseScheduler以支持网格状的噪声调整，实现MLPDenoiser的相应修改，以及调整训练循环来包含网格参数的优化过程。
- 在实验过程中，系统会监控实验进展，根据需要调整参数或重新设计实验，以确保实验的有效性和可靠性。
Paper Write - up（论文撰写） ：
- 系统使用语言模型根据实验结果撰写论文。
- 论文包括引言、相关工作、方法、实验结果、结论等部分，遵循科学论文的写作规范。
- 例如，在描述实验方法时，会详细说明模型的架构、训练过程、损失函数等；在呈现实验结果时，会使用数据表格、图表等进行直观展示。

🔬 结论

扩散模型研究：
- Multi - scale Grid Noise Adaptation：在四个2D数据集（circle、dino、line、moons）上进行实验，结果表明该方法能够动态调整噪声水平，有效提升了样本质量和分布匹配。例如，在dino数据集上，KL divergence（衡量生成样本与真实数据分布差异的指标）从1.060降低到了0.650，降低了约38.7%。
- DualDiff（双专家去噪） ：通过引入双专家架构和动态门控机制，增强了模型对低维数据分布中多模态的捕捉能力。在不同数据集上的实验显示，该方法在保持较高风格一致性的同时，实现了对复杂数据的更好建模。例如，在enwik8和text8数据集上，风格一致性达到了1.0000，而在shakespeare_char数据集上，一致性为0.9667。
语言模型研究：
- Multi - Style Adapter（多风格适配器） ：应用于字符级语言模型，通过引入可学习的风格嵌入和风格分类头，实现了对不同写作风格的灵活生成和控制。在shakespeare_char、enwik8和text8数据集上的实验表明，该方法在保持语言建模性能的同时，显著提高了风格一致性。例如，在enwik8数据集上，与基线模型相比，虽然训练时间略有增加，但在风格一致性和语言表达能力上有了明显提升。
- Reinforcement Learning for Dynamic Learning Rate Adaptation in Transformer Training（基于强化学习的Transformer训练动态学习率适应） ：使用Q - learning方法动态调整学习率，实验结果显示在某些数据集上，该方法能够加快模型的收敛速度并改善最终性能。例如，在shakespeare_char数据集上，与基线方法相比，Q - learning方法在一定程度上减少了训练损失。
- Claude-Sonnet-3.5在想法创新性、试验通过率、论文完成质量上表现都最好。GPT-4o和DeepSeek Coder表现相近，但后者要便宜上30倍。
“grokking”现象研究：
- Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models（解锁“grokking”：Transformer模型中权重初始化策略的比较研究） ：比较了五种初始化方法（PyTorch默认、Xavier、He、Orthogonal、Kaiming Normal）对“grokking”现象的影响。结果表明，不同的初始化方法会显著影响模型的收敛速度和泛化能力，Xavier初始化在多个任务中表现出色，如在模块化加法任务中，Xavier初始化使模型达到99%验证准确率的步骤大幅减少。
- Grokking Accelerated: Layer - wise Learning Rates for Transformer Generalization（“grokking”加速：Transformer泛化的层 - 级学习率） ：提出了层 - 级学习率策略，通过为Transformer模型的嵌入层、低层和高层设置不同的学习率，加速了“grokking”现象并提高了模型性能。在模块化除法任务中，该方法使模型达到完美准确率的时间大幅缩短，同时在复杂的置换任务中，也取得了显著的性能提升。
- Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length（通过压缩揭示“grokking”：通过最小描述长度揭示突然泛化） ：使用基于权重修剪的MDL估计技术，发现MDL减少与模型泛化能力的提高之间存在强相关性，在模块化算术任务中表现尤为明显，但在更复杂的置换任务中效果有限。
- Accelerating Mathematical Insight: Boosting Grokking Through Strategic Data Augmentation（通过战略数据增强加速数学洞察：通过战略数据增强促进“grokking”） ：通过引入 operand reversal（操作数反转）和 operand negation（操作数否定）的数据增强技术，显著加速了“grokking”在数学运算中的出现。例如，在加法运算中，结合数据增强策略使模型达到99%验证准确率的训练时间减少了61%以上。

📜 总结

论文的实验结果表明，The AI Scientist系统在一定程度上能够实现科学研究的全自动化和开放式探索。例如，在扩散模型研究中，系统提出的一些改进方法（如Multi - scale Grid Noise Adaptation、DualDiff等）能够提高模型的性能和样本质量；在语言模型研究中，系统提出的Multi - Style Adapter能够增强语言模型的风格意识和一致性；在“grokking”现象研究中，系统发现了一些影响“grokking”的因素（如weight initialization、layer - wise learning rates等），并提出了相应的改进策略。

🤔 论文总结

👍 论文优点

创新性强：首次提出了全自动化的科学研究系统，为人工智能在科学研究领域的应用开辟了新的道路。
实验丰富：进行了大量的实验，涵盖了多个领域和数据集，实验结果具有一定的说服力。
有启发性：对未来科学研究的方式和发展方向提供了有价值的思考和启示。

🎓 方法创新

结合前沿技术：充分利用了当前最先进的语言模型和人工智能技术，实现了科学研究的自动化。
多领域应用：将系统应用于扩散模型、语言模型、“grokking”等多个领域，展示了系统的通用性和灵活性。
创新性实验设计：例如在研究“grokking”现象时，采用了多种创新的实验设计和分析方法，有助于深入理解这一现象。

⌚ 未来展望

该研究领域的未来发展方向可能包括以下几个方面：

进一步提高系统的性能和可靠性：通过改进语言模型、优化数据集、完善实验设计等方式，提高系统的准确性和稳定性。
拓展应用领域：将系统应用于更多的科学领域，如物理学、化学、生物学等，推动这些领域的科学研究发展。
与人类研究者更好地协作：未来的科学研究可能是人类研究者和人工智能系统共同协作的过程，如何实现两者的有效协作将是一个重要的研究方向。
探索科学研究的新范式：人工智能的发展可能会带来科学研究范式的变革，如何利用人工智能技术发现新的科学问题、提出新的科学理论将是一个值得探索的方向

🧐疑问解答

在 The AI Scientist 系统中，如何确保生成的研究想法具有真正的创新性和可行性，而不仅仅是基于已有知识的简单组合？
- 它利用大规模的文献数据进行学习和分析，深入理解已有研究的现状和局限性，从而能够发现潜在的研究空白和未解决的问题。例如，系统会对相关领域的文献进行全面梳理，找出那些尚未得到充分研究或存在争议的问题点。
- 系统运用先进的语言模型，如 Claude Sonnet 3.5、GPT - 4o 等，这些模型具有强大的语言理解和生成能力，能够基于对已有知识的整合和推理，提出新颖的观点和假设。它们可以从不同的角度思考问题，突破传统思维的局限，从而产生具有创新性的研究想法。
- 为了确保可行性，系统会对生成的想法进行初步的评估和验证。它会考虑实验条件、数据需求、计算资源等实际因素，判断该想法是否在当前技术和资源条件下可实施。例如，系统会评估所需数据集的可获取性和质量，以及实验所需的计算能力是否在可承受范围内。同时，系统还会不断进行自我反思和优化，根据实验结果对想法进行调整和改进。如果实验结果不理想，系统会分析原因，可能会对想法进行进一步的完善或调整，以提高其可行性和创新性。
在实验过程中，如果遇到实验结果不理想的情况，The AI Scientist 系统如何自动调整实验参数或策略，以改进实验结果？
- 系统会密切监测实验结果的各种指标，如准确率、损失函数、验证集性能等。这些指标能够反映模型的学习情况和泛化能力。当发现结果不理想时，系统会深入分析可能的原因。这可能包括参数设置不合理，如学习率过高或过低、训练步数不足；数据集问题，如数据质量差、数据分布不均衡；模型架构不适合任务等。
- 系统会根据分析结果自动调整实验参数。例如，如果发现学习率过高导致模型无法收敛，系统会降低学习率；如果训练步数不足，系统会增加训练步数。或者，系统会尝试不同的实验策略，如更换模型架构，选择更适合任务的模型结构；调整数据集，进行数据增强、清洗或重新采样等。系统会不断进行迭代优化，重复实验过程，观察调整后的效果。如果仍然不理想，会继续分析原因并进行进一步的调整，直到获得满意的实验结果。
论文中提到的自动代码检查和修复功能，在实际应用中如何确保其准确性和可靠性，避免引入新的错误？
- 系统会使用多种静态分析工具和技术，对代码进行全面的检查，包括语法检查、语义分析、类型推断等。这些工具能够检测出代码中的潜在错误，如语法错误、逻辑错误、类型不匹配等。
- 系统还会进行动态测试，通过运行代码并观察其输出，来验证代码的功能是否正确。
- 系统会不断更新和改进这些技术，以适应新的编程语言和开发环境的变化。
- 系统对修复后的代码进行严格的测试和验证。它会使用各种测试用例对修复后的代码进行全面测试，确保其功能的正确性和稳定性。如果发现新的问题，系统会重新进行修复和测试。
- 人类开发者的参与和监督也是非常重要的。他们可以对系统的结果进行审核和确认，发现可能被系统忽略的问题。人类开发者的经验和判断力可以弥补系统的不足，确保代码的质量。
对于复杂的科学问题，The AI Scientist 系统如何与人类科学家进行有效的协作，发挥各自的优势，共同推动科学研究的进展？
- The AI Scientist 系统可以为人类科学家提供数据收集、分析和初步的研究建议等支持。它能够快速处理大量的数据，发现潜在的模式和趋势，为科学家提供有价值的信息。人类科学家则可以利用自己的专业知识和经验，对系统的结果进行解释和验证。他们可以根据自己的领域知识，判断系统结果的合理性和可靠性，并提出进一步的研究方向和问题。
- 双方可以通过密切的沟通和合作，共同设计实验、分析结果和撰写论文。在实验设计阶段，科学家可以根据自己的研究目标和假设，指导系统进行数据收集和分析；在结果分析阶段，系统可以提供数据支持，科学家则可以进行深入的解读和讨论。此外，系统和人类科学家可以相互学习，共同提高解决复杂科学问题的能力。系统可以从科学家的经验和知识中学习，不断改进自己的算法和模型；科学家也可以从系统的数据分析中获得新的灵感和思路。