还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用-CSDN博客

本文链接：https://blog.csdn.net/wyjdc123/article/details/147351510

ScholarCopilot 是什么

ScholarCopilot

由加拿大滑铁卢大学与卡内基梅隆大学联合研发的 ScholarCopilot，专为解决学术写作中的引用难题而生。该工具通过动态检索标记触发文献搜索，在生成文本时实时插入精准引用，形成完整的学术写作闭环。

其核心技术在于将文本生成与文献检索进行联合优化，使得模型能够自主判断何时需要插入引用。当检测到需要文献支持的内容时，系统会暂停生成过程，从包含 50 万篇 arXiv 论文的数据库中检索相关文献，并将检索结果无缝融入后续文本生成。

ScholarCopilot-Pipeline

Scholar Copilot 采用统一的模型架构，通过动态切换机制无缝集成检索和生成。在生成过程中，模型使用学习到的引用模式自主确定适当的引用点。当需要引用时，模型会暂时停止生成，利用引用标记的隐藏状态从语料库中检索相关论文，插入选定的引用，然后恢复连贯的文本生成。

git clone git@github.com:TIGER-AI-Lab/ScholarCopilot.git
cd ScholarCopilot/run_demo

pip install -r requirements.txt

bash download.sh

bash run_demo.sh

若要将最新的论文更新到你的语料库中，请按照以下步骤操作：

从 Kaggle 下载最新的 arXiv 元数据并保存到你选择的 ARXIV_META_DATA_PATH

cd utils/
python process_arxiv_meta_data.py ARXIV_META_DATA_PATH ../data/corpus_data_arxiv_1215.jsonl

bash encode_corpus.sh

python build_hnsw_index.py --input_dir <embedding dir> --output_dir <hnsw index dir>

cd train/
bash download.sh

要重现我们的结果，你可以使用脚本中的超参数，并使用 4 台机器，每台机器 8 个 GPU（总共 32 个 GPU）：

cd src/
bash start_train.sh