自然语言处理
文章平均质量分 67
hj_caas
目前研究生在读,主要研究方向是自然语言处理领域,研究知识图谱、方面级情感分析等。目前熟悉python爬虫、机器学习、深度学习、NLP等相关技术,由于本人比较懒散,不会定期更新,后期会慢慢充实相关专题。
展开
-
论文解读: 2023-Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval
知识密集型任务需要大量的事实知识,并且经常依赖外部信息的帮助。最近,大型语言模型(LLM)(例如ChatGPT)在解决包括知识密集型任务在内的各种具有世界知识的任务方面表现出了令人印象深刻的能力。然而,仍然不清楚LLM能够多好地感知它们的事实知识边界,特别是当合并检索增强时它们如何表现。在这项研究中,我们提出了对LLM的实际知识边界以及检索增强如何影响开放域上的LLM的初步分析。特别地,我们关注三个主要的研究问题,并通过检验LLMs的QA性能、先验判断和后验判断对它们进行分析。原创 2023-07-26 09:09:10 · 282 阅读 · 0 评论 -
Faiss简单使用
在本节中使用的索引类型不需要训练,大家可以使用IndexIVFFlat(倒排索引)试试,倒排索引需要进行索引训练,而且检索效率更高。原创 2023-07-18 08:44:18 · 2011 阅读 · 0 评论 -
论文解读: 2023-ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases
最近大🔥的法律大模型Chatlaw成功出道,在法律领域超过GPT-4。现在看一下他们的技术报告:ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases,给大家以LLM+外部知识库构建领域模型提供参考思路。论文地址:https://arxiv.org/pdf/2306.16092.pdf代码:https://github.com/PKU-YuanGroup/ChatLaw。原创 2023-07-18 10:42:46 · 616 阅读 · 0 评论 -
论文解读: 2023-Lost in the Middle: How Language Models Use Long Contexts
多文档问答和键值检索结果表明,当语言模型必须在长输入上下文中访问相关信息时,其性能会显著下降。在对文档或键值对进行上下编码时,只有解码器的模型无法查询标记,因为查询只出现在提示的末尾,而只有解码器的模型在每个时间步只能处理前面的标记。另一方面,编码器-解码器模型使用双向编码器对输入上下文进行上下编码,并且似乎对输入上下文中相关信息的位置变化更具鲁棒性——可以使用这种直觉,通过在数据之前和之后放置查询,启用文档的查询感知上下文化(或键值对),来提高仅解码器模型的性能。原创 2023-07-18 10:39:34 · 707 阅读 · 0 评论 -
TextRNN、TextLSTM、Bi-LSTM循环神经网络代码实现
循环神经网络(RNN,LSTM,Bi-LSTM)代码实现原创 2022-12-16 21:45:34 · 640 阅读 · 0 评论 -
TextCNN文本分类代码实现
TextCNN文本分类原创 2022-12-14 17:16:25 · 980 阅读 · 0 评论 -
skip-gram word2vec代码实现
word2vec词向量模型,skip-gram方法原创 2022-12-13 23:24:38 · 623 阅读 · 0 评论 -
A Neural Probabilistic Language Model
神经网络语言模型原创 2022-12-13 21:19:53 · 242 阅读 · 0 评论 -
nn.Embedding使用
nn.Embedding词向量化原创 2022-12-13 12:05:39 · 1549 阅读 · 1 评论 -
UndefinedMetricWarning问题
评价指标打印出现undefinedmetricwarning原创 2022-08-20 16:10:04 · 1978 阅读 · 4 评论 -
accurcy,precision,recall,F1指标值分析
accuracy,precision,recall,F1指标值分析原创 2022-08-16 20:45:25 · 817 阅读 · 0 评论 -
词表映射Vocab
词表映射原创 2022-08-09 22:36:32 · 597 阅读 · 0 评论