旺仔小小滑头-CSDN博客

原创【论文阅读】PAPTOP: 通过深入理解上下文增强RAG

检索增强语言模型（RAG）已成为问题解答任务的强大工具。它们通过整合外部知识来增强标准语言模型的能力，使其能够适应世界的变化，并处理训练数据中本身不包含的信息。由斯坦福大学研究人员开发的 RAPTOR（文本检索递归抽象处理）提供了一种开创性的基于树的检索系统，其性能明显优于现有的 RAG 方法。现有方法的不足：现有方法仅限于检索短小、连续的文本块，这可能会妨碍对整个文档上下文的整体理解。

2024-06-18 11:33:33 665 1

原创 RAG：索引

就 RAG 而言，索引是指以某种方式组织大量文本数据的过程，以便 RAG 系统能够快速找到与给定查询最相关的信息。这就像为 LLM 建立一个超高效的图书馆，无需翻阅页面，它就可以立即找到满足用户需求的确切部分。

2024-05-27 10:28:46 579

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格，所以并不是总能生效。Hive索引是Hive中用于提高查询性能的一种机制。它们类似于传统数据库中的索引，可以加速数据检索操作。

2024-04-14 22:48:56 1184 1

原创 Sqoop相关介绍

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；从Hadoop的HDFS、HIVE中导出数据到关系数据库mysql等将导入或导出命令翻译成mapreduce程序来实现。Sqoop的特点：1) 专门为Hadoop而生，随Hadoop版本更新支持程度好，且原本即是从CDH版本孵化出来的开源项目，支持CDH的各个版本号。

2024-04-14 17:07:35 772 1

原创 NER数据集标注工具——Label Studio

是一款开源和免费的数据标注工具，能够完成文本分类、图像分类等多种机器学习及深度学习的数据标注任务.它具有用户友好的界面和丰富的功能，可以帮助用户高效地进行数据标注工作。。本文主要讲解一下NER任务的数据标注以及数据如何转化为BIO格式。

2024-04-01 10:26:05 1454

原创 Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive

Hive 在处理 join 操作时，会根据表的大小进行优化选择合适的 join 算法。对于一个相对较小的表，Hive 会选择使用 Map Join 来加速处理，这种方式将小表的数据加载到内存中，以提高查询效率。然而，当内存无法容纳全部小表数据时，就会出现内存溢出错误。

2024-03-31 22:16:04 780 1

原创运行PaddleNLP中的uie时报错：OSError: [Errno 28] No space left on device: ‘/root/.paddlenlp/models/uie-base/t

把.paddlenlp文件夹里面的文件移动到新的磁盘上，然后用软链接把它链接回去。出现此问题的原因是存储cache的地址空间不足。

2023-10-14 13:22:40 272 1

原创词向量总结

在自然语言处理问题中，一般以词作为基本单元，词语组成句子，句子再组成段落、篇章、文档。所以NLP里面，最细粒度的是词语。

2023-08-26 11:24:32 158

原创循环神经网络（RNN、LSTM、GRU）介绍

长短期记忆(Long short-term memory LSTM)是一种特殊结构的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比于普通的RNN，LSTM能够在更长的序列中有更好的表现。能够解决在RNN网络中梯度衰减的问题。

2022-11-13 20:25:22 5606

原创【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

本文针对多模态讽刺检测提出来一种新的模型Detection(ConAttSD)，在模型中使用的两个编码器既能够提取上下文信息，也能提取模态间的不一致性信息。而且对比注意机制也是第一次运用到多模态讽刺检测领域，我们看到了ConAttSD模型通过多模态对比注意机制捕捉多模态不一致信息的能力，而且也能运用到未来的多模态会话情感识别中。...

2022-08-13 20:02:37 2166 1

原创【论文阅读】Conversational Memory Networkfor Emotion Recognition in Dyadic Dialogue Videos

自从Web 2.0出现以来，对话视频已经通过电影、网络研讨会和视频聊天等平台在互联网上扩散开来。来自这些资源的情感检测可以惠及众多领域，如咨询，公共意见挖掘，财务预测，以及智能系统，如智能家庭和聊天机器人等。但之前的工作忽略了两个影响对话情绪的两个主要因素1、说话人的自我影响，即情绪惯性，也就是说一个人这句话的情绪会被前几句话所影响；2、第二个是说话者之间的情绪影响。即另一个人在说话者的情感状态中扮演影响者的角色。相反，说话者也倾向于反映对方的情绪......

2022-08-06 16:27:04 948 1

原创【论文阅读】Fusing Audio, Visual and Textual Clues for Sentiment Analysis from Multimodal Content

本文作为多模态情感识别领域中一篇比较早发表的文章，为我们后续研究多模态提供了很多很好的思路，但是作者研究的多模态情感分析系统是面向对话级数据集的，可能会存在一些应用方面的瓶颈。本文注重于使用各种有效的方法从不同模态中提取特征，尤其是使用基于语义计算来对文本特征进行特征提取，大大的提高系统的性能，这也为我们提供了未来的一个方向，可以通过研究更有效的方法来对多模态信息源进行特征提取，这样能够优化模型性能。...

2022-08-06 11:29:35 725

原创【论文阅读】Tensor Fusion Network for Multimodal Sentiment Analysis

以往的多模态情感分析的工作中并没有直接考虑模态内和模态间的动态，而是执行早期融合（也称为特征级融合）或后期融合（也称为决策级融合）。早期融合主要包括在输入层面上简单地连接多模态特征，但是这种方法不能有效地建模模态内特征。而后期融合包括独立训练单模态分类器和执行决策投票，这种方法也不能有效地建模模态间动态。而且在视频中，由于口语的易变性以及伴随的手势和和声音，容易导致的模态内的动态不稳定。作者在本文中介绍了一种新的用于情感分析的端到端融合方法，该方法明确表示行为之间的单模态、双模态和三模态的交互。......

2022-07-29 10:48:52 5311 1

原创【论文阅读】Convolutional MKL Based MultimodalEmotion Recognition and Sentiment Analysis

仅具有文本特征的单模态实验的表现优于当前最先进的实验。在所有三个数据集上，视觉和文本模式结合在一起时比其他双模态实验产生了更好的准确性。

2022-07-28 11:02:47 486

weixin_45420890的博客