啥时候才能确定方向-CSDN博客

翻译 Optimizing Sharded Collections in MongoDB with Defragmentation-翻译

如果您的分片集群中有大量块，并且希望减少块迁移对CRUD延迟的影响，该怎么办？您可以使用集合碎片整理！在这篇文章中，我们将介绍何时应该考虑对集合进行碎片整理，碎片整理对您的碎片集群的好处，并介绍执行、监视和停止碎片整理所需的所有命令。如果您是分片新手，或者想了解MongoDB如何提供水平可伸缩性，请查看使用手册。使用场景：分区集合中包含大量的块（chunk），对这样的集合进行碎片整理可以提高CRUD效率。块数过多的集合被视为碎片。

2023-07-06 10:19:23 131 1

原创 Incremental StreamQuery Merging-论文阅读

相比之下，流式查询是连续的和长时间运行的，因此广泛的方法，如考虑查询的语义，可能会得到回报。图显示了ISQM如何通过附加阶段扩展SPE的查询优化器，在优化查询计划（如图中Query Rewrite）之后和将查询映射到集群中的节点之前（Query Placement）引入了三个阶段，即签名计算、共享标识和全局查询计划更新。我们的评估表明，与最先进的方法相比，使用基于哈希的签名，ISQM利用了比原始基线多65倍的共享机会，可以线性扩展数千个查询，并节省了大量资源。类似地，源A的散列值h（A）被映射到SQP2。

2023-06-09 10:48:28 138

原创 Impala执行计划查看方法+某查询实例

图的左侧显示了连接两个HDFS表（t1，t2）和一个HBase表（t3）的查询的单节点计划，然后是聚合和带限制的排序（top-n）。右侧显示了分散的、分散的计划。扫描是在它们自己的片段中进行的，因为它们的结果会立即交换给消费者（执行join的节点），消费者对基于哈希的数据分区进行操作，而表数据是随机分区的。以下与t3的连接是与t1和t2之间的连接放置在相同片段中的广播连接，因为广播连接保留了现有的数据分区（连接t1、t2和t3的结果仍然基于t1和t2的连接密钥进行散列分区）。支持的联接策略是广播和分区的。

2023-06-01 16:23:13 1059

原创 CHIPbenmark先进模型

打榜用的比较先进的dnn模型调研

2022-07-19 10:38:52 171

原创问题匹配/文本匹配数据集（自用）

问题匹配数据集

2022-07-08 11:52:57 1334

原创 Effective search of logical forms for weakly supervised knowledge-based question answering-论文阅读

弱监督问答匹配论文，（KBQA）

2022-06-08 16:52:58 163

原创 Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots-阅读

Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots-论文阅读会议：ACL2018作者机构：北航、微软中国摘要（翻译）：我们提出了一种在基于检索的聊天机器人中利用未标记数据学习回答选择匹配模型的方法。该方法采用序列到序列结构（Seq2Seq）模型作为*弱注释器（annotator）*来判断未标记对的匹配程度，然后对弱信号和未标记数据进行学习。在两个公共数据集上

2022-05-23 11:19:13 100

转载 A Brief Introduction to Weakly Supervised Learning-论文阅读

A Brief Introduction to Weakly Supervised Learning-论文阅读作者：周志华弱监督学习入门论文，只看了可能用得上的部分（主动学习）参考（译文，但是图挂了）：https://blog.csdn.net/qq_20481015/article/details/86586268?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0-86586268-bl

2022-05-17 19:51:02 81

原创师姐论文阅读（存档，别看）

摘要：本文主要工作如下：1）gml问句匹配算法方案，2）三种类型特征的提取思路：1、基于 DNN 的关系特征(robert)2、相似度特征(bert)3、基于 TF-IDF 模型的关键词(token)特征(非参数化）3）数据集： LCQMC 、 BQ corpus 进行检测Gml框架：1）简单实例标注：training数据全是简单实例2）特征提取和影响力建模：根据简单实例和困难实例的关系构建因子图3）渐进推理：最终的学习推理部分。思路：获取已标注问句对的标签，根据简单和困难实例之间的

2022-04-13 16:31:13 73

原创 Utterance Manipulation Strategies（UMS） For Multi-turn Response Selection-论文阅读

Do Response Selection Models Really Know What’s Next? Utterance Manipulation Strategies For Multi-turn Response Selection-论文阅读会议：AAAI 2021原文链接：https://arxiv.org/abs/2009.04703v1摘要（翻译）：在本文中，我们研究了在基于检索的多回合对话系统中，在给定用户和系统话语历史的情况下选择最佳回答的任务。最近，经过预训练的语言模型（如伯

2022-03-22 11:27:33 863

原创 Dialogue Response Selection with Hierarchical Curriculum Learning-论文阅读

Dialogue Response Selection with Hierarchical Curriculum Learning-论文阅读会议：ACL2021论文链接：摘要（翻译）：我们研究了对话反应选择匹配模型的学习。受最近发现的使用随机负样本训练的模型在现实场景中并不理想这一现象的启发，我们提出了一个分层课程学习框架（hierarchical curriculum learning framework），以“从易到难”的方案训练匹配模型。我们的学习框架包括两个互补的课程：（1）语料库级课程

2022-03-21 19:05:30 324

原创 Fine-grained Post-training for Improving Retrieval-based Dialogue Systems-论文阅读

Fine-grained Post-training for Improving Retrieval-based Dialogue Systems-论文阅读改进基于检索的对话系统的一个细粒度后训练的方法发表会议：2021 ACL的北美单元原文链接：https://aclanthology.org/2021.naacl-main.122.pdf摘要(翻译)：当使用预先训练好的语言模型时，基于检索的对话系统表现出优异的性能，其中包括来自transformers（BERT）的双向编码器表示。在多轮反应选

2022-03-13 19:22:32 1714

原创 IARNN-Based Semantic-Containing Double-Level Embedding Bi-LSTM for Question-and-Answer Matching 论文阅读

待完成Sum：提出了一个新的端到端方法，包含语义的双层嵌入双向LSTM模型（SCDE-Bi-LSTM），解决医疗领域QA匹配的三个关键问题。三个问题：（提出的解决方法）1）现有QA方法在计算相似性时，不包含句子的深层信息；（包含语义信息的文本相似性计算方法）2）中文医疗词汇分词错误；（双层嵌入句子表达方法）3）注意力机制导致特征的后向偏差（backward deviation)；（使用一个基于Bi-LSTM的改进算法进行特征提取）I.Introdution数据集：1）医疗领域数据集（开源）

2021-12-14 10:42:45 1629

原创问答数据集（自用，持更）

1、Quora 问题对数据集：判断两个问题是不是同一个意思（通用）综述：https://blog.csdn.net/studyvcmfc/article/details/107941583?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-1.no_search_link&spm=1001.2101.3001.4242.22、医药问答数据集：https://gitee.com/wan

2021-12-01 16:42:12 12587 2

weixin_44125942的博客