happy汪-CSDN博客

原创 python进阶5 -- pandas常用操作

pandas创建数据创建一个Series传递一个list对象来创建一个Series，pandas 会默认创建整型索引import pandas as pdimport numpy as nps = pd.Series([1,3,5,np.nan,6,8])创建DataFrame#默认创建整型索引data = pd.DataFramep(np.random(6,4), colum...

2019-06-12 13:48:50 460

原创 python进阶4 -- 元编程(装饰器)

装饰器在函数上添加一个装饰器，增加额外的操作处理(比如日志、计时等)。使用装饰器计算耗时案例如下：import timefrom functools import wrapsdef timethis(func): ''' Decorator that reports the execution time. ''' @wraps(func) def...

2019-06-04 10:35:33 273

原创 Python进阶3 -- 类的特殊函数及对象

重定义对象的字符串显示__str__()和__repr__()要改变一个实例的字符串表示，可重新定义它的__str__() 和 __repr__() 方法。class Pair: def __init__(self, x, y): self.x = x self.y = y def __repr__(self): return ...

2019-06-03 14:02:08 504

原创 gRPC python使用记录

有了 gRPC，我们可以一次性的在一个 .proto 文件中定义服务并使用任何支持它的语言去实现客户端和服务器反过来，它们可以在各种环境中，从Google的服务器到你自己的平板电脑—— gRPC 帮你解决了不同语言及环境间通信的复杂性。使用 protocol buffers 还能获得其他好处，包括高效的序列号，简单的 IDL 以及容易进行接口更新。安装grpc地址：https://g...

2019-05-29 11:17:44 1143

原创 Python 进阶2 -- 模块与包

分层级构建Python模块在文件系统上组织代码，并确保每个目录都定义了一个__init__.py文件graphics/ __init__.py primitive/ __init__.py line.py fill.py text.py formats/ __init__.py ...

2019-05-20 10:22:32 307

原创 Python 进阶1----string的常用操作

使用多个定界符分割字符串split()可以采用单一形式的分割符切割字符串，re可以采用多个分隔符一次性切割字符串import reline = 'asdf fjdk; afed, fjek,asdf, foo're.split(r'[;,\s]\s*', line) #以逗号，分号，空格切分['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']...

2019-05-17 09:20:16 218

github 地址：https://github.com/pair-code/facets演示地址：https://pair-code.github.io/facets/Overview提供一个或多个数据集的高级视图。它生成一个逐个特征的可视化统计分析，还可以用于比较两个或多个数据集之间的统计信息。该工具可以处理数字和字符串特性，包括每个特性的多个数字或字符串实例Overview可以帮助发现...

2019-05-10 17:36:38 3380

原创 matchzoo中文支持研究笔记

在几个公众号中都看到有matchzoo的推荐，是一个通用的文本匹配工具包，主要是几种最新的深度学习文本匹配模型，到本篇博客为止，matchzoo只支持英文形式，这里记录下自己所做的中文修改，原github地址：https://github.com/NTMC-Community/MatchZoo以github的tutorials为例：import matchzoo as mztask = m...

2019-05-08 16:17:24 3912 3

原创《MIX: Multi-Channel Information Crossing for Text Matching》阅读笔记

论文地址：https://sites.ualberta.ca/~dniu/Homepage/Publications_files/hchen-kdd18.pdf摘要来自腾讯MIG移动浏览产品部和阿尔伯塔大学2018年KDD文章，论文中提到在QQ浏览器上CTR提升5.7个百分点带注意力机制的多粒度CNNs融合模型，可分为3个步骤如下：多粒度表示文本片段，文中采用单字、双字、三字表示文本...

2019-05-08 16:16:07 782

原创《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

论文原文：https://arxiv.org/pdf/1806.09102.pdf刚看到小夕的这篇总结个人感觉讲的很好很容易理解，里面涉及了4篇论文串烧，按照时间讲了算法的发展，文风也蛮有趣（有点嗲，哈哈~）上海交通大学等2018年发表的文章，主要涉及基于检索式的多伦问答模型，提出了一个深度对话整合模型（DUA），是针对多轮对话将过去会话直接拼接作为上下文信息存在噪声和冗余等问题，DUA从...

2019-04-17 16:41:44 1137

原创 A Dataset for Research on Short-Text Conversation

论文原文：http://staff.ustc.edu.cn/~cheneh/paper_pdf/2013/HaoWang.pdf这是2013年中科大和华为诺亚方舟实验室的论文，主要是一种基于检索式的问答模型，并且本文对实验数据获取和处理做了详细的介绍。语料来源：语料的数据来自于新浪微博，将新浪微博中的信息及其评论看作是一个单轮对话。大概的收集过程如下图：首先选择10个NLP领域比较...

2019-04-17 11:14:09 600

wkh7717的博客