- 博客(13)
- 收藏
- 关注
原创 DataWhale - LC - 分治法
讲解 题目练习 Pow(x, n) classSolution: defmyPow(self,x:float,n:int)->float: returnself.helper(x,n)ifn>0else1/self.helper(x,-n) defhelper(self,x,n): ifx==0: return0 ifn=...
2020-08-19 23:14:52 103
原创 DataWhale - 新闻文本分类 - Task4
Task 4主要关注基于深度学习的文本分类。与传统的机器学习不同,深度学习是一般一个end2end的过程,即既包含了特征提取,也包含了分类功能。 文本表示法 - 改进 在上一个task里,我们已经学习了几种表示方法: one hot; bag of words; n-gram; TF-IDF; 但是实际上,上述方法或多或少都存在着问题: 转换得到的向量维度很高,数量很多,需要较长时间的训练时间; 无法表达出单词与单词之间的关系,只能反映出统计上的特征; 利用深度学习,我们可以很好的解决这些问
2020-07-27 16:08:34 152
原创 Datawhale - 新闻文本分类 - Task3
Task3终于到了modeling部分。 文本表示方法 One hot 即每个单词有一个index,对于每个index的vector,其中一位是1,其他都是0。 Bag of Words 词袋模型,也称count word。每个文档的字、词可以使用其出现的次数来表示。 from sklearn.feature_extraction.text import CountVectorizer corpus = ['This is the first document.', 'This do.
2020-07-24 22:43:46 152
原创 Datawhale - 新闻⽂本分类 - Task2
Task2主要内容为数据的读取与分析。 数据读取 赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 train_df = pd.read_csv('input/train_set.csv', sep='\t', nrows=100) sep表示该文本数据是由\t隔断,nrows表示读取前100行,这俩参数之前是没有用过的。 我们调用head函数来看一下数据的构成,很简单,第一列是分类的target,第二列为新闻的字符.
2020-07-22 20:59:24 110
原创 Datawhale - 新闻⽂本分类 - Task1
本系列文章记录下DataWhale的组队学习活动,内容是一个新闻文本分类的天池比赛,链接。 Task1 赛题理解 Task1十分简单,只是简单的介绍些题目相关信息。 Dataset 赛题以匿名处理后的新闻数据为数据集,所谓匿名,即对文本字符进行了tokenize,所见为index,而非真实文字。预测标签包含14个类别,训练集包含20w samples,测试集A、B均包含5w samples。 Evaluation 统一使用F1 Score作为衡量指标,它同时兼顾precision和reca.
2020-07-21 00:38:49 128
原创 【python】timeit模块方法的学习以及__main__ 的含义
python的timeit模块可以对代码执行效率进行分析。 class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=<timer function>) Timer是测量小段代码执行速度的类。 stmt参数是要测试的代码语句(statment); setup参数是运行代码时需要的设置; timer参数是一个定时器函数,与平台有关。 ti...
2019-06-23 10:40:49 438 1
原创 Permisson Denied !ssh传输文件报错
今日尝试通过ssh传输文件 首次尝试,出现了Permisson Denied 的错误 查书后发现,目的主机的文件地址应该写成/tmp,访问其他文件是没有权限的 即应形如: scp /path/filename username@servername:/tmp
2016-05-12 19:46:31 725
原创 操作系统笔记---内存管理
// 地址绑定 1. 是逻辑地址向物理地址映射的过程 2. 根据映射发生的时间分类: 编译时:编译后,逻辑地址已经映射到物理地址。载入时:编译时候产生可重定位代码。将程序加载到内存时,逻辑地址映射到物理地址,一旦载入内存的某个地址,就从此固定不动。如果发生了swap(交换)也要换回原来的地址上。运行时:进程运行时候可以改变映射的物理内存区域。如:进程a、b在内存,基址为1000h和2
2016-04-27 20:02:42 4704 2
原创 C++复习:static_cast
关于static_cast 该运算符把expression转换为type-id类型,但没有运行时类型检查来保证转换的安全性。它主要有如下几种用法: ①用于类层次结构中基类(父类)和派生类(子类)之间指针或引用的转换。 进行上行转换(把派生类的指针或引用转换成基类表示)是安全的; 进行下行转换(把基类指针或引用转换成派生类表示)时,由于没有动态类型检查,所以是不安全的。
2015-05-19 09:15:05 728
原创 C++复习:include<>
//马上考c++了,拿几天来复习,这里把不熟悉的、重要的知识点记录下来 1.关于include 首先是几种include方式 1.include 2.include uising namespace std; 3.include using std::cout; 4.include 在程序中使用cout要写成std::cout 以下关于#include
2015-05-18 19:34:04 573
原创 C++ 继承 小结
C++继承 1. c++提供了三类继承方式,public、protected、private。 2. 在各种形式的继承关系中,基类的private成员都不能被派生类直接访问,但是private成员仍然得到了继承。 3. 基类的friend函数、构造函数、析构函数不能被继承。 4. protected成员可以被基类、派生类的任何成员和友元访问,不能被类的外界访问。
2015-04-26 09:59:17 710
转载 C++ 30分钟掌握STL
三十分钟掌握STL STL概述 STL的一个重要特点是数据结构和算法的分离。尽管这是个简单的概念,但这种分离确实使得STL变得非常通用。例如,由于STL的sort()函数是完全通用的,你可以用它来操作几乎任何数据集合,包括链表,容器和数组。 要点 STL算法作为模板函数提供。为了和其他组件相区别,在本书中STL算法以后接一对圆括弧的方式表示,例如sort()。 STL另一个重
2015-04-06 21:43:49 623
原创 C++ 格式化输出
前几天c++课上学到浮点数的格式化输出,课上、书上的说明不太清楚。拖了几天,根据百度的资料进行一下整理。不足不对不妥之处,望不吝赐教。 许多情况下,都需要控制输出结果的表现形式。如输出宽度、输出精度、输出格式等。C++的iomanip.h中定义了许多控制符,这些控制符可以直接插入到流中,控制数据的输出格式。控制符有两种:控制常量和控制函数,控制常量定义在iostream.h中,控
2015-03-14 10:20:11 754 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人