- 博客(13)
- 收藏
- 关注
原创 DataWhale - LC - 分治法
讲解题目练习Pow(x, n)classSolution:defmyPow(self,x:float,n:int)->float:returnself.helper(x,n)ifn>0else1/self.helper(x,-n)defhelper(self,x,n):ifx==0:return0ifn=...
2020-08-19 23:14:52 95
原创 DataWhale - 新闻文本分类 - Task4
Task 4主要关注基于深度学习的文本分类。与传统的机器学习不同,深度学习是一般一个end2end的过程,即既包含了特征提取,也包含了分类功能。文本表示法 - 改进在上一个task里,我们已经学习了几种表示方法:one hot; bag of words; n-gram; TF-IDF;但是实际上,上述方法或多或少都存在着问题:转换得到的向量维度很高,数量很多,需要较长时间的训练时间; 无法表达出单词与单词之间的关系,只能反映出统计上的特征;利用深度学习,我们可以很好的解决这些问
2020-07-27 16:08:34 141
原创 Datawhale - 新闻文本分类 - Task3
Task3终于到了modeling部分。文本表示方法One hot即每个单词有一个index,对于每个index的vector,其中一位是1,其他都是0。Bag of Words词袋模型,也称count word。每个文档的字、词可以使用其出现的次数来表示。from sklearn.feature_extraction.text import CountVectorizer corpus = ['This is the first document.', 'This do.
2020-07-24 22:43:46 142
原创 Datawhale - 新闻⽂本分类 - Task2
Task2主要内容为数据的读取与分析。数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 train_df = pd.read_csv('input/train_set.csv', sep='\t', nrows=100)sep表示该文本数据是由\t隔断,nrows表示读取前100行,这俩参数之前是没有用过的。我们调用head函数来看一下数据的构成,很简单,第一列是分类的target,第二列为新闻的字符.
2020-07-22 20:59:24 102
原创 Datawhale - 新闻⽂本分类 - Task1
本系列文章记录下DataWhale的组队学习活动,内容是一个新闻文本分类的天池比赛,链接。Task1 赛题理解Task1十分简单,只是简单的介绍些题目相关信息。Dataset赛题以匿名处理后的新闻数据为数据集,所谓匿名,即对文本字符进行了tokenize,所见为index,而非真实文字。预测标签包含14个类别,训练集包含20w samples,测试集A、B均包含5w samples。Evaluation统一使用F1 Score作为衡量指标,它同时兼顾precision和reca.
2020-07-21 00:38:49 118
原创 【python】timeit模块方法的学习以及__main__ 的含义
python的timeit模块可以对代码执行效率进行分析。class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=<timer function>)Timer是测量小段代码执行速度的类。stmt参数是要测试的代码语句(statment);setup参数是运行代码时需要的设置;timer参数是一个定时器函数,与平台有关。ti...
2019-06-23 10:40:49 421 1
原创 Permisson Denied !ssh传输文件报错
今日尝试通过ssh传输文件首次尝试,出现了Permisson Denied 的错误查书后发现,目的主机的文件地址应该写成/tmp,访问其他文件是没有权限的即应形如:scp /path/filename username@servername:/tmp
2016-05-12 19:46:31 701
原创 操作系统笔记---内存管理
// 地址绑定1. 是逻辑地址向物理地址映射的过程2. 根据映射发生的时间分类:编译时:编译后,逻辑地址已经映射到物理地址。载入时:编译时候产生可重定位代码。将程序加载到内存时,逻辑地址映射到物理地址,一旦载入内存的某个地址,就从此固定不动。如果发生了swap(交换)也要换回原来的地址上。运行时:进程运行时候可以改变映射的物理内存区域。如:进程a、b在内存,基址为1000h和2
2016-04-27 20:02:42 4694 2
原创 C++复习:static_cast
关于static_cast该运算符把expression转换为type-id类型,但没有运行时类型检查来保证转换的安全性。它主要有如下几种用法:①用于类层次结构中基类(父类)和派生类(子类)之间指针或引用的转换。进行上行转换(把派生类的指针或引用转换成基类表示)是安全的;进行下行转换(把基类指针或引用转换成派生类表示)时,由于没有动态类型检查,所以是不安全的。
2015-05-19 09:15:05 714
原创 C++复习:include<>
//马上考c++了,拿几天来复习,这里把不熟悉的、重要的知识点记录下来1.关于include首先是几种include方式1.include 2.include uising namespace std;3.include using std::cout;4.include 在程序中使用cout要写成std::cout以下关于#include
2015-05-18 19:34:04 563
原创 C++ 继承 小结
C++继承1. c++提供了三类继承方式,public、protected、private。2. 在各种形式的继承关系中,基类的private成员都不能被派生类直接访问,但是private成员仍然得到了继承。3. 基类的friend函数、构造函数、析构函数不能被继承。4. protected成员可以被基类、派生类的任何成员和友元访问,不能被类的外界访问。
2015-04-26 09:59:17 701
转载 C++ 30分钟掌握STL
三十分钟掌握STLSTL概述STL的一个重要特点是数据结构和算法的分离。尽管这是个简单的概念,但这种分离确实使得STL变得非常通用。例如,由于STL的sort()函数是完全通用的,你可以用它来操作几乎任何数据集合,包括链表,容器和数组。要点STL算法作为模板函数提供。为了和其他组件相区别,在本书中STL算法以后接一对圆括弧的方式表示,例如sort()。STL另一个重
2015-04-06 21:43:49 612
原创 C++ 格式化输出
前几天c++课上学到浮点数的格式化输出,课上、书上的说明不太清楚。拖了几天,根据百度的资料进行一下整理。不足不对不妥之处,望不吝赐教。许多情况下,都需要控制输出结果的表现形式。如输出宽度、输出精度、输出格式等。C++的iomanip.h中定义了许多控制符,这些控制符可以直接插入到流中,控制数据的输出格式。控制符有两种:控制常量和控制函数,控制常量定义在iostream.h中,控
2015-03-14 10:20:11 744 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人