自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 task4

任务4 fast textpip fasttext模型处理数据

2020-07-27 12:44:49 86

原创 任务3!

task 3 基于机器学习的文本分类两个任务学会TF IDF向量原理和使用使用sklearn完成机器学习文本分类前面向量表示方法没有试下面为机器学习模型的方法。测试图片

2020-07-25 20:51:02 86

原创 task1

Task1 赛题理解这道赛题属于NLP新闻文本分类,简称文本分类问题。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。在数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’:

2020-07-20 21:53:20 110

原创 机器学习导论第二天

首先按照数据label形式可以有下面几种(这也是最常见的分类方式):监督学习:监督学习,即所有案例均有label,这种情况要求案例的标记成本很低半监督学习(Semi-surpervised learnning): 比如我们有1万个学习案例,但是只有1000个标记的,这时候我们可以用半监督学习,我们先喂给机器1000已经标记的cases,让他们去学习,这1000个cases已经能够学习到一些信息...

2019-10-08 10:38:04 78

原创 机器学习导论第一天

机器学习是指通过数据训练出能完成一定功能的模型,是实现人工智能的手段之一,也是目前最主流的人工智能实现方法。机器学习有下面几种定义:机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。人工智能指由人类制造出的机器表现出的智能。这是一个...

2019-10-08 10:33:40 101

原创 数学基础第三天

行列式1.行列式按行(列)展开定理(1) 设 [公式] ,则: [公式]或 [公式] ,即 [公式] ,其中: [公式][公式](2) 设 [公式] 为 [公式] 阶方阵,则 [公式] ,但 [公式] 不一定成立。(3) [公式] , [公式] 为 [公式] 阶方阵。(4) 设 [公式] 为 [公式] 阶方阵, [公式] (若 [公式] 可逆), [公式][公式](5) [公式...

2019-10-02 12:18:59 119

原创 数学基础第一天

1.导数定义:导数和微分的概念[公式] (1)或者:[公式] (2)2.左右导数导数的几何意义和物理意义函数 [公式] 在[公式] 处的左、右导数分别定义为:左导数: [公式]右导数: [公式]3.函数的可导性与连续性之间的关系Th1: 函数 [公式] 在 [公式] 处可微 [公式] 在 [公式] 处可导Th2: 若函数在点 [公式] 处可导,则 [公式] 在点 [公式] 处...

2019-09-30 21:48:42 169

原创 数学基础第二天

3-1、为什么使用概率?概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量。在人工智能领域,我们主要以两种方式来使用概率论。首先,概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。计算机科学的许多分支处理的对象都是完全确定的实体,但机器学习却大量使用概率论。实际上如果你...

2019-09-30 21:46:24 281

原创 数据科学包第二天

导入包import pandas as pdimport numpy as np导入数据#默认utf-8,gbk对中文的支持更好pd.read_csv(filename,encoding=‘gbk’)#key是列名,value是数据,从字典导入数据需要指定indexdict1 = {‘a’:1,‘b’:2}df = pd.DataFrame(dict1,index=[0])查看数...

2019-09-30 21:40:32 74

原创 数据科学包第一天

NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。例如,在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组,因为它只有一个轴。那个轴长度为3.又例如,在以下例子中,数组的秩为2(它有两个维度).第一个维度长度为2,第二个维...

2019-09-30 21:38:17 55

原创 数据结构第二天

顺序表的实现基本实现方式表中的元素顺序存放在一片足够的连续的存储区间里,首元素放在存储区的开始位置,其余元素依次顺序存放。元素之间的逻辑关系(可以用下标来表示)可以通过物理存储区的物理位置表示。通常表中的元素大小可以静态确定(例如,元素是整数或者实数,或者包含一组大小确定的元素的复杂结构),在这种情况下,假设元素大小一致且为c,记第一个元素的地址为Loc (e0),那么第i个元素的地址为:L...

2019-09-30 20:00:07 68

原创 数据结构第一天

0x00 大O表示法大O符号,又称为渐进符号,是用于描述函数渐近行为的数学符号。更确切地说,它是用另一个函数来描述一个函数数量级的渐近上界。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。这里简单通过一张图来说明下他们的关系。而后我们将逐一介绍python3中的常见对容器的操作效率之分。0x00 List列表列表应该是我们用到最为频繁的对象类型了0x01...

2019-09-30 19:57:43 186

原创 数据结构第六天

作者:黑加仑妞链接:https://zhuanlan.zhihu.com/p/33977566来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。一、树的概念树也是一种数据结构,大家可以想象一下,自然界中的树木,树木的叶子就相当于树的结点,那树其实就是N(N>0)个结点的有限集合。其中有一个特殊的结点叫做树根,这个结点没有前趋,除了根结点之外,其余的结点可以...

2019-09-30 19:54:33 94

原创 数据结构第五天

1.冒泡排序冒泡排序重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越大的元素会经由交换慢慢“浮”到数列的顶端,故名。步骤:比较相邻的元素。如果第一个比第二个大,就交换他们两个。对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应...

2019-09-30 19:52:53 69

原创 数据结构第四天

0x00 栈(Stack)栈是一种LIFO(后进先出)的数据结构,有入栈(push)、出栈(pop)两种操作,且只能操作栈顶元素。在Python中有多种可以实现栈的数据结构。1、listlist是Python内置的列表数据结构,它支持栈的特性,有入栈和出栈操作。只不过用list实现栈性能不是特别好。因为list内部是通过一个动态扩容的数组来实现的。当增减元素时就有可能会触发扩容操作。如果...

2019-09-30 19:50:01 85

原创 数据结构第三天

一、链表简介链表是一种在存储单元上非连续、非顺序的存储结构。数据元素的逻辑顺序是通过链表中的指针链接次序实现。链表是由一系列的结点组成,结点可以在运行时动态生成。每个结点包含两部分:数据域与指针域。数据域存储数据元素,指针域存储下一结点的指针。二、单向链表单向链表也叫单链表,是链表中最简单的形式,它的每个节点包含两个域,一个信息域(元素域)和一个链接域。这个链接指向链表中的下一个节点,而最后...

2019-09-30 19:47:53 173

原创 Python第十二天

Parallel Programming 是一门CS系的课程,主要讲授如何针对单机多CPU内核(真*多线程)以及computer cluster 编程,以充分利用计算资源,提高程序性能。一般都会以MPI为例。水平上延展一点,还包括对GPU编程(一般都讲CUDA)。垂直上延展,就是distributed programming 分布式编程,一般会讲Hadoop和Spark。主要应用领域包括科学计算...

2019-09-25 22:34:43 84

原创 Python第九天

python中的时间日期等对象datetimedatetime X2timestamptimezonetimedelta这里面我们主要使用的是datetime,而timestamp则是另一种展现形式,也就是一个数字datetime 的基本表达如果我们有这么一个时间戳 2019-01-01 00:00:00,有日期,有时间,所以可以直接对应的就是日期时间对象datetime了,在p...

2019-09-24 12:30:02 98

原创 Python第十三天

csv文件具有格式简单,快速存取,兼容性好等特点,工程、金融、商业等很多数据文件都是采用csv文件保存和处理。工作中数据处理也用到了csv,简要总结下使用经验,特别是那些由于本地兼容性导致的与官方文档的差异使用。csv(comma Seperated Values)文件的格式非常简单,类似一个文本文档,每一行保存一条数据,同一行中的各个数据通常采用逗号(或tab)分隔。python自带了csv模...

2019-09-24 12:23:10 155

原创 PYTHON第十天

计算机是无法识别字母和符号的,他只能用数字来做处理,那么此时ASCII码孕育而生,所谓ASCII码,就是将英文字母和常用符号用特定的数字去表达。比如:字母A用ASCII编码是十进制的65,二进制的01000001;字符0用ASCII编码是十进制的48,二进制的00110000,注意字符’0’和整数0是不同的;(1968年的ASCII表)我们们可以这样理解ASCII码,她就是一个字典,是英...

2019-09-24 12:22:21 61

原创 Python最后一天

SQLite简单介绍SQLite数据库是一款非常小巧的嵌入式开源数据库软件,也就是说没有独立的维护进程,所有的维护都来自于程序本身。它是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,...

2019-09-23 22:41:52 106

原创 Python第十一天

正则表达式语法1.1 字符与字符类    1 特殊字符:.^$?+*{}|      以上特殊字符要想使用字面值,必须使用进行转义    2 字符类      1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。      2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之间的任何一个字符     ...

2019-09-23 22:39:04 41

原创 Python第八天

0.python 的面向对象·面向对象编程·基础·共有私有·继承·组合、Mixin·魔法函数·魔法函数概述·构造类魔法函数·运算类魔法函数1.面向对象概述(Objected oriented programing)面向过程偏向动作面向对象 :组成元素(老师 通过 网络 向 学生 讲课)·接触到任意一个任务,首先想到的是任务这个世界的构成,是由模型构成的·几个名词:·O...

2019-09-23 22:24:08 45

原创 Python第七天

模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py包是管理模块命名空间的一种形式,包结构类似于电脑上的文件夹结构,一般有顶层包,下面有子包,子包下面又有.py模块。包和模块存在的意义是为了提高代码复用性,方便别的程序去引入,这在其它编程语言里也都是常见和常用的。包管理工具 pipPython中内置了很多模块,可以直接导入,如果需要导入第三方的模块包,该如何做呢?可以使用 pip...

2019-09-23 22:16:08 43

原创 Python第六天

定义一个函数要使用 def 语句,依次写出函数名、括号、括号中的参数和冒号:,然后,在缩进块中编写函数体,函数的返回值用 return 语句返回。定义函数格式:def 函数名(参数1,参数2,…):函数体return 返回值Python内置了很多有用的函数,我们可以直接调用。要调用一个函数,需要知道函数的名称和参数,比如求长度函数len(),它接收一个参数。定义函数时我们可以给...

2019-09-23 22:08:54 96

原创 Python第五天

可迭代是任何你可以用 Python 中的 for 循环遍历的东西。可迭代意味着可以遍历,任何可以遍历的东西都是可迭代的。for item in some_iterable:print(item)序列是一种非常常见的可迭代类型,列表,元组和字符串都是序列。numbers = [1, 2, 3, 5, 7]coordinates = (4, 5, 7)words = “hello t...

2019-09-23 22:05:30 48

原创 Python第四天

python“一切皆对象”,这是接触python听到最多的总结了。在python中最基层的单位应该就是对象了,对象需要靠表达式建立处理,而表达式往往存在于语句中,多条语句组成代码块,多个代码块再组成一整个程序。python的核心其实是由语句和表达式组成。赋值语句建立对象引用值,Python赋值语句会把对象引用值存储在变量名或数据结构的元素内。赋值语句总是建立对象的引用值,而不是赋值对象。因此,P...

2019-09-23 13:33:07 61

原创 Python第三天

元组:一、元组概念及特点:元组是不可修改的序列,创建方法也很简单,用逗号隔开或小括号即可创建一个元组。二、元组写法:1, 2, 3 #使用逗号(1, 2, 3)(1, 2, 3) #使用小括号(1, 2, 3)() #用不包含任何内容的括号表示控员组()(42,) #当元组中只包含一个元素时,一定要用逗号结束(42,)三、tuple函数:将一个序...

2019-09-23 13:23:52 217

原创 Python第二天

Python 支持四种不同的数值类型:整型(Int) - 通常被称为是整型或整数,是正或负整数,不带小数点。长整型(long integers) - 无限大小的整数,整数最后是一个大写或小写的L。浮点型(floating point real values) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2.5 x 102= 250)复数( (comp...

2019-09-23 13:15:52 90

原创 Python1-3视频总结

这里写自定义目录标题一.变量(一)命名规则1.只能包含字母、数字和下划线;2.不能以数字打头;3.不能包含空格;4.Python关键字和函数名不可用作变量名;5.变量名最好既简短又具有描述性;6.慎用小写字母l和大写字母O,可能将其错看成数字1和0。1.数据:是一切程序运行的原材料(输入数据-程序-输出数据(结果))1.1变量Python 中的变量不需要声明。每个变...

2019-09-22 22:49:14 61

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除