自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)

原创 机器学习 笔记3:支持向量机

参考资料:周志华机器学习书籍 和 Datawhale开源资料 天池链接间隔与支持向量在样本空间内,划分超平面,进行样本分类,可能得到多个超平面,寻找最优的超平面,最大限度的使分类模型更好地承受未知样本的扰动,即鲁棒性好。超平面的描述方程:w是法向量,决定超平面方向,b为位移项,表示超平面和原点之间的距离。取分类正确的边界条件:等号成立时的点(即距离超平面最近的点)称为 支持向量。两个不同类的支持向量到超平面的距离之和称为 间隔。找到最大间隔,即找到了最优超平面。即SVM的基本型:

2020-08-24 15:39:28 37

原创 机器学习 笔记2:决策树

参考资料:周志华机器学习书籍 和 Datawhale开源资料 天池链接决策树基本流程:决策树的组成内涵:决策树的建立流程:注意区别属性和类别(标签)。划分选择如何选择最优的划分属性,决定了每个结点包含的样本的纯度。书中给出了三种划分方法。2.1 信息增益信息熵:pk 表示当前样本集合 D 中第 k 类样本所占比例。k = 1,2,…,|y|。信息增益:信息增益越大,使用属性 a 来划分所获得的纯度提升越大。信息增益对可取值数目较多的属性有所偏好。2.2 增益率固有值:

2020-08-22 17:51:12 72

原创 机器学习 笔记1:逻辑回归

参考资料:周志华机器学习书籍 和 Datawhale开源资料天池链接。上图是西瓜书关于线性模型的目录,初学者掌握导图右侧的几项知识点即可。线性模型的基本形式:即学习一个线性组合,来进行对样本 (x) 的预测,f(x) 为预测值。w 和 b 是要学习的模型参数。线性回归回归一般预测的是连续值,在这里,我们实际是进行分类任务。对于离散的样本属性,如果属性有序,可以将其转化为连续值,如(高,中,低)可转化为(1,0.5,0);如果属性无序,可以使用 k 维向量进行表示。模型参数的求解,其实就是使

2020-08-19 14:06:18 55

原创 学习Python Task 9 文件与文件系统 笔记

资料链接1. 文件与文件系统1.1 打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) 打开一个文件,并返回文件对象,如果该文件无法被打开,会抛出OSError。参数意义:file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newli

2020-08-07 17:16:02 69

原创 学习Python Task 8 模块与datetime模块 笔记

模块1. 模块的含义把定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。容器 -> 数据的封装;函数 -> 语句的封装;类 -> 方法和属性的封装模块 -> 程序文件2. 命名空间内置命名空间(Built-in Namespaces):Python 运行起来,它们就存在了。内置函数的命名空间都属于内置命名空间,所以,我们可以在任何程序中直接运行它们,比如id(),不需要做什么操作,拿过来就直接使用了。全局命名空间(Module:

2020-08-01 17:52:28 84

原创 学习Python Task 7 类、对象和魔法方法 笔记

类与对象1. 对象=属性+方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。封装:信息隐蔽技术可以用关键字 class 定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。继承:子类自动共享父类之间数据和方法的机制。多态:不同对象对同一方法响应不同的行动。class Animal: def run(self): raise AttributeError('子类必须实现这个方法

2020-08-01 16:13:15 65

原创 NLP学习 Task 6 基于深度学习的文本分类3 笔记

继续学习基于深度学习的文本分类 资料链接Transformer原理编码器堆叠,解码器堆叠。编码器:每个编码器结构完全相同,但不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Feed Forward Neural Network),每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。Self

2020-07-30 11:57:16 67

原创 NLP学习 Task 5 基于深度学习的文本分类2 笔记

继续学习基于深度学习的文本分类。资料链接Word2Vec的使用和基础原理  使用 Word2Vec 学习词向量,其基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。主要思路:通过单词和上下文彼此预测。对应两个算法:Skip-grams (SG):给定input word来预测上下文Continuous Bag of Words (CBOW):给定上下文来预测目标单词另外提出两种更加高效的训练方法:

2020-07-30 11:42:42 52

原创 学习Python Task 6 函数与Lambda表达式 笔记

1. 函数在Python中,函数也是对象,可以从另一个函数中返回出来而去构建高阶函数,比如:参数是函数,返回值是函数。函数的定义注意:冒号,缩进,returndef functionname(parameters): "函数_文档字符串" function_suite return [expression]函数文档def MyFirstFunction(name): "函数定义过程中name是形参" # 因为Ta只是一个形式,表示占据一个参数位置

2020-07-29 11:27:14 94

原创 学习python Task 5 集合、序列 笔记

1. 集合集合 set 中的元素为不可变类型(即可哈希),且元素不重复,无序。无法为集合创建索引和切片。集合的形式和字典类似,都是大括号形式,但集合的内部元素不是键值对。集合的创建(1)创建空集合只能使用s=set(),区别于字典的创建dic={}。先创建空集合,s=set(),然后通过add函数添加元素,s.add('a')。(2)直接初始化创建s={元素1, 元素2, ..., 元素n}。其中的重复元素会被自动过滤。所以,可以将列表直接用法(3)转变成集合,再变回列表,即可去掉列表中的重复元素

2020-07-28 15:11:25 53

原创 学习python Task 5 字典 笔记

1. 字典python中唯一的映射类型,其索引为关键字,键必须互不相同,可以是任意不可变类型,通常为字符串或数值。使用id(x)函数对x进行某种操作后,与不做操作对比,可以查看x是否是可变类型,如果两者一样,则是可变类型;或者hash(x)只要不报错,证明x可以被哈希,即不可变。数值,字符,元组,都是不可变类型,可被hash;列表,集合,字典,都是可变类型。字典操作:(1)创建:字典查找插入速度极快,但内存占用大。{元素1, 元素2, ... , 元素n},每个元素都是键值对(key:valu

2020-07-28 11:23:30 100

原创 NLP学习 Task 4 基于深度学习的文本分类1 笔记

资料链接之前方法的缺点:转换得到的向量维度很高,需要较长的训练时间;没有考虑单词与单词之间的关系,只是进行了统计。深度学习既可提供特征提取功能,也可以完成分类的功能。深度学习方法之一:FastText使用keras实现的FastText网络结构:FastText 的使用和基本原理基本原理:  FastText是一种典型的深度学习词向量的表示方法,它非常简单。通过 Embedding 层将单词映射到稠密空间,然后将句子中所有的单词在 Embedding 空间中进行平均,进而完成分类操作。所以,F

2020-07-27 18:21:38 46

原创 学习python Task 4 列表,元组,字符串 笔记

1. 列表列表:有序集合,大小不固定,其元素可以是任意类型的python对象(即列表中所保存的是对象的指针,一个简单对象,如[1,2,3]也有3个指针和3个整数对象)。[元素1, 元素2, ... , 元素n]列表操作:(1)创建:直接使用中括号创建;利用range()函数创建,x = list[range(10)];利用推导式创建,x = [a] * 5 # 创建5个指向list的引用,a改变,x中的所有a也会改变, x = [0 for i in range(5)]创建空列表可以直接使用一

2020-07-27 11:06:06 64

原创 NLP学习 Task 3 基于机器学习的文本分类 笔记

1. 文本表示方法  在自然语言领域,文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。(1)One-hot  将每一个字使用一个离散的向量表示。具体步骤:对每个字/词编码一个索引,然后根据索引对向量内的对应位置进行赋值。句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海{ '我': 1, '爱': 2, '北': 3, '京': 4, '天': 5, '安

2020-07-24 17:12:08 85

原创 学习Python Task 3 异常处理笔记

1. Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:除数为零AssertionError:断言语句(assert)失败AttributeError:尝试访问未知的对象属性EOFError:没有

2020-07-24 11:20:37 40

原创 学习Python Task 2 条件语句和循环语句

1. 条件语句(1)if 语句if expression: expr_true_suiteif 2 > 1 and not 2 > 3: print('Correct Judgement!')当expression为真时,才执行expr_true_suite。单个 if 语句中的expression 条件表达式可以通过布尔操作符 and,or和not 实现多重条件判断。(2)if else 语句temp = input("猜一猜小姐姐想的是哪个数字?")gue

2020-07-23 19:29:00 42

原创 NLP学习 Task 2 数据读取与分析

工具:Pandas v1.0.5,Python v3.61. 数据读取与输出import pandas as pdpath_train_data = r'F:\DW_NLP\Competition_Data\train_set.csv'train_df = pd.read_csv(path_train_data, sep='\t', nrows=100) # pandas读取数据,先只读取前100行print(train_df.head())  主要用到read_csv(),用法:三个s

2020-07-22 15:28:37 72

原创 NLP学习-Task 1-赛题理解笔记

天池链接:https://tianchi.aliyun.com/competition/entrance/531810/introductionhttps://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252内容主要来自:Datawhale_Github简介:新闻文本理解,赛题数据理解,解题思路赛题名称:零基础入门NLP之新闻文本分类目标:预处理,模

2020-07-21 15:08:14 46

原创 学习Python-Task 1-变量、运算符、数据类型、位运算

**(1)变量,运算符,数据类型**知识点:1.注释:#表示单行注释,’’’ ‘’’ 或者 “”" “”"表示多行注释2.运算符// 整除(取商);% 取余;** 幂逻辑运算符:and 与;or 或;not 非 示例:not(2>1)位运算:~ 按位取反;& 按位与;` 按位或;^ 按位异或;<< 左移;>> 右移(这六个都是二进制运算)注意:按位取反时,数据是以补码存储的,对于整数4(0b100),按位取反得到(-0b011),但这是补码,将补码换

2020-07-20 15:00:06 53

原创 在win10上安装配置PCL(内附参考文章链接)

在win10上安装配置PCL(内附参考文章链接)1.下载GitHub上PCL下载地址在上述下载地址里,选择你想要使用的版本,进行下载,我选的是1.9.0版本(之前配置过一次1.10.0版本,配置后error巨多,改不完放弃了)注意下载一定要下载两个文件,一个AllInOne,一个pdb,如下:后面的msvc2017对应的是Visual Studio 2017版本。2.安装参考一位大佬的文章:https://blog.csdn.net/weixin_41991128/article/detai

2020-07-02 11:39:22 139

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除