自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 深度强化学习task05

1. 稀疏奖励如果环境中的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候,我们就只是活在那里,都没有得到什么 reward 或是 penalty。但是,人还是可以采取各种各式各样的行为。所以,一个真正厉害的 AI 应该能够在 sparse reward 的情况下也学到要怎么跟这个环境互动。解决这个问题可从以下3个方向开始:第一个方向是 reward s

2020-11-05 19:07:05 280

原创 深度强化学习task03

1. Q-learning**Q-learning **是value-based 的方法。在value-based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个critic 。 Critic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或是有多不好。假设有一个actor π ,critic 就是来评价这个 actor 的 policy π 好还是不好,即 Policy Evaluation(策略评估)。举例来说,有一种 critic叫做 state val

2020-11-03 19:02:17 850

原创 强化学习-task03

Policy Gradient在 reinforcement learning 中有 3 个components,一个actor,一个environment,一个reward function。让机器玩 video game 时,actor 做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;environment 就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等;reward function 就是当你做什么事情,发生什么状况的时候,你可以得到

2020-10-29 22:34:19 193

原创 深度强化学习-笔记02

这次的任务我个人认为还是比较多的,很多涉及数学公式的内容,推公式就比较难。1.马尔可夫决策过程(MDP)这里先介绍强化学习中agent与environment的交互过程,如下图:agent在得到环境的状态过后,它会采取行为,它会把这个采取的行为返还给环境。环境在得到agent的行为过后,它会进入下一个状态,把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过程中,它的环境是 fully observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测

2020-10-23 21:44:59 189

原创 深度强化学习-笔记01

1.什么是强化学习?强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。Agent 在环境里面获取到状态state,也是对整个environment的observation,agent 会利用这个状态输出一个 action,一个决策。然后这个决策会放到环境之中去,环境会通过这个 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。2.强化学习与深度强化学习

2020-10-21 10:50:07 214

原创 LeetCode分类:查找二

查找实战案例一:两数之和题目描述 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路 首先想到暴力解决,即第一遍遍历数组,第二遍遍历当前遍历值之后的元素,但是时

2020-08-28 23:17:37 333

原创 LeetCode分类03:查找

印象最深的一题应该是这个:给定一个非负整数数组和一个整数 m,你需要将这个数组分成 m 个非空的连续子数组。设计一个算法使得这 m 个子数组各自和的最大值最小。主要思想是二分查找题目要求的是分割成连续的子数组,并且结果为所有满足分组个数的最大和的最小值。仔细想想 最后的结果应该是介于原数组的最大值和原数组的和之间的某个值。所以用二分查找。low = max(nums) high = sum(nums) mid = (low+high) // 2 相当于向下取整。假设此时mid 就是最后的结果,这

2020-08-25 16:16:29 188

原创 LeetCode分类02:动态规划

动态规划动态规划常适用于有重叠子问题和最优子结构性质的问题,它的本质是以空间换取时间。它的模板步骤如下:确定动态规划状态;写状态转移方程(画状态转移表);考虑初始化条件;考虑输出;考虑对时间,空间复杂度的优化(较难)按上述步骤进行详细叙述:思考状态状态的定义,先试着将题目所求的设置为状态;然后思考状态是如何转移的,如果状态转移方程不易得到,尝试修改定义,目的依然是为了方面得到状态转移方程。思考状态转移方程思考初始化思考输出对于Q1:给定一个字符串 s,找到 s 中最长的回

2020-08-22 15:32:11 122

原创 LeetCode分类01:分治

分治与递归的区别看到题目pow(x,n)的时候,我就想到了层层递归。在测试用例的时候通过了,但是提交完了之后是这样的,如下图:于是,我就查了查递归属不属于分治,两者之间的区别。一篇博客我个人认为说的还算比较清楚:分治与递归间的关系分治与递归之间没有关系,递归可以改成一个循环,再用分治法求解。你可以想象,如果我让一万个1相加:采用循环,直接循环加一万次采用递归,递归循环一万次采用分治,不停的划分(这里划分既可以使用递归也可以使用循环),两两相加。1. 实现 pow(x, n) ,即计算 x 的

2020-08-19 16:00:51 126

原创 DataWhale零基础入门NLP赛事——Task6 基于深度学习的文本分类bert

这里只介绍Bert里面的pretrain和finetune。Google在NAACL 2018发表的论文中提出了BERT,采用了预训练-微调这一两阶段模式。什么是预训练模型?预训练就是预先训练好的模型,之前word2vec也是预训练的一种,预先训练好语言模型然后在各种任务中重复使用。什么是transform?transform是一种Encode&Decode模型,网络中用到了Multi-HeadAttention的模型,在bert中是个很重要的单元。Bert的预训练Bert的输入表.

2020-08-04 21:56:30 269

原创 DataWhale零基础入门NLP赛事系列:Task5 基于深度学习的文本分类

1.word2vec首先通过词向量的学习我发现了自己理解中的误区,我原来一直以为Word2Vec是一种词向量。其实它只是一种训练词向量的模型,和那些机器学习的模型的本质是一回事,通过训练数据得到我们想要的内容,只不过Word2Vec训练出来的是词的向量表示。我觉得这也是许多NLP任务中预训练词向量的原因吧。Word2Vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可

2020-07-31 16:13:55 236

原创 DataWhale零基础入门NLP赛事系列——Task4基于深度学习得文本分类fasttext

1. fasttext在windows下的安装不知道多少小伙伴跟我遇到过一样类似的问题,直接pip install fasttext会报错。所以我们需要先下载一个.whl的包。下载地址:fasttext我的python是3.7的,选了如上图所示的测试一下,在cmd里输入import fasttext不报错即可。2. fasttext对数据格式的要求我们的训练集数据格式:label,text但是,fasttextasttext在windows下的安装不知道多少小伙伴跟我遇到过一样类似的

2020-07-27 13:53:14 210

原创 DataWhale零基础入门NLP赛事系列——Task3基于机器学习的文本分类

基于机器学习的文本分类在对文本进行特征化的时候,最常见的是词袋模型。1. 词袋模型 词袋模型(Bag of Words,简称BoW),即将所有词语装进一个袋子里,每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数。也就是说,词袋模型不考虑文本中词与词之间的上下文关系,仅仅考虑所有词的权重,而权重与词在文本中出现的频率有关。 一般来说,词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应

2020-07-25 21:04:08 173

原创 DataWhale零基础入门NLP赛事系列——Task2数据读取与分析

数据读取用pandas读取数据train_df = pd.read_csv('data/train_set.csv', sep='\t')print(train_df.head())这里的read_csv由两部分组成:第一个参数是你数据文件的路径,根据自己的实际情况修改成绝对路径或者相对路径;分隔符sep : 每列分割的字符,此处设置为\t还有一个参数,这里面没用。nrows是此次读取文件的函数,限制读取的记录数量。如果nrows=100代表读取文件的前100行。读取数据的时候我遇到了

2020-07-22 23:13:58 286

原创 DataWhale零基础入门NLP赛事系列——Task1赛题介绍

赛题介绍赛题名称:零基础入门NLP之新闻文本分类个人目标:通过组队学习,个人完成一次有关NLP的入门赛,加深对文本处理有关的理解。赛题任务:完成对新闻文本的分类,本质上是一个字符识别的问题。数据下载介绍数据下载链接:零基础入门NLP之新闻分类一共有3个.csv文件,分别是:train_set.csv、test_a.csv、test_a_sample_submit.csv数据读取:train_df = pd.read_csv('data/train_set.csv', sep='\t'),文

2020-07-21 21:23:40 203

原创 使用selenium爬取腾讯热点新闻

在爬取之前我一直都陷入了一个误区,我认为只用selenium就可以实现这个工作,事实上它确实是可以,只不过selenium是自动化测试工具,可以驱动浏览器(有界面,无界面)来执行特定的操作,可以模仿人的点击下拉等各种基本操作,对于js加密的信息的抓取非常有效。它更适用于动态和交互。所以在提取信息得时候结合bs4或者xpath更方便一点。经过大佬指点,这里强推xpath. ![在...

2020-04-27 10:05:47 758

原创 爬虫中ip代理、selenium\session和cookie的使用

1. ip代理什么是代理ip?它的作用?HTTP和HTTPS的区别获取ip地址并验证代理IP地址的有效性A1: 我们知道IP是上网需要唯一的身份地址,身份凭证,代理IP是我们上网过程中的一个中间平台,是由自己的电脑先访问代理IP,之后由代理IP访问点开的页面。所以在这次访问记录里留下的是代理IP的地址,而不少自己电脑本机IP。使用代理IP的好处有:1.加快访问速度 2. 保护隐私信...

2020-04-25 23:15:39 395

原创 关于bs4、xpath和正则表达式在爬虫的应用

关于提取网页中的元素一直都迷糊,不同的方法也容易记混。1.BeautifulSoup的理解Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,...

2020-04-23 21:27:24 1141

原创 爬取豆瓣Top250

用requests库爬取豆瓣Top2501.requests库requests库可以自动爬取HTML页面,自动网络请求提交。安装方法:pip install requestsrequests库主要有7个方法:requests库爬取豆瓣Top250首先打开网页 豆瓣Top250 网址:https://movie.douban.com/top250?start=0&filte...

2020-04-21 15:37:28 968

原创 《动手学深度学习》Task8

文本分类、数据增强、模型微调文本分类除了经常使用的循环神经网络之外,使用一维卷积层也可以实现TextCNN模型(用于文本情感分类)易错点数据增强翻转和裁剪变化颜色叠加多个图像增广方法`` augs = torchvision.transforms.Compose([ torchvision.transforms.RandomHorizontalFli...

2020-02-25 19:55:27 178

原创 《动手学深度学习》Task7

优化算法、 word2vec、词嵌入易错点:

2020-02-25 19:20:53 128

转载 《动手学深度学习》Task6

1.批量归一化和残差网络什么是批量归一化?为什么要使用它?这里先解释一下为什么对输入数据要进行标准化?主要是为了使输入数据各个特征的分布相近。我们知道,神经网络学习的本质是学习数据集的分布,如果训练集与测试集的分布不同,那么该网络的泛化能力就会大大降低。另外,在使用批量数据训练神经网络时,如果每批数据的分布不同,网络训练的过程中一直学习适应不同分布,会大大降低网络的训练速度。假设大家已...

2020-02-25 19:13:04 451

原创 《动手学深度学习》Task5

1.卷积神经网络基础;对于CNN中一些概念的理解1.feature map在CNN的各个卷积层中,数据都是以3维形式存在的。我们可以把它看成许多个2维平面图叠在一起,其中每个2维图称为一个feature map .在输入层,如果是灰度图,只有一个feature map;如果是彩色图片,一般是3个feature map(RGB)。其他层:层与层之间会有若干个卷积核(kernel),上一层...

2020-02-18 18:32:35 210

原创 《动手学深度学习》 Task4

1.机器翻译及相关技术机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。主要步骤:1. 数据预处理将数据集清洗、转化为神经网络的输入minbatch2.分词字符串—单词组成的列表3.建立词典单词组成的列表—单词id组成的列表Encode...

2020-02-18 12:12:25 217

原创 《动手学深度学习》task3

Task03:过拟合、欠拟合及其解决方案模型训练中经常出现的两类典型问题:1.模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);2.模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,我们重点讨论两个因素:模型复杂度和训练数据集大小。...

2020-02-17 21:25:45 176

转载 关于下载NLTK的问题已解决

首先在命令行里进入python环境,再import nltk,如果这一步出现错误的话,可以在pycharm里安装这个包,之后回到重新回到命令行里,如果import nltk 成功的话,再nltk.download(),这个时候会弹出下面类似的一个界面,我的显示了 ** 远程主机强迫关闭等等**的错误解决方法https://blog.csdn.net/zln_whu/article/det...

2020-02-17 20:26:43 806

原创 pytorch data.DataLoader 中num_workers的问题

我遇见的问题是:是num_worker的问题,将 ** num_workers改为0就可以了**不知道是不是版本的问题,我的是win10+3.7

2020-02-15 12:57:50 3832 4

原创 《动手学深度学习》笔记

task02:文本预处理、语言模型和循环神经网络基础1.文本预处理对于文本数据来说,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引。将文本从词的序列转换为索引的序列,方便输入模型。以英文小说Time Machine为例,展示文本预处理的过程在import collectionsimport redef read_time_machine():...

2020-02-14 18:02:37 177

原创 《动手学深度学习》笔记

#《动手学深度学习》笔记##Task01:线性回归、Softmax与分类模型、多层感知机刚开始学习pytorch,用打卡的方式来记录一下###1.线性回归线性回归属于判别模型。什么是判别模式?判别模型是由数据直接学习决策函数 y=f(x),或者由条件概率分布概率 P(y|x) 作为预测模型。判别模型是监督学习的一类,另外一类是生成模型。生成模型即由数据学习联合概率密度分布函数 p(x,...

2020-02-13 22:04:47 1106

原创 关于cross validation 的一些解释

(关于cross validation 的一些解释)第一次写,为了清理电脑,想把之前的资料保留一下#这是当时使用cross validation时陷入了一个误区,查了一些资料才搞清...

2020-01-10 21:00:06 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除