yq313210-CSDN博客

原创深度强化学习task05

1. 稀疏奖励如果环境中的 reward 非常 sparse，reinforcement learning 的问题就会变得非常的困难，但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候，我们就只是活在那里，都没有得到什么 reward 或是 penalty。但是，人还是可以采取各种各式各样的行为。所以，一个真正厉害的 AI 应该能够在 sparse reward 的情况下也学到要怎么跟这个环境互动。解决这个问题可从以下3个方向开始：第一个方向是 reward s

2020-11-05 19:07:05 280

原创深度强化学习task03

1. Q-learning**Q-learning **是value-based 的方法。在value-based 的方法里面，我们 learn 的不是 policy，我们要 learn 的是一个critic 。 Critic 并不直接采取行为，它想要做的事情是评价现在的行为有多好或是有多不好。假设有一个actor π ，critic 就是来评价这个 actor 的 policy π 好还是不好，即 Policy Evaluation(策略评估)。举例来说，有一种 critic叫做 state val

2020-11-03 19:02:17 850

原创强化学习-task03

Policy Gradient在 reinforcement learning 中有 3 个components，一个actor，一个environment，一个reward function。让机器玩 video game 时，actor 做的事情就是去操控游戏的摇杆，比如说向左、向右、开火等操作；environment 就是游戏的主机，负责控制游戏的画面负责控制说，怪物要怎么移动，你现在要看到什么画面等等；reward function 就是当你做什么事情，发生什么状况的时候，你可以得到

2020-10-29 22:34:19 193

原创深度强化学习-笔记02

这次的任务我个人认为还是比较多的，很多涉及数学公式的内容，推公式就比较难。1.马尔可夫决策过程(MDP)这里先介绍强化学习中agent与environment的交互过程，如下图：agent在得到环境的状态过后，它会采取行为，它会把这个采取的行为返还给环境。环境在得到agent的行为过后，它会进入下一个状态，把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过程中，它的环境是 fully observable ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测

2020-10-23 21:44:59 189

原创深度强化学习-笔记01

1.什么是强化学习？强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。Agent 在环境里面获取到状态state，也是对整个environment的observation，agent 会利用这个状态输出一个 action，一个决策。然后这个决策会放到环境之中去，环境会通过这个 agent 采取的决策，输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。2.强化学习与深度强化学习

2020-10-21 10:50:07 214

原创 LeetCode分类：查找二

查找实战案例一：两数之和题目描述给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。示例：给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路首先想到暴力解决，即第一遍遍历数组，第二遍遍历当前遍历值之后的元素，但是时

2020-08-28 23:17:37 333

原创 LeetCode分类03：查找

印象最深的一题应该是这个：给定一个非负整数数组和一个整数 m，你需要将这个数组分成 m 个非空的连续子数组。设计一个算法使得这 m 个子数组各自和的最大值最小。主要思想是二分查找题目要求的是分割成连续的子数组，并且结果为所有满足分组个数的最大和的最小值。仔细想想最后的结果应该是介于原数组的最大值和原数组的和之间的某个值。所以用二分查找。low = max(nums) high = sum(nums) mid = (low+high) // 2 相当于向下取整。假设此时mid 就是最后的结果，这

2020-08-25 16:16:29 188

原创 LeetCode分类02:动态规划

动态规划动态规划常适用于有重叠子问题和最优子结构性质的问题，它的本质是以空间换取时间。它的模板步骤如下：确定动态规划状态；写状态转移方程（画状态转移表）；考虑初始化条件；考虑输出；考虑对时间，空间复杂度的优化（较难）按上述步骤进行详细叙述：思考状态状态的定义，先试着将题目所求的设置为状态；然后思考状态是如何转移的，如果状态转移方程不易得到，尝试修改定义，目的依然是为了方面得到状态转移方程。思考状态转移方程思考初始化思考输出对于Q1:给定一个字符串 s，找到 s 中最长的回

2020-08-22 15:32:11 122

原创 LeetCode分类01：分治

分治与递归的区别看到题目pow(x,n)的时候，我就想到了层层递归。在测试用例的时候通过了，但是提交完了之后是这样的，如下图：于是，我就查了查递归属不属于分治，两者之间的区别。一篇博客我个人认为说的还算比较清楚：分治与递归间的关系分治与递归之间没有关系，递归可以改成一个循环，再用分治法求解。你可以想象，如果我让一万个1相加：采用循环，直接循环加一万次采用递归，递归循环一万次采用分治，不停的划分（这里划分既可以使用递归也可以使用循环），两两相加。1. 实现 pow(x, n) ，即计算 x 的

2020-08-19 16:00:51 126

原创 DataWhale零基础入门NLP赛事——Task6 基于深度学习的文本分类bert

这里只介绍Bert里面的pretrain和finetune。Google在NAACL 2018发表的论文中提出了BERT，采用了预训练-微调这一两阶段模式。什么是预训练模型？预训练就是预先训练好的模型，之前word2vec也是预训练的一种，预先训练好语言模型然后在各种任务中重复使用。什么是transform?transform是一种Encode&Decode模型，网络中用到了Multi-HeadAttention的模型,在bert中是个很重要的单元。Bert的预训练Bert的输入表.

2020-08-04 21:56:30 269

原创 DataWhale零基础入门NLP赛事系列：Task5 基于深度学习的文本分类

1.word2vec首先通过词向量的学习我发现了自己理解中的误区，我原来一直以为Word2Vec是一种词向量。其实它只是一种训练词向量的模型，和那些机器学习的模型的本质是一回事，通过训练数据得到我们想要的内容，只不过Word2Vec训练出来的是词的向量表示。我觉得这也是许多NLP任务中预训练词向量的原因吧。Word2Vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可

2020-07-31 16:13:55 236

原创 DataWhale零基础入门NLP赛事系列——Task4基于深度学习得文本分类fasttext

1. fasttext在windows下的安装不知道多少小伙伴跟我遇到过一样类似的问题，直接pip install fasttext会报错。所以我们需要先下载一个.whl的包。下载地址：fasttext我的python是3.7的，选了如上图所示的测试一下，在cmd里输入import fasttext不报错即可。2. fasttext对数据格式的要求我们的训练集数据格式：label,text但是，fasttextasttext在windows下的安装不知道多少小伙伴跟我遇到过一样类似的

2020-07-27 13:53:14 210

原创 DataWhale零基础入门NLP赛事系列——Task3基于机器学习的文本分类

基于机器学习的文本分类在对文本进行特征化的时候，最常见的是词袋模型。1. 词袋模型词袋模型(Bag of Words，简称BoW),即将所有词语装进一个袋子里，每个词语都是独立的，把每一个单词都进行统计，同时计算每个单词出现的次数。也就是说，词袋模型不考虑文本中词与词之间的上下文关系，仅仅考虑所有词的权重，而权重与词在文本中出现的频率有关。一般来说，词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应

2020-07-25 21:04:08 173

原创 DataWhale零基础入门NLP赛事系列——Task2数据读取与分析

数据读取用pandas读取数据train_df = pd.read_csv('data/train_set.csv', sep='\t')print(train_df.head())这里的read_csv由两部分组成：第一个参数是你数据文件的路径，根据自己的实际情况修改成绝对路径或者相对路径；分隔符sep : 每列分割的字符,此处设置为\t还有一个参数，这里面没用。nrows是此次读取文件的函数，限制读取的记录数量。如果nrows=100代表读取文件的前100行。读取数据的时候我遇到了

2020-07-22 23:13:58 286

原创 DataWhale零基础入门NLP赛事系列——Task1赛题介绍

赛题介绍赛题名称：零基础入门NLP之新闻文本分类个人目标：通过组队学习，个人完成一次有关NLP的入门赛，加深对文本处理有关的理解。赛题任务：完成对新闻文本的分类，本质上是一个字符识别的问题。数据下载介绍数据下载链接：零基础入门NLP之新闻分类一共有3个.csv文件，分别是：train_set.csv、test_a.csv、test_a_sample_submit.csv数据读取：train_df = pd.read_csv('data/train_set.csv', sep='\t')，文

2020-07-21 21:23:40 203

原创使用selenium爬取腾讯热点新闻

在爬取之前我一直都陷入了一个误区,我认为只用selenium就可以实现这个工作，事实上它确实是可以，只不过selenium是自动化测试工具,可以驱动浏览器(有界面,无界面)来执行特定的操作,可以模仿人的点击下拉等各种基本操作,对于js加密的信息的抓取非常有效。它更适用于动态和交互。所以在提取信息得时候结合bs4或者xpath更方便一点。经过大佬指点，这里强推xpath. ![在...

2020-04-27 10:05:47 758

原创爬虫中ip代理、selenium\session和cookie的使用

1. ip代理什么是代理ip？它的作用？HTTP和HTTPS的区别获取ip地址并验证代理IP地址的有效性A1: 我们知道IP是上网需要唯一的身份地址，身份凭证，代理IP是我们上网过程中的一个中间平台，是由自己的电脑先访问代理IP，之后由代理IP访问点开的页面。所以在这次访问记录里留下的是代理IP的地址，而不少自己电脑本机IP。使用代理IP的好处有：1.加快访问速度 2. 保护隐私信...

2020-04-25 23:15:39 395

原创关于bs4、xpath和正则表达式在爬虫的应用

关于提取网页中的元素一直都迷糊，不同的方法也容易记混。1.BeautifulSoup的理解Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，...

2020-04-23 21:27:24 1141

原创爬取豆瓣Top250

用requests库爬取豆瓣Top2501.requests库requests库可以自动爬取HTML页面，自动网络请求提交。安装方法：pip install requestsrequests库主要有7个方法：requests库爬取豆瓣Top250首先打开网页豆瓣Top250 网址：https://movie.douban.com/top250?start=0&filte...

2020-04-21 15:37:28 968

原创《动手学深度学习》Task8

文本分类、数据增强、模型微调文本分类除了经常使用的循环神经网络之外，使用一维卷积层也可以实现TextCNN模型（用于文本情感分类）易错点数据增强翻转和裁剪变化颜色叠加多个图像增广方法`` augs = torchvision.transforms.Compose([ torchvision.transforms.RandomHorizontalFli...

2020-02-25 19:55:27 178

原创《动手学深度学习》Task7

优化算法、 word2vec、词嵌入易错点：

2020-02-25 19:20:53 128

转载《动手学深度学习》Task6

1.批量归一化和残差网络什么是批量归一化？为什么要使用它？这里先解释一下为什么对输入数据要进行标准化？主要是为了使输入数据各个特征的分布相近。我们知道，神经网络学习的本质是学习数据集的分布，如果训练集与测试集的分布不同，那么该网络的泛化能力就会大大降低。另外，在使用批量数据训练神经网络时，如果每批数据的分布不同，网络训练的过程中一直学习适应不同分布，会大大降低网络的训练速度。假设大家已...

2020-02-25 19:13:04 451

原创《动手学深度学习》Task5

1.卷积神经网络基础；对于CNN中一些概念的理解1.feature map在CNN的各个卷积层中，数据都是以３维形式存在的。我们可以把它看成许多个２维平面图叠在一起，其中每个２维图称为一个feature map　.在输入层，如果是灰度图，只有一个feature map；如果是彩色图片，一般是3个feature map（RGB）。其他层：层与层之间会有若干个卷积核(kernel),上一层...

2020-02-18 18:32:35 210

原创《动手学深度学习》 Task4

1.机器翻译及相关技术机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。主要步骤：1. 数据预处理将数据集清洗、转化为神经网络的输入minbatch2.分词字符串—单词组成的列表3.建立词典单词组成的列表—单词id组成的列表Encode...

2020-02-18 12:12:25 217

原创《动手学深度学习》task3

Task03:过拟合、欠拟合及其解决方案模型训练中经常出现的两类典型问题：1.模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；2.模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，我们重点讨论两个因素：模型复杂度和训练数据集大小。...

2020-02-17 21:25:45 176

转载关于下载NLTK的问题已解决

首先在命令行里进入python环境，再import nltk,如果这一步出现错误的话，可以在pycharm里安装这个包，之后回到重新回到命令行里，如果import nltk 成功的话，再nltk.download(),这个时候会弹出下面类似的一个界面，我的显示了 ** 远程主机强迫关闭等等**的错误解决方法https://blog.csdn.net/zln_whu/article/det...

2020-02-17 20:26:43 806

原创 pytorch data.DataLoader 中num_workers的问题

我遇见的问题是：是num_worker的问题，将 ** num_workers改为0就可以了**不知道是不是版本的问题，我的是win10+3.7

2020-02-15 12:57:50 3832 4

原创《动手学深度学习》笔记

task02:文本预处理、语言模型和循环神经网络基础1.文本预处理对于文本数据来说，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引。将文本从词的序列转换为索引的序列，方便输入模型。以英文小说Time Machine为例，展示文本预处理的过程在import collectionsimport redef read_time_machine():...

2020-02-14 18:02:37 177

原创《动手学深度学习》笔记

#《动手学深度学习》笔记##Task01：线性回归、Softmax与分类模型、多层感知机刚开始学习pytorch，用打卡的方式来记录一下###1.线性回归线性回归属于判别模型。什么是判别模式？判别模型是由数据直接学习决策函数 y=f(x)，或者由条件概率分布概率 P(y|x) 作为预测模型。判别模型是监督学习的一类，另外一类是生成模型。生成模型即由数据学习联合概率密度分布函数 p(x,...

2020-02-13 22:04:47 1106

原创关于cross validation 的一些解释

(关于cross validation 的一些解释)第一次写，为了清理电脑，想把之前的资料保留一下#这是当时使用cross validation时陷入了一个误区，查了一些资料才搞清...

2020-01-10 21:00:06 289

yq313210的博客

原创深度强化学习task05

原创深度强化学习task03

原创强化学习-task03

原创深度强化学习-笔记02

原创深度强化学习-笔记01

原创 LeetCode分类：查找二

原创 LeetCode分类03：查找

原创 LeetCode分类02:动态规划

原创 LeetCode分类01：分治

原创 DataWhale零基础入门NLP赛事——Task6 基于深度学习的文本分类bert

原创 DataWhale零基础入门NLP赛事系列：Task5 基于深度学习的文本分类

原创 DataWhale零基础入门NLP赛事系列——Task4基于深度学习得文本分类fasttext

原创 DataWhale零基础入门NLP赛事系列——Task3基于机器学习的文本分类

原创 DataWhale零基础入门NLP赛事系列——Task2数据读取与分析

原创 DataWhale零基础入门NLP赛事系列——Task1赛题介绍

原创使用selenium爬取腾讯热点新闻

原创爬虫中ip代理、selenium\session和cookie的使用

原创关于bs4、xpath和正则表达式在爬虫的应用

原创爬取豆瓣Top250

原创《动手学深度学习》Task8

原创《动手学深度学习》Task7

转载《动手学深度学习》Task6

原创《动手学深度学习》Task5

原创《动手学深度学习》 Task4

原创《动手学深度学习》task3

转载关于下载NLTK的问题已解决

原创 pytorch data.DataLoader 中num_workers的问题

原创《动手学深度学习》笔记

原创《动手学深度学习》笔记

原创关于cross validation 的一些解释

空空如也

空空如也