自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (2)
  • 收藏
  • 关注

原创 RLChina_Lecture01_《Introduce to Reinforcement Learning and Value-based Methods》_notebook

Lecture01:《Introduce to Reinforcement Learning and Value-based Methods》文章目录Lecture01:《Introduce to Reinforcement Learning and Value-based Methods》1. Introduction to RL1.1 About RL1.2 RL Problem1.2.1 Definition of RL problem1.2.2 Inside An RL Agent1.2.3 Ca

2020-08-10 17:48:34 1573 3

原创 下载pycocotools时遇到:cl.exe failed with exit status 2

在下载pycocotools时遇到error:cl.exe failed with exit status 2在这个链接找到解决方法首先:conda install git然后:pip3 install "git+https://github.com/philferriere/cocoapi.git#egg=pycocotools&subdirectory=PythonAPI"...

2020-04-07 12:14:10 1138 1

原创 conda报错:CondaHTTPError: HTTP 000 CONNECTION FAILED for url

从conda中下载包时报错:CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/win-64/repodata.json>首先看自己的.condarc文件,我使用的是清华源:channels: - http://mirrors.ust...

2020-04-06 22:05:33 1063

原创 lecture02 : Word Vectors 2 and Word Senses

lecture02 : Word Vectors 2 and Word Senses1. word vertor and word2vecword2vec基本在lecture01,这里写一些补充的东西。Word2vec maximizes objective function by putting similar words nearby in space5word2vec 将相似的词...

2019-12-05 11:06:27 314

原创 Lecture 01 : Introduction and Word Vectors

Lecture 01 : Introduction and Word Vectorsslides 链接1 链接2note 链接vedio 链接1.词的表示1.1 WordNetmissing nuance 无法表示细微的差别missing new meaning of wordsSubjective人力无法计算相似性1.2 Onehot维度高There is no ...

2019-12-03 19:16:41 276

原创 极大似然估计

极大似然估计贝叶斯决策P(w∣x)=P(x∣w)P(w)P(x) P(w|x)=\frac{P(x|w)P(w)}{P(x)} P(w∣x)=P(x)P(x∣w)P(w)​P(w)P(w)P(w):先验概率 Priori probability,代表每种类别分布的概率P(x∣w)P(x|w)P(x∣w):类条件概率 ,在某种类别前提下某事的概率P(w∣x)P(w|x)P(w∣x):后验概...

2019-12-02 23:02:55 256

转载 Scrapy(十三)scrapy-splash

之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来。 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载。像这样的情况,直接使用scrapy的Request请求是拿不到我们想要的信息的,解决的方法就是使用scrapy-splash。scrapy-splash加载js数据是基于Splash来实现的,Splash是一个Javascript...

2019-04-29 01:59:36 355

转载 Scrapy(十二)设置随机IP代理(IPProxy)

当我们需要大量的爬取网站信息时,除了切换User-Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy。设置随机IPProxy同样的你想要设置IPProxy ,首先需要找到可用的IPProxy ,通常情况下,一些代理网站会提供一些免费的ip代理,但是其稳定性和可用性很难得到保证,但是初学阶段,只能硬着头皮去找了,当然...

2019-04-29 01:51:00 23493

转载 Scrapy(十)下载器中间件(Downloader Middleware)

下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware要激活下载器中间件组件,将其加入到 DOWNLOADER_MIDDLEWARES 设置中。 该设置是一个字典(dict),键为中间件类的路径,值为其中间件的顺序(order)。像下面这样...

2019-04-29 01:42:00 234

转载 Scrapy(九)之文件与图片下载

Media PipelineScrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images Pipeline来保存文件和图片,他们有以下的一些特点:Files Pipeline避免重新...

2019-04-28 02:57:08 151

转载 Scrapy(八)settings

Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置,以应用或者禁用这些设置...

2019-04-27 20:36:13 202

转载 Scrapy(七)Item Pipeline

在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系,我们在这一章节中,将会单独介绍Item Pipeline,方便以后你自定义你的item pipeline。当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会...

2019-04-27 20:24:14 210

转载 Scrapy(六)之Selector选择器

当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个:BeautifulSoup它基于HTML代码的结构来构造一个Python对象, 对不良标记的处理也非常合理,但是速度上有所欠缺。lxml是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库...

2019-04-27 20:03:54 256

转载 Scrapy(五)Spiders

SpidersSpider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似如下:以初始的URL初始化Request,并设置回调函数。当该request下载完毕并返回时,将生成response,并作为参数传...

2019-04-27 19:49:46 196

转载 Scrapy(四)数据存储

上一篇中,我们简单的实现了一个博客首页信息的爬取,并在控制台输出,但是,爬下来的信息自然是需要保存下来的。这一篇主要是实现信息的存储,我们以将信息保存到文件和mongo数据库为例,学习数据的存储,依然是以博客首页信息为例。编写爬虫修改items.py文件来定义我们的itemItem 是保存爬取到的数据的容器;其使用方法和python字典类似。虽然你也可以在Scrapy中直接使用dict,但是...

2019-04-27 19:32:47 298

转载 Scrapy(三)创建项目

创建项目创建项目是爬取内容的第一步,之前已经讲过,Scrapy通过scrapy startproject <project_name>命令来在当前目录下创建一个新的项目。下面我们创建一个爬取博客园(‘https://www.cnblogs.com/’)文章信息的项目scrapy startproject cnblog其中cnblog是你的项目的名字,可以自己定义。其目录结构如...

2019-04-27 19:20:14 224

原创 Scrapy(二)常用命令行

简介Scrapy是通过Scrapy命令行工具进行控制的,包括创建新的项目,爬虫的启动,相关的设置,Scrapy提供了两种内置的命令,分别是全局命令和项目命令,顾名思义,全局命令就是在任意位置都可以执行的命令,而项目命令只有在你新创建了项目之后,在项目目录中才可以执行的命令。在这里,简单的介绍一些常用的命令。全局命令startproject语法: scrapy startproject &...

2019-04-27 19:07:16 391

转载 Scrapy(一)框架

概览在具体的学习scrapy之前,我们先对scrapy的架构做一个简单的了解,之后所有的内容都是基于此架构实现的,在初学阶段只需要简单的了解即可,之后的学习中,你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。基本组件引擎(Engine)引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。调...

2019-04-27 19:00:12 351

转载 Scrapy(十一)设置随机User-Agent

User-Agent:使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。如果不设置,很容易导致服务器将你判断为爬虫程序从而拒绝访问。设置随机User-Agentsettings.py文件添加:MY_USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT ...

2019-04-27 18:50:28 497

原创 爬虫学习——大碗宽面b站和网易云可视化分析代码

代码链接:https://github.com/Brucepk/Kris-noodles一、哔哩哔哩弹幕#bilibili-noodles.pyfrom bs4 import BeautifulSoupimport pandas as pdimport requestsurl = 'http://comment.bilibili.com/87150521.xml'html = req...

2019-04-23 23:30:39 381

原创 LeetCode第十六天——删除排序数组中的重复项

题目给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例 1:给定数组 nums = [1,1,2],函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。示例 2:给定 n...

2019-04-19 23:50:37 128

原创 Python——os模块

1、os.getcwd()得到当前工作目录2、os.listdir()返回指定目录下所有文件和目录名3、os.remove()删除一个文件4、os.system()执行shell命令5、os.sep可以取代操作系统特定的路径分割符6、os.linesep字符串给出当前平台使用的行终止符,Windows使用’\r\n’,Linux使用’\n’而Mac使用’\r’7、os.pa...

2019-04-19 03:18:46 175

原创 kaggle——Santander Customer Transaction Prediction

比赛地址https://www.kaggle.com/c/santander-customer-transaction-prediction一、赛后总结1.1学习他人1.1.1 List of Fake Samples and Public/Private LB splithttps://www.kaggle.com/yag320/list-of-fake-samples-and-pu...

2019-04-19 02:59:37 982 2

原创 LeetCode第十五天——搜索旋转排序数组

题目假设按照升序排序的数组在预先未知的某个点上进行了旋转。( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] )。搜索一个给定的目标值,如果数组中存在这个目标值,则返回它的索引,否则返回 -1 。你可以假设数组中不存在重复的元素。你的算法时间复杂度必须是 O(log n) 级别。示例 1:输入: nums = [4,5,6,7,0,1,2], ...

2019-04-18 15:45:30 155

原创 LeetCode第十四天——合并K个排序链表

题目合并 k 个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。示例:输入:[1->4->5,1->3->4,2->6]输出: 1->1->2->3->4->4->5->6方法一将值放在一个list中然后排序输出# Definition for singly-linked list.# ...

2019-04-15 22:13:40 165

原创 算法篇——分治

1、概念分而治之,一个复杂的问题分为两个或更多相同或相似子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)……2、思想用于分治的子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解。这种算法设计策略叫做分治法。...

2019-04-15 21:59:39 227

原创 LeetCode第十三天--合并两个有序链表

题目将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例:输入:1->2->4, 1->3->4输出:1->1->2->3->4->4方法一# Definition for singly-linked list.# class ListNode:# def __...

2019-04-10 20:52:00 143

原创 LeetCode第十二天--有效括号

题目给定一个只包括'(',')','{','}','[',']'的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: true示例2:输入: "()[]{}"输出: true示例3:输入: "(]"输出: fa...

2019-04-10 20:35:21 144

原创 LeetCode第十一天--最接近的三数之和

题目给定一个包括n个整数的数组nums和 一个目标值target。找出nums中的三个整数,使得它们的和与target最接近。返回这三个数的和。假定每组输入只存在唯一答案。例如,给定数组 nums = [-1,2,1,-4], 和 target = 1.与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).方法一:排序后双指针cl...

2019-04-08 00:30:49 167

原创 凸集

凸集在凸几何中,凸集(convex set)是在凸组合下闭合的仿射空间的子集。更具体地说,在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内。例如,立方体是凸集,但是任何中空的或具有凹痕的例如月牙形都不是凸集。...

2019-04-07 10:55:50 870

转载 importance sampling

转载:https://blog.csdn.net/wangpeng138375/article/details/74645637问题:g(x)已知,为x的函数,p(x)为随机变量x的概率密度函数,p(x)解析式已知,计算g(x)在p(x)分布下的均值(数字特征)。方法:Ep(x)(g(x))=∫xg(x)p(x)dxEp(x)(g(x))=∫xg(x)p(x)dx但是现在的问...

2019-04-07 10:53:23 810

原创 LeetCode第十天--三数之和

题目给定一个包含n个整数的数组nums,判断nums中是否存在三个元素a,b,c ,使得a + b + c =0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。例如, 给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]方法一:...

2019-04-06 15:45:50 146

原创 python--index()&find()

Python index() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,该方法与 python find()方法一样,只不过如果str不在 string中会报一个异常。语法:index()方法语法:str.index(str, beg=0, end=len(string))find()方法语法:...

2019-04-06 00:07:01 471 2

原创 LeetCode第九天--最长公共前缀

题目编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串""。示例1:输入: ["flower","flow","flight"]输出: "fl"示例2:输入: ["dog","racecar","car"]输出: ""解释: 输入不存在公共前缀。说明:所有输入只包含小写字母a-z。方法一:水平扫描法思...

2019-04-06 00:01:24 205

原创 LeetCode第八天--盛最多水的容器

有连续两天没有好好刷LeetCode了,后面需要开始做有难度的题了。题目给定n个非负整数a1,a2,...,an,每个数代表坐标中的一个点(i,ai) 。在坐标内画n条垂直线,垂直线i的两个端点分别为(i,ai) 和 (i, 0)。找出其中的两条线,使得它们与x轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且n的值至少为 2。图中垂直线代...

2019-04-05 16:43:36 144

原创 LeetCode第七天--字符串转换整数&回文数

题目一请你来实现一个atoi函数,使其能将字符串转换成整数。首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。当我们寻找到的第一个非空字符为正或者负号时,则将该符号与之后面尽可能多的连续数字组合起来,作为该整数的正负号;假如第一个非空字符是数字,则直接将其与之后连续的数字字符组合起来,形成整数。该字符串除了有效的整数部分之后也可能会存在多余的字符,...

2019-04-02 19:42:46 193

原创 python--lstrip()&rstrip()函数

Python lstrip() 方法用于截掉字符串左边的空格或指定字符。Python rstrip() 方法用于截掉字符串右边的空格或指定字符。

2019-04-01 21:40:55 1006

原创 LeetCode第六天--整数反转

题目给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。示例1:输入: 123输出: 321示例 2:输入: -123输出: -321示例 3:输入: 120输出: 21注意:假设我们的环境只能存储得下 32 位的有符号整数,则其数值范围为[−2^31, 2^31− 1]。请根据这个假设,如果反转后整数溢出那么就返...

2019-04-01 21:38:46 158

原创 python--join()函数

Python中有join()和os.path.join()两个函数 join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串 os.path.join(): 将多个路径组合后返回1、join()函数语法: 'sep'.join(seq)参数说明sep:分隔符。可以为空seq:要连接的元素序列、字符串、元组、...

2019-03-31 14:26:21 245

原创 LeetCode第五天--Z 字形变换

题目:将一个给定字符串根据给定的行数,以从上往下、从左到右进行Z 字形排列。比如输入字符串为"LEETCODEISHIRING"行数为 3 时,排列如下:L C I RE T O E S I I GE D H N之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比如:"LCIRETOESIIGEDHN"。请你实现这个将字符串进行指定...

2019-03-31 14:19:26 130

分布式爬虫

1.从一个给定的网址中分析其所包含的 URL 并爬取对应的网页,直到爬取完全部 不重复的网页为止。 2.支持分布式爬取,同时记录输出每一个网页的大小。 3.采用多线程结构设计,实现高性能的网络爬虫。

2019-01-04

java实验之飞鸽

实现局域网内单点聊天、群聊天、文件发送与接送!!!

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除