自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 怎么搭建静态网站

创建好文件,写好代码购买服务器,域名安装centos7版本系统搭建搭建网站博客这里要注意的是将你的代码文件放置在/usr文件夹下,并修改配置文件。如下图所示:如果遇到80端口冲突,强行关闭开启nginx端口,再重启如果遇到其他问题,见:nginx问题解决方案集合解析域名...

2021-08-29 23:41:38 383

原创 Node爬虫利用Jquery解析元素,利用 iconv.decode之后还是乱码

最近在学习Node爬虫,其中就用到了Jquery解析页面元素,在爬取页面的时候利用 iconv.decode之后还是乱码,那么首先要搞清楚下面的内容问题就迎刃而解了。const Decodebody = iconv.decode(body, 'gb2312')这行代码的意思是对爬虫获取得到的response响应内容进行解码。const $ = cheerio.load(Decodebody )这行代码的意思是将解析得到的内容转换为Dom树,方便利用Jquery进行解析。问题:利用iconv.de

2020-12-20 17:47:16 939

原创 python文件操作代码

文件操作

2020-09-27 11:32:15 368

原创 python运算符表达式记录

python运算符表达式记录

2020-09-09 16:31:30 135

原创 输入一个链表,输出该链表中倒数第k个结点

思路:通过反转链表,但是这样的话不好输出单个结点# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def FindKthToTail(self, head, k): # write code here pre = None whi

2020-09-08 15:30:12 96

原创 反转链表

剑指offer:反转链表思路:简单来说就是要纪录两个指针,一个在当前位置的前面,一个在当前位置的后面题目所给的是单链表,想了一下反转后的样子:最后一个结点指向倒数第二个,倒数第二个指向倒数第三个,......,第二个指向第一个,第一个指向null;知道了反转后各个结点指向哪之后,就需要开始调整每个结点的next指针。这就需要把结点挨个从链表上摘下来,做调整;这个调整过程需要两个指针辅助:pre记录其前一个结点位置,好让该结点的next指针指向前一个结点,但是在指向前一个结点前需要用一个指针p记录后

2020-09-08 15:09:33 111

原创 记录python-selenium常用的的一些库和细节

在你写脚本时候肯定是会用到selenium的,但是这里的库有的时候又不能自动导入,这里记录一下selenium操作的一些方法:文章目录导入库EC方法By方法包含文字切换frame导入库from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditionsfrom selenium.webdriver.sup

2020-09-05 00:10:30 484

原创 关于R-CNN的概述

文章目录背景R-CNN的工作流程R-CNN模型预训练使用Selective Search找出候选区域核心将候选区域resize成CNN输入的尺寸fine-tuning训练二元分类器回归模型网上看了很多关于R-CNN的理解,讲的都非常细致,但是读者很容易就抓不住论文所介绍的方法核心和思路。我觉得一种新技术最好的方法是先抓住方法的框架,然后再去深究方法里面的细节,或许这才可以不失主次之分。背景本文参考论文:R-CNN论文的创新点主要有两个,第一个是由底层向上的图像分割和检测,然后在不同尺度上对候选框进行

2020-09-04 18:54:01 315

原创 用TensorFlow通过手写数字识别实例实现CNN

文章目录前提介绍CNN结构输入层卷积层池化层全连接层实现定义输入输出输入层卷积层1池化层1卷积层2&池化层2flat(平坦化)全连接层dropout层输出层损失训练准确率图初始化数据流动前提介绍本文通过TensorFlow利用Mnist数据集来实现CNN,因为大名鼎鼎的Mnist被收录在了TensorFlow中,所以我们只需要直接调用就可以使用该数据集了。from tensorflow.examples.tutorials.mnist import input_datamnist=input

2020-09-02 01:10:36 596

原创 四大排序算法用Python实现

文章目录参考文献冒泡排序选择排序插入排序快速排序网上有很多关于算法的Java和C的实现方式,这里对很多人都不太友好,今天来把几种排序方法用Python实现,算法讲解博客参考:参考文献冒泡排序选择排序插入排序排序算法的关键在于交换的轮数和交换次数!!冒泡排序关键点在于"冒泡"def bubble(li): n = len(li) for j in range(n): for i in range(n-1-j): if li[i] > li[i+1]: li[i],

2020-09-01 16:11:23 289

原创 怎么在github上部署网页

在之前的博客中,给大家介绍了如何利用hexo 搭建自己的博客,那如何能够实现在github上搭建一个网页呢文章目录创建github仓库下载仓库到本地上传文件显示网页创建github仓库下载仓库到本地在下载文件之前,找到 Github Pages 选项, 将 Source 改为 master branch, 最后点击 Save 按钮然后,将此仓库的内容下载到本地的文件夹中,指令:git clone git@github.com: XXXXX上传文件将你需要的网页文件夹(含css/htm

2020-08-26 20:10:39 1484

原创 Python分析数据分析师行情

数据分析师岗位分析确定目标数据清洗读取数据清洗数据缩小列读取范围职位筛选工资清洗技能要求行业信息统计数据可视化各城市数据分析岗位需求量不同领域对数据分析岗位的需求量各城市相应岗位的薪资情况确定目标我们在之前的博客中已经获取了拉勾网上数据分析师的岗位信息,现在我们需要确定我们分析的目标,从而进行数据清洗。各城市对数据分析岗位的需求情况不同细分领域对数据分析岗的需求情况数据分析岗位的薪资状况工作经验与薪水的关系公司都要求什么,需要掌握什么技能岗位的学历要求高吗不同规模的企业对工资经验的要求以

2020-08-23 17:28:14 697

原创 一看就懂的教你Hexo如何搭建个人博客

文章目录前期准备git软件安装node.js安装hexo安装Github创建仓库修改博客内容连接Github与本地写博客绑定域名定制博客想当年自己在搭建博客的时候查阅了很多资料,最近由于腾讯云服务器到期了,所以又重新将博客搭建在了Github上,因为步骤对新手来说不是很友好,所以大家可以先看我这个目录,了解一下结构,然后一步步操作就可以了。如果在操作过程有什么问题,大家在下面留言,我都会尽可能帮助大家。前期准备git软件安装git官网node.js安装node.js下载链接最后安装好之后,在刚

2020-08-23 11:04:31 342

原创 应对反爬如何爬取拉勾网信息(非常详细)

目录前期准备请求头Cookies问题手动提取Cookies和自动Cookies相结合自动提取Cookies实现手动提取Cookies实现页面分析代码实现前期准备我们知道百度其实就是一个爬虫,但是对方的服务器是没有对百度进行反爬的,所以为了防止对方服务器的反爬,我们在爬取网站的时候要尽可能地模拟我们使用的浏览器。请求头 headers = { 'Origin': 'https://www.lagou.com', 'Accept-Encoding': 'gzip,

2020-08-18 09:52:32 6710 5

原创 SQL面试题-上升的温度

文章目录题目描述解答题目描述给定一个 Weather 表,编写一个 SQL 查询,来查找与之前(昨天的)日期相比温度更高的所有日期的 Id。解答这里考察几个知识点SELECT…FROM…的用法。CROSS JOIN…(交叉联结)的用法。timestampdiff(时间类型, 日期1, 日期2):当日期1大于日期2,结果为负,日期1小于日期2,结果为正。datediff(日期1, 日期2):当日期1比日期2大,结果为正;如果日期1比日期2小,结果为负。SELECT a.Id FROM w

2020-08-17 18:24:22 315 1

原创 SQL面试题-筛选超过4名学生的课

文章目录题目描述解答题目描述有一个courses 表 ,有: student (学生) 和 class (课程)。请列出所有超过或等于5名学生的课。解答这里主要考察几个知识点:GROUP BY的使用;根据一列或者多列数据对结果进行分组。HAVING 用于筛选分组后的数据。COUNT 用于返回指定列的值的数目。SELECT class FROM courses GROUP BY class HAVING COUNT(student) > 4;...

2020-08-17 16:26:24 252

原创 SQL面试题-电影评分排序

文章目录题目描述解答题目描述某城市开了一家新的电影院,吸引了很多人过来看电影。该电影院特别注意用户体验,专门有个 LED显示板做电影推荐,上面公布着影评和相关电影描述。作为该电影院的信息部主管,您需要编写一个 SQL查询,找出所有影片描述为非 boring (不无聊) 的并且 id 为奇数 的影片,结果请按等级 rating 排列。例如,下表 cinema:解答这里主要考察几个知识点WHERE的使用AND的使用ORDER BY的使用DESC的使用SELECT * FROM cin

2020-08-17 16:07:32 637

原创 LSTM一步步解释给你看

题目 -交换性别文章目录题目 -交换性别解答拓展应用给定一个 salary 表,如下所示,有 m = 男性 和 f = 女性 的值。交换所有的 f 和 m 值(例如,将所有 f 值更改为 m,反之亦然)。要求只使用一个更新(Update)语句,并且没有中间的临时表。注意,您必只能写一个 Update 语句,请不要编写任何 Select 语句。idnamesexsalary1Am25002Bf15003Cm55004Df500运行

2020-08-17 15:43:06 966

原创 python-动态规划题目-凑硬币

你有三种硬币,面值分别为2元,5元,7元,每种硬币都足够多,买一本书需要27元。问:如何用最少的硬币组合正好付清,不需要对方找钱。首先确定状态其次确定转移方程确定初始条件和边界情况a,b,c = map(int,input('输入a,b空格隔开:').split())def coin(X): res = float('inf') ##将其赋予无穷大 if(X == 0): return 0 if(X>=2): res = min(c

2020-08-14 10:33:07 3387

原创 爬虫实战篇--更换请求头

请求头是模拟浏览器时必备的操作。加随机请求头也是为了模拟多用户访问浏览器而设置的操作。更换请求头代码如下:def get_user_agent(): MY_USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSI

2020-08-03 16:01:52 1032

原创 爬虫实战篇--更换代理ip

背景我们在爬取网站数据,防止被对方服务器发现的一个最重要的操作是更换代理ip,因为你的电脑主机在局域网下的ip是固定的,所以你经常使用一个代理ip对网站进行大规模爬取,就容易被对方服务器检测出来是非人为操作,那么你的主机ip会被他们拉入到ip黑名单池,导致爬取不到想要的数据了。目前市面上有很多免费和收费的代理ip。对于免费和付费的代理,不妨依次使用,先用免费代理尝试,如果需要更高阶的爬取,那么可以考虑付费代理。免费代理使用对于需要维护免费的ip代理池的朋友可以参考下面的链接进行配置:免费代理池项目

2020-08-03 15:56:41 2592 3

原创 Python爬虫实战-详细讲解爬取安居客房价数据

最近在尝试用python爬取安居客房价数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的人会很多,所以我们需要考虑更换代理IP和随机更换请求头的方式来对房价数据进行爬取。(下面没有给出这两种方式的代码,如果有需要可以看我别的博客,将代码加入到其中)其次是爬取规则的选择,理想的房价数据应该是这样的,结构化的。但是实际上遇到的会是下面的情况,户型和房价数据会缺失,所以这就导致了爬取规则的不确定性

2020-08-02 23:54:58 10413 3

原创 为什么使用了代理ip本机还是被检测出来

在爬取安居客的网站时候,发现即使使用了代理ip还是会被检测到本机的ip,从而在用本机访问安居客网站时候出现了验证码。原因:普遍的HTTP代理IP归类有三种:全透明代理、一般代理、高匿名代理,而前两种代理是很容易被检测到的,而高匿代理是不会被检测到本机ip的,所以大家在选择代理的时候也要注意一下尽量使用高匿代理来进行数据的爬取。...

2020-08-02 22:48:13 6127

原创 科大讯飞2021届算法工程师提前批笔试题

科大讯飞2021届算法工程师提前批三道笔试题前提题目要求必须用c++来进行编译,所以科大讯飞的题目我最终是用python的本地IDE编译出来的,但是既然参加了可不能浪费这次宝贵的学习机会,这里手动狗头。^^题目思路:首先分析题目得到几个关键点输入描述为无,那么没有其他输入了,只需要对题目中给出的几个点进行拟合就可以。需要利用到均方误差的公式。输出的形式是包含一位小数,想到如果按照range进行遍历的话,那么出来的都只会是整数,不能够满足要求。import timeif __name_

2020-08-01 12:26:31 1808 5

原创 Leetcode第24题--两两交换链表中的节点

题目描述给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。示例:给定 1->2->3->4, 你应该返回 2->1->4->3.思路:通过引入两个指针,来进行结点之间的交换。错误示范:# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val =

2020-07-31 10:01:41 124

原创 Leetcode第739题--每日温度

题目请根据每日 气温 列表,重新生成一个列表。对应位置的输出为:要想观测到更高的气温,至少需要等待的天数。如果气温在这之后都不会升高,请在该位置用 0 来代替。例如,给定一个列表 temperatures = [73, 74, 75, 71, 69, 72, 76, 73],你的输出应该是 [1, 1, 4, 2, 1, 1, 0, 0]。提示:气温 列表长度的范围是 [1, 30000]。每个气温的值的均为华氏度,都是在 [30, 100] 范围内的整数。思路受到排序算法的影响,将序列分为可分的

2020-07-30 19:13:47 362

原创 科大讯飞算法工程师笔试题解析

题目描述华老师的n个学生参加了一次模拟测验,考出来的分数很糟糕,但是华老师可以将成绩修改为[0,100]中的任意值,所以他想知道,如果要使所有人的成绩的平均分不少于X分,至少要改动多少个人的分数?输入第一行一个数T,共T组数据(T≤10)接下来对于每组数据:第一行两个整数n和X。(1≤n≤1000, 0≤X≤100)第二行n个整数,第i个数Ai表示第i个学生的成绩。(0≤Ai≤100)输出共T行,每行一个整数,代表最少的人数。样例输入25 6059 20 30 90 1005 60

2020-07-30 09:57:41 1965

原创 关于pandas索引表格的一切

在pandas处理表格的时候经常会遇到有点复杂的处理表格操作,这时候又不能用pd.write_to_csv()来写入表格,那么就得考虑用索引来写入新的表格了。1.读取表格import pandas as pddf=pd.read_csv('data.csv')2.找到符合要求的索引列表index_list=df[df['A']=='风速'].index.tolist() 这里是寻...

2020-04-25 01:09:23 733

原创 带你一步步讲解RNN

如果你在安装过程遇到 cannot find a version that …这种情况,用以下几种方式来处理,没有失败过。一:在python库下载网站下载你需要的安装包然后下载,比如你下载的路径是e:/,那么你就在终端输入pip install e:/wheel文件(这个.wheel文件是你自己在这个网站下载的),这个原理就相当于你在外面下载好了这样的库然后pip只是用来安装的。如果你通过这...

2020-04-23 22:44:51 847

原创 word打开提示无法加载此程序mathpage.wll

MathType有个非常诡异的问题就是安装过程好好的,打开word之后发现不能复制粘贴并直接卡死。。看了很多博文,尝试过各种文件来回复制、office重装、添加受信任位置之后发现还是不行。于是仔细分析了一下这个界面或者下面这个界面:问题分析这两者结合来看很明显是系统文件出错了,也就是很大可能是32位和64位出现了不兼容。解决方案你需要打开MathPage的文件目录,默认是在C:\P...

2020-04-06 15:26:02 19847 41

原创 sdk和uiautomatorviewer的安装和常见问题解决

背景我们知道PC端浏览器的调试信息是直接F12就可以了,那么想要编写针对手机软件的代码怎么办呢,这个时候就用到Android手机调试工具uiautomatorviewer了前提必须是Android 4.0及以上版本工具下载安装sdk,这里建议你安装adt-bundle-windows-x86_64…(这里面包含了sdk所有文件并且很全),下载地址:adt-bundle-windows下...

2020-02-18 14:14:48 2794 1

原创 基于auto.js自动撸视频

背景:现在市面上出现了很多刷视频赚钱的软件,例如刷宝,快看点,趣头条,快手极速版等等,一般是10000金币=1块,根据软件的不同,每个视频收益高,平均会有60,有的可能只有30金币,所以手刷的话很浪费你的时间,于是auto.js是很好用的一款软件,可以帮助你实现自动刷视频,并且稳定不会被封号,这里亲测过!!前提:必须安卓手机且Android 7.0 版本及以上这里以刷宝视频为例:为了增加刷...

2020-02-14 20:10:08 44076 51

原创 李开复博士送给计算机专业学生的七个建议(共勉)

1.练内功。不要只花功夫学习各种流行的编程语言和工具.以及某些公司招聘广告上要求的科目。要把数据结构 算法、数据库 操作系统原理、计算机体系结构、计算机网络.离散数学等基础课程学好。大家不妨试试高德纳所著《The Art of Computer Programming》里的题目.如果你能够解决其中的大部分题目.就说明你在算法方面有一定的功力了。2.多实战。通过编程的实战积累、经验、巩固知识。...

2019-11-12 09:42:40 386

原创 Xgboost算法详细讲解

因为Xgboost算法常常用于有监督学习,关于有监督学习我们在前面已经介绍过来,但是有监督学习的要素有哪些呢?Xgboost算法为什么经常用于有监督学习呢?有监督学习的要素包含两大块:模型和参数模型通常是给定输入Xi,找出和输出y之间的关系,如线性模型参数通常是我们需要从数据中学习的未确定部分。在线性回归模型中,参数是系数Wj。损失函数和正则化我们在对数据进行训练的时候,总是要有一个评...

2019-11-08 17:08:41 741

原创 爬虫之selenium的使用

驱动的安装:1.在http://npm.taobao.org/mirrors/chromedriver/中寻找chrome的驱动,进行安装2.windows中将chrome.exe加入环境变量中3.再把下载的chromedriver复制粘贴到你安装的python的Scripts目录下,测试是否安装成功:from selenium import webdriverbrowser = we...

2019-11-01 15:10:47 286

原创 爬虫代理的两种来源

请求头对爬虫有一定实战经验的人都知道,我们往往需要加请求头。那么为什么需要加请求头呢? 因为搜索引擎其实就是个爬虫,大部分的网页都是允许搜索引擎爬虫来进行爬取的,所以当我们模拟搜索引擎对网页进行爬取的时候就可以在某些场合下爬到数据啦。更换ip地址但有时候模拟搜索引擎进行爬取时候也会出问题,我们每一台电脑默认都只有一个唯一的ip地址,如果在同一时段内同一IP地址多次重复对某一网站进行有规律地爬...

2019-10-27 16:49:08 472

原创 爬虫提取规则之Beautiful Soup的使用

安装pip install beautifulsoup4easy_install beautifulsoup4apt-get install Python-bs4 //Debian或者ubuntu系统安装方法Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:$ apt...

2019-10-27 15:42:21 280

原创 Attention机制-一个神秘的大脑

目录基本原理图像识别语音识别研究进展总结参考文献 近期对深度学习中的Attention模型进行了深入研究,该模型在图像识别、语音识别和自然语言处理三大深度学习的热门领域均有广泛的使用,是2014和2015年深度学习领域的重要进展。现对其原理、主要应用及研究进展进行详细介绍。基本原理Attention模型最初应用于图像识别,模仿人看图像时,目光的焦点在不同的物体上移动。当神经网络对图像或语言进行识别时,每次集中于部分特征上,识别更加准确。如何衡量特征的重要性呢?最直观的方法就是权重,因此,Attent

2019-10-23 20:17:10 387

原创 爬虫提取规则之正则表达式的使用

Re模式:re.match函数re.match(pattern, string, flags=0)pattern 匹配的正则表达式string 要匹配的字符串。flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。flags做为可选值如下 • re.I(全拼:IGNORECASE): 忽略大小写(括号内是完整写法,下同) • re.M(全拼:MU...

2019-10-20 23:32:12 1104

原创 爬虫的Request库的安装和使用

requests库安装pip install requests 导入模块 import requestsget请求方式>>> r=requests.get('http://httpbin.org/post')>>> print(r)<Response [200]>返回状态码为200,则请求正常。如果想要看响应的内容,那么&...

2019-10-20 16:25:36 835 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除