自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陌路~

希望能成长的更好

  • 博客(13)
  • 收藏
  • 关注

原创 hadoop集群

搭建hadoop集群:vi /etc/sysconfig/network-scripts/ifcfg-eth0 修改IP地址vi /etc/sysconfig/network修改主机名vi /etc/hosts添加hostsservice network start重启网络rm -rf /etc/udev/rules.d/70-persistent-net.rules (如果ping不通...

2019-12-20 13:04:40 183

原创 Linux基础

超级用户#;普通用户$useradd test创建普通用户passwd test设置密码su test登录普通用户su root su - root登录rootcd固定到ls显示文件pwd显示当前目录mkdir创建目录touch创建文件cp复制mv移动rm删除rm -r 文件名(会有提示) rm -rf 文件名(直接删除无询问)cat、more、head、tailtai...

2019-12-17 23:39:20 93

原创 pycharm和anaconda的安装配置

ubuntu16,04中pycharm专业版,anaconda3的安装与环境配置下载pycharm的2018.2这个版本!(一定)pycharm的下载链接为http://www.jetbrains.com/pycharm/download/#section=linux安装选择专业版下载下载完之后,安装包一般在Downloads目录下,右击解压缩将解压完的文件夹移动到/usr/loca...

2019-12-01 17:07:28 282

原创 java基础

哈哈哈

2019-11-14 15:24:48 91

原创 逻辑回归算法

逻辑回归的基本假设是付出伯努利分布,构造极大似然损失函数,通过梯度下降法,求解二分类问题。逻辑回归是一个分类算法,但是利用的是回归的思想,首先对样本特征线性组合,然后利用logistic函数将值映射到0-1之间,通过给定的阈值,来预测样本属于哪一类。为什么选择logistic函数:连续、可导;取值是0-1之间;中间变化比较大,两边比较平稳,容易造成梯度消失,所以在神经网络中隐层所使用的激...

2019-10-28 16:07:07 104

原创 mysql安装配置采坑

在 D盘新建mysql文件夹,下载压缩包并解压修改配置文件打开解压的文件夹(本例的配置文件位置 D:\mysql\mysql-5.7.17-winx64\),删除my-default.ini,新建一个my.inimy.ini的内容是[mysql]# 设置mysql客户端默认字符集default-character-set=utf8 [mysqld]skip-grant-...

2019-09-27 16:03:34 84

原创 豆瓣电影爬取

豆瓣电影top250的爬取这个爬取相对来说比较简单,是需要分析列表页的规律,然后进入详情页即可代码如下:from urllib import requestfrom lxml import etree#构造函数,抓取第i页信息def crow(i): # 构造第i页的网址 url='https://movie.douban.com/top250?start='+str...

2019-04-01 00:14:13 740

原创 继承scrapy.Spider类的糗事百科爬虫和CrawlsSpider类爬虫

response是一个<class 'scrapy.http.response.html.HtmlResponse'>对象,可以执行‘xpath’和‘css语法来提取元素’提取出来的数据是一个‘SelectorList’或者是一个‘Selector’对象,如果想要获取其中的字符串,那么应该执行getall或者get方法getall方法:获取selector中的所有文本,返回的是一...

2019-03-31 18:05:08 490

原创 tesseract的安装以及在python中的使用

下载tesseract-ocr-setup-4.00.00dev链接:https://pan.baidu.com/s/1m6ChbOWFIAp8q2sntIK9Qg提取码:npbz下载成功后点击exe文件进行安装根据提示进行安装,在出现下面的多选框时,这几个选项要选择,点击language data的加号,增加语言若需要下载识别其他语言的字符,可进入官网直接下载对应语言包,下载完成后...

2019-03-30 11:50:42 1274

原创 爬取电影天堂

爬取每部电影的详细信息分析每页的url,可以得到规律是:第t页的url为: http://dytt8.net/html/gndy/dyzz/list_23_t.html于是可以先分析第一页,然后对页数进循环,就可得到所有最新电影的详细信息。from lxml import etreeheaders={ "User-Agent": "Mozilla/5.0 (Windows ...

2019-03-19 12:28:25 5171

原创 lxml.etree解析HTML文档

lxml直接解析文档etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。from lxml import etreetext=""" <p> <span class="salary">10k-20k </span> <span&gt...

2019-03-19 11:44:09 2445

原创 xpath基本语法注意点

xpath语法语法需要注意的知识点。1 /和//的区别:/代表只获取直接子节点,//获取子孙节点,一般//用的比较多,当然也要视情况而定 //@class 选择名为class的所有属性2 contains: 有时候某个属性中包含了多个值,那么可以使用‘contains’函数,实例代码如下://div[contains(@class,'job_detai')]3 谓词中的小标...

2019-03-19 11:09:28 247

原创 XPath helper的下载安装

。在学习xpath之前需要根据自己常用的浏览器安装插件,我开发过程中用的是谷歌浏览器,所以只叙述一下XPath helper插件的安装方法直接通过在线安装的话需要下载翻墙软件比较麻烦,所以就先下载了xpath-helper.crx文件,分享链接给大家链接:https://pan.baidu.com/s/1h-HnATQ_FtU3vNZ5CjkGzg提取码:qsqr有的说可以直接打开扩展程...

2019-03-14 22:23:20 5005 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除