越哥的女人-CSDN博客

原创 hadoop集群

搭建hadoop集群：vi /etc/sysconfig/network-scripts/ifcfg-eth0 修改IP地址vi /etc/sysconfig/network修改主机名vi /etc/hosts添加hostsservice network start重启网络rm -rf /etc/udev/rules.d/70-persistent-net.rules （如果ping不通...

2019-12-20 13:04:40 200

原创 Linux基础

超级用户#；普通用户$useradd test创建普通用户passwd test设置密码su test登录普通用户su root su - root登录rootcd固定到ls显示文件pwd显示当前目录mkdir创建目录touch创建文件cp复制mv移动rm删除rm -r 文件名（会有提示） rm -rf 文件名（直接删除无询问）cat、more、head、tailtai...

2019-12-17 23:39:20 98

原创 pycharm和anaconda的安装配置

ubuntu16,04中pycharm专业版，anaconda3的安装与环境配置下载pycharm的2018.2这个版本！（一定）pycharm的下载链接为http://www.jetbrains.com/pycharm/download/#section=linux安装选择专业版下载下载完之后，安装包一般在Downloads目录下，右击解压缩将解压完的文件夹移动到/usr/loca...

2019-12-01 17:07:28 291

原创 java基础

哈哈哈

2019-11-14 15:24:48 99

原创逻辑回归算法

逻辑回归的基本假设是付出伯努利分布，构造极大似然损失函数，通过梯度下降法，求解二分类问题。逻辑回归是一个分类算法，但是利用的是回归的思想，首先对样本特征线性组合，然后利用logistic函数将值映射到0-1之间，通过给定的阈值，来预测样本属于哪一类。为什么选择logistic函数：连续、可导；取值是0-1之间；中间变化比较大，两边比较平稳，容易造成梯度消失，所以在神经网络中隐层所使用的激...

2019-10-28 16:07:07 113

原创 mysql安装配置采坑

在 D盘新建mysql文件夹，下载压缩包并解压修改配置文件打开解压的文件夹（本例的配置文件位置 D:\mysql\mysql-5.7.17-winx64\），删除my-default.ini，新建一个my.inimy.ini的内容是[mysql]# 设置mysql客户端默认字符集default-character-set=utf8 [mysqld]skip-grant-...

2019-09-27 16:03:34 92

原创豆瓣电影爬取

豆瓣电影top250的爬取这个爬取相对来说比较简单，是需要分析列表页的规律，然后进入详情页即可代码如下：from urllib import requestfrom lxml import etree#构造函数，抓取第i页信息def crow(i): # 构造第i页的网址 url='https://movie.douban.com/top250?start='+str...

2019-04-01 00:14:13 752

原创继承scrapy.Spider类的糗事百科爬虫和CrawlsSpider类爬虫

response是一个<class 'scrapy.http.response.html.HtmlResponse'>对象，可以执行‘xpath’和‘css语法来提取元素’提取出来的数据是一个‘SelectorList’或者是一个‘Selector’对象，如果想要获取其中的字符串，那么应该执行getall或者get方法getall方法：获取selector中的所有文本，返回的是一...

2019-03-31 18:05:08 497

原创 tesseract的安装以及在python中的使用

下载tesseract-ocr-setup-4.00.00dev链接：https://pan.baidu.com/s/1m6ChbOWFIAp8q2sntIK9Qg提取码：npbz下载成功后点击exe文件进行安装根据提示进行安装，在出现下面的多选框时，这几个选项要选择，点击language data的加号，增加语言若需要下载识别其他语言的字符，可进入官网直接下载对应语言包，下载完成后...

2019-03-30 11:50:42 1285

原创爬取电影天堂

爬取每部电影的详细信息分析每页的url，可以得到规律是：第t页的url为： http://dytt8.net/html/gndy/dyzz/list_23_t.html于是可以先分析第一页，然后对页数进循环，就可得到所有最新电影的详细信息。from lxml import etreeheaders={ "User-Agent": "Mozilla/5.0 (Windows ...

2019-03-19 12:28:25 5182

原创 lxml.etree解析HTML文档

lxml直接解析文档etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。from lxml import etreetext=""" <p> <span class="salary">10k-20k </span> <span&gt...

2019-03-19 11:44:09 2455

原创 xpath基本语法注意点

xpath语法语法需要注意的知识点。1 /和//的区别：/代表只获取直接子节点，//获取子孙节点，一般//用的比较多，当然也要视情况而定 //@class 选择名为class的所有属性2 contains: 有时候某个属性中包含了多个值，那么可以使用‘contains’函数,实例代码如下：//div[contains(@class,'job_detai')]3 谓词中的小标...

2019-03-19 11:09:28 258

原创 XPath helper的下载安装

。在学习xpath之前需要根据自己常用的浏览器安装插件，我开发过程中用的是谷歌浏览器，所以只叙述一下XPath helper插件的安装方法直接通过在线安装的话需要下载翻墙软件比较麻烦，所以就先下载了xpath-helper.crx文件，分享链接给大家链接：https://pan.baidu.com/s/1h-HnATQ_FtU3vNZ5CjkGzg提取码：qsqr有的说可以直接打开扩展程...

2019-03-14 22:23:20 5016 2

陌路~