爱遛弯的布谷
码龄5年
关注
提问 私信
  • 博客:41,567
    动态:7
    41,574
    总访问量
  • 34
    原创
  • 2,118,374
    排名
  • 44
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:重庆市
  • 加入CSDN时间: 2019-09-05
博客简介:

weixin_45609831的博客

查看详细资料
个人成就
  • 获得38次点赞
  • 内容获得21次评论
  • 获得280次收藏
  • 代码片获得1,496次分享
创作历程
  • 5篇
    2021年
  • 22篇
    2020年
  • 7篇
    2019年
成就勋章
TA的专栏
  • 爬虫
    3篇
  • Python
    9篇
  • python 数据分析与挖掘
    9篇
  • hbase
    2篇
  • Java
    10篇
  • hadoop
    1篇
  • 虚拟机
    1篇
  • markdown 笔记用法
  • javascriprt
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

scrapy模拟浏览器爬取51job(动态渲染页面爬取)

scrapy模拟浏览器爬取51job51job链接网络爬虫时,网页不止有静态页面还有动态页面,动态页面主要由JavaScript动态渲染,网络爬虫经常遇见爬取JavaScript动态渲染的页面。动态渲染页面爬取,就是模拟浏览器的运行方式,可以做到在浏览器中看到是什么内容爬取的源码就是相应的内容,实现了可见即可爬。这个方法在爬虫过程中会打开一个浏览器 加载该网页,自动操作浏览器浏览各个网页,同时也可爬取加载的页面 HTML。用一句简单 而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页
原创
发布博客 2021.09.11 ·
2535 阅读 ·
2 点赞 ·
10 评论 ·
21 收藏

scrapy框架 爬取重庆工程学院

目的:爬取重庆工程学院 中的管理学院的学院动态百度搜索重庆工程学院,看到如图所示因为我使用scarpy框架,不懂得可以看看我之前的文章(简单的理了一下步奏)
原创
发布博客 2021.09.06 ·
981 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

Python数据分析与挖掘——泰坦尼克号

Python数据分析与挖掘——泰坦尼克号本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据,通过决策树等模型来预测测试集数据乘客的生存情况#导包import numpy as npimport pandas as pdfrom sklearn.tree import DecisionTreeClassifier as DTC #决策树from sklearn.model_selection import GridSearchCV # 超参数自动搜索模块from skle
原创
发布博客 2021.09.05 ·
1576 阅读 ·
2 点赞 ·
1 评论 ·
22 收藏

XPath 详讲

xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath被开发者用来当作小型查询语言,基于XML的树状结构,用于定位元素节点、属性节点、文本节点,提供在数据结构树中找寻节点的能力。lxml库的安装lxml库是一种执行效率高并且简单易学的第三方网页解析库,是本书推荐读者必须要掌握的网页解析库。lxml库不是Python标准库,需要自行安装。可以在命令行下使用pip命令安装lxml库。pip install lxml在
原创
发布博客 2021.09.02 ·
560 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫——豆瓣电影top250

爬虫——豆瓣电影top250无论是动态网页爬虫和静态网页爬虫,实现的思路基 本上都是获取页面 html、页面解析、数据保存或输出。虽然获取页面 html 以及数据保存都 已经封装为通用函数,但依然编写繁琐。使用爬虫框架可以很好的解决这些问题,让我们在 编写爬虫的过程中专注于页面解析,大大简化编写爬虫的工作量,并能提高爬虫运行的效率。所谓的爬虫框架,是一个半成品的爬虫,已经实现了工作队列、下载器、保存处理数据 的逻辑以及日志、异常处理、反反爬虫等通用功能。对于使用者来说,更多的工作是通过更 改配置调整需要
原创
发布博客 2021.01.10 ·
1068 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

频繁项集算法实现-商品购物篮

商品购物篮购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业研究的重点问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究客户的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本章使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。购物篮关联规则挖掘主要步骤如下:1)对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。2)对原始数据进行数据预处理,转换数据形式,使之符合Apr
原创
发布博客 2020.12.18 ·
1378 阅读 ·
0 点赞 ·
2 评论 ·
9 收藏

python数据分析与挖掘——航空数据模型

航空数据模型数据探索# 导入需要的库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False plane=pd.read_excel('./航空数据.xls') #读取数据plane.head()plane.info()des=plane.
原创
发布博客 2020.12.18 ·
1127 阅读 ·
0 点赞 ·
1 评论 ·
8 收藏

决策树-红酒分析

决策树是一种非参数的有监督学习方法决策树算法的核心是要解决两个问题:1)如何从数据表中找出最佳节点和最佳分枝?2)如何让决策树停止生长,防止过拟合?不纯度越低,决策树对训练集的拟合越好Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:输入”entropy“,使用信息熵(Entropy)输入”gini“,使用基尼系数(Gini Impurity)from sklearn.tree import DecisionTreeClassifier as DT
原创
发布博客 2020.11.20 ·
4064 阅读 ·
4 点赞 ·
0 评论 ·
43 收藏

Java异常处理机制

Java异常处理机制什么是异常运行时发生的错误称为异常。处理这些异常就称为异常处理。一旦引发异常,程序将突然中止,且控制将返回操作系统。发生异常后此前分配的所有资源都将保留在相同的状态,这将导致资源漏洞。Java异常处理基础Java异常处理机制采用一个统一和相对简单的抛出和处理错误的机制。如果一个方法本身能引发异常,当所调用的方法出现异常时,调用者可以捕获异常使之得到处理;也可以回避异常,这时异常将在调用的堆栈中向下传递,直到被处理。常见异常及其用途异常处理机制Java异常机
原创
发布博客 2020.11.20 ·
751 阅读 ·
0 点赞 ·
1 评论 ·
6 收藏

hbase基本操作命令及练习

hbase基本操作命令1.命名空间list_namespace:列举所以命名空间list_namespace_tables:列举指定命名空间中的表alter_namespace:修改命名空间create_namespace:创建命名空间describe_namespace:查看指定命名空间配置drop_namespace:删除命名空间2.新建表create ‘命名空间:表名’ , ‘列族名1’ , ‘列族名2’,… , ‘列族名n’create ‘命名空间:表名’,{语法参数}
原创
发布博客 2020.11.14 ·
1465 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

熟悉常用的Linux操作 练习题

熟悉常用的Linux操作一、 实验目的为后续上机实验做准备,熟悉常用的Linux操作。二、实验平台操作系统:Linux三、实验内容和要求cd命令:切换目录(1)切换到目录 /usr/localcd /usr/local(2)去到目前的上层目录cd . .(3)回到自己的主文件夹cd ~ls命令:查看文件与目录(4)查看目录/usr下所有的文件cd /usrls -almkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在cd /
原创
发布博客 2020.11.14 ·
1730 阅读 ·
5 点赞 ·
1 评论 ·
25 收藏

伪分布式Hadoop平台搭建

伪分布式Hadoop平台搭建一、 实验目的1.掌握配置集群节点间免密登录2.掌握配置JDK3.掌握配置部署hadoop的步骤和配置相关环境文件4.掌握如何启动HDFS二、实验环境电脑+VMware虚拟机一台内存配置要求:8G及以上三、实验步骤(一)创建hadoop用户(已创建请忽略)1、创建hadoop用户[root@hadoop1 ~]# adduser hadoop//创建用户,我命名为hadoop2、修改hadoop的主机名字vim /etc/hostnamemas
原创
发布博客 2020.11.14 ·
393 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

分布式数据库HBase

分布式数据库HBaseHBase简介1.从BigTable说起BigTable是一个分布式存储系统利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据使用谷歌分布式文件系统GFS作为底层数据存储采用Chubby提供协同服务管理可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、社交网站Orkut、视频共享网站YouTube和博客网站Blogger等2.HBase简介HB
原创
发布博客 2020.11.12 ·
301 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java 面向对象 ——实现圆柱体类

java 面向对象 基础练习三种方式实现圆柱体类的设计并生成具体的圆柱体对象进行测试1,简单类(半径,高)2,类作为一个数据类型使用(底,高)3,继承(半径,高。父类是圆,子类是圆柱体)1,简单类(半径,高)package ZuoYe2_1;public class YuanZuTi { private double r;//半径 private double height;//高 final double PI=3.1415826;//常量π //构造方法 public Yu
原创
发布博客 2020.11.08 ·
7126 阅读 ·
10 点赞 ·
1 评论 ·
60 收藏

逻辑回归(一) 乳腺癌的数据集

逻辑回归回归,用于处理和预测连续型标签的算法线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。正则化L1范式表现为参数向量中的每一个参数的绝对数之和L2范式表现为参数向量中的每一个参数的平方和的开方值正则化强度逐渐增大,参数的取值会逐渐变小,L1正则化会将参数压缩为0,L2正则化只会让参数尽量小,不会取到0导入所需要的的库from sklearn.linear_model import LogisticRegressi
原创
发布博客 2020.11.06 ·
3026 阅读 ·
0 点赞 ·
0 评论 ·
17 收藏

多元线性回归——加利福尼亚房屋预测

导入需要的模块和库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号from sklearn import linear_model #导入线性模型模块model=linear_model.Lin.
原创
发布博客 2020.11.06 ·
1431 阅读 ·
2 点赞 ·
0 评论 ·
16 收藏

多元线性回归——波士顿房屋价值模型预测

波士顿房屋价值模型预测import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False from sklearn import linear_model model=linear_model.LinearRegression() 导入数据from s
原创
发布博客 2020.11.01 ·
1522 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

java基础小练习(36-40)

36.打印图形112123123412345package ZuoYe1_jt;public class ZuoYe_36 { public static void main(String[] args) { // TODO Auto-generated method stub for(int i=1;i<=5;i++) { for(int j=1;j<=i;j++) { System.out.print(j); } System.ou
原创
发布博客 2020.10.22 ·
301 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

java基础小练习(31-35)

31.打印九九乘法表,形式如下(三角形)package ZuoYe1_jt;public class ZuoYe_31 { /** *主方法:多重循环 *@param args *@return 没有返回值 */ public static void main(String[] args) { // TODO Auto-generated method stub //定义 int i;//控制外层循环 int j;//控制内层循环 //输出 System
原创
发布博客 2020.10.22 ·
325 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

java基础小练习(26-30)

26.求前50个素数的和。(素数是一个大于1且只能被1和它本身整除的整数)package ZuoYe1_jt;public class ZuoYe_26 { public static void main(String[] args) { // TODO Auto-generated method stub int x; int i; int sum=0; int count=0; for(x=2;x<=1000;x++) { //从2开始
原创
发布博客 2020.10.21 ·
152 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多