自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 Linux服务器搭建Solr

Solr介绍Solr是一个独立的企业级搜索应用服务器,它对外提供类似于WebService的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过http get操作提出查找请求,并得到XML格式的返回结果。Solr是一个高性能,采用Java 5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,它同时也实现了可配置、可扩展并对查询性能进行了优化,并且Solr还提供了一个完善的功能管理界面,是一款非常优秀的全文

2021-09-18 10:51:07 260

原创 Linux服务器配置安装JDK

配置JDK1.8是为了后期搭建Solr而准备的首先下载Linux环境下的JDK安装包,https://www.oracle.com/index.html 中下载JDK的安装文件,下载后上传到自己的服务器上首先使用rpm -qa | grep java命令查看本机上所有已经安装成功的java相关软件 或者 使用java -version来查看是否安装了JDK创建JDK路径先创建JDK的安装路径, 将安装包放入创建的路径中,tar -zxvf jdk-8u301-linux-x64.tar.gz进行.

2021-09-18 10:30:00 137

原创 Python 企查查登录(滑动验证码)

Python selenium登录企查查使用selenium模拟登录测试 仅供参考 不作任何商用import timefrom selenium import webdriverfrom selenium.webdriver import ActionChainsurl = "https://www.qcc.com/weblogin?back=%2F"driver = webdriver.Chrome()# 防止前端检测driver.execute_cdp_cmd("Page.add

2021-09-06 15:38:22 1177 1

原创 Python Selenium防检测

selenium webdriver防检测有的一些网站在使用Selenium的时候会有前端的检测,所以我们要避免这种检测。from selenium.webdriver import Chromedriver = Chrome('./chromedriver')driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { "source": """ Object.defineProperty(navigator,

2021-09-06 15:25:11 1670 1

原创 Python 爬取漫画以及JS解析

漫画屋 - 爬取所有漫画(js解析-只要有就能获取)JS解析网站大体流程(自我感觉一般都是这个流程)网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程接口分析 ----- 找到数据接口分析出必要的加密参数加密算法 ----- 通过加密的参数找到加密算法的JS代码伪造请求 ----- JS简单的话可以翻译成python代码,如果复杂可以使用nodejs、execjs等去进行调用获取数据 ----- 可以进一步的进行数据清洗以及后期扩展1. 解析网站要进行爬取的网站

2020-11-14 16:48:11 1540

原创 Python 百度地图爬虫 - 搜索数据采集

百度地图信息采集器-----含UI界面展示:数据展示:技术点:requests — 用于对页面发起请求threading — 线程库 解决了页面爬取的速度os — 创建文件以及打开指定文件xlwt — 将数据写入excel 表中pyqt5 — 解决了界面的UI需求UI界面部分代码:class FormLayout(QtWidgets.QWidget): def __init__(self): QtWidgets.QWidget.__init__(s.

2020-08-22 15:40:00 2126 7

原创 Python 爬取58同城以及解析

python爬虫——爬取58同城房屋的信息 仅供参考解析58同城的字体反爬58同城出租房屋这是爬取下来的数据:我们用谷歌浏览器右击点开查看网页源代码搜索font-face可以看到一串用base64加密的字符将这些字符粘贴下来,将这个字符进行解密并保存成ttffont_face='AAEAAAALAIAAAwAwR1NVQiCLJXoAAAE4AAAAVE9TLzL4XQjtAAABjAAAAFZjbWFwq8B/ZwAAAhAAAAIuZ2x5ZuWIN0cAAARYAAADdGhlY.

2020-07-31 17:12:17 3312

原创 Python Selenium爬取微博并登录163邮箱发送附件

使用selenium爬取微博头条标题数据,将数据写入表格中,再登录163邮箱进行发送---------------仅供参考1. 先获取微博头条的数据当打开微博点击头条时页面会自动跳转到一个空白页面,可以使用selenium中的 back() 进行后退import timefrom openpyxl import workbook # 写入Excel表所用from selenium import webdriverclass Wb_tt(): def __init__(self).

2020-07-29 21:58:32 688

原创 python中的三器一闭

python中的三器一闭1.迭代器1.1 什么是迭代1.2 什么是可迭代对象1.3 判断数据是否可迭代1.4 什么是迭代器1.5 迭代器的本质1.6 使用迭代器取数据1.7 自定义迭代器总结2.生成器2.1 创建生产器的方法2.2 关键字yield2.3 next和send总结3.装饰器3.1 装饰器的功能3.2 定义装饰器3.3 @实现的过程3.4 使用普通闭包 与 将闭包用作实现装饰器 ...

2020-04-29 15:44:33 425

原创 浏览器访问网站的流程

浏览器访问浏览器DNS体系中,查找记录,分为两种查找方式:递归查询和迭代查询。1、 递归查询:由DNS客户端发起,一级一级的向上提交查询申请,直至查询终止2、 迭代查询:一般情况下由DNS服务器之间完成,即本地DNS向上一级DNS提交查询,上级DNS并不直接返回查询结果,而是告知DNS应该向哪里去查找。...

2020-04-10 22:13:30 379

原创 TCP/UDP以及TCP长连接和短连接的优缺点

TCP长连接和短连接TCP在真正的读写操作之前,server与client之间必须建立一个连接,当读写操作完成后,双方不再需要这个连接时它们可以释放这个连接,连接的建立通过三次握手,释放则需要四次握手,所以说每个连接的建立都是需要资源消耗和时间消耗的。1. TCP/UDP的优缺点udp:面向无连接的通信协议,数据包括目的端口信息和源端口信息优点:面向无连接,操作简单,要求系统...

2020-04-09 19:27:12 1143

原创 python 创建简单的单例

python单例单例:无论如何创建 只有一对象# An highlighted block# 实例化一个单例class Singleton(object): __instance = None def __new__(cls, age, name): # 如果类属性__instance的值为None, # 那么就创建一个对象,并且赋值为这个...

2020-04-07 18:07:20 169

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除