自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 hgwow_update_0

000

2020-11-12 16:07:54 145

原创 tr

Requirementspython2/python3Ubuntu 16.04/Ubuntu 18.04numpyGPU版本安装说明如果对速度有要求,推荐安装GPU版本要使用GPU版本,复制tr_gpu文件夹里面的文件到tr文件夹注意: 需要先安装CUDA 10.1以及cuDNN 7.6.5docker pull mcr.microsoft.com/azureml/onnxruntime:v1.3.0-cuda10.1-cudnn7sudo nvidia-docker run -v /pa

2020-09-18 10:26:21 253

原创 neo4j

from py2neo import Graph,Node,Relationshipgraph = Graph('http://127.0.0.1:7474/',username='neo4j',password='qqq111') ##创建结点test_node_1 = Node('Arnold_Schwarzenegger',name='Arnold Schwarzenegger')...

2019-09-12 13:25:46 322

转载 知识图谱扫盲

知识图谱的表示和本质正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-value pair,又称AV...

2019-09-10 15:23:08 1013

原创 工作1

# -*- coding: utf-8 -*-"""Created on Fri Aug 23 10:33:41 2019#分词后取同义词的搜索#使用jieba分词、Synonyms同义词库#分词后同义词搜索结果比较相似度的方法@author: 崔子腾"""import pymysqlimport jiebaimport synonymsimport numpydb_s...

2019-08-27 17:20:44 236

原创 meituan

到百度首页django注册登录百度一下 百度首页 登录网页 资讯 视频 图片 知道 文库 贴吧 采购 地图 更多»找到相关资讯2篇全部资讯按焦点排序Django操作数据库实战——实现登录功能坏坏侃电影 2019年03月21日 16:577.编写登录逻辑 8.完善前端提示信息 9.测试功能 a.账号、密码正确 b.账号正确…Django操作数据库实战——实现注册功能 03-2011...

2019-08-06 10:57:35 790

原创 Django新手项目实例

1. 程序安装(1)安装Django:pip3 install django(2)配置系统环境成功安装Django后,在python目录script路径可找到django-admin.exe文件,将它加入操作系统环境变量中。这样以后调用会比较方便。运行django-admin help能看到下面的内容表示安装过程OK。2. 创建Django项目新建个文件夹,cmd进入该目录...

2019-07-30 16:24:24 60711 43

原创 douyin api

1

2019-07-24 12:10:09 1525

转载 CentOS 7编译安装Python3.7.X

在CentO S上通过编译安装Python3.7,添加python3软链,并使用python3。安装环境如下:Windows 10 ProVMWare Workstation 15 ProCentOS Linux release 7.6.1810 (Core)root权限,所有操作都是在root用户下操作安装依赖和yum更新安装Python3.7的前期准备。yum更新个人习惯,安...

2019-07-02 15:02:32 140

原创 docker打包scrapyd镜像实现批量部署

应用背景在实现分布式爬虫时,由于主机数量一般较多,使用手动安装scrapyd服务以及python环境较为繁琐又容易出现版本不一致等问题,docker对接scrapyd很好的解决了这一难题。实现过程docker的安装:1.主机端:本机使用的win10系统,在官网上下载太慢,选择https://dn-dao-github-mirror.qbox.me/docker/install/windo...

2019-07-01 16:53:45 960

原创 scrapyd部署分布式爬虫

环境安装使用scrapyd和scrapyd_client进行部署,过程为用户在客户端使用scrapyd_client将爬虫项目通过命令部署到服务器端scrapyd。1.服务器端:安装scrapyd:pip3 install scrapyd安装完成后,在python/scrips下会有一个scrapy.exe,这时cmd输入scrapyd即可启动服务,在客户端电脑上即可通过ip:680...

2019-06-28 14:14:42 275

原创 scrapy分布式爬取微博用户信息

基于之前文章https://blog.csdn.net/wojiucaonen/article/details/93516084scrapy爬取新浪微博这里只需对scrapy的settings修改一下即可将调度器的类和去重的类替换为Scrapy_redis的类:settings.pyDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDup...

2019-06-27 15:40:22 556

原创 scrapy爬取微博移动版(二)

微博爬取并发高了就不让访问,这里对接一下cookies池和代理池middlewares.py# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/topics/spider-...

2019-06-26 20:37:21 219

原创 scrapy爬取微博移动版(一)

分析页面通过对微博页面json的查看,发现:个人页面request url为 https://m.weibo.cn/profile/info?uid={uid}关注页面request url为 https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_{uid}&page={page}粉丝页...

2019-06-24 19:57:08 653

原创 搭建微博Cookies池(三)

调度模块在完成存储、cookies获取、检测等模块后,我们需要一个调度模块将不同模块在不同进程上运行起来。这里导入python自带多进程库 multiprocessing里的Process,注意这里Process要大写,有些IDE里自动补全为小写会报错。Process()的用法为:def C():print(‘我是C线程’)a=Process(target=C)a.start() ...

2019-06-21 14:01:09 322

原创 搭建微博Cookies池(二)

用flask框架搭建cookies池1.首先安装flask模块pip install flask2.代码实现在这里插入代码片from flask import Flask,gfrom cunchu import Redisclientfrom config import *app=Flask(name)@app.route(’/’) #app.route()方法设置网页路径d...

2019-06-19 18:43:51 208

原创 搭建微博Cookies池(一)

几点要素:搭建之前需要一些微博账号,这里使用接码平台自行注册。使用Redis数据库进行账号信息的存储与读取配置好webdriver Chrome的浏览器插件开始搭建1.存储模块的搭建:需要存储的内容无非就是账号,密码,cookies这三样。cookies可以存为json字符串格式在redis里,我们需要将cookies和账号对应,以及账号和密码的对应,所以在redis中我们将这两...

2019-06-18 20:41:22 1904

原创 微博登录cookie的获取和使用

首先是pc版网页cookie的获取:from selenium import webdriverimport timefrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.w...

2019-06-17 21:26:50 11990 2

原创 最新微博滑动验证码的破解

解析过程在检查页面源码时怀疑滑块和阴影是css样式造成的。于是,页面更改css样式看是否能显示背景图片。当我将<canvas class="geetest_canvas_fullbg geetest_fade geetest_absolute" height="160" width="260" style="display: none;"></canvas>将后面...

2019-06-14 17:00:47 2674

转载 WebDriverWait与条件判断expected_conditions举例

#coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import We...

2019-06-14 15:59:36 618

转载 从Redis把数据导入mysql数据库脚本

# -*- coding: utf-8 -*-import jsonimport redis # pip install redisimport pymysqldef main(): # 指定redis数据库信息 rediscli = redis.StrictRedis(host='10.15.112.29', port = 6379, db = 0) # 指...

2019-06-12 20:48:11 609

转载 CentOS7 64位安装mysql教程,亲测完美

从最新版本的linux系统开始,默认的是 Mariadb而不是mysql!这里依旧以mysql为例进行展示:先检查系统是否装有mysql如果返回空值,说明没有安装MySQL;[root@localhost ~]# rpm -qa | grep mysql这里执行安装命令是无效的,因为centos-7默认是Mariadb,所以执行以下命令只是更新Mariadb数据库; [root@local...

2019-06-12 16:04:32 160

原创 replace()和re.sub() strip() 用法

replace()语法:str.replace ( old, new, max )参数:old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串max – 可选字符串, 替换不超过 max 次例子:a='i am a pig'b=a.replace('am','was')print(a)print(b)输出结果:`i am a pigi ...

2019-06-11 14:38:18 433

转载 scrapy 爬取图片并保存

爬取煎蛋网(http://jandan.net)的图片jiandanSpider.pyimport scrapyfrom jiandan.items import JiandanItemfrom scrapy.crawler import CrawlerProcessclass jiandanSpider(scrapy.Spider): name = 'jiandan' ...

2019-06-06 16:03:24 328

原创 python分布式爬虫scrapy_redis

安装 scrapy_redispip install scrapy-redisScrapy-Redis分布式策略Master端(核心服务器) :我使用的虚拟机系统为linux,搭建一个Redis数据库,不负责爬取,只负责url指纹判重、Request的分配,以及数据的存储Slaver端(爬虫程序执行端) :我使用的win10,负责执行爬虫程序,运行过程中提交新的Request给Maste...

2019-06-05 18:16:24 358

原创 scrapy学习之使用selector选择器提取信息

习惯于使用beautifulsoup提取信息后,在学习过程中发现大佬都爱用selector选择器,所以学习一下使用选择器crapy中调用选择器的方法非常的简单,下面我们从实例中进行学习。以博客园首页的信息作为例子,演示使用选择器抓取数据,下图是首页的html信息,我们下面就是抓取标题,链接,阅读数,评论数。import scrapyfrom scrapy.selector import...

2019-06-04 15:10:20 665

原创 scrapy框架之crawlspider

spider.py# 项目名为wxapp,爬虫名为wxapp_spider.pyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom wxapp.items import WxappItem # 导入items中定义好的数据类,方便json格式写入c...

2019-06-04 14:47:46 222

原创 Scrapy框架给请求加代理ip

重写start_request方法我在Scrapy框架的Spider类中重写了start_requests方法:比较简单,只是在meta中加了一个proxy代理。使用DOWNLOAD中间件在middlewares.py中增加一个类,取名:ProxyMiddleware即代理中间件:这里的初始化方法可以忽略,是我业务上的需求,主要是看这里的process_request方法,加...

2019-05-30 15:09:32 864

原创 scrapy项目-爬取招聘网站的招聘信息

https://www.jobui.com/rank/company/我们先对这个网站做初步的观察,这样我们才能明确项目的爬取目标。打开网址后,你会发现:这是职友集网站的地区企业排行榜,里面含有本月人气企业榜、最佳口碑雇主、最多粉丝企业榜和最多评论企业榜四个榜单。点击【北京字节跳动科技有限公司】,会跳转到这家公司的详情页面,再点击【招聘】,就能看到这家公司正在招聘的所有岗位信息。初步观...

2019-05-29 14:40:37 1535 1

转载 多线程局部变量之threading.local()用法

假如,开了十个线程并且做同样的一件事,他们需要带着自己的数据进来,完成事情后带着自己的数据出去。如果是并发,同时进来,他们的数据就会混乱。一般情况,我们加锁就可以了,一个人先进来,先加锁,另一个人过来看到加锁了,就在外面等,等里面的人出来,自己进去加锁,这样就不会出现数据混乱的问题。另一种解决方法就是threading.local()来解决问题。先看下面这个现象from threading...

2019-05-28 17:10:05 306

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除