破法者之终结-CSDN博客

Requirementspython2/python3Ubuntu 16.04/Ubuntu 18.04numpyGPU版本安装说明如果对速度有要求，推荐安装GPU版本要使用GPU版本，复制tr_gpu文件夹里面的文件到tr文件夹注意: 需要先安装CUDA 10.1以及cuDNN 7.6.5docker pull mcr.microsoft.com/azureml/onnxruntime:v1.3.0-cuda10.1-cudnn7sudo nvidia-docker run -v /pa

2020-09-18 10:26:21 307

原创 neo4j

from py2neo import Graph,Node,Relationshipgraph = Graph('http://127.0.0.1:7474/',username='neo4j',password='qqq111') ##创建结点test_node_1 = Node('Arnold_Schwarzenegger',name='Arnold Schwarzenegger')...

2019-09-12 13:25:46 373

转载知识图谱扫盲

知识图谱的表示和本质正如Google的辛格博士在介绍知识图谱时提到的：“The world is not made of strings , but is made of things.”，知识图谱旨在描述真实世界中存在的各种实体或概念。其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个属性-值对(attribute-value pair，又称AV...

2019-09-10 15:23:08 1080

原创工作1

# -*- coding: utf-8 -*-"""Created on Fri Aug 23 10:33:41 2019#分词后取同义词的搜索#使用jieba分词、Synonyms同义词库#分词后同义词搜索结果比较相似度的方法@author: 崔子腾"""import pymysqlimport jiebaimport synonymsimport numpydb_s...

2019-08-27 17:20:44 270

原创 meituan

到百度首页django注册登录百度一下百度首页登录网页资讯视频图片知道文库贴吧采购地图更多»找到相关资讯2篇全部资讯按焦点排序Django操作数据库实战——实现登录功能坏坏侃电影 2019年03月21日 16:577.编写登录逻辑 8.完善前端提示信息 9.测试功能 a.账号、密码正确 b.账号正确…Django操作数据库实战——实现注册功能 03-2011...

2019-08-06 10:57:35 855

原创 Django新手项目实例

1. 程序安装（1）安装Django：pip3 install django（2）配置系统环境成功安装Django后，在python目录script路径可找到django-admin.exe文件，将它加入操作系统环境变量中。这样以后调用会比较方便。运行django-admin help能看到下面的内容表示安装过程OK。2. 创建Django项目新建个文件夹，cmd进入该目录...

2019-07-30 16:24:24 61346 43

原创 douyin api

1

2019-07-24 12:10:09 1609

转载 CentOS 7编译安装Python3.7.X

在CentO S上通过编译安装Python3.7，添加python3软链，并使用python3。安装环境如下：Windows 10 ProVMWare Workstation 15 ProCentOS Linux release 7.6.1810 (Core)root权限,所有操作都是在root用户下操作安装依赖和yum更新安装Python3.7的前期准备。yum更新个人习惯，安...

2019-07-02 15:02:32 170

原创 docker打包scrapyd镜像实现批量部署

应用背景在实现分布式爬虫时，由于主机数量一般较多，使用手动安装scrapyd服务以及python环境较为繁琐又容易出现版本不一致等问题，docker对接scrapyd很好的解决了这一难题。实现过程docker的安装：1.主机端：本机使用的win10系统，在官网上下载太慢，选择https://dn-dao-github-mirror.qbox.me/docker/install/windo...

2019-07-01 16:53:45 1072

原创 scrapyd部署分布式爬虫

环境安装使用scrapyd和scrapyd_client进行部署，过程为用户在客户端使用scrapyd_client将爬虫项目通过命令部署到服务器端scrapyd。1.服务器端：安装scrapyd：pip3 install scrapyd安装完成后，在python/scrips下会有一个scrapy.exe，这时cmd输入scrapyd即可启动服务，在客户端电脑上即可通过ip:680...

2019-06-28 14:14:42 312

原创 scrapy分布式爬取微博用户信息

基于之前文章https://blog.csdn.net/wojiucaonen/article/details/93516084scrapy爬取新浪微博这里只需对scrapy的settings修改一下即可将调度器的类和去重的类替换为Scrapy_redis的类：settings.pyDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDup...

2019-06-27 15:40:22 617

原创 scrapy爬取微博移动版（二）

微博爬取并发高了就不让访问，这里对接一下cookies池和代理池middlewares.py# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/topics/spider-...

2019-06-26 20:37:21 262

原创 scrapy爬取微博移动版（一）

分析页面通过对微博页面json的查看，发现：个人页面request url为 https://m.weibo.cn/profile/info?uid={uid}关注页面request url为 https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_{uid}&page={page}粉丝页...

2019-06-24 19:57:08 725

原创搭建微博Cookies池（三）

调度模块在完成存储、cookies获取、检测等模块后，我们需要一个调度模块将不同模块在不同进程上运行起来。这里导入python自带多进程库 multiprocessing里的Process,注意这里Process要大写，有些IDE里自动补全为小写会报错。Process（）的用法为：def C():print(‘我是C线程’)a=Process(target=C)a.start() ...

2019-06-21 14:01:09 372

原创搭建微博Cookies池（二）

用flask框架搭建cookies池1.首先安装flask模块pip install flask2.代码实现在这里插入代码片from flask import Flask,gfrom cunchu import Redisclientfrom config import *app=Flask(name)@app.route(’/’) #app.route()方法设置网页路径d...

2019-06-19 18:43:51 265

原创搭建微博Cookies池（一）

几点要素：搭建之前需要一些微博账号，这里使用接码平台自行注册。使用Redis数据库进行账号信息的存储与读取配置好webdriver Chrome的浏览器插件开始搭建1.存储模块的搭建：需要存储的内容无非就是账号，密码，cookies这三样。cookies可以存为json字符串格式在redis里，我们需要将cookies和账号对应，以及账号和密码的对应，所以在redis中我们将这两...

2019-06-18 20:41:22 2017

原创微博登录cookie的获取和使用

首先是pc版网页cookie的获取：from selenium import webdriverimport timefrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.w...

2019-06-17 21:26:50 12477 2

原创最新微博滑动验证码的破解

解析过程在检查页面源码时怀疑滑块和阴影是css样式造成的。于是，页面更改css样式看是否能显示背景图片。当我将<canvas class="geetest_canvas_fullbg geetest_fade geetest_absolute" height="160" width="260" style="display: none;"></canvas>将后面...

2019-06-14 17:00:47 2812

转载 WebDriverWait与条件判断expected_conditions举例

#coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import We...

2019-06-14 15:59:36 649

转载从Redis把数据导入mysql数据库脚本

# -*- coding: utf-8 -*-import jsonimport redis # pip install redisimport pymysqldef main(): # 指定redis数据库信息 rediscli = redis.StrictRedis(host='10.15.112.29', port = 6379, db = 0) # 指...

2019-06-12 20:48:11 653

转载 CentOS7 64位安装mysql教程，亲测完美

从最新版本的linux系统开始，默认的是 Mariadb而不是mysql！这里依旧以mysql为例进行展示:先检查系统是否装有mysql如果返回空值，说明没有安装MySQL；[root@localhost ~]# rpm -qa | grep mysql这里执行安装命令是无效的，因为centos-7默认是Mariadb，所以执行以下命令只是更新Mariadb数据库； [root@local...

2019-06-12 16:04:32 189

原创 replace()和re.sub() strip() 用法

replace()语法：str.replace ( old, new, max )参数：old – 将被替换的子字符串。new – 新字符串，用于替换old子字符串max – 可选字符串, 替换不超过 max 次例子：a='i am a pig'b=a.replace('am','was')print(a)print(b)输出结果：`i am a pigi ...

2019-06-11 14:38:18 498

转载 scrapy 爬取图片并保存

爬取煎蛋网(http://jandan.net)的图片jiandanSpider.pyimport scrapyfrom jiandan.items import JiandanItemfrom scrapy.crawler import CrawlerProcessclass jiandanSpider(scrapy.Spider): name = 'jiandan' ...

2019-06-06 16:03:24 370

原创 python分布式爬虫scrapy_redis

安装 scrapy_redispip install scrapy-redisScrapy-Redis分布式策略Master端(核心服务器) ：我使用的虚拟机系统为linux，搭建一个Redis数据库，不负责爬取，只负责url指纹判重、Request的分配，以及数据的存储Slaver端(爬虫程序执行端) ：我使用的win10，负责执行爬虫程序，运行过程中提交新的Request给Maste...

2019-06-05 18:16:24 415

原创 scrapy学习之使用selector选择器提取信息

习惯于使用beautifulsoup提取信息后，在学习过程中发现大佬都爱用selector选择器，所以学习一下使用选择器crapy中调用选择器的方法非常的简单，下面我们从实例中进行学习。以博客园首页的信息作为例子，演示使用选择器抓取数据，下图是首页的html信息，我们下面就是抓取标题，链接，阅读数，评论数。import scrapyfrom scrapy.selector import...

2019-06-04 15:10:20 720

原创 scrapy框架之crawlspider

spider.py# 项目名为wxapp，爬虫名为wxapp_spider.pyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom wxapp.items import WxappItem # 导入items中定义好的数据类，方便json格式写入c...

2019-06-04 14:47:46 258

原创 Scrapy框架给请求加代理ip

重写start_request方法我在Scrapy框架的Spider类中重写了start_requests方法：比较简单，只是在meta中加了一个proxy代理。使用DOWNLOAD中间件在middlewares.py中增加一个类，取名：ProxyMiddleware即代理中间件：这里的初始化方法可以忽略，是我业务上的需求，主要是看这里的process_request方法，加...

2019-05-30 15:09:32 917

原创 scrapy项目-爬取招聘网站的招聘信息

https://www.jobui.com/rank/company/我们先对这个网站做初步的观察，这样我们才能明确项目的爬取目标。打开网址后，你会发现：这是职友集网站的地区企业排行榜，里面含有本月人气企业榜、最佳口碑雇主、最多粉丝企业榜和最多评论企业榜四个榜单。点击【北京字节跳动科技有限公司】，会跳转到这家公司的详情页面，再点击【招聘】，就能看到这家公司正在招聘的所有岗位信息。初步观...

2019-05-29 14:40:37 1665 1

转载多线程局部变量之threading.local()用法

假如，开了十个线程并且做同样的一件事，他们需要带着自己的数据进来，完成事情后带着自己的数据出去。如果是并发，同时进来，他们的数据就会混乱。一般情况，我们加锁就可以了，一个人先进来，先加锁，另一个人过来看到加锁了，就在外面等，等里面的人出来，自己进去加锁，这样就不会出现数据混乱的问题。另一种解决方法就是threading.local()来解决问题。先看下面这个现象from threading...

2019-05-28 17:10:05 369

wojiucaonen的博客

原创 hgwow_update_0

原创 tr