爬虫
朴拙Python交易猿
未来互联网计算机里的操作只有两种,由AGI串联的全自动化操作,加密技术不能串联的人类特征操作。
专注交易基金ETF,QMT策略和量化交易,爬虫和数据分析。
展开
-
scarpy框架如何在crawl中正确传递自定义参数,scrapy.cmdline的execute为什么不能在while True中无限循环,execute换成crawl 方法
scrapy.cmdline的execute阻塞函数类似于subprocess 模块中的 subprocess.run() 或 subprocess.Popen()在 Python 中,execute 函数通常是指 subprocess 模块中的 subprocess.run() 或 subprocess.Popen() 函数,用于执行一个外部命令并等待其完成。当 subprocess.run() 或 subprocess.Popen() 执行完成后,程序会停止因为主程序的执行已经结束。原创 2023-03-14 12:23:58 · 731 阅读 · 0 评论 -
在职数据工程师python笔记 scrapy常用设置 自动更新 Redis去重方法 自定义启动参数 响应码与异常捕获 深度优先 scrapy日志文件系统
好处是不用写大量名字如城市不同,但代码内容相同的的文件,不用修改32个文件。修改一个文件就可以修改所有的spider可以写在配置文件里# 继承类 def __init__(self , city) : super() . __init__() self . spider_city = city from scrapy . cmdline import executeexcute scrapy crawl - a city = [ "上海" ]pipline 自动去重更新插数据库。原创 2022-12-30 09:54:31 · 330 阅读 · 0 评论 -
scrapy设置日志文件
【代码】scrapy设置日志文件。原创 2022-10-04 09:27:39 · 400 阅读 · 0 评论 -
解决TOKEN已过期,TOKEN加密的js逆向模拟
{“code”:10004,“count”:null,“data”:null,“message”:“TOKEN已过期”}’原创 2022-10-04 09:27:00 · 1678 阅读 · 0 评论 -
scrapy xpath取不到的情况,xml的网外之鱼
请求不到,必须一定要看自己现在请求的html文本,这里xpath 都是空,且别加re.S。正则,xpath都能正常请求到。完全没问题,但Scrapy中内容完全不同了。原创 2022-08-15 11:40:47 · 777 阅读 · 0 评论 -
高德地图API地址转经纬度,转的大门口还是建筑正中心?POI关键词搜索和地理编码的区别
高德POI是建筑中心,地理编码是大门口原创 2022-08-15 09:44:46 · 517 阅读 · 4 评论 -
python 用正则表达式查找 多线程增删改查 MongoDB数据库 全网最高效增删改查mongodb
$regex是mongodb正则用法原创 2022-08-12 17:38:49 · 459 阅读 · 0 评论 -
scrapy贝壳小区均价数据爬取
scrapy爬取原创 2022-08-12 10:45:06 · 630 阅读 · 1 评论 -
Scrapy中使用xpath()如何多次xpath提取到想要的内容?
Selector()转化原创 2022-08-10 09:14:45 · 643 阅读 · 0 评论 -
基于车联网数据Kmean聚类的司机类型预测
车联网原创 2022-07-13 20:31:22 · 677 阅读 · 0 评论 -
气象数据爬取(全国温室数据系统)爬虫及逻辑回归
明确爬虫需求爬取网站:全国温室数据系统爬取字段:平均气温 相对湿度 风速 日照时数已知字段:代谢率h 吸收情况a 高度角cos∂ 单位照射R计算字段:温湿指数 风寒指数 着衣指数 综合指数甘肃省2000-2019年夏季6.7.8月的数据 利用气温,风速,日照时数,相对湿度对温湿指数,风寒指数,着衣指数,旅游气候舒适度进行计算。diqu={"马鬃山":"52323","鼎新":"52446","敦煌":"52418","玉门镇":"52436","张掖":"52652","永昌":"52674原创 2021-08-28 13:38:08 · 2112 阅读 · 2 评论 -
高校专家数据爬虫 专家查查https://zjchacha.cn/
专家查查:https://zjchacha.cn/ 页面介绍专家查查:https://zjchacha.cn/外页面接口:![image.png](attachment:image.png)https://api.zjchacha.cn/api/s?callback=resultcallback&q=%E5%8D%8E%E4%B8%AD%E5%B8%88%E8%8C%83%E5%A4%A7%E5%AD%A6&range=all&honor=&h=-1&原创 2021-06-19 10:44:09 · 1577 阅读 · 0 评论 -
Python 爬取留言板留言(全网最少代码!多线程+selenium+Xpath)
第一部分造网址import requests,pandas as pd,numpy as np,re,time,jsonfrom lxml import etreeres1=requests.get('http://liuyan.people.com.cn/forum/list?fid=41')res=requests.get('http://liuyan.people.com.cn/threads/content?tid=9548781')html=etree.HTML(res.text)原创 2021-03-21 22:06:56 · 1727 阅读 · 10 评论 -
万方表面数据爬取
import requests,pandas as pd,time,re,json,randomfrom lxml import etreefrom fake_useragent import UserAgentD=['上海','南京','无锡','常州','苏州','南通','扬州','镇江','盐城','泰州']L=['杭州','宁波','温州','湖州','嘉兴','绍兴','金华','舟山','台州']K=['合肥','芜湖','马鞍山','铜陵','安庆','滁州','池州','宣城'原创 2021-01-15 12:59:36 · 4945 阅读 · 1 评论