爬虫
wendyw1999
这个作者很懒,什么都没留下…
展开
-
用Python-xpath将网页上的附件文件下载到本地 docx文档/excel等 urlretrieve
部分代码来自:https://blog.csdn.net/zzc15806/article/details/79636417简介url = “http://www.mohrss.gov.cn/ldjcj/LDJCJgongzuodongtai/201903/t20190321_312696.html”这个网站上有一个可以下载的附件,如果我们想要通过Python下载这个文件到指定的位置,注意href的后缀是.xls,可以用etree的xpath,搜所有包含.xls的a tag,再获得href就可以获取原创 2020-09-15 11:53:07 · 1187 阅读 · 0 评论 -
PDF爬取网页文档
介绍 IntroA web crawler that gets environmental reports of top companies in China一个获得社会责任报告内容的爬虫工具主要思路主要思路:已知股票代码,通过东方财富网站获得该公司的论坛主页,并获取到该公司最新一期的社会责任报告pdf。将pdf的文本转换成文本,并使用whoosh创建全文索引。搜索关键词并获得目标文字附近的文本,如果有需要可以查看pdf当页具体截图。提前准备工作/所需要的资源代码在pdf_crawl.ipy原创 2020-08-06 18:23:17 · 1093 阅读 · 0 评论 -
selenium python虚拟点击网页 爬虫翻页功能 href=javascript:void(0)怎么翻页
在爬虫翻页的时候,url是不变的,也就是说网站是通过javascript动态加载下一页的。针对这种情况,我们可以用selenium进行虚拟点击准备工作查看自己的chrome版本,在右上角三个点,Help - About Google Chrome安装和自己chrome版本相匹配的chrome driver 境内下载地址.不用纠结64还是32,都下32bit的,只有32bit。下载完zip后解压,将chromedriver.exe文件复制到Google/Chrome/App原创 2020-07-18 00:15:06 · 9712 阅读 · 0 评论 -
AttributeError: module ‘camelot‘ has no attribute ‘read_pdf‘ 解决 cv2无法下载安装解决办法
出现的问题:import camelotfile = '太钢不锈2019report.pdf'table = camelot.read_pdf(file,flavor='stream') table[0].df.to_html('temp.html')output error:---------------------------------------------------------------------------AttributeError .原创 2020-07-17 17:54:03 · 3366 阅读 · 0 评论 -
英雄联盟api 获取玩家信息,找到韩服第一, 韩服最强王者名单
初始化需要准备的:获得自己的api。如果不知道的朋友可以查看我之前写的如何获取拳头api博文安装cassiopei包:pip install cassiopei (cassiopei 是一个专门查找英雄联盟账号、对局信息的一个安装包)documentation知道自己的游戏id,或者一个你想找的选手的昵称。(游戏里的id)我们来找一下自己的信息吧!!美服是NA,韩服是KR。import randomimport cassiopeia as cassyour_key = "RGAPI原创 2020-06-03 16:21:49 · 3565 阅读 · 1 评论 -
英雄联盟拳头公司个人开发API如何注册获取 - Web-scraping爬虫
准备工作需要这下面两项东西:美服lol账号(欧服没准也可以。。。不太清楚,大家可以试一试)如果在国内 需要 vpn创建账号/登录进入拳头开发api官网:https://developer.riotgames.com/如果你有美服账号,直接点右上角登录。直接跳到下一部分如果你没有账号,选择中间的“创建账号”,在国内必须有vpn 不然不让注册。按照要求注册账号。注册完账号 需要验证邮箱。点击红色字体有下划线的verify email。进入一个类似lol的网页界面,再次点击verify原创 2020-06-03 15:27:38 · 7365 阅读 · 0 评论 -
Web Scraping爬虫 好友关系网 (1)通过BFS制作图、用Networkx 画可视化图表 关系网
文章目录初始化介绍安装包通过BFS创建一个Graph通过networkx&BFS创建graph让我们来看一下这2个graphdictionary再看一下nx做的graph好友列表的特质画图(Networkx)dictionary -> NX objectnx object -> 图表用另一个G2画个图初始化介绍今天我们爬的是一个好友关系网。原网站:[http://py4e-data.dr-chuck.net/]我们可以看到的是每个人的好友列表。好友列表里,每个好友都是一个链接原创 2020-06-02 21:24:22 · 1130 阅读 · 0 评论