日志
文章平均质量分 55
LubeWu
这个作者很懒,什么都没留下…
展开
-
python 使用 selenium爬虫知乎回答 并保存为csv文件
实现效果关于selenium库 用途:模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本,可以有效的解决弹窗类的反扒机制。 使用:pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。关于panda库 用途:将字典转换成dataframe并更以csv的形式导出。代码from selenium import webdriver # 从selenium导入webdriverfrom selenium.web...原创 2021-01-01 11:19:32 · 1380 阅读 · 2 评论 -
2020-12-30 Py web爬虫 实践selenium库(6)
selenium库的第一个实例python 使用 selenium 爬虫知乎今日目标解决问题三,尝试利用numpy和panda库来导出csv文件问题3,写入csv文件的数据不在同一行问题3解决,不使用writerow方法,改用列表储存,最后把三个列表用字典的形式储存起来,再转化成DataFrame形式,最后用panda库的to_csv方法导出成csv文件。小总结: 使用selenium可以方便的以模拟人的形式跳过一些登录操作,还能通过其内置的方法获得页面的一些元素以webelement.原创 2020-12-30 19:37:57 · 125 阅读 · 0 评论 -
2020-12-29 Py web爬虫 实践selenium库(5)
selenium库的第一个实例python 使用 selenium 爬虫知乎今天目标,把知乎中的回答以 id date answer 为表头的形式保存在csv文件中。目前问题,1.answer和date的列表为63 uid的列表长度为116长度不同2.csv文件无法写入date和answer的数据...原创 2020-12-29 22:26:33 · 134 阅读 · 0 评论 -
2020-12-27 Py web爬虫 实践selenium库(4)
selenium库的第一个实例python 使用 selenium 爬虫知乎完善想法,在csv中以 id date answer 为表头。一个新方向,分别取出所有需要的元素 最后通过列表放在一起输出。一个问题,通过css得到的是页面所有的“class”,可不可以一个回答一个回答的取。已经可以把answer保存在csv文件中。一个新问题,分别获取的元素数量不同,且写入csv时无法一一对应。...原创 2020-12-27 22:24:49 · 85 阅读 · 0 评论 -
2020-12-26 Py web爬虫 实践selenium库(3)
selenium库的第一个实例python 使用 selenium 爬虫知乎一个想法,把知乎的回答以及用户id和回答日期以csv的格式存储下来一个方向,通过爬取一个回答的xpath 从中选择想要的元素 组合起来再爬取下一个回答 (变量webelement 不可拆)另一个方向, 爬取所有回答 分别取出元素再组合一起。...原创 2020-12-26 22:01:44 · 91 阅读 · 0 评论 -
2020-12-24 Py web爬虫 实践selenium库(1)
selenium库的第一个实例python 使用 selenium 爬虫知乎实现了爬取知乎一个问题的所有答案 并保存在txt文件中 并根据问题命名初步了解使用selenium进行web爬虫的命令和使用方法一个问题:进入页面后的登入弹窗现在只能通过手动点击才能进入 如何通过该库直接关闭弹窗...原创 2020-12-24 22:02:30 · 67 阅读 · 0 评论 -
2020-12-23 Py web爬虫 初识selenium库
关于selenium库用途:模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本。使用:pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。原创 2020-12-23 23:12:07 · 106 阅读 · 0 评论