- 博客(12)
- 收藏
- 关注
原创 python 使用 selenium爬虫知乎回答 并保存为csv文件
实现效果 关于selenium库 用途: 模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本,可以有效的解决弹窗类的反扒机制。 使用: pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。 关于panda库 用途: 将字典转换成dataframe并更以csv的形式导出。 代码 from selenium import webdriver # 从selenium导入webdriver from selenium.web...
2021-01-01 11:19:32 1316 2
原创 2020-12-30 Py web爬虫 实践selenium库(6)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 今日目标解决问题三,尝试利用numpy和panda库来导出csv文件 问题3,写入csv文件的数据不在同一行 问题3解决,不使用writerow方法,改用列表储存,最后把三个列表用字典的形式储存起来,再转化成DataFrame形式,最后用panda库的to_csv方法导出成csv文件。 小总结: 使用selenium可以方便的以模拟人的形式跳过一些登录操作,还能通过其内置的方法获得页面的一些元素以webelement.
2020-12-30 19:37:57 120
原创 2020-12-29 Py web爬虫 实践selenium库(5)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 今天目标,把知乎中的回答以 id date answer 为表头的形式保存在csv文件中。 目前问题, 1.answer和date的列表为63 uid的列表长度为116长度不同 2.csv文件无法写入date和answer的数据 ...
2020-12-29 22:26:33 111
原创 2020-12-27 Py web爬虫 实践selenium库(4)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 完善想法,在csv中以 id date answer 为表头。 一个新方向,分别取出所有需要的元素 最后通过列表放在一起输出。 一个问题,通过css得到的是页面所有的“class”,可不可以一个回答一个回答的取。 已经可以把answer保存在csv文件中。 一个新问题,分别获取的元素数量不同,且写入csv时无法一一对应。 ...
2020-12-27 22:24:49 78
原创 2020-12-26 Py web爬虫 实践selenium库(3)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 一个想法,把知乎的回答以及用户id和回答日期以csv的格式存储下来 一个方向,通过爬取一个回答的xpath 从中选择想要的元素 组合起来再爬取下一个回答 (变量webelement 不可拆) 另一个方向, 爬取所有回答 分别取出元素再组合一起。 ...
2020-12-26 22:01:44 67
原创 2020-12-25 Py web爬虫 实践selenium库(2)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 解决了登入窗口无法自动关闭的问题 了解了web中元素位置的几种定位方式 安装chropath浏览器插件更好找到web中xpath
2020-12-25 16:44:49 78
原创 2020-12-24 Py web爬虫 实践selenium库(1)
selenium库的第一个实例 python 使用 selenium 爬虫知乎 实现了爬取知乎一个问题的所有答案 并保存在txt文件中 并根据问题命名 初步了解使用selenium进行web爬虫的命令和使用方法 一个问题:进入页面后的登入弹窗现在只能通过手动点击才能进入 如何通过该库直接关闭弹窗 ...
2020-12-24 22:02:30 57
原创 2020-12-23 Py web爬虫 初识selenium库
关于selenium库 用途: 模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本。 使用: pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。
2020-12-23 23:12:07 100
原创 本地Django项目部署到云服务器 Centos +Uwsgi + Nginx + MySql 遇到问题及解决
问题在以下面的教程中遇到 https://www.django.cn/article/show-4.html#banqian 系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结 前言 提示:这里可以添加...
2020-12-02 09:32:03 212 1
原创 mysql:ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci‘
项目场景: 项目的sql文件无法导入服务器数据库 报错ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci’ 原因分析: 生成sql文件的数据库版本与导入sql文件的数据库版本不兼容 解决方案: 把sql文件中utf8mb4_0900_ai_ci 替换为 utf8_general_ci utf8mb4 替换为utf8 保存后再次运行sql文件,运行成功 ...
2020-12-02 09:02:47 431
原创 nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use) + lsof命令无法使用
项目场景: 成功启动nginx后,修改配置后想重新启动报错Address already in use 原因分析: 80端口被占用 解决方案: 查找被占用的端口 netstat -tln | grep 8000 tcp 0 0 192.168.2.106:8000 0.0.0.0:* LISTEN 查看被占用端口的PID sudo lsof -i:8000 COMMAND PID USER FD TYPE
2020-12-01 22:24:20 163 1
原创 uwsgi:no python application found + No module named ‘django‘ + 500(Internal server error)
项目场景: django,python3,niginx,uwsgi安装成功,服务也启动成功,但访问接口时却报500(Internal server error),uwsgi的日志显示:no python application found,No module named ‘django’ 问题描述: 原nginx配置 [uwsgi] #配置和nginx连接的socket连接 socket=127.0.0.1:8080 #配置项目路径,项目的所在目录 chdir=/home/MyProject_P02/
2020-12-01 22:06:00 767 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人