LubeWu-CSDN博客

原创 python 使用 selenium爬虫知乎回答并保存为csv文件

实现效果关于selenium库用途：模拟人工打开浏览器并进行一些操作，类似于手机上的连点器和脚本，可以有效的解决弹窗类的反扒机制。使用： pip 安装，下载浏览器驱动，给驱动配置环境，重启pycharm测试。关于panda库用途：将字典转换成dataframe并更以csv的形式导出。代码 from selenium import webdriver # 从selenium导入webdriver from selenium.web...

2021-01-01 11:19:32 1514 2

原创 2020-12-30 Py web爬虫实践selenium库（6）

selenium库的第一个实例 python 使用 selenium 爬虫知乎今日目标解决问题三，尝试利用numpy和panda库来导出csv文件问题3，写入csv文件的数据不在同一行问题3解决，不使用writerow方法，改用列表储存，最后把三个列表用字典的形式储存起来，再转化成DataFrame形式，最后用panda库的to_csv方法导出成csv文件。小总结：使用selenium可以方便的以模拟人的形式跳过一些登录操作，还能通过其内置的方法获得页面的一些元素以webelement.

2020-12-30 19:37:57 171

原创 2020-12-29 Py web爬虫实践selenium库（5）

selenium库的第一个实例 python 使用 selenium 爬虫知乎今天目标，把知乎中的回答以 id date answer 为表头的形式保存在csv文件中。目前问题， 1.answer和date的列表为63 uid的列表长度为116长度不同 2.csv文件无法写入date和answer的数据 ...

2020-12-29 22:26:33 187

原创 2020-12-27 Py web爬虫实践selenium库（4）

selenium库的第一个实例 python 使用 selenium 爬虫知乎完善想法，在csv中以 id date answer 为表头。一个新方向，分别取出所有需要的元素最后通过列表放在一起输出。一个问题，通过css得到的是页面所有的“class”，可不可以一个回答一个回答的取。已经可以把answer保存在csv文件中。一个新问题，分别获取的元素数量不同，且写入csv时无法一一对应。 ...

2020-12-27 22:24:49 129

原创 2020-12-26 Py web爬虫实践selenium库（3）

selenium库的第一个实例 python 使用 selenium 爬虫知乎一个想法，把知乎的回答以及用户id和回答日期以csv的格式存储下来一个方向，通过爬取一个回答的xpath 从中选择想要的元素组合起来再爬取下一个回答（变量webelement 不可拆）另一个方向，爬取所有回答分别取出元素再组合一起。 ...

2020-12-26 22:01:44 135

原创 2020-12-25 Py web爬虫实践selenium库（2）

selenium库的第一个实例 python 使用 selenium 爬虫知乎解决了登入窗口无法自动关闭的问题了解了web中元素位置的几种定位方式安装chropath浏览器插件更好找到web中xpath

2020-12-25 16:44:49 125

原创 2020-12-24 Py web爬虫实践selenium库（1）

selenium库的第一个实例 python 使用 selenium 爬虫知乎实现了爬取知乎一个问题的所有答案并保存在txt文件中并根据问题命名初步了解使用selenium进行web爬虫的命令和使用方法一个问题：进入页面后的登入弹窗现在只能通过手动点击才能进入如何通过该库直接关闭弹窗 ...

2020-12-24 22:02:30 105

原创 2020-12-23 Py web爬虫初识selenium库

关于selenium库用途：模拟人工打开浏览器并进行一些操作，类似于手机上的连点器和脚本。使用： pip 安装，下载浏览器驱动，给驱动配置环境，重启pycharm测试。

2020-12-23 23:12:07 160

原创本地Django项目部署到云服务器 Centos +Uwsgi + Nginx + MySql 遇到问题及解决

问题在以下面的教程中遇到 https://www.django.cn/article/show-4.html#banqian 系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加...

2020-12-02 09:32:03 284 1

原创 mysql:ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci‘

项目场景：项目的sql文件无法导入服务器数据库报错ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci’ 原因分析：生成sql文件的数据库版本与导入sql文件的数据库版本不兼容解决方案：把sql文件中utf8mb4_0900_ai_ci 替换为 utf8_general_ci utf8mb4 替换为utf8 保存后再次运行sql文件，运行成功 ...

2020-12-02 09:02:47 574

原创 nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use) + lsof命令无法使用

项目场景：成功启动nginx后，修改配置后想重新启动报错Address already in use 原因分析： 80端口被占用解决方案：查找被占用的端口 netstat -tln | grep 8000 tcp 0 0 192.168.2.106:8000 0.0.0.0:* LISTEN 查看被占用端口的PID sudo lsof -i:8000 COMMAND PID USER FD TYPE

2020-12-01 22:24:20 281 1

原创 uwsgi:no python application found + No module named ‘django‘ + 500（Internal server error）

项目场景： django，python3，niginx，uwsgi安装成功，服务也启动成功，但访问接口时却报500（Internal server error），uwsgi的日志显示：no python application found，No module named ‘django’ 问题描述：原nginx配置 [uwsgi] #配置和nginx连接的socket连接 socket=127.0.0.1:8080 #配置项目路径，项目的所在目录 chdir=/home/MyProject_P02/

2020-12-01 22:06:00 986 2

Lube的博客