自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 python 使用 selenium爬虫知乎回答 并保存为csv文件

实现效果关于selenium库 用途:模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本,可以有效的解决弹窗类的反扒机制。 使用:pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。关于panda库 用途:将字典转换成dataframe并更以csv的形式导出。代码from selenium import webdriver # 从selenium导入webdriverfrom selenium.web...

2021-01-01 11:19:32 1296 2

原创 2020-12-30 Py web爬虫 实践selenium库(6)

selenium库的第一个实例python 使用 selenium 爬虫知乎今日目标解决问题三,尝试利用numpy和panda库来导出csv文件问题3,写入csv文件的数据不在同一行问题3解决,不使用writerow方法,改用列表储存,最后把三个列表用字典的形式储存起来,再转化成DataFrame形式,最后用panda库的to_csv方法导出成csv文件。小总结: 使用selenium可以方便的以模拟人的形式跳过一些登录操作,还能通过其内置的方法获得页面的一些元素以webelement.

2020-12-30 19:37:57 117

原创 2020-12-29 Py web爬虫 实践selenium库(5)

selenium库的第一个实例python 使用 selenium 爬虫知乎今天目标,把知乎中的回答以 id date answer 为表头的形式保存在csv文件中。目前问题,1.answer和date的列表为63 uid的列表长度为116长度不同2.csv文件无法写入date和answer的数据...

2020-12-29 22:26:33 110

原创 2020-12-27 Py web爬虫 实践selenium库(4)

selenium库的第一个实例python 使用 selenium 爬虫知乎完善想法,在csv中以 id date answer 为表头。一个新方向,分别取出所有需要的元素 最后通过列表放在一起输出。一个问题,通过css得到的是页面所有的“class”,可不可以一个回答一个回答的取。已经可以把answer保存在csv文件中。一个新问题,分别获取的元素数量不同,且写入csv时无法一一对应。...

2020-12-27 22:24:49 75

原创 2020-12-26 Py web爬虫 实践selenium库(3)

selenium库的第一个实例python 使用 selenium 爬虫知乎一个想法,把知乎的回答以及用户id和回答日期以csv的格式存储下来一个方向,通过爬取一个回答的xpath 从中选择想要的元素 组合起来再爬取下一个回答 (变量webelement 不可拆)另一个方向, 爬取所有回答 分别取出元素再组合一起。...

2020-12-26 22:01:44 63

原创 2020-12-25 Py web爬虫 实践selenium库(2)

selenium库的第一个实例python 使用 selenium 爬虫知乎解决了登入窗口无法自动关闭的问题了解了web中元素位置的几种定位方式安装chropath浏览器插件更好找到web中xpath

2020-12-25 16:44:49 77

原创 2020-12-24 Py web爬虫 实践selenium库(1)

selenium库的第一个实例python 使用 selenium 爬虫知乎实现了爬取知乎一个问题的所有答案 并保存在txt文件中 并根据问题命名初步了解使用selenium进行web爬虫的命令和使用方法一个问题:进入页面后的登入弹窗现在只能通过手动点击才能进入 如何通过该库直接关闭弹窗...

2020-12-24 22:02:30 54

原创 2020-12-23 Py web爬虫 初识selenium库

关于selenium库用途:模拟人工打开浏览器并进行一些操作,类似于手机上的连点器和脚本。使用:pip 安装 ,下载浏览器驱动 ,给驱动配置环境 ,重启pycharm测试。

2020-12-23 23:12:07 97

原创 本地Django项目部署到云服务器 Centos +Uwsgi + Nginx + MySql 遇到问题及解决

问题在以下面的教程中遇到https://www.django.cn/article/show-4.html#banqian系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加...

2020-12-02 09:32:03 211 1

原创 mysql:ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci‘

项目场景:项目的sql文件无法导入服务器数据库 报错ERROR 1273 (HY000): Unknown collation: ‘utf8mb4_0900_ai_ci’原因分析:生成sql文件的数据库版本与导入sql文件的数据库版本不兼容解决方案:把sql文件中utf8mb4_0900_ai_ci 替换为 utf8_general_ciutf8mb4 替换为utf8 保存后再次运行sql文件,运行成功...

2020-12-02 09:02:47 411

原创 nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use) + lsof命令无法使用

项目场景:成功启动nginx后,修改配置后想重新启动报错Address already in use原因分析:80端口被占用解决方案:查找被占用的端口netstat -tln | grep 8000tcp 0 0 192.168.2.106:8000 0.0.0.0:* LISTEN 查看被占用端口的PIDsudo lsof -i:8000 COMMAND PID USER FD TYPE

2020-12-01 22:24:20 159 1

原创 uwsgi:no python application found + No module named ‘django‘ + 500(Internal server error)

项目场景:django,python3,niginx,uwsgi安装成功,服务也启动成功,但访问接口时却报500(Internal server error),uwsgi的日志显示:no python application found,No module named ‘django’问题描述:原nginx配置[uwsgi]#配置和nginx连接的socket连接socket=127.0.0.1:8080#配置项目路径,项目的所在目录chdir=/home/MyProject_P02/

2020-12-01 22:06:00 747 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除