![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
学习python
黑夜中奔跑
以梦为马 不负韶华
展开
-
python scrapy爬起招聘网站+可视化
1.创建爬虫项目scrapy startproject[项目名]使用命令创建一个爬虫:scrapy gensipder yingcaiwang "域名"运行爬虫命令scrapy crawl knowlegde (name名)2.目录结构介绍2.1 items.py:用于存放爬虫爬取下来数据的模型2.2 middlewares.py: 用于存放各种中间件的文件2.3 pipelines.py: 用于将items的模型存储到本地磁盘中.2.4 settings.py:本爬虫的一些配原创 2020-07-08 10:39:08 · 1456 阅读 · 1 评论 -
python selenium
1.Selenium是一个用于Web应用程序测试的工具.Selenium测试直接在浏览器中,就绪真正的用户才做一样,支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome等2.selenium使用场景我们前面接触到的都是request+xpath组合对静态网页镜像请求和数据解析若是JS生成的内容,可以尝试寻找API接口来获取数据但是有的时候,网页数据...原创 2020-04-28 21:18:36 · 136 阅读 · 0 评论 -
python 模拟豆瓣登录
1.我们登录豆瓣2.然后我们找到登录信息可以在下面看到你的From Date,我们可以构造一个字典,把东西传入去.就可以登录.原创 2020-04-16 10:52:09 · 533 阅读 · 0 评论 -
python 爬取Q房网信息
首先找到爬取网站https://beijing.qfang.com/newhouse/list/n1箭头点击,XPath下来你的要爬取的信息把你要爬取的信息记录下来写入代码from lxml import etreeimport requestsimport csvimport time#写一个函数# def writecsv(item):# with o...原创 2020-04-02 11:45:30 · 1787 阅读 · 0 评论 -
BeautifulSoup学习
1.BeautifulSoup是第三方的工具,它包含在一个名称为bs4的文件包中,需要另外安装,安装很简单,在命令行窗体中进入python的安装目录,在进入Scripts子目录.找到pip程序,执行:pip install bs4安装成功后在python的命令窗口中执行语句:from bs4 import BeautifulSoup没报错安装成功.HTML缺失根元素是Beautifu...原创 2020-03-26 16:08:20 · 751 阅读 · 0 评论 -
python lxml安装报错
我这里试了几种办法,希望对你有帮助我的原因是pip没有更新,开始以为是网络问题.1.在这里面用阿里的镜像,把这个复制进pip里,在cmd在下载.[global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host = mirrors.aliyun.com2.更新pip,在cmd里面输入pytho...转载 2020-03-26 09:06:51 · 1103 阅读 · 0 评论 -
python 爬虫网页信息
1.爬取京东信息2.爬取网页的信息很多网站对爬取有限制,比较隐形,查看网络头,是不是爬虫请求的,是可以拒绝的.查看头部信息,可以看到头部访问,是可以拒绝的所以我们构建键值对的,在更改头部信息.在放在url中.kv={‘user-agent’:‘Mozilla/5.0’}3.百度/360搜索关键字提交百度的关键字词接口:http://www.baidu.com/s?wd=ke...原创 2020-03-19 18:47:13 · 157 阅读 · 0 评论 -
python requests库入门
首先在cmd里面下载 pip install requests 可能会报错,百度就解决了.1.r=request.get(url) 构造一个向服务器请求资源的Request对象,返回一个包含服务器的Response对象.2.Response对象属性2.1. r.status_code HTTP请求的返回状态,200表示成功,404表示失败.2.2. r.text HTTP响应内容的字符串形...原创 2020-03-18 19:55:45 · 208 阅读 · 0 评论 -
python正则表达式
1.正则表达式正则表达式是用来匹配与查找字符串的,从网上爬取数据自然或多或少会用到正则表达式,python的正则表达式要先引入re模块,正则表达式以r引导,例如:其中**r“\d+”**正则表达式表示匹配连续的多个数值,search是re中的函数,从"abc123cd"字符串中搜索连续的数值,得到"123",返回一个匹配对象,结果如上.2.字符串"\d"匹配0~9之间的一个数值3.字符...原创 2020-03-11 17:55:33 · 82944 阅读 · 10 评论 -
python Flask(day1)
Flask是非常容易上手的python web开发框架,1.在Windows使用Flask,在cmd里面下载Flask输入pip install flask,显示successfully… flask就安装成功了,没安装成功的话就要百度了.小声说一句,我没安装成功,我是格式化了电脑.2.我使用的是pycharm编译,所以要导入flask,这个在file/settings/Projiect(你...原创 2020-03-07 20:13:41 · 122 阅读 · 0 评论 -
python连接数据库实现增删改查
1.数据库中cursor()表示对数据库的执行命令方法和返回值方法3.execute(self, query, args)用来接收sql方法,返回为受影响的行数2.连接数据库首先要在File\setting\project:Testdb\project interpreter下载pymysql包...转载 2019-11-13 10:11:28 · 225 阅读 · 0 评论 -
python echart之数据可视化项目
1.准备工作,在echarts官网下载好echart,准备好mysql数据库,可以在excel把自己所准备的数据准备好,导入mysql当中.我的数据来源于国家数据网,你也可以自己定做数据来显示,你可以更具需要做各种图形.2.在pycharm中,导入好所需模块Flask,Flask-SQLAlchemy,pymysql3.准备好数据库文件4.准备写入所需代码from flask...原创 2019-12-26 15:53:17 · 4371 阅读 · 0 评论