�
码龄6年
关注
提问 私信
  • 博客:25,916
    25,916
    总访问量
  • 24
    原创
  • 1,656,624
    排名
  • 9
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-12-20
博客简介:

weixin_44185953的博客

查看详细资料
个人成就
  • 获得23次点赞
  • 内容获得12次评论
  • 获得34次收藏
创作历程
  • 15篇
    2019年
  • 9篇
    2018年
成就勋章
TA的专栏
  • python
    21篇
  • Redis
    1篇
  • MongDB
    1篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MongoDB常用命令

show dbs //显示所有的数据库show tables // 显示当前库的表db //显示当前库的名称use dbname //如果数据库不存在,则创建数据库,否则切换到指定数据库。db.dropDatabase() //删除当前数据库db.tablesname.drop() //删除tablesname这个表use test //使用test库db.test.insert...
原创
发布博客 2019.01.21 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis常用命令

Redis 一个内存数据库,通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中,所以访问速度非常快,因此 Redis 大量用于缓存系统,存储热点数据,可以极大的提高网站的响应速度。keys * //获取所有的键keys ab* //获取以ab开头的键exists listab //判断名为lsitab的键是否存在del listab //删除名为...
原创
发布博客 2019.01.20 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

新浪积分爬取数据存进数据库

今天爬取的网站是http://jifen.sina.com.cn/category今天遇到的两个难点是:一、通过xpath爬取img的src的属性结果是另一个图片的连接二、xpath爬取下来的内容存进mysql遇到的问题一边上代码 一边说问题import requestsimport mysql.connectorfrom lxml import etreeimport rando...
原创
发布博客 2019.01.14 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

selenium二或者三层连接爬取

今天的案例以猫眼影院为例:爬取里面各个地区,各地的电影院的所有信息url:https://maoyan.com/cinemasimport requestsfrom lxml import etreefrom selenium import webdriverfrom urllib import request,parseimport timedirver=webdriver....
原创
发布博客 2019.01.11 ·
569 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

selenium爬取B站的弹幕制作词云

B站的弹幕的api是:"https://api.bilibili.com/x/v1/dm/list.so?oid=26495963oid是视频的id这个api用谷歌的开发者工具是看不到内容的,建议都用火狐来 找apifrom selenium import webdriverfrom lxml import etreeimport requests#这个是 B站弹幕爬取url="h...
原创
发布博客 2019.01.11 ·
1057 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

selenium登录网页

如何使用selenium登录现在开始码代码from selenium import webdriverfrom lxml import etreeimport timeurl="https://www.douban.com/"# driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Desktop\phantomjs-2.1.1-...
原创
发布博客 2019.01.11 ·
941 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

selenium配合无界面浏览器

抓取必须浏览器打开的页面就要使用到selenium和无界面浏览器才能抓取到页面内容from selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keys#找到路径driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Deskt...
原创
发布博客 2019.01.07 ·
1104 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

pandas基础使用

pandas基础使用import pandas as pd#打开csv 文件 sep 分隔符一般为,# info_csv = pd.read_csv("info.csv",sep=",",encoding="gbk")#存储csv文件# info_csv.to_csv("123.csv",sep=",")#读取excel# date_excel=pd.read_excel("ab.
原创
发布博客 2019.01.07 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

bs4 爬取招聘信息

今天进行爬取招聘信息网import requestsfrom bs4 import BeautifulSoupproxy = { "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; .
原创
发布博客 2019.01.05 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

bs4 爬取招聘信息

今天进行爬取招聘信息网import requestsfrom bs4 import BeautifulSoupproxy = { "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; .
原创
发布博客 2019.01.05 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

bs4的使用

需要安装的,命令窗口: pip install bs4import requestsfrom bs4 import BeautifulSoup# 代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头headers = { 'User-Agent': 'Mozi...
原创
发布博客 2019.01.05 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

requests使用案例 爬取信用中国

信用中国 获取某公司的所有信息不过该网站容易被限制ip而且服务器性能也不好 经常出现各种bug新手要耐心尝试信用中国网址:url = “https://www.creditchina.gov.cn/api/credit_info_search?&templateId=&pageSize=10”需要多层请求爬取代码有点长 但是代码简单 耐心看能看懂写博文时 没有进行精...
原创
发布博客 2019.01.05 ·
3485 阅读 ·
2 点赞 ·
4 评论 ·
6 收藏

xpath使用

使用xpath 需要导入lxml 这个包没有装的 可以 pip install lxml我们就以 http://langlang2017.com/ 为例简单介绍一下xpath的使用import requests#从lxml中导入etree 这个就是转化页面from lxml import etree#代理ipproxy = { "HTTP": "113.3.152.88:...
原创
发布博客 2019.01.05 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

xpath使用

使用xpath 需要导入lxml 这个包没有装的 可以 pip install lxml我们就以 http://langlang2017.com/ 为例简单介绍一下xpath的使用import requests#从lxml中导入etree 这个就是转化页面from lxml import etree#代理ipproxy = { "HTTP": "113.3.152.88:...
原创
发布博客 2019.01.05 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

requests二次爬取全国邮编

全国邮编的网址:http://www.ip138.com/post/我们这次是爬取 每一个省里面的所有邮编信息这里要进行二次爬取,才能完全获取完数据.import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头信息headers={ ...
原创
发布博客 2019.01.05 ·
350 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

requests爬取扇贝单词

import requests,reproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like...
原创
发布博客 2019.01.03 ·
533 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

requests 爬取电影

今天我们就以猫眼为例import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#爬取网址url="https://maoyan.com/board"#伪装头headers={ "User-Agent": "Mo
原创
发布博客 2019.01.03 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

记录一个 scrapy 使用的bug!!!巨坑巨坑!

scrapy 配合selenium使用的注意问题今天使用scrapy 的中间件对request 进行封装!测试开始是一个网页,完美通过,然后准备大量爬!结果出来bug ,先上代码,或者其他大佬有更好的解决方法!!!!!有的请留言 让我学习一下! 关于这个scrapy框架 以后会上博客写使用详情 !##小项目是这样写:import scrapyfrom ..items import YDo...
原创
发布博客 2018.12.28 ·
759 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

requests 的session使用

0基础的人也能学会使用哦今天就用人人网登录为例子import requests#爬虫一定要使用代理 防止封IPproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#人人网登录网址login_url="http://www.renren.com/PLogin.do"#帐号密码填写自己的...
原创
发布博客 2018.12.27 ·
4113 阅读 ·
7 点赞 ·
1 评论 ·
18 收藏

requests

requests模块爬虫使用今天使用requests,爬取"http://langlang2017.com/立马上代码!#第一步使用代理#都是键值对,而且有HTTP 和HTTPS的代理import requestsproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#伪装请求头h...
原创
发布博客 2018.12.27 ·
173 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多