自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chuan er

菜鸡

原创 爬虫之数据存储总结(数据库存储待更新)

文件存储到本地 保存格式有:txt csv(表格形式,excel) json(类似字典)等 保存地点:数据库,本地 文件打开方式: r 读的方式打开文件 rb 二进制的方式读文件 通常打开一些图片音频类的文件用这个 r+ 读写的方式打开文件 rb+ 二进制读写的方...

2019-04-27 18:03:50 255 0

原创 实战--用正则re提取数据--爬取中国诗词

知识: 正则大概需要掌握的函数有: match函数 必须以字符串开头开始匹配,否则会错 search函数 可以任意从哪个字符串开始匹配 (常用) findall函数 返回所有符合正则表达式的内容,返回的是列表 (常用) compile函数 当重复使用某一个正则表达式的时候,可以先...

2019-04-26 22:59:28 316 0

原创 实战--用BeautifulSoup提取数据--中国大学排名

import requests import bs4 from bs4 import BeautifulSoup #将html文档变成更具有结构性的dom树,便于解析,提取数据 #获取html界面 def GetHtmlText(url): try: r=reques...

2019-04-26 20:06:26 82 1

原创 requests库使用

基本的库有:urllib requests 1.urllib较为复杂,麻烦。爬虫通常不使用。所以这里介绍requests。 先讲.获取资源的几种请求方法: get 方法 -------直接从服务器那里获得资源。 post方法 --------修改服务器上的资源。大多是提交表单或许...

2019-04-24 00:48:30 182 0

原创 网易云vip下载(仅供娱乐)

郑重声明:仅供娱乐,一切拿去牟利的,本作者概不负责。 话不多说上代码: #--*encoding:gbk*-- import requests import json class MyMusic(object): def __init__(self): # 设置请求头 ...

2019-04-21 22:21:31 2384 3

原创 数据挖掘之梯度下降法思想及其实现

要不是大学闲的蛋疼,没事干,我是不会来搞什么技术的。 看这玩意儿,解决了高数没曾理解的一些东西的概念。数学不好,算法难搞

2019-04-20 22:36:00 181 0

原创 千千音乐付费音乐爬取--json数据的处理

通过更换songid就可以下载不同的音乐了。 千千音乐获取songid的方法:站内搜索音乐,网址尾部数字就是。 用了网上的别人给出的获取songlink的接口:更多音乐网站接口请看: https://blog.csdn.net/weixin_43919632/article/details/88...

2019-04-17 23:37:55 555 3

转载 爬取中国城市天气--BeautifulSoup

使用到的库: 知识点: 注意点: 全代码: #--*encoding:utf-8*-- import requests from bs4 import BeautifulSoup import pyecharts """ 目标: 获得华北地区最热的前十名城市,并可视化...

2019-04-17 00:32:45 581 0

原创 大数据学习--使用到的库

urllib3 请求库 requests 请求获取资源 from bs4 import BeautifulSoup 解析库 from lxml import etree 解析库 html5lib解析库 re 正则 解析库 os 文件操作 time 时间操作 threading 线程 from...

2019-04-16 23:58:47 114 0

原创 爬虫之提取数据xpath/BeautifulSoup/css/正则(re)的基本使用

提取数据常用的三种方法: 1.xpath方法 与lxml的etree配合使用 2.BeautifulSoup 3.正则 1.xpath使用参考菜鸟教程: http://www.runoob.com/?s=xpath 2.BeautifulSoup基本使用案例: #-*encoding:utf-8 ...

2019-04-13 19:08:48 151 0

原创 requests+xpath爬取电影天堂电影信息

电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获取电影的信息 使用到的库: 请求获取资源:requests库 配合xpath使用的库:from l...

2019-04-12 21:29:20 302 0

原创 操作系统之基本特性 对并发,共享,虚拟,异步的理解

首先:进程是包括线程的 根本区别:进程是系统进行资源分配和调度的一个独立单位,而线程是cpu进行调度和执行的更小的单位。 一个程序至少有一个进程,一个进程至少有一个线程,一个进程可以同时拥有多个并行的线程。系统给进程分配内存,而这个进程里的多个线程是共享这个进程的内存空间的。本身系统是不会为线程分...

2019-04-11 14:27:26 886 0

原创 数据挖掘从入门到绝望之数据-分词

一.自然语言分析基本术语: 1.词频 2.停用词 二.分词 jieba模块的基本使用: https://github.com/fxsjy/jieba … 三.读取不同文本格式的方法: 1. 2. …

2019-04-01 09:21:01 111 0

提示
确定要删除当前文章?
取消 删除