原创 2022数据处理
数据处理 : 算子 map filter groupby apply 数据切片 pandas : 1.官网 https://pandas.pydata.org/ 2.概述: pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, 【pandas就是一个数据分析的工具】 3.编程模型【数据类型】 1.Series 2.DataFrame 1.Series 1.
2022-04-10 12:52:08 50
原创 机器学习简介
机器学习: 1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas 2.机器学习里面的常用术语 : 1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的 色泽= 红色 、根=弯曲
2022-04-10 12:50:48 57
原创 爬虫的框架
爬虫的框架: scrap : An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way. 1.开源的爬虫框架 2.快速、简单、高效的方式 2.安装部署 3.基本使用 1.创建一个项目 scrapy startproject test_scrapy 1.项目目录: 1.scrapy.cfg 【项目的
2022-04-10 12:49:35 1202
原创 python爬虫
爬虫: 1.百度百科 2.自己理解: 通过代码、模拟浏览器上网 然后抓取数据的过程 2.爬虫是否合法? 1.法律允许 2.有法律风险的 3.统一规定? 【法律界限】 robots.txt协议 4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 2.获取一整张页面 部分数据 【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】 5.爬虫的规则: 1.反爬策略: 门户网站 通过 技术手段 防止爬虫程序对页面爬取数据 2.反 反爬策略 爬虫程序 通过 技术手段 对页面爬取数据 http 与ht
2022-04-10 12:48:08 641
