- 博客(51)
- 收藏
- 关注
原创 R中的数据框的操作
上述方法中,vec代表要排序的向量,df代表要排序的数据框,age代表要排序的列名。上述方法中,df代表原始的数据框,age代表要过滤的列名,18是过滤的条件。上述方法中,df代表原始的数据框,age和gender代表要选择的列名。上述方法中,vec代表要改名的向量,df代表要改名的数据框,mat代表要改名的矩阵。表示一个类型的多个变量放在一起:如果多个变量都属于同一类型,可以将它们合并成一个变量,并创建一个额外的列来标识它们。数据集应该只包含一个观察单位:数据集中的每一行记录应该代表一个唯一的观察单位。
2023-07-31 17:37:34 745
原创 R语言的基础知识
R会对存储的内部文件格式的数据进行自动压缩处理,也会存储R元数据信息。数据包含因子,日期,时间或者类的属性信息。attitude #30个部门在七个方面的调查结果,调查结果是同一部门35个职员赞成的百分比。R中,矩阵是有维数的向量,矩阵的每个元素必须都拥有相同的模式,和向量一致。列表中可以存储若干向量,矩阵,数据框,甚至其它列表的组合 混合的数据结构。BOD #随水质的提高,生化反应对氧的需求(mg/l)随时间(天)的变化。因子本身也是一个向量,它是一个集合,里面的元素有分类效果(分类)
2023-07-31 14:56:14 1321
原创 markdown的语法基础
把大象放进冰箱(有序列表):无序列表:任务列表:代码块:数学公式:∂f∂x=2ax\frac{\partial f}{\partial x} = 2\sqrt{a}x∂x∂f=2ax表格:脚注:一键三连1注释:编写一个 HTML横线:哈哈哈链接:百度引用链接:百度, 百度, 百度链接到标题:请参考标题1URL:http://www.baidu.com插入图片:斜体加粗 , 下划线,😄,θ=x2行内数公\theta = x^2 行内数公θ=x2行内数公删除线H2O 下标
2023-07-22 14:00:05 27
原创 python爬虫基础:day8
lxml是一款高新能的python html/xml解析器,我们可以利用xpath,来快速的定位特定元素以及获取节点信息。7.lxml的自动补全html以及文件访问 etree.tostring(html).decode()lxml.etree.HTML(html_str)可以自动补全标签。1,数据提取之lxml模块与xpath工具。5,xpath语法-其他常用节点选择语法。3,xpath语法--基础节点选择语法。4, xpath语法-节点修饰语法。6,lxml模块的安装与使用示例。
2023-07-20 22:19:43 661
原创 python爬虫基础:day7
返回一个模型p,具有和re一样的方法,但是传递的参数不同。规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。非贪婪模式在整个表达式匹配成功的前提下,尽可能少的匹配。贪婪模式在整个表达式匹配成功的前提下,尽可能多的匹配。使用场景:多层嵌套的复杂的字典,直接提取数据。pattern.match(从头找一个)pattern.findall(找所有)pattern.search(找一个)pattern.sub(替换)re.compile(编译)3,re模块的常见方法。
2023-07-20 16:15:04 706
原创 python爬虫基础:day6
2,方便了机器进行解析和生成,适用于进行数据交互的场景,比如web的前台和后台之间的数据交互 {"subject" : value }爬取豆瓣电视剧的英剧和美剧的数据,并分类,地址:https://m.douban.com/tv/dump直接到文件,而dumps到一个字符串,这里的s可以理解为string。我们只需要响应内容中的一部分数据。文件 -- 用json.load方法。从响应中获取我们想要的数据的过程。5,爬取豆瓣网的影视json数据。3,json模块中方法的学习。2,数据提取之json。
2023-07-19 22:02:59 812
原创 python爬虫基础:day5
为了在代码中能够正常的请求,我们使用verify=False参数,此时requests模块发送请求将不做CA证书的验证:verify参数能够忽略CA证书的认证。1,Requests只负责网络请求,不会对响应结果进行解析。1,用来检测IP代理的质量 : 一个代理IP在很长时间没有响应,那么添加超时参数,通过报错,达到筛选IP的目的。正常的网页浏览浏览过程中,如果发生速度很慢的情况,我们会点击刷新页面,那么,在代码中,我们是否也能刷新请求呢?通过指定代理ip,让代理ip对应的正向代理服务器转发我们发送的请求。
2023-07-19 16:52:15 432
原创 python爬虫基础:day4_数据存储+request高级Cookie
创建表: create table tb_books(id int primary key auto_increment,name varchar(200),price decimal(5,1),author varchar(200));服务端可以依据cookie的信息,判断你是 用游览器 访问的,还是 爬虫程序来访问。查询表指定的数据:select name from tb_books;查看表的结构: desc tb_books;使用数据库:use booksdb;
2023-07-19 14:42:31 1294
原创 python爬虫基础:Day3
soup.find('tagName',class_/id/attr='song') :通过属性定位某个节 soup.find_all('tagName') : 返回符合要求的所有节点(列表)soup.find('tagName') : 返回的是文档中第一次出现的tagName对应的节点。soup.tagName : 返回的是文档中第一次出现的tagName对应的节点。tag.text /tag.get_text() : 可以获取当前标签中所有的文本内容。tag['属性名']
2023-07-17 21:53:10 310
原创 python爬虫基础:day2
requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.html。response.content : 响应体bytes类型 #字节串,二进制串。response.text : 响应体str类型 字符串形式。response.request.headers :获取请求头。response.cookies : 响应的cookie。response.request : 获取请求对象。response.headers :响应头。
2023-07-17 16:03:42 509
原创 pytho爬虫基础:day1
URL:对网络资源地址的描述,俗称网址(参数部分从?开始,每一个参数key=value的形 式,参数与参数用&隔开)HTTPS协议:HTTP的安全版,即http中加入了ssl层,其传输的内容都是经过ssl加密的。get :从服务器上获取资源,get请求是默认的请求方式,get传参是拼接在url后面。2.聚焦网络爬虫:针对特定网页的爬虫。post传输是封装在请求体中,是不可见的。3.增量式网络爬虫:只更新改变的地方,而未改变的地方则不更新,1.通用网络爬虫:搜索引擎的爬虫。
2023-07-16 21:43:09 504
原创 web前端:15_DOM与BOM操作(上)
4,DOM操作元素属性/样式。2,DOM元素的选中方式。5,交互事件(even)3,DOM操作文本内容。
2023-07-14 16:24:43 36
原创 web前端:14_JS复习补充
ECMA Script : 简称ES,指的是JavaScript的语法版本。BOM----游览器对象模型--通过js操作游览器(弹窗,刷新)DOM----文档对象模型 --通过JS操作文档内容。ps:sort() 数组排序。
2023-07-14 11:14:13 30
原创 web前端:6_浮动布局与定位布局
ps:z-index 当元素产生上下堆叠时候,可以通过设置z-index的值,来调整谁在上面。相对定位relative(基于原来的位置进行移动)3,定位篇(position)2,浮动篇(float)浮动案例--小米商品介绍。绝对定位absolute。
2023-07-11 22:50:53 117
原创 web前端:4_盒子模型与样式排版(手机壁纸切换)
9,拓展案例--手机壁纸切换。7,边框(border)2,行内元素基础特性。8.None元素特征。
2023-07-11 16:26:51 96
怎么对某个网页中具有筛选功能的数据模块进行指定数据,然后爬取指定数据下的数据
2023-07-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人