weixin_45906368-CSDN博客

原创 R中的数据框的操作

上述方法中，vec代表要排序的向量，df代表要排序的数据框，age代表要排序的列名。上述方法中，df代表原始的数据框，age代表要过滤的列名，18是过滤的条件。上述方法中，df代表原始的数据框，age和gender代表要选择的列名。上述方法中，vec代表要改名的向量，df代表要改名的数据框，mat代表要改名的矩阵。表示一个类型的多个变量放在一起：如果多个变量都属于同一类型，可以将它们合并成一个变量，并创建一个额外的列来标识它们。数据集应该只包含一个观察单位：数据集中的每一行记录应该代表一个唯一的观察单位。

2023-07-31 17:37:34 1138

原创 python爬虫基础：day9

【代码】python爬虫基础：day9。

2023-07-31 14:57:09 627

原创 R语言的基础知识

R会对存储的内部文件格式的数据进行自动压缩处理，也会存储R元数据信息。数据包含因子，日期，时间或者类的属性信息。attitude #30个部门在七个方面的调查结果，调查结果是同一部门35个职员赞成的百分比。R中，矩阵是有维数的向量，矩阵的每个元素必须都拥有相同的模式，和向量一致。列表中可以存储若干向量，矩阵，数据框，甚至其它列表的组合混合的数据结构。BOD #随水质的提高，生化反应对氧的需求（mg/l）随时间（天）的变化。因子本身也是一个向量，它是一个集合，里面的元素有分类效果(分类)

2023-07-31 14:56:14 2344

原创 R中的arrow库的操作

integer_arr uint_arr

2023-07-29 17:21:51 2439

原创 mysql基础知识-正则表达式

【代码】mysql基础知识-正则表达式。

2023-07-22 23:05:16 253

原创 mysql基本查询知识

【代码】mysql基本查询知识。

2023-07-22 23:02:43 89

原创 markdown的语法基础

把大象放进冰箱（有序列表）：无序列表：任务列表：代码块：数学公式：∂f∂x=2ax\frac{\partial f}{\partial x} = 2\sqrt{a}x∂x∂f=2ax表格：脚注：一键三连1注释：编写一个 HTML横线：哈哈哈链接：百度引用链接：百度, 百度, 百度链接到标题：请参考标题1URL:http://www.baidu.com插入图片：斜体加粗 , 下划线，😄,θ=x2行内数公\theta = x^2 行内数公θ=x2行内数公删除线H2O 下标

2023-07-22 14:00:05 114

原创 python爬虫基础：day8

lxml是一款高新能的python html/xml解析器，我们可以利用xpath，来快速的定位特定元素以及获取节点信息。7.lxml的自动补全html以及文件访问 etree.tostring(html).decode()lxml.etree.HTML(html_str)可以自动补全标签。1,数据提取之lxml模块与xpath工具。5,xpath语法-其他常用节点选择语法。3，xpath语法--基础节点选择语法。4， xpath语法-节点修饰语法。6,lxml模块的安装与使用示例。

2023-07-20 22:19:43 758

原创 python爬虫基础：day7

返回一个模型p，具有和re一样的方法，但是传递的参数不同。规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配。使用场景：多层嵌套的复杂的字典，直接提取数据。pattern.match（从头找一个）pattern.findall（找所有）pattern.search（找一个）pattern.sub（替换）re.compile（编译）3，re模块的常见方法。

2023-07-20 16:15:04 762

原创 python爬虫基础：day6

2,方便了机器进行解析和生成，适用于进行数据交互的场景，比如web的前台和后台之间的数据交互 {"subject" : value }爬取豆瓣电视剧的英剧和美剧的数据，并分类，地址：https://m.douban.com/tv/dump直接到文件，而dumps到一个字符串，这里的s可以理解为string。我们只需要响应内容中的一部分数据。文件 -- 用json.load方法。从响应中获取我们想要的数据的过程。5,爬取豆瓣网的影视json数据。3,json模块中方法的学习。2,数据提取之json。

2023-07-19 22:02:59 882

原创 python爬虫基础：day5

为了在代码中能够正常的请求，我们使用verify=False参数，此时requests模块发送请求将不做CA证书的验证：verify参数能够忽略CA证书的认证。1，Requests只负责网络请求，不会对响应结果进行解析。1,用来检测IP代理的质量 : 一个代理IP在很长时间没有响应，那么添加超时参数，通过报错，达到筛选IP的目的。正常的网页浏览浏览过程中，如果发生速度很慢的情况，我们会点击刷新页面，那么，在代码中，我们是否也能刷新请求呢？通过指定代理ip，让代理ip对应的正向代理服务器转发我们发送的请求。

2023-07-19 16:52:15 524

原创 python爬虫基础：day4_数据存储+request高级Cookie

创建表： create table tb_books(id int primary key auto_increment,name varchar(200),price decimal(5,1),author varchar(200));服务端可以依据cookie的信息，判断你是用游览器访问的，还是爬虫程序来访问。查询表指定的数据：select name from tb_books;查看表的结构： desc tb_books;使用数据库：use booksdb;

2023-07-19 14:42:31 1996

原创 python爬虫基础：Day3

soup.find('tagName',class_/id/attr='song') ：通过属性定位某个节 soup.find_all('tagName') ：返回符合要求的所有节点（列表）soup.find('tagName') ：返回的是文档中第一次出现的tagName对应的节点。soup.tagName : 返回的是文档中第一次出现的tagName对应的节点。tag.text /tag.get_text() ：可以获取当前标签中所有的文本内容。tag['属性名']

2023-07-17 21:53:10 352

原创 python爬虫基础：day2

requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.html。response.content ：响应体bytes类型 #字节串，二进制串。response.text ：响应体str类型字符串形式。response.request.headers :获取请求头。response.cookies ：响应的cookie。response.request : 获取请求对象。response.headers ：响应头。

2023-07-17 16:03:42 582

原创 pytho爬虫基础：day1

URL：对网络资源地址的描述，俗称网址（参数部分从?开始，每一个参数key=value的形式，参数与参数用&隔开）HTTPS协议：HTTP的安全版，即http中加入了ssl层，其传输的内容都是经过ssl加密的。get ：从服务器上获取资源，get请求是默认的请求方式，get传参是拼接在url后面。2.聚焦网络爬虫：针对特定网页的爬虫。post传输是封装在请求体中，是不可见的。3.增量式网络爬虫：只更新改变的地方，而未改变的地方则不更新，1.通用网络爬虫：搜索引擎的爬虫。

2023-07-16 21:43:09 546