python
文章平均质量分 60
若小鱼
这个作者很懒,什么都没留下…
展开
-
【python】我用python抓取了19个一线城市三年的房价数据,并做了走势分析
这三年,承载我们无数梦想、牵动无数人心弦的房价在一座城市如何一路走来,未来又将走向何处?原创 2022-07-15 17:15:01 · 2863 阅读 · 7 评论 -
使用python统计《三国演义》人物词频,看看罗贯中笔下谁的出场次数最多
使用分词算法统计《三国演义》人物词频,看看谁是罗贯中心中最靓的仔。谁才是《三国演义》中出场次数最多的人。重新优化的其他案例的统计逻辑原创 2022-05-18 10:46:04 · 10172 阅读 · 14 评论 -
python语言实现电脑重复文件清理程序
最近电脑部分盘文件太多,且有些杂乱,想清理一下。考虑到办公电脑涉及到工作文件敏感性,遂决定用python自己写个简单的程序清理一下。代码如下import osimport globimport filecmpif __name__ == '__main__': # dir_path = r'F:\testsame' print("请输入要清理的文件夹路径,如F:\\test,慎重起见,请不要输入安装目录C:\\") dir_path = input() if di原创 2021-11-16 18:21:38 · 562 阅读 · 0 评论 -
【机器学习】笔记 4、KNN+交叉验证
KNN分类模型概念:简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor ,KNN)k值的作用欧几里得距离在scikit-learn库中使用k-近邻算法 # 鸢尾花分类实现import sklearn.datasets as dsfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_split原创 2021-08-06 15:19:18 · 4439 阅读 · 0 评论 -
【机器学习】笔记 3、sklearn的数据集
sklearn的数据集数据集划分训练集:训练模型测试集:评估模型数据集划分的APIfrom sklearn.model_selection import train_test_splittrain_test_split(x,y,test_size,random_state)参数介绍x:特征y:目标test_size:测试集的比例random_state:打乱的随机种子返回值:训练特征,测试特征,训练目标,测试目标数据集接口介绍sklearn.datasets.lo原创 2021-08-06 15:03:58 · 345 阅读 · 0 评论 -
【机器学习】笔记 2、特征工程
特征工程特征抽取 数据特征的预处理 特征选择 为什么需要特征工程 样本数据中的特征有可能会存在缺失值i,重复值,异常值等等,那么我们是需要对特征中的相关的噪点数据进行处理的,那么处理的目的就是为了营造出一个更纯净的样本集,让模型基于这组数据可以有更好的预测能力。当然特征工程不单单只是处理上述操作! 什么是特征工程 特征工程的意义 直接影响模型预测的结果 如何实现特征工程 工具-sklearn sklearn介绍 是python语言中的机器学习工具,包含了很多知名的机器学原创 2021-08-06 14:39:29 · 334 阅读 · 0 评论 -
【机器学习】笔记 1、概述
什么是机器学习 官方解释 机器学习就是从【数据】中自动分析获得【规律(模型)】,并利用规律对未知数据进行【预测】的算法 模型 算法模型,是一个特殊的对象。该算法模型对象中已经纪衡或者封装好了某种形式的方程/算法。(还没有求出解的方程) 模型的作用 预测 分类 (注意:算法模型对应的算法或者方程求出的解就是预测或者分类的结果) 样本数据 模型的训练:将样本数据带入到模型中,对其进行训练(给方程进行求解操作),模型训练好以后,则模型原创 2021-08-06 12:00:46 · 273 阅读 · 0 评论 -
python爬取豆瓣书籍、电影等搜索结果,并解析html转成json格式
本文以豆瓣首页搜索图书、电影等结果页面为例,使用python的BeautifulSoup解析页面内标题、作者、出版社、评分、简介、缩略图等内容,并转成json格式进行存储。声明:本文仅作学习python对html解析方法的交流使用,不针对特定网站。首先我们通过豆瓣首页搜索python,点击书籍的分类,F12查看页面元素。我们通过CTR+F 查询到页面中搜索的结果都在result-list下的<div class="result">标签中。所以下面我们的思路就是循环取出该标签,并提取相原创 2021-06-11 12:43:13 · 1578 阅读 · 1 评论 -
使用python爬取图片写入文件夹,附urllib.error.HTTPError: HTTP Error 403: Forbidden问题解决
今天尝试通过python将图片url下载并写入文件夹,一开始我直接使用urllib包下的request,没有使用User-Agent请求头,结果爬取过程中报错,提示:urllib.error.HTTPError: HTTP Error 403: Forbidden。in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp)初步分析,应该是因为网站采取的反爬虫手段,导致爬取失败。后又尝试使用requests的get原创 2021-06-08 18:59:43 · 1358 阅读 · 0 评论 -
python将dict数据写入json时中文字符串为ASCII编码问题
在将一个字典数据写入json时,发现全部为ASCII编码代码如下# 结果处理成字典data = []for i in range(0,len(title)): dict = {"title":title[i],"summary":summary[i]} data.append(dict)print(data)# 写入数据with open('./movie.json','w',encoding = 'utf-8') as fp: json.dump(data,fp)原创 2021-06-07 14:59:18 · 1256 阅读 · 1 评论