Python
文章平均质量分 68
基础+数据分析/建模+爬虫
未知的角落
一起学习a
展开
-
python之sys.argv[1] IndexError: list index out of range
第一点:sys.argv[ ] 函数必须在命令行中执行。所以你得先写一个关于sys.argv[ ]的python程序,再拿到命令行中执行。文件名: test.pyimport sysprint(‘sys.argv’) #为了一会再运行结果中看到sys.argv中的内容1234接下来拿他到命令行中执行。打开命令行,先切换到“D:\python\python38"(因为我的test.py存在这个列表下)然后输入python test.py xxx"xxx"为你索要输入的变量转载 2021-10-19 11:10:46 · 2913 阅读 · 0 评论 -
第三章 模型搭建和评估-评估
import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Imagefrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier%matplotlib inlineplt.rc原创 2021-09-25 16:48:46 · 125 阅读 · 0 评论 -
第三章 模型搭建和评估--建模
建模与评估涉及到入门的数据分析与数据挖掘的技术,因此就不省略了感受整个数据处理到分析的过程我们拥有的泰坦尼克号的数据集,那么我们这次的目的就是,完成泰坦尼克号存活预测这个任务。准备工作:库导入嵌入notebook图字体 图片 符号的正常化import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Image%原创 2021-09-25 16:34:47 · 245 阅读 · 0 评论 -
第二章:第四节数据可视化
【思考】最基本的可视化图案有哪些?分别适用于那些场景?(比如折线图适合可视化某个属性值随时间变化的走势)#思考回答#这一部分需要了解可视化图案的的逻辑,知道什么样的图案可以表达什么样的信号b#可视化 先考虑平面图形折线图 数据的变化曲线柱状图 数据规模的堆积呈现直方图和密度图 对数值的频率离散化散布图 两个一维数据序列的关系地图 需要用到地理位置或相关数据一次分类后的柱状图:可视化展示泰坦尼克号数据集中男女中生存人数分布情况sex_dist = text.groupby('Sex')原创 2021-09-25 16:04:05 · 107 阅读 · 0 评论 -
第二章:第二节数据重构1
就不重复记录一些东西 挑一些自己不太会/不太熟的东西了2.4.2:任务二:使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up2.4.3 任务三:使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result。2.4.4 任务四:使用DataFram原创 2021-09-25 15:59:21 · 57 阅读 · 0 评论 -
第二章:第一节数据清洗及特征处理
开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv("train.csv")df.head(5)2 第二章:数据清洗及特征处理我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据原创 2021-09-25 15:53:33 · 128 阅读 · 0 评论 -
B站14天数据分析笔记7次课笔记
文章目录Python数据分析-matplotlib导入双轴图的画法5.电影时长和电影评分绘制散点图6.地区的评分箱形图 盒须图计算过程plt.box(x,notch,sym labels,whis)美国电影评分的箱线图多组数据箱线图6.相关系数矩阵图-热力图pandas本身封装了画图函数各个属性的散点图 对角线上是分布图电影时长,投票人数 评分的相关系数矩阵 热力图参数 vmax vin:颜色极值 annot:注释参数Python数据分析-matplotlib导入import warningswar原创 2021-09-25 11:33:47 · 195 阅读 · 0 评论 -
B站14天数据分析笔记6次课笔记
文章目录1.Matplotlib 基础plt.plot()函数基本用法字符参数指定坐标轴axis显示范围plot传入numpy数组线条属性plt.plot()返回值设置线条属性plt.setp() 修改线条性质子图电影数据绘图每个国家地区电影数量的柱状图 bar chart每年上映电影数量的曲线图电影长度的绘制饼图 分类不多的 Sector函数原型 pie(x,explode)电影评分你频率分布直方图1.Matplotlib 基础import pandas as pdimport numpy as n原创 2021-09-24 23:59:22 · 114 阅读 · 0 评论 -
B站14天数据分析笔记5次课作业
(1)读取数据。读取之前作业保存的“酒店数据1.xlsx”(2)将“类型”和“名字”设置为层次化索引,并交换索引的位置。然后将层次化索引取消(3)将数据集转置,获取转制后的index和columns。(4)用Groupby方法来计算每个地区的评分人数的总和以及均值。(5)用Grouby方法计算每个类型的平均价格,最高价和最低价。(6)数据离散化,按照价格将酒店分为3个等级,0-500为C,500-1000为B,大于1000为A,列名设置为“价格等级”。(7)获取评分均值最高和最低的地区原创 2021-09-24 18:07:50 · 163 阅读 · 0 评论 -
B站14天数据分析笔记5次课Pandas
数据的重塑和轴向旋转行列层次化索引Series转DataFrame索引交换层次每个索引项都是个元组 按正常索引序列访问既可数据旋转/行列转化 转置import numpy as npimport pandas as pddf=pd.read_excel("movie_data2.xlsx")df[:5]层次化索引s=pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,原创 2021-09-23 21:14:38 · 126 阅读 · 0 评论