- 博客(63)
- 问答 (1)
- 收藏
- 关注
原创 【花生壳】Ubuntu内网配置与windows外网访问
下载xshell校园免费版,复制花生壳提供的随机地址和端口登录即可。安装过后不要立马关闭页面,
2024-07-29 16:45:23 404
原创 WIN11新装系统体验优化设置
关闭防火墙WIN+R打开gpedit.msc计算机配置-管理模版-网络-网络连接-防火墙分别禁用标准和域配置文件中的“保护所有网络连接”
2023-05-14 14:23:27 366
原创 ubuntu 设置开机启动命令(jupyter notebook、ChatGLM2 )
【代码】ubuntu 设置开机启动jupyter notebook。
2023-05-05 18:39:22 334
原创 30系显卡-旧版本深度学习环境配置(pytorch1.9.0+cuda11.1、tensorflow1.15.5+cuda12.2)
pytorch1.9.0tf1.15
2023-04-29 12:30:21 1216
原创 nohup的情况下无法运行python (默认python版本设置)
参考https://linuxconfig.org/ubuntu-20-04-python-version-switch-manager。
2023-04-28 20:59:27 591
原创 win11用pip,报错需要Microsoft Visual C++ 14.0 or greater
pip 安装软件包时报错需要Microsoft Visual C++ 14.0或更高,用vs build tool安装了最新插件,换了个报错。。。
2023-04-23 20:06:39 397
原创 Python基础:多进程multiprocessing与多线程threading 是什么 怎么选 怎么用?以及Pandas提速的几种方法。
Python基础:多进程multiprocessing与多线程threading 是什么 怎么选 怎么用?以及Pandas提速的几种方法。
2021-03-21 15:21:47 519 1
原创 三天搭建内容推荐系统——标签挖掘、画像搭建、算法推荐
早期的推荐系统一般都从基于内容的推荐开始做起,这就离不开挖掘用户的兴趣标签,兴趣标签是用户画像的重要组成部分。1. 标签库1.1 挖掘标签的物料物品端物品端的信息可用于构建物品画像(Item Profile),并用于丰富用户画像。物品的标题、描述;物品本身内容;物品属性。用户端注册资料:姓名、签名等;用户生成内容UGC:评论、动态、日记;与用户连接过的内容:搜索、阅读。1.2 标签库类型高质量的标签库,是用户与物品共享的。根据标签的提取方法,标签库一般有两种:中心化标签库
2021-02-05 11:41:43 2803
原创 Python编码报错的几种处理方式:UnicodeDecodeError: ‘xxx‘ codec can‘t decode byte ‘xxx‘
将原文件以记事本打开,另存为utf-8格式。(文件量少的时候直接用这个方法百试不爽)替换/忽略错误str = unicode(str, errors='replace')#或者str = unicode(str, errors='ignore')使用codecs包import codecswith codecs.open(file_name, 'r', encoding='utf-8', errors='ignore') as fdata:使用py
2021-02-05 11:34:13 545 8
原创 6行Python 用邮编找地址(邮编——>省、市、区)
数据源:138查询网Python包:selenium、bs4from selenium import webdriverfrom bs4 import BeautifulSoupbrowser = webdriver.Chrome()#使用谷歌Chromedriver打开浏览器browser.get(f'https://www.ip138.com/post/search.asp?zip={510100}&action=zip2area')#把邮编拼在zip参数soup=Beautif
2020-12-26 22:01:09 1613
原创 pandas-Dataframe增加行的三类方法
1.建空表df1=pd.Dataframe(columns=['col1','col2'])2.增加一行数据----append一个字典a = {"x":1,"y":2}df1=df1.append(a,ignore_index=True))
2020-12-26 01:14:33 2205
原创 Python爬虫必知必会:BeautifulSoup之find_all参数速览
find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.find_all( name , attrs , recursive , string , **kwargs )1. name 参数name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉.简单的用法如下:soup.find_all("title")# [<title>The Dormouse's story</title>]重申: 搜索 name 参数的值可
2020-12-23 17:58:28 12380 1
原创 Python机器学习之四:特征选择
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征过程的本质就是一项工程活动,目的是最大限度地从原始数据中提取合适的特征,以供算法和模型使用。特征选定是一个流程,能够选择有助于提高预测结果准确度的特征数据,或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无关的特征属性,会降低算法的准确度,对预测新数据造成干扰,尤其是线性相关算法(如线性回归算法和逻辑回归算法)。...
2020-11-01 23:06:57 1336
原创 Python机器学习之三:数据转换(归一化、标准化、正则化、二值化)
在机器学习的应用开发中,最基础的是特征工程。 ——吴恩达示例使用数据集:Pima Indian的数据集我们先导入数据,并将特征与目标划分为X,Y:import pandas as pdimport numpy as npfilename='pima_data.csv'dataset=pd.read_csv(filename)#将数据分为输入和输...
2020-11-01 19:29:53 1759 2
原创 Python机器学习之二:数据审查、特征数据可视化
案例使用Pima Indians数据集,下载链接(https://gitee.com/biabianm/pima-indians-diabetes)1.数据导入历史数据通常会以CSV的格式来存储,或者能够方便地转化为CSV格式。CSV 文件是用逗号分隔的文本文件。审查CSV文件:(1)是否有文件头如果CSV的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。...
2020-10-29 16:49:37 1349
原创 Python机器学习之一:导入数据(CSV、NumPy、Pandas)
历史数据通常会以CSV的格式来存储,或者能够方便地转化为CSV格式。CSV 文件是用逗号分隔的文本文件。审查CSV文件:(1)是否有文件头如果CSV的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件的字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序的可读性。(2)文件中的注释在 CSV ...
2020-10-29 16:26:57 4539
原创 数据看板是什么,怎么做?
定义:数据可视化,是把相对复杂、抽象的数据,通过可视的方式,让人们更易理解的图形展示出来的一系列手段。而数据看板是数据可视化的载体,通过合理的页面布局、效果设计,将可视化数据更直观、更形象的展现出来。数据看板一般用作后台系统的首页,或者作为系统的其中一个模块,呈现当前业务、运营相关的数据和图表,方便实时掌握业务情况,并能够支持业务决策。就是通过各种显性手段,让企业、工厂内部的信息透明化,实现有效传达,及时发现过程中的问题,通过可视化、数据驱动建议的方式帮助业务成长。数据面板能够直观反映出业务变化,并有助
2020-10-28 09:46:04 9727 1
原创 推荐系统综述——附Xmind三分钟重点速览版
1.标签推荐策略即便没有算法,只用标签规则,也能够搭建推荐系统,在一定程度上实现提升分发效率的需求。搭建一套最简单的推荐系统至少需要考虑三方面策略:冷启动策略、长短期兴趣策略、多样性策略。冷启动策略解决新用户没有行为时推荐结果的问题。此时用户的兴趣和偏好还不确定,应该尽可能照顾多样性和高点击率。因此这里策略应该是选取不同类别热门内容,以平衡多样性内容和点击的问题。长短期兴趣策略,实际需要推荐结果兼顾用户长期兴趣和短期点击反馈,从而能让用户感知到推荐的是符合其行为和偏好的。长期兴趣可以按照用户正反馈行
2020-08-26 14:13:39 2940 1
原创 Python基础——文本读写
文件读写函数 open() 返回文件对象,通常的用法需要两个参数:open(filename, mode)。第一个参数 filename 是要访问的文件名,第二个参数 mode 是描述如何使用该文件(可取值主要包括:‘r’ 读取文件;‘w’ 只是写入文件,已经存在的同名文件将被删掉;‘a’ 打开文件进行追加,自动添加到末尾;‘r+’ 打开文件进行读取和写入;‘rb+’ 以二进制格式打开一个文件用于读写…),mode 参数是可选的,默认为 ‘r’。1. 文件对象方法1.1 read()要读取文件内
2020-06-28 00:41:31 184
原创 笔记:《深入浅出统计学》第十六章-附录:分布剖析、样本方差与协方差、决定系数、非线性关系、连续随机变量的期望与方差
分布剖析:大部分数据落在概率分布的哪个区域经验法则(只适用于正态分布)–几乎所有数据都落在距离均值三个标准差范围内:大约68%落在第一个标准差范围内;大约95%落在第二个标准差范围内;大约99.7%落在第三个标准差范围内.切比雪夫定理(适用于任何分布)至少75%落在第2个标准差范围内;至少89%落在第3个标准差范围内;至少94%落在第4个标准差范围内.样本方差、协方差Sxyx的方差Sx表示x的变异情况,Sx=Σ(x-ˉx)/(n-1)y的方差Sy表示y的变异情况,Sy=Σ(y-ˉ
2020-06-28 00:14:16 1003
原创 笔记:《深入浅出统计学》第十五章:相关与回归
利用散点图体现数据模式数据点如果几乎呈直线分布,则认为两个变量线性相关.两个变量存在相关关系意味着二者之间存在着某种数学关系, 并不意味着一个变量会影响另一个变量, 也不意味着二者存在实际关系.用最佳拟合线预测数值线性回归法(最小二乘回归法)是一种求最佳拟合线y = a+bx的数学方法.最佳拟合线: 这条线使得所有的y的观察值和期望值之间的距离和Σ(yi - ^yi) 最小.为避免实际距离相互抵消, 用 ‘误差平方和SSE’ 替换 ‘距离和’ .误差平方和: SSE=Σ(yi - yi)2斜
2020-06-28 00:06:47 585
原创 笔记:《深入浅出统计学》第十四章:卡方分布
X^2服从显著性水平为α,自由度为纽ν的卡方分布:X^2~χ2α(ν)χ2原理通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率.检验统计量χ2提供了一种对观察频数和期望频数之间的差异进行量度的办法.所得结果与期望频数成反比.χ2越小,观察频数O与期望频数E之间的总差值越小.计算: 对于概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加.χ2 = Σ(O-E)^2/E自由度: 纽νv=组数-限值数卡方假设检
2020-06-27 18:40:36 701
原创 笔记:《深入浅出统计学》第十三章:假设检验(显著性检验)
假设检验思想1.进行假设检验时, 假定原假设H0为真;2.寻找反驳的证据,3. 如果有足够的证据反驳原假设,则拒绝原假设, 接受备择假设H1.假设检验步骤1.确定要进行性检验的假设(要对齐进行试验的断言)2.假定H0为真, 选择检验统计量(最有效地对断言进行检验的统计量)3.确定用于做决策的拒绝域(使用某种确定性水平)4.求出检验统计量的p值(在假定断言为真的情况下, 试验结果的可信程度)5.查看样本结果是否位于拒绝域内(了解试验结果是否位于确定性限值范围中)6.作出决策拒绝域拒绝域
2020-06-26 22:43:19 888
原创 笔记:《深入浅出统计学》第十二章:置信区间
概念用(a,b)表示概率区间, a,b的数值取决于你希望自己对于"该区间包含总体均值"这一结果具有的可信程度,因此(a,b)被称为置信区间正置信区间求解步骤1.选择用于构建置信区间的总体统计量2.求出其样本分布3.决定置信水平4.求出置信上下限(利用正态分布表/t分布表)正态分布置信区间简便算法超链接https://images-cdn.shimo.im/jiTj0Imygk09S9Bk__thumbnailt分布总体符合正态分布,方差未知,但样本量较小时,样本符合t分布. 曲线扁平,形
2020-06-26 19:04:24 1367
原创 笔记:《深入浅出统计学》第十一章:点估计与抽样分布
点估计量(用样本预测总体)点估计量: 由样本数据得出, 是对总体参数的估计.总体均值点估计量^μ用^标记μ表示.样本均值 ¯X 被称为总体均值 μ 的点估计量 ^μ .总体方差点估计量(σ2)总体方差点估计量=Σ((x-¯x)^2)/(n-1), 用标记σ2表示大部分情况下样本数值的方差会略小于总体方差,所以除以n-1样本方差s2被称为总体方差σ2的总体方差点估计量(σ2)总体比例点估计量^p^p=成功数目/样本数目抽样分布(用总体预测样本)从一个总体中用相同的方法抽取许多大小相
2020-06-26 18:33:40 871
原创 笔记:《深入浅出统计学》第十章:统计抽样
如何设计样本1.确定目标总体2.确定抽样单位3.确定抽样空间偏倚样本原因抽样空间条目不全抽样单位不正确为样本选取的一个个抽样单位未才出现在实际样本中问卷问题设计不当样本缺乏随机性如何选择样本简单随机抽样重复抽样/不重复抽样抽签/随机编号分层抽样查看每一层在总体中所占比例,按比例进行简单随机抽样. 尽可能每一层不一样整群抽样对群进行简单随机抽样. 尽可每一个群相似.系统抽样按照顺序列出总体名单, 每k个单位进行一次调查. 注意: 如果总体存在某种循环,会产生重大误差.
2020-06-26 16:58:45 225
原创 笔记:《深入浅出统计学》第八、九章:概率密度、正态分布(高斯分布)
概率密度:离散数据由单个数值组成,连续数据包含一个数据范围。连续随机变量的概率分布可用概率密度函数描述。1概率密度是一种表示概率的方法,并非概率本身。概率密度指出各种范围内的概率的大小,通过概率密度函数进行描述2概率密度函数是图形中的一条线条,而概率则是这条线下方的一定数值范围内的面积。3类似于频数密度,概率密度通过面积表示表示概率,频数密度通过面积表示频数。4满足条件的面积即为所求概率,图形总面积必须等于1。5对于连续概率,必须通过计算概率密度曲线下方的面积得出概率。正态分布:连续型数据的“理
2020-06-26 16:54:35 13166
原创 笔记:《深入浅出统计学》第七章:几何分布、二项分布、泊松分布
几何分布X~Geo§:X服从几何分布,其中成功概率为p,失败概率为q第r次成功:P(X=r) = p*q^(r-1)服从几何分布的前提条件:进行一系列独立的试验每次试验具有相同成功率和失败率求解:为了获得第一次成功需要进行试验的次数几何分布的期望为:E(X) = 1/p几何分布的方差:Var(X) = q/(p^2)二项分布X~B(n,p):X服从二项分布,n为试验总次数,p为成功概率,q为失败概率成功r次:P(X=r) = (nCr) * p^r * q^(n-r)服从二项分布的前
2020-06-26 16:24:42 1384
原创 笔记:《深入浅出统计学》第六章:排列与组合(Python实现)
排列-选取对象并关注这些对象的排位顺序一般排列:n!圆形排列:(n-1)!重复排列-k为重复对象:n!/k!import itertoolsitertools.permutations('BCD', 2)# 输出 BC BD CB CD DB DCprint('\n')组合-选取对象但不关注这些对象的排位顺序计算技巧:排列消序import itertoolsitertools.combinations('BCDEF', 2)...
2020-06-26 15:52:41 182
原创 笔记:《深入浅出统计学》第五章:概率分布(均值、方差、线性变换)
概率分布描述了一个给定变量的所有可能结果的概率。对于概率分布来说,所有概率都早已计算好。1.1 随机变量随机变量(random variable)是对一个试验结果的数值描述,是一个可以等于一系列数值的变量。而这一系列数值的每一个值都与一个特定概率相关联。▪离散型随机变量:可以取有限多个数值或无限可数多个数值的随机变量▪连续型随机变量:可以在某一区间或多个区间内任意取值的随机变量1.2 离散型概率分布随机变量的概率分布(probability distribution)是描述随机变量取不同值的
2020-06-26 15:36:29 3806
转载 Python基础——高阶函数
在函数式编程中,我们可以将函数当作变量一样自由使用。一个函数接收另一个函数作为参数,这种函数称之为高阶函数。1.常用高阶函数1.1 map(func, *iterables)根据提供的函数对指定序列做映射, 并返回映射后的序列。返回的是一个map对象,可以通过list()转为列表from math import factorialdef square(n): return n ** 2# 使用python自带数学函数facMap = map(factorial, list(
2020-05-22 18:01:17 203
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人