python变量内存管理

橙子味冰可乐

已于 2023-03-25 17:38:38 修改

阅读量661

点赞数 3

文章标签：开发语言 python 深度学习 pycharm

于 2023-03-25 17:29:47 首次发布

本文链接：https://blog.csdn.net/weixin_67859959/article/details/129769249

版权

python从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129328397?spm=1001.2014.3001.5502

❤ 引入

解释器在执行到定义变量的语法时，会申请内存空间来存放变量的值，而内存的容量是有限的，这就涉及到变量值所占用内存空间的回收问题，当一个变量值没有用了（简称垃圾）就应该将其占用的内存给回收掉，那什么样的变量值是没有用的呢？

由于变量名是访问到变量值的唯一方式，所以当一个变量值不再关联任何变量名时，我们就无法再访问到该变量值了，该变量值就是没有用的，就应该被当成一个垃圾回收。毫无疑问，内存空间的申请与回收是非常耗费精力的事情，而且存在很大的危险性，稍有不慎就有可能引发内存溢出问题，好在Cpython解释器提供了自动的垃圾回收机制来帮我们解决了这件事。

❤ 什么是垃圾回收机制?

垃圾回收机制（简称GC）是Python解释器自带一种机制，专门用来回收不可用的变量值所占用的内存空间

❤ 为什么需要垃圾回收机制?

程序运行过程中会申请大量的内存空间，而对于一些无用的内存空间如果不及时清理的话会导致内存使用殆尽（内存溢出），导致程序崩溃，因此管理内存是一件重要且繁杂的事情，而python解释器自带的垃圾回收机制把程序员从繁杂的内存管理中解放出来。

❤ 栈区与堆区

在定义变量的时候，变量名与变量值都是需要存储的，分别对应内存中的两块区域：栈区与堆区

变量名与变量值的内存地址的关联关系存放于栈区

变量值存放于堆区中，内存管理回收的就是堆区的空间

举例:

定义了两个变量 x = 5 ， y = 9

执行了 x = y 时，内存中栈区与堆区的变化

❤ 直接引用与间接引用

直接引用:从栈区出发直接引用到的内存地址

间接引用:从栈区出发引用到堆区后，再通过进一步引用才能到达的内存地址

>>> a = 1
>>> b = [a,2]
>>> print (a)
1
>>> print (b)
[1, 2]

❤ 垃圾回收机制原理分析

Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题，并且通过“分代回收”（generation collection）以空间换取时间的方式来进一步提高垃圾回收的效率。

❤ 什么是引用计数?

引用计数就是变量值被变量名关联的次数

如：age=18

变量值18被关联了一个变量名age，称之为引用计数为1

引用计数增加：

age=18 （此时，变量值18的引用计数为1）

m=age （把age的内存地址给了m，此时，m,age都关联了18，所以变量值18的引用计数为2）

引用计数减少：

age=10（名字age先与值18解除关联，再与3建立了关联，变量值18的引用计数为1）

del m（del的意思是解除变量名x与变量值18的关联关系，此时，变量18的引用计数为0）

值18的引用计数一旦变为0，其占用的内存地址就应该被解释器的垃圾回收机制回收

❤ 引用计数扩展阅读

变量值被关联次数的增加或减少，都会引发引用计数机制的执行（增加或减少值的引用计数），这存在明显的效率问题。

如果说执行效率还仅仅是引用计数机制的一个软肋的话，那么很不幸，引用计数机制还存在着一个致命的弱点，即循环引用（也称交叉引用）

# 如下我们定义了两个列表，简称列表1与列表2，变量名l1指向列表1，变量名l2指向列表2
>>> l1=['xxx']  # 列表1被引用一次，列表1的引用计数变为1   
>>> l2=['yyy']  # 列表2被引用一次，列表2的引用计数变为1   
>>> l1.append(l2)             # 把列表2追加到l1中作为第二个元素，列表2的引用计数变为2
>>> l2.append(l1)             # 把列表1追加到l2中作为第二个元素，列表1的引用计数变为2

# l1与l2之间有相互引用
# l1 = ['xxx'的内存地址,列表2的内存地址]
# l2 = ['yyy'的内存地址,列表1的内存地址]
>>> l1
['xxx', ['yyy', [...]]]
>>> l2
['yyy', ['xxx', [...]]]
>>> l1[1][1][0]
'xxx'

循环引用会导致：值不再被任何名字关联，但是值的引用计数并不会为0，应该被回收但不能被回收，什么意思呢？试想一下，请看如下操作

>>> del l1 # 列表1的引用计数减1，列表1的引用计数变为1
>>> del l2 # 列表2的引用计数减1，列表2的引用计数变为1

此时，只剩下列表1与列表2之间的相互引用，两个列表的引用计数均不为0，但两个列表不再被任何其他对象关联，没有任何人可以再引用到它们，所以它俩占用内存空间应该被回收，但由于相互引用的存在，每一个对象的引用计数都不为0，因此这些对象所占用的内存永远不会被释放，所以循环引用是致命的，这与手动进行内存管理所产生的内存泄露毫无区别。

所以Python引入了“标记-清除” 与“分代回收”来分别解决引用计数的循环引用与效率低的问题

❤ 标记和清除

标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时，就会停止整个程序，然后进行两项工作，第一项则是标记，第二项则是清除

1、标记
# 通过栈区(变量名)可到达(访问)的对象,就叫GC Roots可达的对象
# 将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象，其余的均为非存活对象，应该被清除

2、清除
# 遍历堆中所有的对象，将没有标记的对象全部清除掉

定义了两个变量x = 10、y = 20

当我们执行x=y时，内存中的栈区与堆区变化如下

标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时，就会停止整个程序，然后进行两项工作，第一项则是标记，第二项则是清除

根据直接引用和间接引用得出:

当我们同时删除l1与l2时，会清理到栈区中l1与l2的内容

这样在启用标记清除算法时，发现栈区内不再有l1与l2（只剩下堆区内二者的相互引用），于是列表1与列表2都没有被标记为存活，二者会被清理掉，这样就解决了循环引用带来的内存泄漏问题。

❤ 分代

引用计数 除了具有 循环引用 带来的 内存溢出 的问题，还有 效率问题

基于引用计数的回收机制，每次回收内存，都需要把所有对象的 引用计数 全部都遍历一遍，这是非常消耗时间的，于是引入了 分代回收 来提高回收效率，分代回收采用的是用 空间换取时间 的策略

1、分代
# 分代回收的核心思想是：在历经多次扫描的情况下，都没有被回收的变量，gc机制就会认为，该变量是常用变量，gc对其扫描的频率会降低

2、回收
# 使用引用计数作为回收的依据

虽然分代回收可以起到提升效率的效果，但也存在一定的缺点：

例如一个变量刚刚从新生代移入青春代，该变量的绑定关系就解除了，该变量应该被回收，但青春代的扫描频率低于新生代，所以该变量的回收就会被延迟。

❤ 小整数对象池

在Python中，Python解释器为了优化其自身的性能，于是具有了小整数对象池的概念

# 在 Python 中，小整数对象池的定义是：在 [-5, 256] 的这个范围之内的整数对象是提前创建好的，不会被垃圾回收机制回收。在一个 Python 的程序中，所有位于这个范围内的整数使用的都是同一个对象
 
>>> a = 256
>>> b = 256
>>> c = 257
>>> print (id(a),id(b),id(c))
2761673351376 2761673351376 2761674381680

❤ 字符串驻留机制

字符串类型作为 Python 中最常用的数据类型之一，Python 解释器为了提高字符串使用的效率和使用性能，Python解释器中使用了 intern（驻留）的技术来提高字符串效率

什么是字符串驻留机制?

什么是 intern 机制？也就是值同样的字符串对象仅仅会保存一份，放在一个字符串储蓄池中，是共用的，当然，肯定不能改变，这也决定了字符串类型必须是不可变对象

字符串驻留机制原理

实现 intern 机制的方式非常简单，就是通过维护一个字符串储蓄池，这个池子是一个字典结构，如果字符串已经存在于池子中就不再去创建新的字符串，直接返回之前创建好的字符串对象，如果之前还没有加入到该池子中，则先构造一个字符串对象，并把这个对象加入到池子中去，方便下一次获取

但是，解释器内部对 intern 机制的使用策略是有讲究的，有些场景会自动使用 intern ，有些地方需要通过手动方式才能启动

并非全部的字符串都会采用intern机制。仅仅包括下划线、数字、字母的字符串才会被intern，字符串只在编译时进行驻留，而非运行时

1、正常启用
>>> s1 = 'test'
>>> s2 = 'test'
>>> print (s1 is s2)
True
 
 
2、有空格，不启用
>>> s1 = 'tes t'
>>> s2 = 'tes t'
>>> print (s1 is s2)
False
 
3、字符串只在编译时进行驻留，而非运行时
>>> s1 = 'xyz'
>>> s2 = 'xy'+'z'
>>> s3 = ''.join(['xy','z']) 	# join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串
>>> s1 is s2
True
>>> s1 is s3
False