Python中的惰性导入/懒导入/动态导入(Lazy Import)

  参考资料:

  https://cloud.tencent.com/developer/article/2204701

  https://github.com/huggingface/diffusers

  想研究这个lazy import的起因是:我想学习一下高级的算法工程师是如何构建一个pip包的,然后我发现在diffusers这个广泛使用的huggingface包的组织方式中出现了_LazyModule这个破东西。

  查阅资料后知道,_LazyModule这个模块实际上对应了python中的一种lazy import的思想。也就是在整个包很大的情况下不再将所有的包都import,而仅仅在使用的时候进行真正的import。这么做可以极大地缩短整个的import时间。

  OK,教练我想学这个,我也想让我的包摩登一把?我要怎么做?首先介绍几个点:

  1. lazy import这个特性虽然python中已经有PEP做阐述,但是并没有官方的built-in包做支持

  2. 如果我们想在自己的包中使用lazy import,完全可以借鉴别人已经实现好的类(diffusers,就决定是你了)

  接下来我讲一下如何使用diffuers里面的lazy import代码让我我们的项目实现lazy import,项目组织如下:

  重点在于两个地方:一个就是utils文件夹,这个文件夹里的import_utils.py包含了我们lazy import类的实现。另一个就是若干__init__.py文件,这些文件就讲我们lazy import的逻辑交代地很清楚。我们首先来看一看lazy import类的实现:

 1 # Inspired by diffusers repo
 2 # https://github.com/huggingface/diffusers/blob/main/src/diffusers/utils/import_utils.py
 3 import os
 4 import importlib.util
 5 from itertools import chain
 6 from types import ModuleType
 7 from typing import Any
 8 
 9 
10 class _LazyModule(ModuleType):
11     """
12     Module class that surfaces all objects but only performs associated imports when the objects are requested.
13     """
14 
15     # Very heavily inspired by optuna.integration._IntegrationModule
16     # https://github.com/optuna/optuna/blob/master/optuna/integration/__init__.py
17     def __init__(self, name, module_file, import_structure, module_spec=None, extra_objects=None):
18         super().__init__(name)
19         self._modules = set(import_structure.keys())
20         self._class_to_module = {}
21         for key, values in import_structure.items():
22             for value in values:
23                 self._class_to_module[value] = key
24         # Needed for autocompletion in an IDE
25         self.__all__ = list(import_structure.keys()) + \
26             list(chain(*import_structure.values()))
27         self.__file__ = module_file
28         self.__spec__ = module_spec
29         self.__path__ = [os.path.dirname(module_file)]
30         self._objects = {} if extra_objects is None else extra_objects
31         self._name = name
32         self._import_structure = import_structure
33 
34     # Needed for autocompletion in an IDE
35     def __dir__(self):
36         result = super().__dir__()
37         # The elements of self.__all__ that are submodules may or may not be in the dir already, depending on whether
38         # they have been accessed or not. So we only add the elements of self.__all__ that are not already in the dir.
39         for attr in self.__all__:
40             if attr not in result:
41                 result.append(attr)
42         return result
43 
44     def __getattr__(self, name: str) -> Any:
45         if name in self._objects:
46             return self._objects[name]
47         if name in self._modules:
48             value = self._get_module(name)
49         elif name in self._class_to_module.keys():
50             module = self._get_module(self._class_to_module[name])
51             value = getattr(module, name)
52         else:
53             raise AttributeError(
54                 f"module {self.__name__} has no attribute {name}")
55 
56         setattr(self, name, value)
57         return value
58 
59     def _get_module(self, module_name: str):
60         try:
61             return importlib.import_module("." + module_name, self.__name__)
62         except Exception as e:
63             raise RuntimeError(
64                 f"Failed to import {self.__name__}.{module_name} because of the following error (look up to see its"
65                 f" traceback):\n{e}"
66             ) from e
67 
68     def __reduce__(self):
69         return (self.__class__, (self._name, self.__file__, self._import_structure))

  这里不打算细讲,源码在https://github.com/huggingface/diffusers/blob/main/src/diffusers/utils/import_utils.py,我做了一些精简,读者可以直接copy,接下来讲用法:

  我们首先看一下最高层的包是如何调用这个lazy import类的,也就是package_name下的__init__.py:

# Only support lazy import for now.
# TODO: support slow import
import sys
__version__ = "0.1"

from .utils import (
    _LazyModule
)

_import_structure = {
    "pipelines": []
}

_import_structure["pipelines"].extend(
    [
        "a",
        "LayoutDMPipeline"
    ]
)


sys.modules[__name__] = _LazyModule(
    __name__,
    globals()["__file__"],
    _import_structure,
    module_spec=__spec__,
    extra_objects={"__version__": __version__},
)

  我们首先用了一个字典将我们想要导入的东西包起来,然后一起喂给_LazyModule,最后由_LazyModule传给sys.modules

  这个包起来的东西包含了根目录的下级目录,extend的部分是我们最终想要导入的东西。流程是这样:

  我们想要一个名为a的东西,那么packge就会去找下级目录找a,如果下级目录能够找到a,那么显然可以直接 from XX import a。但是问题出在下级目录显然也没有a,下级目录又要到下下级目录中去找,直至找到。我们不妨看看叶子的__init__.py

# Only support lazy import for now.
# TODO: support slow import

import sys
from ...utils import (
    _LazyModule
)

_import_structure = {}
_import_structure["bar"] = ["a"]


sys.modules[__name__] = _LazyModule(
    __name__,
    globals()["__file__"],
    _import_structure,
    module_spec=__spec__,
)

  就是这样~

  最后再顺一遍:我们通过from XX import a,python有如下操作

  从XX中要a,XX再找pipelines要a,pipelines再找foo要a,foo再找bar要a,最终要到了a。

  这么一来,from XX import a, from XX.pipelines import a, from XX.pipelines.foo import a, from XX.pipelines.foo.bar import a,全部都是可用的。

  • 26
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在Python,循环导入是指两个或多个模块彼此引用并导入,从而形成无限循环的情况。这会导致程序无法正常运行,并报出 ImportError 异常。 为了解决循环导入问题,可以使用以下方法: 1. 重新组织代码结构,尽量避免出现循环导入的情况。 2. 将模块的导入语句放在函数或方法内部,而不是在模块的顶部导入。 3. 使用延迟导入(lazy imports)。延迟导入是指在需要使用模块时才进行导入,而不是在程序开始时就导入所有模块。 4. 将导入语句放在函数或方法的最后,而不是在函数或方法的顶部。 5. 使用 importlib 库import_module 函数进行导入,该函数可以避免循环导入问题。 以上方法可以帮助解决循环导入的问题。 ### 回答2: 在Python,循环导入指的是两个或多个模块之间相互导入,形成了一个循环依赖的情况。这会导致程序在导入模块时出现错误,常见的错误信息是 ImportError。 解决循环导入问题可以采取以下几种方法: 1. 重构代码:检查导入模块的关系,尝试重新组织代码结构,消除循环依赖。将公共功能提取到一个单独的模块,使得模块之间的依赖关系变得线性而非循环。 2. 延迟导入:可以在需要使用某个模块时再进行导入,而非在模块的顶部导入。这可以通过将导入语句放在函数或方法内部来实现。这样可以避免循环导入问题,但可能会对代码的可读性产生一定的影响。 3. 导入局部变量:在需要导入的模块,可以只导入另一个模块的局部变量而非整个模块。这可以通过使用 from 模块 import 变量 来实现。这种方法可以减少循环导入的可能性。 4. 使用 importlib.reload():如果在运行时存在循环导入的问题,可以尝试使用 importlib.reload() 函数重新加载模块。但这种方法仅适用于Python 3.4及以上版本。 需要注意的是,循环导入问题通常会暗示代码存在设计上的问题,应该谨慎使用循环导入解决方案。在设计和组织代码结构时应尽量避免循环导入的情况出现,以提高代码的可维护性和可拓展性。 ### 回答3: 在Python,循环导入指的是两个或多个模块之间出现相互导入的情况。这种情况会导致代码报错或出现意想不到的行为。为了解决循环导入问题,可以采取以下几种方法: 1. 重构代码:检查代码结构,尝试将导致循环导入的关系进行重构。可以尝试将相互依赖的部分提取出来放到一个新的模块。 2. 导入延迟:可以在需要使用某个模块时再进行导入,而不是在模块开始处导入。可以将导入语句放在函数或方法内部。 3. 使用局部导入:在需要导入的模块,可以只导入需要的部分而不是整个模块。这样可以减少模块之间的相互依赖,从而避免循环导入。 4. 使用依赖注入:将需要导入的模块作为参数传递给其他模块,而不是在其直接导入。这样可以避免模块之间的直接依赖关系,从而避免循环导入。 5. 将导入语句放在合适的位置:可以将导入语句放在模块末尾而不是开头,这样可以避免循环导入时出现的错误。 总结来说,解决Python循环导入的方法包括重构代码、导入延迟、使用局部导入、使用依赖注入以及将导入语句放在合适的位置。这些方法都可以帮助我们解决循环导入带来的问题,并确保代码能够正确地执行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值