本文适合有Python基础的小伙伴进阶学习
作者:pwwang
一、前言
本文基于开源项目:
pwwang/python-import-system
补充扩展讲解,希望能够让读者一文搞懂Python的import机制。
1.1什么是import机制?
通常来讲,在一段Python代码中去执行引用另一个模块中的代码,就需要使用Python的import机制。import语句是触发import机制最常用的手段,但并不是唯一手段。
importlib.import_module和__import__函数也可以用来引入其他模块的代码。
1.2import是如何执行的?
import语句会执行两步操作:
搜索需要引入的模块将模块的名字做为变量绑定到局部变量中搜索步骤实际上是通过__import__函数完成的,而其返回值则会作为变量被绑定到局部变量中。下面我们会详细聊到__import__函数是如果运作的。
二、import机制概览
下图是import机制的概览图。不难看出,当import机制被触发时,Python首先会去sys.modules中查找该模块是否已经被引入过,如果该模块已经被引入了,就直接调用它,否则再进行下一步。这里sys.modules可以看做是一个缓存容器。值得注意的是,如果sys.modules中对应的值是None那么就会抛出一个ModuleNotFoundError异常。下面是一个简单的实验:
如果在sys.modules找到了对应的module,并且这个import是由import语句触发的,那么下一步将对把对应的变量绑定到局部变量中。
如果没有发现任何缓存,那么系统将进行一个全新的import过程。在这个过程中Python将遍历sys.meta_path来寻找是否有符合条件的元路径查找器(metapathfinder)。sys.meta_path是一个存放元路径查找器的列表。它有三个默认的查找器:
内置模块查找器冻结模块(frozenmodule)查找器基于路径的模块查找器。
查找器的find_spec方法决定了该查找器是否能处理要引入的模块并返回一个ModeuleSpec对象,这个对象包含了用来加载这个模块的相关信息。如果没有合适的ModuleSpec对象返回,那么系统将查看sys.meta_path的下一个元路径查找器。如果遍历sys.meta_path都没有找到合适的元路径查找器,将抛出ModuleNotFoundError。引入一个不存在的模块就会发生这种情况,因为sys.meta_path中所有的查找器都无法处理这种情况:
但是,如果这个手动添加一个可以处理这个模块的查找器,那么它也是可以被引入的:
可以看到,当我们告诉系统如何去find_spec的时候,是不会抛出ModuleNotFound异常的。但是要成功加载一个模块,还需要加载器loader。
加载器是ModuleSpec对象的一个属性,它决定了如何加载和执行一个模块。如果说ModuleSpec对象是“师父领进门”的话,那么加载器就是“修行在个人”了。在加载器中,你完全可以决定如何来加载以及执行一个模块。这里的决定,不仅仅是加载和执行模块本身,你甚至可以修改一个模块:
从上面的例子可以看到,一个加载器通常有两个重要的方法create_module和exec_module需要实现。如果实现了exec_module方法,那么create_module则是必须的。如果这个import机制是由import语句发起的,那么create_module方法返回的模块对象对应的变量将会被绑定到当前的局部变量中。如果一个模块因此成功被加载了,那么它将被缓存到sys.modules。如果这个模块再次被加载,那么sys.modules的缓存将会被直接引用。
三、import勾子(importhooks)
为了简化,我们在上述的流程图中,并没有提到import机制的勾子。实际上你可以添加一个勾子来改变sys.meta_path或者sys.path,从而来改变import机制的行为。上面的例子中,我们直接修改了sys.meta_path。实际上,你也可以通过勾子来实现:
四、元路径查找器(metapathfinder)
元路径查找器的工作就是看是否能找到模块。这些查找器存放在sys.meta_path中以供Python遍历(当然它们也可以通过import勾子返回,参见上面的例子)。每个查找器必须实现find_spec方法。如果一个查找器知道怎么处理将引入的模块,find_spec将返回一个ModuleSpec对象(参见下节)否则返回None。
和之前提到的一样sys.meta_path包含三种查找器:
内置模块查找器冻结模块查找器基于路径的查找器这里我们想重点聊一聊基于路径的查找器(pathbasedfinder)。它用于搜索一系列import路径,每个路径都用来查找是否有对应的模块可以加载。默认的路径查找器实现了所有在文件系统的特殊文件中查找模块的功能,这些特殊文件包括Python源文件(.py文件),Python编译后代码文件(.pyc文件),共享库文件(.so文件)。如果Python标准库中包含zipimport,那么相关的文件也可用来查找可引入的模块。
路径查找器不仅限于文件系统中的文件,它还可以上URL数据库的查询,或者其他任何可以用字符串表示的地址。
你可以用上节提供的勾子来实现对同类型地址的模块查找。例如,如果你想通过URL来import模块,那么你可以写一个import勾子来解析这个URL并且返回一个路径查找器。
注意,路径查找器不同于元路径查找器。后者在sys.meta_path中用于被Python遍历,而前者特指基于路径的查找器。
五、ModuleSpec对象
每个元路径查找器必须实现find_spec方法,如果该查找器知道如果处理要引入的模块,那么这个方法将返回一个ModuleSpec对象。这个对象有两个属性值得一提,一个是模块的名字,而另一个则是查找器。如果一个ModuleSpec对象的查找器是None,那么类似ImportError:missingloader的异常将会被抛出。查找器将用来创建和执行一个模块(见下节)。
你可以通过module.__spec__来查找模块的ModuleSpec对象:
六、加载器(loader)
加载器通过create_module来创建模块以及exec_module来执行模块。通常如果一个模块是一个Python模块(非内置模块或者动态扩展),那么该模块的代码需要在模块的__dict__空间上执行。如果模块的代码无法执行,那么就会抛出ImportError异常,或者其他在执行过程中的异常也会被抛出。
绝大多数情况下,查找器和加载器是同一个东西。这种情况下,查找器的find_spec方法返回的ModuleSpec对象的loader属性将指向它自己。
我们可以用create_module来动态创建一个模块,如果它返回NonePython会自动创建一个模块。
七、总结
Python的import机制灵活而强大。以上的介绍大部分是基于官方文档,以及较新的Python3.6+版本。由于篇幅,还有很多细节并没有包含其中,例如子模块的加载、模块代码的缓存机制等等。文章中也难免出现纰漏如果有任何问题,欢迎到项目开issue提问及讨论。