python多进程怎么应用-kb88凯时官网登录

时间：2023-05-26

阅读：

并行和串行计算

想象一下，你有一个巨大的问题要解决，而你独自一人。你需要计算八个不同数字的平方根。你是做什么的？你没有太多选择。从第一个数字开始，然后计算结果。然后，你继续和其他人。

如果你有三个擅长数学的朋友愿意帮助你呢？他们每个人都会计算两个数字的平方根，你的工作会更容易，因为工作量在你的朋友之间平均分配。这意味着你的问题将更快地得到解决。

好了，一切都清楚了吗？在这些示例中，每个朋友代表cpu的核心。在第一个示例中，整个任务由你依次解决。这称为串行计算。在第二个示例中，由于你总共使用了四个内核，因此你使用的是并行计算。并行计算涉及使用并行进程或在处理器的多个核之间划分的进程。

并行编程模型

我们已经确定了什么是并行编程，但我们如何使用它？我们之前说过，并行计算涉及在处理器的多个核心之间执行多个任务，这意味着这些任务是同时执行的。在进行并行化之前，你应该考虑几个问题。例如，是否有其他优化可以加快我们的计算速度？

现在，让我们理所当然地认为并行化是最适合的kb88凯时官网登录的解决方案。并行计算主要有三种模式：

完全平行。任务可以独立运行，不需要相互通信。
共享内存并行。进程（或线程）需要通信，因此它们共享一个全局地址空间。
消息传递。进程需要在需要时共享消息。

在本文中，我们将说明第一个模型，它也是最简单的。

python多进程：python中基于进程的并行性

在 python 中实现并行性的一种方法是使用multiprocessing 模块。multiprocessing模块允许你创建多个进程，每个进程都有自己的 python 解释器。因此，python 多进程实现了基于进程的并行。

你可能听说过其他库，比如threading，它也是python内置的，但它们之间有着重要的区别。multiprocessing模块创建新进程，而threading创建新线程。

使用多进程的好处

你可能会问，“为什么选择多进程？” 多进程可以通过并行而不是按顺序运行多个任务来显着提高程序的效率。一个类似的术语是多线程，但它们是不同的。

进程是加载到内存中运行的程序，不与其他进程共享其内存。线程是进程中的一个执行单元。多个线程在一个进程中运行，并相互共享进程的内存空间。

python的全局解释器锁（gil）只允许在解释器下一次运行一个线程，这意味着如果需要python解释器，你将无法享受多线程的性能优势。这就是在python中多进程比线程更占优势的原因。多个进程可以并行运行，因为每个进程都有自己的解释器，执行分配给它的指令。此外，操作系统将在多个进程中查看你的程序，并分别对它们进行调度，即，你的程序在总的计算机资源中占有更大的份额。因此，当程序受到cpu限制时，多进程速度更快。在程序中有大量i/o的情况下，线程可能更高效，因为大多数时候，程序都在等待i/o完成。然而，多进程通常效率更高，因为它同时运行。

以下是多进程的一些好处：

在处理高cpu密集型任务时更好地使用cpu
与线程相比，对子线程的控制更多
易于编码

第一个优点与性能有关。由于多进程创建了新的进程，你可以通过在其他内核之间划分任务来更好地利用cpu的计算能力。现在大多数处理器都是多核处理器，如果你优化代码，可以通过并行计算节省时间。

第二个优点是多线程处理的替代方案。线程不是进程，这有其后果。如果你创建了一个线程，那么像处理正常进程一样终止它甚至中断它是很危险的。由于多进程和多线程之间的比较不在本文的范围内，后续我会单独写一篇来讲讲多进程和多线程的区别。

多进程的第三个优点是它很容易实现，因为你尝试处理的任务适合并行编程。

python多进程入门

我们终于准备好编写一些 python 代码了！

我们将从一个非常基本的示例开始，我们将使用它来说明 python 多进程的核心方面。在此示例中，我们将有两个进程：

parent经常。只有一个父进程，它可以有多个子进程。
child进程。这是由父进程产生的。每个子进程也可以有新的子进程。

我们将使用该child过程来执行某个函数。这样，parent可以继续执行。

一个简单的 python多进程示例

这是我们将用于此示例的代码：

from multiprocessing import process
def bubble_sort(array):
    check = true
    while check == true:
      check = false
      for i in range(0, len(array)-1):
        if array[i] > array[i 1]:
          check = true
          temp = array[i]
          array[i] = array[i 1]
          array[i 1] = temp
    print("array sorted: ", array)
if __name__ == '__main__':
    p = process(target=bubble_sort, args=([1,9,4,5,2,6,8,4],))
    p.start()
    p.join()

在这个片段中，我们定义了一个名为bubble_sort(array)。这个函数是冒泡排序算法的一个非常简单的实现。如果你不知道它是什么，请不要担心，因为它并不重要。要知道的关键是它是一个可以实现某个功能的函数。

进程类

从multiprocessing，我们导入类process。此类表示将在单独进程中运行的活动。事实上，你可以看到我们已经传递了一些参数：

target=bubble_sort，意味着我们的新进程将运行该bubble_sort函数
args=([1,9,4,52,6,8,4],)，这是作为参数传递给目标函数的数组

一旦我们创建了 process 类的实例，我们只需要启动该进程。这是通过编写p.start()完成的。此时，该进程开始。

在我们退出之前，我们需要等待子进程完成它的计算。该join()方法等待进程终止。

在这个例子中，我们只创建了一个子进程。正如你可能猜到的，我们可以通过在process类中创建更多实例来创建更多子进程。

进程池类

如果我们需要创建多个进程来处理更多 cpu 密集型任务怎么办？我们是否总是需要明确地开始并等待终止？这里的kb88凯时官网登录的解决方案是使用pool类。

pool类允许你创建一个工作进程池，在下面的示例中，我们将研究如何使用它。这是我们的新示例：

from multiprocessing import pool
import time
import math
n = 5000000
def cube(x):
    return math.sqrt(x)
if __name__ == "__main__":
    with pool() as pool:
      result = pool.map(cube, range(10,n))
    print("program finished!")

在这个代码片段中，我们有一个cube(x)函数，它只接受一个整数并返回它的平方根。很简单，对吧？

然后，我们创建一个pool类的实例，而不指定任何属性。默认情况下，pool类为每个 cpu 核心创建一个进程。接下来，我们使用几个参数运行map方法。

map方法将cube函数应用于我们提供的可迭代对象的每个元素——在本例中，它是从10到n的每个数字的列表。

这样做的最大优点是列表上的计算是并行进行的！

joblib

包joblib是一组使并行计算更容易的工具。它是一个用于多进程的通用第三方库。它还提供缓存和序列化功能。要安装joblib包，请在终端中使用以下命令：

pip install joblib

我们可以将之前的示例转换为以下示例以供使用joblib：

from joblib import parallel, delayed
 
def cube(x):
    return x**3
 
start_time = time.perf_counter()
result = parallel(n_jobs=3)(delayed(cube)(i) for i in range(1,1000))
finish_time = time.perf_counter()
print(f"program finished in {finish_time-start_time} seconds")
print(result)

事实上，直观地看到它的作用。delayed()函数是另一个函数的包装器，用于生成函数调用的“延迟”版本。这意味着它在被调用时不会立即执行函数。

然后，我们多次调用delayed函数，并传递不同的参数集。例如，当我们将整数1赋予cube函数的延迟版本时，我们不计算结果，而是分别为函数对象、位置参数和关键字参数生成元组(cube, (1,), {})。

我们使用parallel()创建了引擎实例。当它像一个以元组列表作为参数的函数一样被调用时，它将实际并行执行每个元组指定的作业，并在所有作业完成后收集结果作为列表。在这里，我们创建了n_jobs=3的parallel()实例，因此将有三个进程并行运行。

我们也可以直接编写元组。因此，上面的代码可以重写为：

result = parallel(n_jobs=3)((cube, (i,), {}) for i in range(1,1000))

使用joblib的好处是，我们可以通过简单地添加一个附加参数在多线程中运行代码：

result = parallel(n_jobs=3, prefer="threads")(delayed(cube)(i) for i in range(1,1000))

这隐藏了并行运行函数的所有细节。我们只是使用与普通列表理解没有太大区别的语法。

充分利用 python多进程

创建多个进程并进行并行计算不一定比串行计算更有效。对于 cpu 密集度较低的任务，串行计算比并行计算快。因此，了解何时应该使用多进程非常重要——这取决于你正在执行的任务。

为了让你相信这一点，让我们看一个简单的例子：

from multiprocessing import pool
import time
import math
n = 5000000
def cube(x):
    return math.sqrt(x)
if __name__ == "__main__":
    # first way, using multiprocessing
    start_time = time.perf_counter()
    with pool() as pool:
      result = pool.map(cube, range(10,n))
    finish_time = time.perf_counter()
    print("program finished in {} seconds - using multiprocessing".format(finish_time-start_time))
    print("---")
    # second way, serial computation
    start_time = time.perf_counter()
    result = []
    for x in range(10,n):
      result.append(cube(x))
    finish_time = time.perf_counter()
    print("program finished in {} seconds".format(finish_time-start_time))

此代码段基于前面的示例。我们正在解决同样的问题，即计算n个数的平方根，但有两种方法。第一个涉及 python 进程的使用，而第二个不涉及。我们使用time库中的perf_counter()方法来测量时间性能。

在我的电脑上，我得到了这个结果：

> python code.py
program finished in 1.6385094 seconds - using multiprocessing
---
program finished in 2.7373942999999996 seconds

如你所见，相差不止一秒。所以在这种情况下，多进程更好。

让我们更改代码中的某些内容，例如n的值。让我们把它降低到n=10000，看看会发生什么。

这就是我现在得到的：

> python code.py
program finished in 0.3756742 seconds - using multiprocessing
---
program finished in 0.005098400000000003 seconds

发生了什么？现在看来，多进程是一个糟糕的选择。为什么？

与解决的任务相比，在进程之间拆分计算所带来的开销太大了。你可以看到在时间性能方面有多大差异。

目录问题背景kb88凯时官网登录的解决方案总结问题背景我创建了一个函数，里面包含了一个获取当前执行文件路径的代码current_path = os.path.dirname(os.path.abspath(__file__))我把这段代码放

2023-05-26 00:50:22

python 提供了如下两个函数来检查类型：issubclass(cls, class_or_tuple)：检查 cls 是否为后一个类或元组包含的多个类中任意类的子类。isinstance(obj, class_or_tuple)：检查 o

2023-05-26 00:49:55

本文章向大家介绍python numpy.interp实例讲解，主要分析其语法、参数、返回值和注意事项，并结合实例形式分析了其使用技巧，希望通过本文能帮助到大家理解应用这部分内容。用法:

2023-05-26 00:49:46

目录运算代码实例说明补充：python的按位取反运算符的简单解析总结文章面向对象：对原理和编程不大有兴趣，只是需要用python实现一些运算功能的非计算机学生或从业者。大佬慎看防

2023-05-26 00:49:36

目录使用 random 模块使用 numpy 库使用 secrets 模块使用 random.org 网站使用 random.choices()方法python生成随机数都有哪些办法呢使用 random 模块：random模块是python

2023-05-26 00:49:25

目录发现问题原因分析：kb88凯时官网登录的解决方案：总结发现问题pandas版本0.25.3import pandas as pdsymbol_info_columns = ['1', '持仓方向', '持仓量', '持仓收益率', '持仓收益', '持仓均价

2023-05-26 00:49:13

当我们想复制两个一模一样的列表时，我们可能使用到list.copy()这个方法，这个方法可以让我们复制一个相同的数组，当遇到下面这种情况时，可能会遇到一些问题# _*_coding='utf8'_*_

2023-05-26 00:49:01

目录一、roc与auc1.roc2.auc二、代码实现效果一、roc与auc很多学习器是为了测试样本产生的一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值

2023-05-26 00:48:51

python中，为了方便字符串的大小写转换，为我们提供了三种方法:title()lower()upper()python title()方法title()方法用于将字符串中的每个单词的首字母大写，其他字母全部转换成

2023-05-26 00:48:38

简要pyinstaller模块主要用于python代码打包成exe程序直接使用，这样在其它电脑上即使没有python环境也是可以运行的。用法一.安装pyinstaller属于第三方库，因此在使用的时候需

2023-05-26 00:42:52

chinesecalendar 是一个 python 包，用于获取中国传统日历信息。这个包提供了中国农历、二十四节气、传统节日、黄历等信息。你可以使用以下命令来安装这个包：pip install chin

2023-05-26 00:42:19

游戏环境的界面以及代码如下import syssys.path.append(r'e:\anaconda\lib\site-packages')import pygameimport sysimport randomimport timeimport mathfrom tkin

2023-05-26 00:41:49

说明1、在形参之前添加*，格式为*args。这意味着创建一个名为args的空元组，它可以接受任何外部传入的非关键字实参。普通参数必须以非关键字参数的形式传递，否则python解释器将

2023-05-26 00:41:25

argparsepython当中的argparse模块主要用于命令行的参数解析，可以帮助用户轻松地编写命令行接口，我们先来看一个例子。import argparse# 解析参数parser = argparse.argumentp

2023-05-26 00:40:29

前言在python中没有内置对数组的支持，但可以使用 python 列表代替数组数组用于在单个变量中存储多个值：创建一个包含汽车品牌的数组：cars = ["porsche", "volvo", "bmw"]一、什

2023-05-26 00:40:10

并行和串行计算想象一下，你有一个巨大的问题要解决，而你独自一人。你需要计算八个不同数字的平方根。你是做什么的？你没有太多选择。从第一个数字开始，然后计算结果。然后，你继续

2023-05-26 00:39:19

配置配置倾向只输出到文件按时间轮转，默认7d 日志格式：只记录必要的信息import loggingfrom logging.handlers import timedrotatingfilehandlerfrom os import pathdef

2023-05-26 00:35:06

xs用于多重索引中，先创立一个二级行索引的dataframe，如下所示：np.arrays = [['one', 'one', 'one', 'two', 'two', 'two'],

2023-05-26 00:34:42

加密算法加密算法是一种基于数学运算的加密方式，可对图片进行加密处理，使得未经过解密操作的情况下难以被直接读取或显示。常见的加密算法包括对称加密算法和非对称加密算法。

2023-05-26 00:34:25

效果展示创建一个这样的文件夹，然后把要随机点名的名字写在里面导入后,这里就显示你导入了多少人员信息点击开始点名后,会随机从导入名字里挑选一位幸运儿~效果大概就是这样,

2023-05-26 00:34:02

q51.请解释使用args和kwargs的含义当我们不知道向函数传递多少参数时，比如我们向传递一个列表或元组，我们就使用*args：def func(*args): for i in args: print(i) func(3

2023-05-26 00:33:34

目录一、安装sqlalchemy二、创建数据模型三、设置数据库连接四、crud操作五、关联和外键在这篇文章中，我们将学习如何使用python和sqlalchemy库来轻松管理数据库。sqlalchemy

2023-05-25 22:56:28

目录前言1.导入pandas及数据2.修改pd.to_excle方法3.构建保存方法save4.创建pd.excelwriter实例5.创建多个sheet表6.设置自定义列宽7.设置列不同颜色8.设置首行格式9.可以设

2023-05-17 21:53:38

目录安装sqlalchemy连接数据库创建数据表插入数据查询数据更新数据删除数据结论如果你正在学习python编程语言，并且想要使用一个简单易用的orm框架来操作数据库，那么sqlalchem

2023-05-17 21:53:36

目录pycharm运行程序时,控制台输出pydev console:startingpycharm控制台输出乱码学习心得kb88凯时官网登录的解决方案总结pycharm运行程序时,控制台输出pydev console:starting1、问题：写好程序

2023-05-17 21:53:34

目录系列文章目录前言一、matplotlib是什么？二、使用方法1.寻找所需要的字体（1）下载字体（2）放置到合适路径（3）刷新字体缓存（4）确认字体文件是否已经安装2.设置字体（1）全局设置字体（2）局部

2023-05-17 21:53:27

目录系列文章目录前言一、单张图常见函数说明1. x轴数据（x），y轴数据（y)2. x轴标签说明（xlabel），y轴标签说明（ylabel）3. 图名（title）4. 图例（legend）5. x轴刻度（xticks），y轴刻度（yticks）总结系

2023-05-17 21:53:21

目录使用 python 中的日历库查找月份的最后一天使用 python 中的 datetime 模块查找该月的最后一天从每个月的第一天减去一天以找到该月的最后一天使用存储在数组中的预加载

2023-05-17 21:53:16

目录在 python 中使用数学计算将秒转换为小时、分钟和秒的自定义函数在 python 中使用 divmod() 函数将秒转换为小时、分钟和秒在 python 中使用 datetime 模块将秒转换为小

2023-05-17 21:53:13

目录python将控制台输出另存为日志文件需求方法一：使用 logger 类（推荐）方法二：仅使用 sys方法三：使用 logging 模块python记录日志，保存控制台输出总结python将控制

2023-05-17 21:53:11

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-09

2020-05-10

2020-10-21

python多进程怎么应用-kb88凯时官网登录

并行和串行计算

并行编程模型

python多进程：python中基于进程的并行性

使用多进程的好处

python多进程入门

一个简单的 python多进程示例

进程类

进程池类

joblib

充分利用 python多进程

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道