首页编程正文内容

python多进程分块读取超大文件的方法

编程

更新时间：2026-04-05 07:30:32 68

admin 管理员组

文章数量: 1184232

2024年3月8日发(作者：fifo跨时钟域处理实例)

python多进程分块读取超大文件的方法

Python是当今很流行的一种编程语言，可以用来读取大型文件，处理数据，并行化计算等操作，这对于那些需要处理大量数据的专业人士而言，是一个非常有用的工具。Python的多进程模块可以让用户更快地输入大量数据，并以更快的速度处理它们。下面，我将介绍如何使用Python多进程模块进行分块读取超大文件的方法。

首先，需要明确的是，Python multiprocessing模块中有一个Pool类，它允许我们轻松地启动子进程并在它们之间分配任务。我们在使用该方法时，需注意以下几点：

1. 要保证主线程在启动子进程之前就已经处理完要读取的超大文件。如果您尝试在子进程中打开超大文件，可能会因为打开文件次数过多，而导致文件句柄被占满，从而导致程序崩溃。

2. 在启动子进程之后，请确保每个子进程读取的数据量相同，这样可以避免某些子进程严重超载，从而拖慢整个程序的执行速度。

3. 请确保在每个进程读取完数据后，及时将数据存储到磁盘或内存中。否则，进程中的存储区可能过于拥挤，从而导致进程崩溃。

下面我们就来看一下如何使用Python multiprocessing模块进行分块读取超大文件：

```python

from multiprocessing import Pool

import os

def read_chunk(file_path, start, end):

"""

读取文件的一个部分

:param file_path: 文件路径

:param start: 读取的开始位置

:param end: 读取的结束位置

:return:

"""

with open(file_path, 'rb') as f:

(start)

chunk = (end - start)

return chunk

def chunked_file_reader(file_path, chunk_size=1024 * 1024 *

1024, pool_size=_count()):

"""

分块读取超大文件

:param file_path: 文件路径

:param chunk_size: 读取的块的大小（默认为1GB）

:param pool_size: 进程池大小（默认为电脑的CPU核数）

:return: 对于大文件我们需要分块读取，返回的是一个迭代器，一个块一个块读

"""

pool = Pool(pool_size)

size = e(file_path)

for chunk_start in range(0, size, chunk_size):

chunk_end = min(chunk_start + chunk_size, size)

yield _async(read_chunk, (file_path, chunk_start,

chunk_end))

()

```

上面的代码中，我们首先定义了一个名为`chunked_file_reader()`的函数，该函数提供了三个输入参数：`file_path`，`chunk_size`和

`pool_size`。

函数中，我们使用了Python multiprocessing模块中的 Pool 类，使

每个进程分别读取不同的文件块。首先，我们使用`e()`

方法，获取该文件的总大小。接着，我们遍历整个文件，每次按照指定的块大小`chunk_size`读取文件，并使用`_async()`方法将读取任务传递给子进程。

最后，我们等待所有的进程都完成任务，使用`()`和`()`方法，来确保所有的进程都已经完成了任务。

当我们使用`chunked_file_reader()`方法读取文件后，我们将得到一个迭代器，我们可以迭代该迭代器，按顺序读取所有的按块分割的文件块。

总之，Python的多进程模块可以用于快速处理超大文件。以上是一种分块读取超大文件的方法，可以采用 Python's multiprocessing

library，不断的迭代分块数据流。这个方法并不需要太多的代码就可以实现，而且非常容易理解。我们可以根据需要，调整chunk_size和pool_size 的值，以便更好地适应不同大小的文件。

本文标签：文件读取进程

版权声明：本文标题：python多进程分块读取超大文件的方法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1709891291a548941.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

电脑垃圾清理全攻略

编程

12天前

1、手动清理（1）打开资源管理器，右键-属性，点击“磁盘清理”，然后选中要清理的文件，点击确定即可；（2）对于一些软件的卸载残留，可以打开注册表，找到各目录下的software子目录，从里面找那些你已经卸载过的软件

R3nzSkin常见问题解答：解决注入失败、游戏崩溃等10大痛点

编程

12天前

R3nzSkin常见问题解答：解决注入失败、游戏崩溃等10大痛点 R3nzSkin作为一款热门的《英雄联盟》皮肤修改工具，帮助玩家自定义游戏体验。但在使用过程中，许多用户会遇到注入失败、游戏崩溃等问题。本文汇总了10个最常见的

Windows Media Player专用VOB格式播放插件

编程

11天前

简介：此插件专为Windows Media Player设计，使得WMP能够播放VOB格式的视频文件，即DVD光盘上的主要视频容器格式。用户需要根据提供的说明逐步安装，安装过程中可能包括注册dll文件、添加滤镜或解码器等步骤。该插件不

病毒利用autorun.inf做了什么_autorun.inf利用

技术日记

11天前

病毒作者可以利用autorun.inf的自动功能，让移动设备在用户系统完全不知情的情况下，“自动”执行任何命令或应用程序。因此，通过这个autorun.inf文件，可以放置正常的启动程序，如我们经常使用的各种教学光盘，一插入电脑就自动

dos下删除病毒autorun.inf

编程

11天前

今天有个同学的电脑中病毒了，但是电脑里有很多重要的东西，中的病毒式autorun.inf 非常顽固的老病毒，只要删除不干净，就会立即快速的复制，把电脑里的东西都给植入这种文件，这种文件一般是在根目录下，在打开每个驱动盘的时候，病毒就

Android优化之多进程的使用详解_android 13 分配更多资源

技术日记

11天前

最近发现项目的一个界面里面逻辑特别复杂，页面的层级和结构也特复杂。页面大致是有进入这个界面是看见一个夹杂动画的封面，动画开始的同时走网络，然后加载html，然后加载个底部弹幕，底部一行一行往上弹弹幕，里面包含了许多自定义的控件，最后导

一学就会：EasyRecovery简易指南帮你快速恢复误删的文件

技术日记

10天前

简介：EasyRecovery是一款高效的文件恢复软件，它帮助用户恢复因误删除、格式化或其他原因丢失的文件。该工具扫描未被覆盖的硬盘空间，找回丢失文件的元数据和内容。它支持包括硬盘、外部硬盘、USB驱动器和SD卡在内的多种存储设备，并

从PowerDVD到图片：你的电影截图攻略

技术日记

10天前

方法一： Windows Media Player10 首先介绍，最简单的视频截图方法。Media Player10是常用的视频播放器，也可以视频截图。我们在播放电影的过程中，遇到想截取的图片，只需按下【“Ctrl＋I”

遇到wpcap.dll问题？解决攻略与预防小妙招，一步到位

编程

9天前

在使用计算机的过程中，有时会遇到系统提示丢失wpcap.dll文件的情况。这种情况可能会导致某些依赖于该DLL（动态链接库）的程序无法正常运行。那么，当您遭遇这种问题时，应该如何应对呢？本文将详细介绍几种有效的解决方案，并提供一些预防

WinPcap.exe出问题？三步轻松搞定wpcap.dll缺失的烦恼！

技术日记

9天前

WinPcap.exe：解决wpcap.dll缺失问题在此提供的WinPcap.exe文件，主要用于解决在部分Windows操作系统中出现的【wpcap.dll】缺失问题。该问题可能导致一些网络相关的软件无法正常运行，出现错

狂怒2启动失败？WPCAP.DLL错误？一步步轻松搞定！

技术日记

9天前

遇到《狂怒2》（Rage 2）游戏提示“wpcap.dll”文件丢失的问题，意味着您的系统中可能缺少或损坏了用于网络抓包和监控的WinPcap或其替代品Npcap的动态链接库文件。以下是解决此问题的步骤： 1. 安装或重新安装

从卡顿到流畅，解决网络监控应用中wpcap.dll问题的快速教程

技术日记

9天前

wpcap.dll是Windows系统中用于网络数据包捕获的关键文件，缺失或损坏会影响网络监控工具的运行。以下是针对缺少wpcap.dll文件的最新修复方法：一、重新安装WinPcap或Npcap访问WinPca

在DirectShow编程中探索DX9.0的SWF奥秘，从新手到专家

技术日记

9天前

本来就很想自己做个媒体播放器来耍耍，可惜一直没有机会。这次突然有机会接触到个跟视频流打交道的程序。欣喜若狂的开始，却被将近一周的配置DirectShow环境给击倒了。好，言归正题，方便其他人不要再绕很远的路。首先是SDK的问

掌握C#中的Flash中心压缩与解压缩，提升项目效率

编程

9天前

【【【【C#压缩文件】】】】方法1：【filepath想要压缩文件的地址】【zippath输出压缩文件的地址】private void GetFileToZip(string f

PHP编程中的压缩魔法：ZipArchive实例解析

编程

9天前

参考文档：1.创建新的压缩文件： functioncreateNewZip(){$zipFileName = 'D:projectvrwebtemp190627_113400.zip&

WinRAR小技巧：让你的文件包坚不可摧，不怕被乱动！

技术日记

9天前

在职场中，我们经常会使用 WinRAR 来打包文档、项目文件或资料合集。压缩的好处显而易见：节省空间、方便传输、归档整洁。但你是否遇到过这些情况：压缩文件被他人解压后重新打包，原文件被篡改？项目资料被错

Python助力：快速上手zip文件的压缩与解压

技术日记

9天前

ZipFile对象顾名思义， zipfile是处理 zip文件的模块，其中最重要的类是 ZipFile，其构造函数为 ZipFile(file, mo

DISM++：你的Flash播放问题终结者，提升性能

编程

9天前

简介：DISM++是一款全方位的电脑维护软件，提供深度扫描和清理功能，专为优化个人计算机而设计。它能够高效清除各种系统垃圾和无用文件，释放硬盘空间，并通过系统清理、优化、备份和恢复功能提高电脑的运行速度和性能。该软件还支持多语言界面，

系统维护必备工具：DISM++助你轻松应对Flash中心和Player

技术日记

9天前

Ubuntu系统安全大计，备份技巧大公开

编程

9天前

本文主要参考这个博客。全文一半内容是复制粘贴的这个博客内容，提前声明一下，以防侵权。还参考了下这个ubuntu有时候用着用着崩了，或者想回退到历史某个版本。这就需要系统备份了：把当前某个能用的状态备

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

python多进程分块读取超大文件的方法

更多相关文章

电脑垃圾清理全攻略

R3nzSkin常见问题解答：解决注入失败、游戏崩溃等10大痛点

Windows Media Player专用VOB格式播放插件

病毒利用autorun.inf做了什么_autorun.inf利用

dos下删除病毒autorun.inf

Android优化之多进程的使用详解_android 13 分配更多资源

一学就会：EasyRecovery简易指南帮你快速恢复误删的文件

**从PowerDVD到图片：你的电影截图攻略**

遇到wpcap.dll问题？解决攻略与预防小妙招，一步到位

WinPcap.exe出问题？三步轻松搞定wpcap.dll缺失的烦恼！

狂怒2启动失败？WPCAP.DLL错误？一步步轻松搞定！

从卡顿到流畅，解决网络监控应用中wpcap.dll问题的快速教程

在DirectShow编程中探索DX9.0的SWF奥秘，从新手到专家

掌握C#中的Flash中心压缩与解压缩，提升项目效率

PHP编程中的压缩魔法：ZipArchive实例解析

WinRAR小技巧：让你的文件包坚不可摧，不怕被乱动！

Python助力：快速上手zip文件的压缩与解压

DISM++：你的Flash播放问题终结者，提升性能

系统维护必备工具：DISM++助你轻松应对Flash中心和Player

Ubuntu系统安全大计，备份技巧大公开

发表评论

推荐文章

Mac新手必备：完全卸载Adobe Flash Player，释放更多存储空间！

D盘问题大扫除：深度格式化让硬盘焕然一新

如何看电脑的配置_如何看电脑配置

Win11启用SMB共享后，其他设备无法发现或访问共享文件夹？_编程语言-问答

电脑突然没声音 电脑没声音该如何解决？_声卡回滚以前之后电脑还是没声音

热门文章

Vob文件不再神秘，一步到位转换为SWF，Adobe Flash Player教您实战

steam商店错误代码-118解决方法 解决steam错误代码-118_steam -118

MX330显卡解析：中低端性能对比与特点

耳麦有杂音（电流声）的解决方法_电脑耳机麦克风增强有滋滋的声音

ghost 11.0.2_Ghost 0.4的新增功能？

斑马打印机设置成网络打印机步骤_斑马打印机怎么做网络共享

net framework 3.5 3.5官方完整版_net3.5占多大空间

显卡闪一下就断电？这里有快速解决步骤

360助手揭秘：让安卓手机系统瘦身，流畅体验升级

NaCl进阶：3D游戏开发者必备，DirectX9代码到GLES的代码转换全解

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

从PowerDVD到图片：你的电影截图攻略

电脑突然没声音电脑没声音该如何解决？_声卡回滚以前之后电脑还是没声音

steam商店错误代码-118解决方法解决steam错误代码-118_steam -118