Python数据拆分案例实操？

wen python案例 2026-06-08 00:56:41 1

Python数据拆分案例实操：从入门到精通的高效数据拆分技巧

目录导读

为什么数据拆分如此重要？
Python数据拆分的核心方法
- 1 基于条件拆分
- 2 按行数与比例拆分
- 3 按特征列分组拆分
案例实操：从CSV到Excel批量拆分
常见问题与优化策略
- Q1：拆分后数据丢失怎么办？
- Q2：大文件拆分内存溢出如何解决？
总结与进阶建议

为什么数据拆分如此重要？

在数据分析与机器学习任务中,我们经常面对单个大文件（如日志、用户行为表、销售记录），但出于 内存限制、分批处理、团队协作 等原因，需要将其拆分为多个小文件。

按日期拆分：将全年销售数据按月导出。
按分组拆分：将用户数据按地区拆为多个Excel，方便各区域经理使用。
采样拆分：从千万级数据中提取训练集和测试集。

核心痛点：手动拆分Excel或CSV不仅耗时，且容易出错，Python+pandas 提供了一套高效、可复现的解决方案。

Python数据拆分的核心方法

1 基于条件拆分（逻辑拆分）

使用 DataFrame.loc 或 query 按条件过滤。

import pandas as pd
# 读取原始数据
df = pd.read_csv('sales_2023.csv')
# 拆分为：高价值客户（消费>5000）和其他客户
high_value = df.loc[df['amount'] > 5000]
low_value = df.loc[df['amount'] <= 5000]
high_value.to_csv('high_value.csv', index=False)
low_value.to_csv('low_value.csv', index=False)

场景: 用户分层、异常值筛选、分群营销。

2 按行数与比例拆分（随机/固定大小）

使用 numpy 或 sklearn 的 train_test_split。

from sklearn.model_selection import train_test_split
import numpy as np
train, test = train_test_split(df, test_size=0.3, random_state=42)
train.to_csv('train.csv', index=False)
test.to_csv('test.csv', index=False)
# 或按固定行数拆分（每份1000行）
chunks = np.array_split(df, 5)  # 分成5份
for i, chunk in enumerate(chunks):
    chunk.to_csv(f'part_{i+1}.csv', index=False)

注意：np.array_split 会自动计算行数，适合分布均匀的场景。

3 按特征列分组拆分（类别拆分）

使用 groupby 后循环写入。

for region, group_df in df.groupby('region'):
    group_df.to_csv(f'sales_{region}.csv', index=False)

效率提升：如果数据量大，建议使用 to_excel 加 engine='openpyxl'，或写入多个Sheet。

案例实操：从CSV到Excel批量拆分

需求：某电商公司有一份 order_2024.csv（50万行），需按 year_month 字段拆分为每月一个Excel文件，并保留表头。

步骤：

import pandas as pd
import os
# 1. 读取数据（注意：内存不足时可分块读取）
df = pd.read_csv('order_2024.csv')
# 2. 解析日期列
df['date'] = pd.to_datetime(df['order_date'])
df['year_month'] = df['date'].dt.strftime('%Y-%m')
# 3. 创建输出目录
os.makedirs('monthly_sales', exist_ok=True)
# 4. 循环拆分并写入Excel
for month, group in df.groupby('year_month'):
    file_name = f'monthly_sales/orders_{month}.xlsx'
    group.to_excel(file_name, index=False, engine='openpyxl')
    print(f'已生成: {file_name}')
print('拆分完成！共生成{}个文件'.format(len(df['year_month'].unique())))

验证结果：输出目录下应有12个Excel文件，每个包含对应月份的数据。

优化点：年月”值很多，可以改用 pd.ExcelWriter 写入多个Sheet。

常见问题与优化策略

Q1：拆分后数据丢失怎么办？

原因：可能因为中文路径、编码问题或写入时覆盖了已有文件。
解决：

使用 encoding='utf-8-sig' 避免乱码。
写入前检查文件是否已存在：os.path.exists(file_name)。
使用 try-except 捕获写入异常。

Q2：大文件拆分内存溢出如何解决？

方案：分块读取（chunking），避免一次性加载全部数据到内存。

chunk_size = 10000  # 每次读取1万行
for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
    # 对每个chunk进行处理（例如按月份拆分）
    for month, group in chunk.groupby(chunk['year_month']):
        group.to_csv(f'partial_{month}.csv', mode='a', header=not os.path.exists(...), index=False)

注意：mode='a' 表示追加写入，需配合 header 参数控制是否写入列名。