百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python数据处理利器:Pandas核心用法详解

liuian 2025-04-06 18:06 11 浏览

一、Pandas简介

Pandas是Python最强大的数据处理库,专为处理结构化数据设计。名称源自"Panel Data"(面板数据),具备以下核心优势:

  • 高效处理百万级数据
  • 支持CSV/Excel/SQL等多种数据源
  • 提供清洗、转换、分析的完整工具链

二、环境准备

# 安装命令
pip install pandas

# 基础导入方式(行业标准)
import pandas as pd
import numpy as np  # 常配合使用

三、核心数据结构

1. Series(一维数据)

创建示例:

# 从列表创建
scores = pd.Series([90, 85, 92, 88], 
                  index=['Alice', 'Bob', 'Charlie', 'David'],
                  name='Math Scores')
print(scores) 

输出结果:

复制代码Alice       90
Bob         85
Charlie     92
David       88
Name: Math Scores, dtype: int64

2. DataFrame(二维表格)

创建方式:

# 字典方式创建
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 28],
    'City': ['New York', 'London', 'Paris']
}
df = pd.DataFrame(data)

# 设置索引
df.set_index('Name', inplace=True) 

生成的DataFrame:

Name

Age

City

Alice

25

New York

Bob

30

London

Charlie

28

Paris


四、数据操作实战

案例:电商销售数据分析

1. 数据加载

# 读取CSV文件
sales = pd.read_csv('sales_data.csv', 
                   parse_dates=['order_date'])

# 显示前3行
print(sales.head(3)) 

2. 数据清洗

# 处理缺失值
sales['price'] = sales['price'].fillna(sales['price'].mean())

# 删除重复记录
sales.drop_duplicates(inplace=True)

# 类型转换
sales['quantity'] = sales['quantity'].astype(int) 

3. 数据分析

常用操作示例:

# 筛选2023年Q1数据
q1_sales = sales[sales['order_date'].between('2023-01-01', '2023-03-31')]

# 按品类统计销售额
category_sales = sales.groupby('category')['total'].sum().sort_values(ascending=False)

# 计算移动平均
sales['7d_avg'] = sales['total'].rolling(window=7).mean() 

4. 数据合并

# 合并订单与用户信息
user_info = pd.read_csv('users.csv')
merged_data = pd.merge(sales, user_info, on='user_id', how='left')

# 横向拼接季度报表
full_year = pd.concat([q1, q2, q3, q4], axis=0) 

五、进阶技巧

1. 时间序列处理

# 设置时间索引
sales.set_index('order_date', inplace=True)

# 按周重采样
weekly_sales = sales.resample('W').sum() 

2. 高效数据筛选

# 多条件查询
high_value = sales[(sales['total'] > 1000) & 
                  (sales['category'].isin(['Electronics', 'Furniture']))]

# 使用query方法
luxury_orders = sales.query("price > 500 and payment_type == 'Credit'") 

3. 内存优化

# 类型转换减少内存占用
sales['category'] = sales['category'].astype('category')
sales['user_id'] = sales['user_id'].astype('int32')

# 查看内存使用
print(sales.info(memory_usage='deep')) 

六、可视化集成

import matplotlib.pyplot as plt

# 绘制月度趋势图
monthly_sales.plot(kind='line', 
                  title='Monthly Sales Trend',
                  figsize=(12,6))
plt.xlabel('Month')
plt.ylabel('Sales Amount')
plt.show()

七、性能优化建议

  1. 尽量使用向量化操作替代循环
  2. 适当使用astype转换数据类型
  3. 大数据集使用dask并行处理
  4. 避免链式赋值,使用.loc明确索引

八、学习资源推荐

  • 官方文档:pandas.pydata.org
  • 经典书籍:《Python for Data Analysis》
  • 实战项目:Kaggle泰坦尼克生存预测
  • 可视化工具:Pandas+Seaborn组合

掌握Pandas需要持续实践,建议从实际项目入手,逐步探索更多高级功能。记住:数据质量决定分析结果,清洗步骤不可忽视!


希望这篇全面解析能帮助您快速掌握Pandas核心技能。如有疑问,欢迎在评论区交流讨论!

相关推荐

GANs为何引爆机器学习?这篇基于TensorFlow的实例教程为你解惑!

「机器人圈导览」:生成对抗网络无疑是机器学习领域近三年来最火爆的研究领域,相关论文层出不求,各种领域的应用层出不穷。那么,GAN到底如何实践?本文编译自Medium,该文作者以一朵玫瑰花为例,详细阐...

高丽大学等机构联合发布StarGAN:可自定义表情和面部特征

原文来源:arXiv、GitHub作者:YunjeyChoi、MinjeChoi、MunyoungKim、Jung-WooHa、SungKim、JaegulChoo「雷克世界」编译:嗯~...

TensorFlow和PyTorch相继发布最新版,有何变化

原文来源:GitHub「机器人圈」编译:嗯~阿童木呀、多啦A亮Tensorflow主要特征和改进在Tensorflow库中添加封装评估量。所添加的评估量列表如下:1.深度神经网络分类器(DNNCl...

「2022 年」崔庆才 Python3 爬虫教程 - 深度学习识别滑动验证码缺口

上一节我们使用OpenCV识别了图形验证码躯壳欧。这时候就有朋友可能会说了,现在深度学习不是对图像识别很准吗?那深度学习可以用在识别滑动验证码缺口位置吗?当然也是可以的,本节我们就来了解下使用深度...

20K star!搞定 LLM 微调的开源利器

LLM(大语言模型)微调一直都是老大难问题,不仅因为微调需要大量的计算资源,而且微调的方法也很多,要去尝试每种方法的效果,需要安装大量的第三方库和依赖,甚至要接入一些框架,可能在还没开始微调就已经因为...

大模型DeepSeek本地部署后如何进行自定义调整?

1.理解模型架构a)查看深度求索官方文档或提供的源代码文件,了解模型的结构、输入输出格式以及支持的功能。模型是否为预训练权重?如果是,可以在预训练的基础上进行微调(Fine-tuning)。是否需要...

因配置不当,约5000个AI模型与数据集在公网暴露

除了可访问机器学习模型外,暴露的数据还可能包括训练数据集、超参数,甚至是用于构建模型的原始数据。前情回顾·人工智能安全动态向ChatGPT植入恶意“长期记忆”,持续窃取用户输入数据多模态大语言模型的致...

基于pytorch的深度学习人员重识别

基于pytorch的深度学习人员重识别Torchreid是一个库。基于pytorch的深度学习人员重识别。特点:支持多GPU训练支持图像的人员重识别与视频的人员重识别端到端的训练与评估简单的re...

DeepSeek本地部署:轻松训练你的AI模型

引言:为什么选择本地部署?在AI技术飞速发展的今天,越来越多的企业和个人希望将AI技术应用于实际场景中。然而,对于一些对数据隐私和计算资源有特殊需求的用户来说,云端部署可能并不是最佳选择。此时,本地部...

谷歌今天又开源了,这次是Sketch-RNN

前不久,谷歌公布了一项最新技术,可以教机器画画。今天,谷歌开源了代码。在我们研究其代码之前,首先先按要求设置Magenta环境。(https://github.com/tensorflow/magen...

Tensorflow 使用预训练模型训练的完整流程

前面已经介绍了深度学习框架Tensorflow的图像的标注和训练数据的准备工作,本文介绍一下使用预训练模型完成训练并导出训练的模型。1.选择预训练模型1.1下载预训练模型首先需要在Tensorf...

30天大模型调优学习计划(30分钟训练大模型)

30天大模型调优学习计划,结合Unsloth和Lora进行大模型微调,掌握大模型基础知识和调优方法,熟练应用。第1周:基础入门目标:了解大模型基础并熟悉Unsloth等工具的基本使用。Day1:大模...

python爬取喜马拉雅音频,json参数解析

一.抓包分析json,获取加密方式1.抓包获取音频界面f12打开抓包工具,播放一个(非vip)视频,点击“媒体”单击打开可以复制URL,发现就是我们要的音频。复制“CKwRIJEEXn-cABa0Tg...

五、JSONPath使用(Python)(json数据python)

1.安装方法pipinstalljsonpath2.jsonpath与Xpath下面表格是jsonpath语法与Xpath的完整概述和比较。Xpathjsonpath概述/$根节点.@当前节点...

Python网络爬虫的时候json=就是让你少写个json.dumps()

大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和...