数据处理工具：Pandas 与 NumPy 的使用指南

在 AI 项目中，数据处理是至关重要的一步。Pandas 和 NumPy 是 Python 中最常用的数据处理和分析工具，下面将详细介绍它们的使用方法，帮助你清洗、预处理和分析数据。

NumPy 是 Python 中用于科学计算的核心库，提供了高效的数组操作和数学函数。

数组操作：

创建数组：

import numpy as np
arr = np.array([1, 2, 3])

数学运算：

统计函数：

np.mean(arr)  # 平均值
np.std(arr)   # 标准差

Pandas 是 Python 中用于数据分析和处理的核心库，提供了高效的数据结构和操作工具。

数据结构：

Series：一维数组，带索引。

import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

DataFrame：二维表格，类似于 Excel 表。

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

数据读取与写入：

数据清洗：

处理缺失值：

df.dropna()  # 删除缺失值
df.fillna(0) # 填充缺失值

数据筛选与排序：

排序数据：

df.sort_values(by='A', ascending=False)

数据分组与聚合：

数据合并：

以下是一个典型的数据处理流程：

df = pd.read_csv('data.csv')

df.head()  # 查看前 5 行
df.info()  # 查看数据信息
df.describe()  # 查看统计信息

df.dropna(inplace=True)  # 删除缺失值
df.drop_duplicates(inplace=True)  # 删除重复值
df['A'] = df['A'].replace(0, 100)  # 替换值

df = df[df['A'] > 1]  # 筛选数据
df = df.sort_values(by='A', ascending=False)  # 排序数据

grouped = df.groupby('B').agg({'A': 'mean', 'C': 'sum'})

df.to_csv('cleaned_data.csv', index=False)

通过掌握 Pandas 和 NumPy，你将能够高效地处理和分析数据，为 AI 项目打下坚实的基础。加油！ 🚀