百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python JSON数据处理全攻略:从入门到实战,新手也能轻松掌握!

liuian 2025-04-11 00:58 17 浏览

引言

在当今数据驱动的时代,JSON(JavaScript Object Notation)已成为互联网数据交换的“通用语言”。无论是API接口、配置文件还是网络爬虫,JSON都扮演着核心角色。本文将通过零基础手把手教学+实战案例,带你掌握Python处理JSON的核心技巧,并附赠今日头条数据抓取实战代码,助你快速进阶!


一、JSON基础:为什么每个程序员都必须掌握?

JSON是一种轻量级的数据格式,具有以下优势:

  1. 易读性:键值对结构清晰,如{"name": "张三", "age": 25};
  2. 跨平台性:支持Python、Java、JavaScript等多种语言;
  3. 高效传输:体积小,解析速度快,适合网络传输。

JSON常见格式示例:

{
  "用户": [
    {"name": "张三", "hobbies": ["篮球", "编程"]},
    {"name": "李四", "email": "lisi@example.com"}
  ]
}

二、Python操作JSON的四大核心函数

函数

作用

场景

json.dumps()

将Python对象转为JSON字符串

数据序列化

json.loads()

将JSON字符串转为Python对象

数据反序列化

json.dump()

将Python对象写入JSON文件

文件存储

json.load()

从JSON文件读取数据到Python对象

文件读取

代码示例:数据转换与文件读写

import json

# 数据转JSON字符串
data = {"platform": "今日头条", "users": [{"name": "小王", "粉丝数": 10000}]}
json_str = json.dumps(data, indent=4)  # indent参数让JSON格式化排版
print("JSON字符串:\n", json_str)

# 写入JSON文件
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False)  # 确保中文正常显示

# 从文件读取
with open('data.json', 'r') as f:
    loaded_data = json.load(f)
print("读取到的数据:", loaded_data)

三、实战案例:抓取今日头条热门文章数据(附完整代码)

步骤1:安装依赖库

pip install requests

步骤2:发送请求并解析JSON

import requests
import json

def fetch_toutiao_hot():
    url = "https://www.toutiao.com/api/pc/list/feed?channel_id=3189398972"  # 娱乐频道接口
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        data = json.loads(response.text)
        for article in data.get('data', []):
            title = article.get('title', '无标题')
            read_count = article.get('read_count', 0)
            print(f"标题: {title} | 阅读量: {read_count}")
    else:
        print("请求失败,状态码:", response.status_code)

fetch_toutiao_hot()

代码解析:

  • 使用requests库模拟浏览器请求,绕过简单反爬机制;
  • json.loads()解析返回的JSON数据,提取标题和阅读量;
  • 关键点:需添加User-Agent请求头,否则可能被服务器拒绝。

四、进阶技巧:处理复杂JSON结构

  1. 嵌套数据提取

若JSON数据多层嵌套,可通过递归或逐层访问:

# 示例:提取所有用户的兴趣标签
data = {
    "department": {
        "name": "技术部",
        "members": [
            {"name": "张三", "tags": ["Python", "AI"]},
            {"name": "李四", "tags": ["Java", "大数据"]}
        ]
    }
}

all_tags = [tag for member in data['department']['members'] for tag in member['tags']]
print("所有兴趣标签:", all_tags)  # 输出: ['Python', 'AI', 'Java', '大数据']
  1. 数据格式化与排序
data = {"b": 2, "a": 1, "c": 3}
formatted_json = json.dumps(data, indent=2, sort_keys=True)
print(formatted_json)
# 输出按键名排序的格式化JSON

五、避坑指南:新手常见问题

  1. 编码问题:使用ensure_ascii=False参数避免中文乱码;
  2. 文件路径错误:建议使用绝对路径或检查文件权限;
  3. 数据类型不匹配:JSON的null对应Python的None,true/false对应True/False。

结语

通过本文,你已掌握从基础操作到实战应用的完整JSON处理技能。无论是本地数据存储,还是网络数据抓取,JSON都是Python程序员不可或缺的工具。立即动手运行示例代码,探索更多数据处理的可能!

今日头条原创提示:本文代码经过实测,转载请注明出处。关注作者,获取更多Python爬虫与数据分析实战技巧!

#python##python自学##干货##编程#

相关推荐

GANs为何引爆机器学习?这篇基于TensorFlow的实例教程为你解惑!

「机器人圈导览」:生成对抗网络无疑是机器学习领域近三年来最火爆的研究领域,相关论文层出不求,各种领域的应用层出不穷。那么,GAN到底如何实践?本文编译自Medium,该文作者以一朵玫瑰花为例,详细阐...

高丽大学等机构联合发布StarGAN:可自定义表情和面部特征

原文来源:arXiv、GitHub作者:YunjeyChoi、MinjeChoi、MunyoungKim、Jung-WooHa、SungKim、JaegulChoo「雷克世界」编译:嗯~...

TensorFlow和PyTorch相继发布最新版,有何变化

原文来源:GitHub「机器人圈」编译:嗯~阿童木呀、多啦A亮Tensorflow主要特征和改进在Tensorflow库中添加封装评估量。所添加的评估量列表如下:1.深度神经网络分类器(DNNCl...

「2022 年」崔庆才 Python3 爬虫教程 - 深度学习识别滑动验证码缺口

上一节我们使用OpenCV识别了图形验证码躯壳欧。这时候就有朋友可能会说了,现在深度学习不是对图像识别很准吗?那深度学习可以用在识别滑动验证码缺口位置吗?当然也是可以的,本节我们就来了解下使用深度...

20K star!搞定 LLM 微调的开源利器

LLM(大语言模型)微调一直都是老大难问题,不仅因为微调需要大量的计算资源,而且微调的方法也很多,要去尝试每种方法的效果,需要安装大量的第三方库和依赖,甚至要接入一些框架,可能在还没开始微调就已经因为...

大模型DeepSeek本地部署后如何进行自定义调整?

1.理解模型架构a)查看深度求索官方文档或提供的源代码文件,了解模型的结构、输入输出格式以及支持的功能。模型是否为预训练权重?如果是,可以在预训练的基础上进行微调(Fine-tuning)。是否需要...

因配置不当,约5000个AI模型与数据集在公网暴露

除了可访问机器学习模型外,暴露的数据还可能包括训练数据集、超参数,甚至是用于构建模型的原始数据。前情回顾·人工智能安全动态向ChatGPT植入恶意“长期记忆”,持续窃取用户输入数据多模态大语言模型的致...

基于pytorch的深度学习人员重识别

基于pytorch的深度学习人员重识别Torchreid是一个库。基于pytorch的深度学习人员重识别。特点:支持多GPU训练支持图像的人员重识别与视频的人员重识别端到端的训练与评估简单的re...

DeepSeek本地部署:轻松训练你的AI模型

引言:为什么选择本地部署?在AI技术飞速发展的今天,越来越多的企业和个人希望将AI技术应用于实际场景中。然而,对于一些对数据隐私和计算资源有特殊需求的用户来说,云端部署可能并不是最佳选择。此时,本地部...

谷歌今天又开源了,这次是Sketch-RNN

前不久,谷歌公布了一项最新技术,可以教机器画画。今天,谷歌开源了代码。在我们研究其代码之前,首先先按要求设置Magenta环境。(https://github.com/tensorflow/magen...

Tensorflow 使用预训练模型训练的完整流程

前面已经介绍了深度学习框架Tensorflow的图像的标注和训练数据的准备工作,本文介绍一下使用预训练模型完成训练并导出训练的模型。1.选择预训练模型1.1下载预训练模型首先需要在Tensorf...

30天大模型调优学习计划(30分钟训练大模型)

30天大模型调优学习计划,结合Unsloth和Lora进行大模型微调,掌握大模型基础知识和调优方法,熟练应用。第1周:基础入门目标:了解大模型基础并熟悉Unsloth等工具的基本使用。Day1:大模...

python爬取喜马拉雅音频,json参数解析

一.抓包分析json,获取加密方式1.抓包获取音频界面f12打开抓包工具,播放一个(非vip)视频,点击“媒体”单击打开可以复制URL,发现就是我们要的音频。复制“CKwRIJEEXn-cABa0Tg...

五、JSONPath使用(Python)(json数据python)

1.安装方法pipinstalljsonpath2.jsonpath与Xpath下面表格是jsonpath语法与Xpath的完整概述和比较。Xpathjsonpath概述/$根节点.@当前节点...

Python网络爬虫的时候json=就是让你少写个json.dumps()

大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和...