展示 HN：数据工程书籍 – 一本开源、社区驱动的指南

展示 HN：数据工程书籍 – 一本开源、社区驱动的指南
Show HN: Data Engineering Book – An open source, community-driven guide

原始链接: https://github.com/datascale-ai/data_engineering_book

## LLM 数据工程：综合指南在大型语言模型 (LLM) 时代，数据质量至关重要——“数据是新的石油，但只有当你懂得如何提炼它时。” 本书旨在解决 LLM 数据工程系统性资源匮乏的问题，提供从预训练数据清洗到多模态对齐、RAG（检索增强生成）和合成数据生成的完整技术体系。本书涵盖六个关键领域：基础设施与核心概念、文本预训练、多模态数据工程、对齐与合成数据、应用级数据工程（包括 RAG）以及五个端到端的实践项目。它深入探讨了诸如缩放定律、数据质量评估和多模态对齐等主题，并利用 Ray、Spark、Parquet 和 CLIP 等工具。读者将通过可运行的代码和详细的架构设计获得实践经验，构建诸如“Mini-C4”预训练数据集、法律领域 SFT 数据集、LLaVA 多模态指令集以及多模态 RAG 金融报告助手等项目。本书提供在线版本，包括英文和中文：[https://datascale-ai.github.io/data_engineering_book/](https://datascale-ai.github.io/data_engineering_book/)，面向 LLM 开发人员、数据/MLOps 工程师和 AI 产品经理。

原文

English | 中文

"Data is the new oil, but only if you know how to refine it."

在大模型时代，数据质量决定模型上限。然而，市面上关于 LLM 数据工程的系统性资料极为稀缺——大多数团队仍在"摸着石头过河"。

本书正是为解决这一痛点而生。我们系统性地梳理了从预训练数据清洗到多模态对齐、从 RAG 检索增强到合成数据生成的完整技术体系，涵盖：

🧹 预训练数据工程：如何从 Common Crawl 等海量噪声数据中提炼出高质量语料
🖼️ 多模态数据处理：图文对、视频、音频数据的采集、清洗与对齐
🎯 对齐数据构造：SFT 指令数据、RLHF 偏好数据、CoT 推理数据的自动化生成
🔍 RAG 数据流水线：企业级文档解析、语义切片与多模态检索

本书不仅有深入的理论讲解，更包含 5 个端到端实战项目，提供可运行的代码和详细的架构设计，让你能够即学即用。

在线阅读: https://datascale-ai.github.io/data_engineering_book/

从原始数据到端到端应用的完整数据工程流水线

📖 全书六大部分，13章 + 5个实战项目
│
├── 第一部分：基础设施与核心理念
│   ├── 第1章：大模型时代的数据变革
│   └── 第2章：数据基础设施选型
│
├── 第二部分：文本预训练数据工程
│   ├── 第3章：数据获取与采集
│   ├── 第4章：清洗与去噪
│   └── 第5章：分词与序列化
│
├── 第三部分：多模态数据工程
│   ├── 第6章：图文对数据处理
│   ├── 第7章：数据重描述
│   └── 第8章：视频与音频数据
│
├── 第四部分：对齐与合成数据工程
│   ├── 第9章：指令微调数据
│   ├── 第10章：合成数据
│   └── 第11章：人类偏好数据
│
├── 第五部分：应用级数据工程
│   ├── 第12章：RAG数据流水线
│   └── 第13章：多模态RAG
│
└── 第六部分：实战项目集
    ├── 项目一：构建"Mini-C4"预训练集
    ├── 项目二：垂直领域专家SFT（法律）
    ├── 项目三：构建LLaVA多模态指令集
    ├── 项目四：合成数学/代码教科书
    └── 项目五：多模态RAG企业财报助手

Data-Centric AI 理念贯穿全书
覆盖 LLM 数据全生命周期：预训练 → 微调 → RLHF → RAG
深入讲解 Scaling Laws、数据质量评估、多模态对齐等前沿话题

领域	技术选型
分布式计算	Ray Data, Spark
数据存储	Parquet, WebDataset, 向量数据库
文本处理	Trafilatura, KenLM, MinHash LSH
多模态	CLIP, ColPali, img2dataset
数据版本	DVC, LakeFS

项目	核心技术	输出
Mini-C4 预训练集	Trafilatura + Ray + MinHash	高质量文本语料库
法律专家 SFT	Self-Instruct + CoT	领域指令数据集
LLaVA 多模态	Bbox 对齐 + 多图交错	视觉指令数据集
数学教科书	Evol-Instruct + 沙箱验证	PoT 推理数据集
财报 RAG	ColPali + Qwen-VL	多模态问答系统

Python 3.8+
MkDocs Material
mkdocs-static-i18n（多语言支持）

# 克隆仓库
git clone https://github.com/datascale-ai/data_engineering_book.git
cd data_engineering_book

# 安装依赖
pip install mkdocs-material mkdocs-glightbox pymdown-extensions "mkdocs-static-i18n[material]"

# 本地预览
mkdocs serve

访问 http://127.0.0.1:8000 即可预览书籍（支持中英文切换）。

生成的静态文件位于 site/ 目录。

data_engineering_book/
├── docs/
│   ├── zh/                  # 中文内容
│   │   ├── index.md         # 中文首页
│   │   └── part1/ ~ part6/  # 各章节
│   ├── en/                  # 英文内容
│   │   ├── index.md         # 英文首页
│   │   └── part1/ ~ part6/  # 各章节
│   ├── images/              # 图片资源（中英共享）
│   ├── stylesheets/         # 自定义样式
│   └── javascripts/         # JavaScript (MathJax等)
├── .github/workflows/       # GitHub Actions 自动部署
├── mkdocs.yml               # MkDocs 配置文件
├── 框架图.png                # 全书架构图
├── LICENSE                  # 开源协议
├── README.md                # 中文说明（本文件）
└── README_en.md             # English README

大模型研发工程师
数据工程师 / MLOps 工程师
AI 产品经理（技术向）
对 LLM 数据流水线感兴趣的研究人员

欢迎提交 Issue 和 Pull Request！

Fork 本仓库
创建特性分支 (git checkout -b feature/AmazingFeature)
提交更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
提交 Pull Request

本项目采用 MIT 许可证 - 详见 LICENSE 文件。

如果这本书对你有帮助，欢迎 Star 支持！ ⭐

展示 HN：数据工程书籍 – 一本开源、社区驱动的指南 Show HN: Data Engineering Book – An open source, community-driven guide

展示 HN：数据工程书籍 – 一本开源、社区驱动的指南
Show HN: Data Engineering Book – An open source, community-driven guide