展示 HN:数据工程书籍 – 一本开源、社区驱动的指南
Show HN: Data Engineering Book – An open source, community-driven guide

原始链接: https://github.com/datascale-ai/data_engineering_book

## LLM 数据工程:综合指南 在大型语言模型 (LLM) 时代,数据质量至关重要——“数据是新的石油,但只有当你懂得如何提炼它时。” 本书旨在解决 LLM 数据工程系统性资源匮乏的问题,提供从预训练数据清洗到多模态对齐、RAG(检索增强生成)和合成数据生成的完整技术体系。 本书涵盖六个关键领域:基础设施与核心概念、文本预训练、多模态数据工程、对齐与合成数据、应用级数据工程(包括 RAG)以及五个端到端的实践项目。 它深入探讨了诸如缩放定律、数据质量评估和多模态对齐等主题,并利用 Ray、Spark、Parquet 和 CLIP 等工具。 读者将通过可运行的代码和详细的架构设计获得实践经验,构建诸如“Mini-C4”预训练数据集、法律领域 SFT 数据集、LLaVA 多模态指令集以及多模态 RAG 金融报告助手等项目。 本书提供在线版本,包括英文和中文:[https://datascale-ai.github.io/data_engineering_book/](https://datascale-ai.github.io/data_engineering_book/),面向 LLM 开发人员、数据/MLOps 工程师和 AI 产品经理。

相关文章

原文

GitHub Pages License

English | 中文

"Data is the new oil, but only if you know how to refine it."

在大模型时代,数据质量决定模型上限。然而,市面上关于 LLM 数据工程的系统性资料极为稀缺——大多数团队仍在"摸着石头过河"。

本书正是为解决这一痛点而生。我们系统性地梳理了从预训练数据清洗多模态对齐、从 RAG 检索增强合成数据生成的完整技术体系,涵盖:

  • 🧹 预训练数据工程:如何从 Common Crawl 等海量噪声数据中提炼出高质量语料
  • 🖼️ 多模态数据处理:图文对、视频、音频数据的采集、清洗与对齐
  • 🎯 对齐数据构造:SFT 指令数据、RLHF 偏好数据、CoT 推理数据的自动化生成
  • 🔍 RAG 数据流水线:企业级文档解析、语义切片与多模态检索

本书不仅有深入的理论讲解,更包含 5 个端到端实战项目,提供可运行的代码和详细的架构设计,让你能够即学即用

在线阅读: https://datascale-ai.github.io/data_engineering_book/

大模型数据工程全书架构

从原始数据到端到端应用的完整数据工程流水线

📖 全书六大部分,13章 + 5个实战项目
│
├── 第一部分:基础设施与核心理念
│   ├── 第1章:大模型时代的数据变革
│   └── 第2章:数据基础设施选型
│
├── 第二部分:文本预训练数据工程
│   ├── 第3章:数据获取与采集
│   ├── 第4章:清洗与去噪
│   └── 第5章:分词与序列化
│
├── 第三部分:多模态数据工程
│   ├── 第6章:图文对数据处理
│   ├── 第7章:数据重描述
│   └── 第8章:视频与音频数据
│
├── 第四部分:对齐与合成数据工程
│   ├── 第9章:指令微调数据
│   ├── 第10章:合成数据
│   └── 第11章:人类偏好数据
│
├── 第五部分:应用级数据工程
│   ├── 第12章:RAG数据流水线
│   └── 第13章:多模态RAG
│
└── 第六部分:实战项目集
    ├── 项目一:构建"Mini-C4"预训练集
    ├── 项目二:垂直领域专家SFT(法律)
    ├── 项目三:构建LLaVA多模态指令集
    ├── 项目四:合成数学/代码教科书
    └── 项目五:多模态RAG企业财报助手
  • Data-Centric AI 理念贯穿全书
  • 覆盖 LLM 数据全生命周期:预训练 → 微调 → RLHF → RAG
  • 深入讲解 Scaling Laws、数据质量评估、多模态对齐等前沿话题
领域 技术选型
分布式计算 Ray Data, Spark
数据存储 Parquet, WebDataset, 向量数据库
文本处理 Trafilatura, KenLM, MinHash LSH
多模态 CLIP, ColPali, img2dataset
数据版本 DVC, LakeFS
项目 核心技术 输出
Mini-C4 预训练集 Trafilatura + Ray + MinHash 高质量文本语料库
法律专家 SFT Self-Instruct + CoT 领域指令数据集
LLaVA 多模态 Bbox 对齐 + 多图交错 视觉指令数据集
数学教科书 Evol-Instruct + 沙箱验证 PoT 推理数据集
财报 RAG ColPali + Qwen-VL 多模态问答系统
  • Python 3.8+
  • MkDocs Material
  • mkdocs-static-i18n(多语言支持)
# 克隆仓库
git clone https://github.com/datascale-ai/data_engineering_book.git
cd data_engineering_book

# 安装依赖
pip install mkdocs-material mkdocs-glightbox pymdown-extensions "mkdocs-static-i18n[material]"

# 本地预览
mkdocs serve

访问 http://127.0.0.1:8000 即可预览书籍(支持中英文切换)。

生成的静态文件位于 site/ 目录。

data_engineering_book/
├── docs/
│   ├── zh/                  # 中文内容
│   │   ├── index.md         # 中文首页
│   │   └── part1/ ~ part6/  # 各章节
│   ├── en/                  # 英文内容
│   │   ├── index.md         # 英文首页
│   │   └── part1/ ~ part6/  # 各章节
│   ├── images/              # 图片资源(中英共享)
│   ├── stylesheets/         # 自定义样式
│   └── javascripts/         # JavaScript (MathJax等)
├── .github/workflows/       # GitHub Actions 自动部署
├── mkdocs.yml               # MkDocs 配置文件
├── 框架图.png                # 全书架构图
├── LICENSE                  # 开源协议
├── README.md                # 中文说明(本文件)
└── README_en.md             # English README
  • 大模型研发工程师
  • 数据工程师 / MLOps 工程师
  • AI 产品经理(技术向)
  • 对 LLM 数据流水线感兴趣的研究人员

欢迎提交 Issue 和 Pull Request!

  1. Fork 本仓库
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 提交 Pull Request

本项目采用 MIT 许可证 - 详见 LICENSE 文件。


如果这本书对你有帮助,欢迎 Star 支持!

联系我们 contact @ memedata.com