展示 HN:数据工程书籍 – 一本开源、社区驱动的指南
Show HN: Data Engineering Book – An open source, community-driven guide

原始链接: https://github.com/datascale-ai/data_engineering_book/blob/main/README_en.md

本文概述了 GitHub 平台上的功能和资源,该平台用于软件开发和协作。GitHub 为开发生命周期的每个阶段提供工具,包括**代码创建**(借助 Copilot & Spark 等人工智能辅助)、**开发者工作流**自动化(Actions、Codespaces)和**应用程序安全**(Advanced Security)。 它服务于各种用户——从**企业**到**初创公司**——并支持 DevOps、CI/CD 和应用程序现代化等各种**用例**,涵盖医疗保健和金融等行业。 除了核心开发之外,GitHub 还提供广泛的**资源**,包括文档、博客和学习材料(GitHub Skills)。它还通过开源倡议、赞助和支持论坛来培养强大的**社区**。该平台提供各种**企业解决方案**和附加组件,如高级支持和高级安全功能,并提供详细的**定价**信息。

一本新的开源“数据工程书籍”已在GitHub ([https://github.com/datascale-ai/data_engineering_book](https://github.com/datascale-ai/data_engineering_book)) 和在线 ([https://datascale-ai.github.io/data_engineering_book/](https://datascale-ai.github.io/data_engineering_book/)) 上发布。该书由中国科学技术大学的一名硕士学生创作,旨在解决现代数据工程中学习资源分散的问题,尤其是在大型语言模型(LLM)方面。 本书重点介绍构建用于LLM训练和检索增强生成(RAG)系统的的数据管道。它采用基于场景的方法,根据实际的业务需求(例如,在向量数据库和关键词搜索之间进行选择)来比较工具和架构。它还包括超越基本示例的实用、完整的代码实现。 该项目采用“代码即书籍”的方式,并积极寻求社区对路线图和潜在改进的反馈。一位用户也发布了帖子,寻求合作者来应对互联网规模的数据工程挑战。
相关文章

原文
Skip to content
联系我们 contact @ memedata.com