天花 - 建立在DuckDB和3FS上的轻巧数据处理框架
Smallpond – A lightweight data processing framework built on DuckDB and 3FS

原始链接: https://github.com/deepseek-ai/smallpond

Smplowpond是建立在DuckDB和3FS的数据处理的轻巧,高性能的Python框架。它在不需要长期服务的情况下擅长处理PBABYTE规模的数据集。支持Python 3.8-3.12,它提供了易于使用的操作,用于阅读,处理和编写数据。 关键功能包括通过`sp.read_parquet()`进行数据加载,用于并行处理的重新分配,并使用sp.partial_sql()`。可以使用`df.write_parquet()`。 证明其功能,使用75节点群集上的Graysort基准评估了Skermpond。它在短短30分钟内将110.5 TIB的数据排序,达到3.66 TIB/min的令人印象深刻的吞吐量。 使用`pip安装很简单。[dev]`。该项目包括通过“ Pytest”运行的单元测试以及通过`sake html'生成的文档。 Smbermpond是开源的,根据MIT许可证获得许可。

这个黑客新闻线程讨论了天花,这是一个基于DuckDB和3FS的数据处理框架,专门用于培训管道。评论者强调了其对射线的使用,用于并行化,有效的检查点以及对零拷贝数据传输到pandas dataframes的随机读取和箭头格式的支持。一些建议替代工具(例如CHDB)用于类似功能。 与关系模型相比,讨论涉及层次数据模型的相关性,其中一位评论者指出了IMS对特定应用的效率。关于天花比标准鸭子的好处的辩论也存在争议,尤其是关于数据大小阈值以及使用3FS的复杂性。然后,该线程就对AI自动化各种专业的潜力进行了更广泛的讨论,包括医生,引发了关于白领和蓝领工作的替代性的辩论。最后,还提到了自动垃圾收集的困难。
相关文章
  • (评论) 2025-03-04
  • (评论) 2024-05-31
  • (评论) 2024-08-02
  • DuckDB 不需要数据就可以成为数据库 2024-05-31
  • (评论) 2024-02-04

  • 原文

    CI PyPI Docs License

    A lightweight data processing framework built on DuckDB and 3FS.

    • 🚀 High-performance data processing powered by DuckDB
    • 🌍 Scalable to handle PB-scale datasets
    • 🛠️ Easy operations with no long-running services

    Python 3.8 to 3.12 is supported.

    # Download example data
    wget https://duckdb.org/data/prices.parquet
    import smallpond
    
    # Initialize session
    sp = smallpond.init()
    
    # Load data
    df = sp.read_parquet("prices.parquet")
    
    # Process data
    df = df.repartition(3, hash_by="ticker")
    df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)
    
    # Save results
    df.write_parquet("output/")
    # Show results
    print(df.to_pandas())

    For detailed guides and API reference:

    We evaluated smallpond using the GraySort benchmark (script) on a cluster comprising 50 compute nodes and 25 storage nodes running 3FS. The benchmark sorted 110.5TiB of data in 30 minutes and 14 seconds, achieving an average throughput of 3.66TiB/min.

    Details can be found in 3FS - Gray Sort.

    pip install .[dev]
    
    # run unit tests
    pytest -v tests/test*.py
    
    # build documentation
    pip install .[docs]
    cd docs
    make html
    python -m http.server --directory build/html

    This project is licensed under the MIT License.

    联系我们 contact @ memedata.com