启用 Codex 分析二十年 Hacker News 数据
Enabling Codex to Analyze Two Decades of Hacker News Data

原始链接: https://modolap.com/publication/hn-analysis-1

Hacker News 的全部数据,存储在 parquet 文件中,大约 10GB 大小。 我对分析这个数据集感兴趣,并且想效仿当前的趋势,使用 Codex 来进行分析。 通过 Modolap,Codex 可以很好地分析它。 在简单地使用 npx 添加了这个功能后,第一个感兴趣的话题是提及历史:Rust 的提及是否超过了 Go,以及 MySQL 与 Postgres 的对比。 简单地运行 codex “使用 Modolap,编写一个查询来分析 Hacker News 历史上的基于关键词的话题提及(数据集主页:https://huggingface.co/datasets/open-index/hacker-news/tree/main)。最初,关于 Rust 与 Go 的对比。” 经过少量的交互,使用 Modolap 得到一个合适的脚本。 Rust vs Golang Codex vs Claude Code Postgres vs MySQL 另一个假设是平均评论长度是否变短了。 从初步观察来看,似乎确实存在长度逐渐下降的趋势。 P50 & 平均评论长度(字符)

启用 Codex 分析 Hacker News 过去二十年的数据 (modolap.com) 6 分,由 ronfriedhaber 1小时前发布 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 mike_hearn 1分钟前 [–] 我不明白 Modolap 与仅仅让 AI 使用任何其他 OLAP 引擎有什么不同? 你的网站和 github readme 都只是强调它具有怪癖性以及你个人的方法,却没有解释它是什么,或者为什么任何人应该关心。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

The entirety of Hacker News, stored in parquet files, is approximately 10GB in size. I was interested in analyzing the dataset and, in the fashion of the contemporary zeitgeist, in doing so with Codex. With Modolap, Codex can analyze it well.

After simply adding the skill with npx, the first topic of interest was mention history: whether mentions of Rust superseded those of Go, and MySQL versus Postgres. Simply running

codex "With Modolap, Write a query to analyze historical keyword-based topic mentions over hacker news's history (Dataset's homepage: https://huggingface.co/datasets/open-index/hacker-news/tree/main). Initially, of Rust vs Go."

and some minimal back-and-forth yielded an adequate script using Modolap.

Rust vs Golang

Rust vs. Golang

Codex vs Claude Code

Codex vs. Claude Code

Postgres vs MySQL

Postgres vs. MySQL

An additional hypothesis is whether the average comment got shorter. From an initial look, it seems as if there does exist a gradual decline in length.

P50 & Average Comment Length (Chars)

P50 and average comment length over time

联系我们 contact @ memedata.com