## QRTape:纸带上的音频存储 本项目探索使用现代技术——计算机视觉和高效音频压缩,在纸带上存储音频。受数据存储历史的启发,QRTape通过将音频编码为一系列打印在连续纸带上的二维码,绕过复杂的机械磁带传输。 该系统利用Arduino驱动的步进电机,制作了一个由纸板和纸张制成的简单“磁带传输”装置,将纸带送过网络摄像头。软件是关键:Opus音频编解码器将音频压缩到非常小的尺寸(例如,4分钟的音轨压缩到355KB),而定制工具会将音频分割成二维码大小的块,并添加错误校正。 播放涉及使用网络摄像头扫描二维码,并使用ZBar解码,直接将数据传输到播放器(如mplayer)——无需中间文件。虽然可以进行改进(居中机制、双向电机控制),但概念验证表明,从一种非常低科技的介质中可以获得令人惊讶的好音质。 QRTape 强调了结合现成组件和巧妙软件,实现独特且实用的数据存储解决方案的强大力量。
## 2024 年网络爬虫:每天抓取十亿页
该项目重新审视了大规模网络爬虫,这是一个自 2012 年以来未得到充分更新的主题,以确定启动一个谷歌规模的爬虫是否仍然可行。作者成功地在约 **25.5 小时**内抓取了 **10 亿个网页**,成本约为 **462 美元**,远低于之前的估计。
尽管硬件有所改进(更快的 CPU、NVMe 驱动器、增加的网络带宽),但挑战依然存在。网络越来越动态且内容密集。该爬虫专注于 HTML,绕过了 JavaScript 渲染以直接与过去的爬虫进行比较,并令人惊讶地发现仍然可以通过这种方式访问网络的大部分内容。
该爬虫利用了 **12 个优化节点**的集群,每个节点处理爬虫的一部分,在有限的预算下优先考虑效率。**解析被证明是一个主要瓶颈**,这归因于与 2012 年相比,平均页面尺寸显著增加(242KB vs. 51KB),因此需要切换到更快的 `selectolax` 库并截断页面。网络带宽不是限制因素,但 **SSL 握手消耗了大量的 25% CPU 时间**。
该项目强调了**礼貌性**(尊重 `robots.txt`、爬取延迟)和**容错性**。虽然与理论模型相当,但作者的结果表明,仅提取机器的扩展可以实现类似的吞吐量。未来的工作应解决动态内容渲染问题,并分析抓取数据的特征。人工智能驱动的抓取技术的兴起也正在促使互联网基础设施提供商采取新的防御措施。
## Elsevier撤稿事件揭露引文卡特尔
一起重大丑闻在经济学界爆发,Elsevier期刊撤回了12篇论文,所有论文均由都柏林三一学院教授Brian Lucey共同署名。撤稿源于Lucey在担任编辑期间批准了自己的论文,这违反了期刊政策,且存在明显的利益冲突。
此事件揭露了一个长期以来被怀疑的“引文卡特尔”,Lucey和他的合作者,特别是Samuel Vigne,通过互引和潜在的合作署名交易,人为地夸大了引用次数。分析显示,在Lucey的影响力下,Elsevier金融期刊生态系统内的引用数量显著增加。
Lucey已被撤销五个期刊的编辑职务,但仍保留另一个期刊的职务。虽然Elsevier承认存在问题,但人们仍然担心问题的严重程度以及出版商在激励此类行为方面的作用。这起丑闻不仅限于被撤回的论文,还引发了对学术出版诚信、通过与Lucey和Vigne相关的私人咨询公司进行的潜在财务不当行为,甚至直接出售论文的指控。核心问题在于,学术声誉被制造和货币化,奖励操纵而非真正的研究。