蝌蚪 – 一个模块化且可扩展的 DSL,专为网页抓取而构建。
Tadpole – A modular and extensible DSL built for web scraping

原始链接: https://tadpolehq.com/

```json { "addresses": [ { "address": "华盛顿州西雅图市东詹姆斯街2011号,邮编98122" }, { "address": "华盛顿州西雅图市西北第17大道8020号,邮编98117" }, { "address": "华盛顿州西雅图市西南多诺万街4015号,邮编98136" }, { "address": "华盛顿州西雅图市第13大道116号,邮编98122" } ... ]} ```

## 蝌蚪:一个网页抓取 DSL Zachperkitny 介绍了 **蝌蚪**,一种基于 KDL 构建的用于网页抓取和浏览器自动化的新的领域特定语言 (DSL),旨在实现标准化和可重用的抓取逻辑。蝌蚪优先考虑 **抽象**(模拟人类行为)、通过 Git 实现 **零配置** 模块导入(避免使用 NPM)以及通过可组合动作实现 **可重用性**。 一个关键特性是它的许可方式——使用“功能源代码许可”,在两年后过渡到标准的开源许可,旨在防止剥削。 提供的示例演示了使用简洁的 KDL 脚本从 Redfin 抓取地址。 未来的开发(0.2.0 & 0.3.0)将侧重于添加控制流、DOM 操作工具、改进评估器,以及扩展输出选项,包括数据库和使用有向无环图 (DAG) 的更复杂的爬取场景。 该项目可在 [GitHub](https://github.com/tadpolehq/tadpole) 上找到,社区仓库用于共享模块,地址为 [https://github.com/tadpolehq/community](https://github.com/tadpolehq/community)。欢迎反馈!
相关文章

原文

{

"addresses": [

{

"address": "2011 E James St, Seattle, WA 98122"

},

{

"address": "8020 17th Ave NW, Seattle, WA 98117"

},

{

"address": "4015 SW Donovan St, Seattle, WA 98136"

},

{

"address": "116 13th Ave, Seattle, WA 98122"

}

...

]

}

联系我们 contact @ memedata.com