视觉字谜:用扩散模型生成视错觉
Visual Anagrams: Generating optical illusions with diffusion models

原始链接: https://dangeng.github.io/visual_anagrams/

这项研究提出了一种新方法,使用预训练的扩散模型来创建多视图光学错觉,而无需事先了解原始图像。 该技术包括估计不同视角下的噪声,将它们对齐,并采取扩散步骤来产生令人惊叹的变换,例如颜色反转、翻转、倾斜、拼图排列、随机补丁排列等。 事实证明,该方法允许进行广泛的转换,同时保持统计一致性和正交性要求。 受最近相关工作的启发,本研究在质量、多功能性和理论背景方面增强了前人的研究。 结果表明,这些错觉可以被视为“视觉字谜”,代表像素的特定重新排列,而不是完全不相关的图片。 例子包括内部旋转和反射复合,它们可以欺骗你的大脑看到其他东西。 凭借其所有优点和应用,本文作者邀请读者访问随附的在线资源,包括 Colaboratory 笔记本和 bibtex 文件,可在最后的参考部分中找到。 总的来说,这些迷人幻象的创造扩展了数字艺术和娱乐的领域,通过毫不费力地改变视角、形状和位置开辟了操纵现实的新方法,让我们更接近想象曾经被认为不可能的事情。

然而,就历史意义而言,20世纪80年代中期使用计算机图形技术以独特的方式操纵视觉数据可能属于创意产业的突破性创新范畴。 文字中提到整天在 GameStop 闲逛并玩侠盗猎车手; 尽管看似与当前主题无关,但这种比较暗示了发表评论的人和之前可能尝试过类似技术的人之间存在代沟。 此外,海报表明,在可访问的云服务使日常用户几乎免费探索人工智能算法之前,就存在类似的实验。 总体而言,这种基调表明了对创新的赞赏,但对当前数字媒体消费趋势的批评,这可能是由于传统学习和创造方法的转变。
相关文章

原文
@article{geng2023visualanagrams,
  title     = {Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models},
  author    = {Geng, Daniel and Park, Inbum and Owens, Andrew},
  journal   = {arXiv:2311.17919},
  year      = {2023},
  month     = {Novemeber},
  abbr      = {Preprint},
  url       = {https://arxiv.org/abs/2311.17919},
}
联系我们 contact @ memedata.com