谷歌镜头

suhasini523 · Post by **suhasini523** » Wed Jan 15, 2025 5:29 am

谷歌在今年 5 月份的 Google I/O 大会上发布了一款名为 Lens 的产品。该产品的目的是将您的智能手机变成强大的视觉搜索引擎。

谷歌镜头

拍一张照片，谷歌会告诉你刚刚拍的是什么，以及与该地点或物体相关的信息。例如，将你的智能手机指向一家餐厅，谷歌就会确定它的名称，告诉你你的朋友以前是否来过这家餐厅，当然，还会向你介绍一些评论。

借助 Google 镜头，您的智能手机相机不仅可以看到您所看到的内容，还可以为您提供有关您感兴趣的主题的支持信息

借助 Google 镜头，您的智能手机相机不仅可以看到您所看到的内容，还可以为您提供有关您感兴趣的主题的支持信息

与之相辅相成的是其竞争对手的羡慕，即谷歌维护的庞大数据储备爱沙尼号码数据（这包括谷歌自己的知识库和存储在该公司服务器上的所有消费者信息）。所有这些数据都反馈并完善了谷歌的深度神经网络，该网络在产品的有效运行中发挥着关键作用。

谷歌旗下的 DeepMind 处于开发视觉搜索解决方案的前沿。所以DeepMind也特别意识到这项技术的掌握难度有多大。

挑战并不在于创建能够像人类一样解释图像的神经网络。主要问题（称为黑匣子问题）是生成推理所涉及的过程非常复杂、多方面且难以捉摸，甚至谷歌工程师也很难跟踪它们。

这指出了视觉搜索以及更广泛的深度神经网络的使用背后的一个相当尖锐的悖论。目标是模仿人脑的功能；然而，我们仍然不明白它是如何工作的。

于是，DeepMind开始探索新的方法。在一篇引人入胜的博客文章中，他们总结了最近一项研究的结果，其中他们将归纳推理应用于人类图像感知。

借助认知心理学的丰富历史（与新兴的神经网络领域相比，丰富的历史），科学家们已经能够将人们在对物体进行分类时观察到的相同偏见应用于他们的技术。

DeepMind 通过以下示例阐述了自己的愿景：

“一位现场语言学家去熟悉一种语言与我们完全不同的文化。一位语言学家正试图在母语人士的帮助下学习几个单词，突然一只兔子跑了过去。母语人士喊出“gavagai”，语言学家试图推断这个感叹号的含义。在这种情况下，语言学家面临着大量可能的结论：“gavagai”这个词可以作为兔子、某种动物或某种白色物体、这只特定的兔子或其某些部分的名称。可以得出无数可能的结论。人们怎样才能选择正确的呢？

认知心理学领域的实验表明，人们容易受到“形状偏见”的影响；可以这么说，我们会优先选择它仍然是兔子，而不会关注它的个体特征。我们意识到所有这些因素，但我们选择形式作为最重要的标准。