AI 视觉技术的飞跃：Transformer-based 模型的图像识别性能超越了所有卷积神经网络-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://m.cnbeta.com.tw/view/1547732.htm

原文作者：CnBeta

根据国外科技媒体 Bleeping Computer 的报道，一项新的研究表明，基于 Transformer 架构的视觉模型在图像识别方面已经超越了所有现有的卷积神经网络（CNN）。

这一发现标志着自 2012 年 AlexNet 引领深度学习在图像识别领域革命以来的一个重大转折点，当时 CNN 凭借其局部连接和权重共享机制迅速成为主流。

Transformer 模型取代 CNN 的原因

Transformer 最初是为自然语言处理（NLP）任务设计的，其核心的自注意力机制（self-attention mechanism）允许模型同时考虑输入序列中的所有元素，从而捕获全局依赖关系。

研究人员发现，当这一机制应用于视觉任务时，例如图像分类和目标检测，它能够更有效地理解图像中的复杂上下文和长距离依赖关系，这是传统 CNN 难以做到的。

关键研究发现包括：

全局上下文建模：Transformer 架构能够更好地整合图像的整体信息，而不是像 CNN 那样依赖于局部的卷积核扫描。
性能提升：在 ImageNet 等主流视觉基准测试中，领先的 Transformer 模型（如 ViT 的变体）在准确性上持续领先于最先进的 CNN 模型。
数据效率：虽然早期的 Transformer 模型需要大量数据进行预训练，但新的训练策略和架构改进正在缩小这一差距，甚至在某些任务上表现出更好的数据效率。

一位参与研究的专家表示：“我们已经看到了范式转移的迹象。Transformer 不仅在性能上有所提升，它们也更容易扩展到更复杂的、多模态的任务中去。”

src="https://img.cnbeta.com.tw/pic/1547732/01_l.png" alt="Transformer 模型在图像识别任务中的性能趋势图" style="max-width: 100%; height: auto; margin: 20px 0;" />

这一转变预示着AI视觉领域的未来发展方向。由于 Transformer 架构在处理序列数据方面的固有优势，它们被认为是构建下一代多模态AI系统的理想选择，这些系统不仅能看懂图像，还能理解文本、音频等其他信息。

新的应用方向可能包括：

尽管 CNN 在效率和部署方面仍具有优势，尤其是在资源受限的设备上，但研究界普遍认为，Transformer 已确立了其在追求最高性能时的领先地位。

这项研究的详细结果将在即将召开的顶级计算机视觉会议上公布，预计将引发业界对模型架构选择的深入讨论。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。