GPT – 4o来袭，CV领域风云突变！

Robert • 2025年3月30日 03:28 • 文化 • 阅读 9

本文聚焦于GPT – 4o原生多模态图像生成技术，介绍了其在计算机视觉、自动驾驶、3D渲染等领域展现出的强大能力，同时探讨了其图像生成的技术细节和相关猜想，最后鼓励读者在微信评论区分享GPT – 4o的有趣玩法。

在科技发展日新月异的当下，一夜之间，计算机视觉（CV）领域似乎就被大模型“解决”了（此处开个小玩笑😜）。

在“万物皆可吉卜力”这一热潮之后，GPT – 4o原生多模态图像生成的更多新奇玩法被陆续开发出来。就拿一个常见的男友回头表情包来说，它能瞬间摇身一变成为语义分割图。

而且，它还能快速转变为深度图。

这一变化可不得了，上一代的AI画图工具和设计师们或许会感到压力倍增，就连计算机视觉研究员们也可能要“哭晕在厕所”了。

不仅如此，此前NASA前工程师用来测试特斯拉自动驾驶系统的伪装“隐形墙”，在GPT – 4o面前也完全无法隐藏踪迹。

看到这样的成果，OpenAI应用研究主管Boris Power已经将目光投向了自动驾驶领域，他表示只需要训练最强大的基础模型，然后进行微调即可。

3D渲染领域也未能幸免，GPT – 4o能够生成基于物理渲染的材质（PBR材质），纹理、法线贴图等可以一套直接生成。

对于GPT – 4o展现出的这些能力，也有人认为不足为奇，觉得Stable Diffusion + ControlNet就可以实现相同的效果。但不可否认的是，仅靠扩大基础模型规模就能做到这一点，还是让人感到十分意外。

值得一提的是，这波GPT – 4o原生图像生成的技术细节，OpenAI一点都没有公布。不过，还是有细心的人从System Card中发现了一些线索。

与DALL·E这个扩散模型不同，GPT – 4o图像生成是原生嵌入在ChatGPT内的自回归模型。

有人在观察图像的生成过程后发现，它很可能是多尺度自回归的组合，即先生成一个粗略的图像，在填充细节的同时，粗略图形本身也在不断变化。

自回归模型能够根据之前的像素或patch预测下一个像素或patch，从而获得更好地遵循指令以及图像编辑的能力。不过，也有人引用OpenAI员工Allan Jabri晒出的板书图，提出在解码阶段仍然有可能使用了扩散模型。

针对这一猜想，更具体的实现方法可以参考Meta等在24年8月发表的一篇论文，该论文提出使用一个多模态模型同时预测下一个token和扩散图像。

最后，告诉大家一个好消息，微信评论区现在能发图片了，欢迎大家把更多GPT – 4o的有趣玩法晒出来，一起分享科技带来的惊喜！

本文详细介绍了GPT – 4o原生多模态图像生成技术在多个领域的应用成果，包括计算机视觉、自动驾驶、3D渲染等，还探讨了其图像生成的技术细节和相关猜想。GPT – 4o的出现为各领域带来了新的变革和挑战，同时也引发了人们对其技术实现的深入思考。

原创文章，作者：Robert，如若转载，请注明出处：https://www.yanghehb.com/7757.html

赞 (0)

0

2025年新突破：昆山市鹿通公司“易安装减速带”专利问世昆山鹿通获易安装减速带专利，引领交通安全新变革

上一篇 2025年3月30日

致敬辅警刘毓璟：平凡岗位上的忠诚守护者，刘毓璟：警营内外，皆是热爱与担当

下一篇 2025年3月30日

发表回复