GPT – 4o来袭,CV领域风云突变!

本文聚焦于GPT – 4o原生多模态图像生成技术,介绍了其在计算机视觉、自动驾驶、3D渲染等领域展现出的强大能力,同时探讨了其图像生成的技术细节和相关猜想,最后鼓励读者在微信评论区分享GPT – 4o的有趣玩法。

在科技发展日新月异的当下,一夜之间,计算机视觉(CV)领域似乎就被大模型“解决”了(此处开个小玩笑😜)。

在“万物皆可吉卜力”这一热潮之后,GPT – 4o原生多模态图像生成的更多新奇玩法被陆续开发出来。就拿一个常见的男友回头表情包来说,它能瞬间摇身一变成为语义分割图。

GPT - 4o来袭,CV领域风云突变!

而且,它还能快速转变为深度图。

GPT - 4o来袭,CV领域风云突变!

这一变化可不得了,上一代的AI画图工具和设计师们或许会感到压力倍增,就连计算机视觉研究员们也可能要“哭晕在厕所”了。

GPT - 4o来袭,CV领域风云突变!

不仅如此,此前NASA前工程师用来测试特斯拉自动驾驶系统的伪装“隐形墙”,在GPT – 4o面前也完全无法隐藏踪迹。

GPT - 4o来袭,CV领域风云突变!

GPT - 4o来袭,CV领域风云突变!

看到这样的成果,OpenAI应用研究主管Boris Power已经将目光投向了自动驾驶领域,他表示只需要训练最强大的基础模型,然后进行微调即可。

GPT - 4o来袭,CV领域风云突变!

3D渲染领域也未能幸免,GPT – 4o能够生成基于物理渲染的材质(PBR材质),纹理、法线贴图等可以一套直接生成。

GPT - 4o来袭,CV领域风云突变!

对于GPT – 4o展现出的这些能力,也有人认为不足为奇,觉得Stable Diffusion + ControlNet就可以实现相同的效果。但不可否认的是,仅靠扩大基础模型规模就能做到这一点,还是让人感到十分意外。

GPT - 4o来袭,CV领域风云突变!

值得一提的是,这波GPT – 4o原生图像生成的技术细节,OpenAI一点都没有公布。不过,还是有细心的人从System Card中发现了一些线索。

与DALL·E这个扩散模型不同,GPT – 4o图像生成是原生嵌入在ChatGPT内的自回归模型。

GPT - 4o来袭,CV领域风云突变!

有人在观察图像的生成过程后发现,它很可能是多尺度自回归的组合,即先生成一个粗略的图像,在填充细节的同时,粗略图形本身也在不断变化。

GPT - 4o来袭,CV领域风云突变!

自回归模型能够根据之前的像素或patch预测下一个像素或patch,从而获得更好地遵循指令以及图像编辑的能力。不过,也有人引用OpenAI员工Allan Jabri晒出的板书图,提出在解码阶段仍然有可能使用了扩散模型。

GPT - 4o来袭,CV领域风云突变!

针对这一猜想,更具体的实现方法可以参考Meta等在24年8月发表的一篇论文,该论文提出使用一个多模态模型同时预测下一个token和扩散图像。

GPT - 4o来袭,CV领域风云突变!

GPT - 4o来袭,CV领域风云突变!

最后,告诉大家一个好消息,微信评论区现在能发图片了,欢迎大家把更多GPT – 4o的有趣玩法晒出来,一起分享科技带来的惊喜!

本文详细介绍了GPT – 4o原生多模态图像生成技术在多个领域的应用成果,包括计算机视觉、自动驾驶、3D渲染等,还探讨了其图像生成的技术细节和相关猜想。GPT – 4o的出现为各领域带来了新的变革和挑战,同时也引发了人们对其技术实现的深入思考。

原创文章,作者:Robert,如若转载,请注明出处:https://www.yanghehb.com/7757.html

(0)
RobertRobert
上一篇 2025年3月30日
下一篇 2025年3月30日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注