ChatGPT这一波更新,让我在网上不敢发照片了

本文来自微信公众号:差评X.PIN (ID:chaping321),作者:世超,撰文:烧烤大师刺猬,编辑:江江,题图来自:AI生成

OpenAI发布新模型o3和o4-mini,新增图像推理能力,可通过细节分析照片拍摄地、时间及物体信息,准确率较高但仍有局限。其技术基于强化学习与多工具协作,引发对个人隐私保护的担忧。

• 🔍图像推理能力:模型通过像素级观察、搜索和逻辑验证,精准分析图片中的隐藏信息。

• 📸案例展示:从民宿招牌、植物特征到建筑年代,多场景展示AI推理过程。

• ⚙️技术突破:强化学习结合工具链,赋予AI长时间思考和多维度验证能力。

• ❌局限性:部分场景识别偏差明显,如地貌误判、软件混淆等。

• 🔒隐私隐忧:AI开盒级分析能力引发对个人信息保护的担忧。

• 🚀应用潜力:在旅游、历史考证、生物识别等领域展现实用价值。

兄弟们,完犊子了。

OpenAI昨天凌晨放出2个新模型,一个o3,一个o4-mini。

主要就是有了Thinking with images图像思考能力。就是说,它们可以把图像整合到思维链中,作为推理的一部分。

听起来咋咋呼呼的,实际如何?

世超把一张3年前的照片发给o3。结果它只用了7分钟,就分析出我是在哪个城市哪个园区甚至哪条河旁边拍摄的……

不儿,你这开盒能力也太猛了。

你可能好奇,就这些清一色的瓦房,它凭啥猜到?

看完思考过程,世超只能说,它真把观察、搜索、推理、验证发挥到了极致。

首先,o3通过屋脊上的现代天窗,岸边的铁链护栏,还有屋檐下的“隐藏式线条灯”,猜出这是一个近些年才规划的新晋景区或特色小镇,并非乌镇周庄那些老牌水乡。

接下来,是突破口。

照片中有一处招牌,o3不断放大发现了文字“lestay仓乾居”。

它通过搜索发现,这是浙江某集团推出的民宿子品牌,接着它居然又跑到集团官网,通过介绍找到了这家酒店的位置:杭州未来科技城梦想小镇核心位置,南临余杭塘河。

到这里,o3并不认为就完全实锤是在杭州拍的,它还要进行验证。

或者说,它想继续秀肌肉。

因为照片里有积雪,而照片文件名又包含“2022-02-17”,于是o3结合着日期和天气查询了一下,发现3年前的那天杭州确实下了大雪。

最后,它又点开了各种官方报道和游记分享,发现梦想小镇的整体规划风格,也是和照片是一致的。

至此,招牌、地形、建筑风格、拍摄日的天气全部吻合,最终o3推导完毕,把地点锁定在了余杭区梦想小镇。

嚯,一开始我还嫌o3思考时间太久,怀疑它的水平,但看完推理过程,我开始觉得7分钟太快了——真就是福尔摩斯和列文虎克结合体,不断地放大图片,查看细节,再结合着搜索,一步步推导,验证拍摄地点。

也许有差友会说,这也不难吧,把招牌放网上一搜不就好了。

好,那我们再来看看这张。这次照片里没有任何文字了,能提供信息的似乎也只有眼前的植物、远处的风车和山脉。

但仅仅思考了1分39秒,o3很“自信”地给出了正确答案——贵州的乌蒙大草原。

这又是怎么猜出来的?

对普通人来说,这张照片看起来没有任何特征,但对o3来说,处处是玄机。

首先,视野宽阔,地面是高山草甸而非农田,o3判断拍摄地属于高海拔,是高原草场。

其次近处的植物是矮杜鹃,远处还有一些大风车。

同时存在“矮杜鹃、大风车、高原草场”这些特征,o3判断这是乌蒙大草原的独有组合,国内其他几个赏花地点都没有的,所以很自信给出了答案。

是不是有点意思了?

别急,还有。

这是一张1996年冬天我父母在上海拍摄的照片,我让o3推测出拍摄日期。

o3看到照片里有东方明珠塔,但是旁边却没有金茂大厦、环球金融中心。

所以时间一定是在东方明珠塔建成后,金茂大厦建成之前。

于是它搜索了这些建筑竣工时间,再结合我父母的穿着,成功把时间圈在了1995年~1998年冬天或初春。

当然,o3的图片推理能力,并非只能用来推测照片拍摄地和时间。

世超发送了一张同事照片和一张古早的大合照,虽然头发掉了不少,但o3还是成功在人群里锁定了他。

接着我又发了一张汽车仪表盘照片。

很快噢,o3一眼判断出这种典型设计是出现在斯巴鲁上,它甚至还告诉你,这款车型国内通俗称为力狮/傲虎,这辆车还配备了SI-Drive系统。

这,可能只有真正的老司机才能做到吧?

后来,世超又跑到博物杂志的微博,找到一张网友@博物杂志 的鸟类照片。

结果,o3也能判断出这是红头长尾山雀。

看到这,你心里可能会想:这下好了,别说普通人了,连博物杂志这种博学多识的人都要被AI替代了。

别慌。经过我们大量测试,o3也并非百战百胜,恰恰相反,它翻车的次数其实非常多。

比如我这张在平潭拍摄的照片,它猜成了厦门,位置差了足足几百公里。

还有这张广东韶关站的照片,o3一看到有喀斯特地貌,直接锁定了广西和贵州,最后猜成了广西恭城。

哥们给他发了一个Mac App的截图,它也报成了另外一款UI近似的软件。

甚至这个背带裤和篮球的组合这么明显,它也能没找出答案。

总之呢,这个o3啊,它确实比以往的AI都强,但也还有一定的进步空间。

世超也去官网研究了一下资料,我发现这次o3能力大升级的背后,核心是“强化学习”这四个字。

OpenAI发现和算力越大,AI性能越强的行业黄金法则一样,在强化学习中,给模型的思考时间越长,模型的能力也会越逆天。

按照这路子,他们直接让AI学会了咋用工具、并且推理啥时候该用什么工具。

所以这才有了o3不断放大图片,以像素级精度查看图片的每个角落,观察到普通人往往忽略的细节,再把所有获取到的信息放在网络上搜索:

足够多的信息量,足够长的时间,配合着足够强大的推理能力,就爆发出了这种恐怖如斯的效果。

虽然o3的出现,把AI进程又往前狠狠推动了一大步,但说实话世超也有点担心:

在AI能读懂照片的时代,我们的个人信息是不是更不好保护了?

图片、资料来源:ChatGPT

本文来自微信公众号:差评X.PIN (ID:chaping321),作者:世超,撰文:烧烤大师刺猬,编辑:江江

  • Related Posts

    “宁可少赚,也要跳出美国市场”,跨境电商突围战打响

    本文来自微信公众号:贝壳财经,作者:程子姣,编辑:王进雨,实…

    卤味“三巨头”,被年轻人“抛弃”

    本文来自微信公众号:启阳路4号,作者:公司研究院,原文标题:…

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注