OpenAI于本周正式宣布,将其图像生成工具Sora整合到ChatGPT平台。这项新的功能命名为“ChatGPT中的图像”,现在用户可以直接在ChatGPT中生成图像,而无需访问独立的Sora网站。这一改变不仅提升了使用便捷性,也进一步丰富了ChatGPT的功能模块。
早期发布的Sora以人工智能视频生成工具的身份出现在公众视野,但随着技术的推动,此次整合仅专注于图像生成能力。所有ChatGPT用户,无论其使用的是Plus、Pro、Team还是免费计划,都可以访问这一新功能。需要注意的是,免费用户的使用权限将有所限制,具体次数尚未公布,但可能会根据需求动态调整。
👉 【点击查看】ChatGPT Plus会员代开通优惠渠道整理汇总(全程质保,超稳定!)
OpenAI对这一整合充满信心,并希望通过逐步更新和功能增强,让所有用户体验到前沿的AI图像生成技术。
针对这一功能的背后技术进步,OpenAI的研究负责人Gabriel Goh披露了一些细节。他提到,新的图像生成系统基于GPT-4o模型,突破了图像生成领域的多个技术瓶颈:
细节绑定技术(Binding):这一技术显著提高了复杂场景多元素的关系处理能力。例如,用户可以同时要求多种颜色、形状元素且生成结果无误。
文本渲染优化:AI工具常常在生成图像中的文字时出现缺失或错漏的问题。而Sora针对这一点进行了多月的优化,使得生成的文字表现更准确、可读性增强。
生成流程的序列性改进:不同于传统基于扩散模型的方式,Sora采用了逐步自回归绘图的方法,从图像的左上角开始逐行生成。这种方式帮助提升了画面细节和文本的完整性。
据悉,尽管图像生成速度有所减缓,但生成质量的提升让等待成为值得的折衷。
在全面上线前,Sora工具已经通过多个场景测试和功能演示。测试结果显示,Sora能够处理以下类型的任务:
科学示意图:如详细的实验装置图,例如牛顿三棱镜实验。
漫画创作:包含丰富的角色和对话气泡,整体设计具有连贯性。
信息图设计:生成专业的宣传海报,并确保文字内容准确。
透明背景图像:支持设计用于贴纸、菜单以及品牌徽标等用途。
OpenAI的相关负责人Jackie Shannon补充道,这一工具结合了ChatGPT强大的知识背景。用户无需详细描述科学背景或复杂的需求,AI便可根据通用知识生成适配的图像。
尽管生成图像所需要的时间较长,OpenAI认为细节精度和整体品质的提升完全值得这一等待成本。
与AI生成内容相关的安全问题一直是公众关注的焦点。为了防止AI生成内容被滥用,如深度伪造(Deepfake)或非法用途,OpenAI在推出Sora功能时增强了加入ChatGPT的安全机制:
禁止深度伪造和水印移除:系统会自动检测并阻止这种内容生成。
元数据标记:所有由Sora生成的图像都会包含C2PA元数据,用于标明其来源,同时为追踪图像创建过程提供便利。
此外,OpenAI明确表示,用户拥有生成图像的使用权,并可以在遵守平台政策的前提下自由应用。OpenAI正在不断优化其防护措施,力争实现安全性与灵活性的平衡。
通过结合先进技术与严密安全保障,ChatGPT中的Sora功能为用户打开了一个全新的视觉创造世界,同时也进一步巩固了OpenAI在人工智能领域的技术领先地位。