图像输入是什么?它们在 ChatGPT 中如何工作?
April 14th, 2025

ChatGPT 已经支持图像输入功能,能够理解并解释对话中上传的图像内容。本文将详细介绍如何使用该功能、支持的平台及相关限制。

如何在对话中使用图像输入?

通过上传图像即可与 ChatGPT 进行互动。以下是几个基本的使用方式:

  • 分析图像内容:上传照片后,您可以询问图像中的物体是什么、分析文档或探索视觉内容。

  • 扩展讨论:您可以在稍后的对话中添加更多图像来进一步讨论或转移话题。

  • 标记强调:在上传图像前,可以使用标记工具对图像某些区域进行注释,引导 ChatGPT 专注于特定元素。

哪些计划和平台支持图像输入?

  • 支持计划:目前,图像输入功能支持 ChatGPT Plus 和 ChatGPT Enterprise 用户,但暂未在英国和欧盟地区上线。

  • 支持平台:几乎所有平台均可使用此功能,包括网络版(chat.openai.com)以及移动端(iOS/Android)。

👉 【点击查看】ChatGPT Plus会员代开通优惠渠道整理汇总(全程质保,超稳定!)

如何添加图像输入?

确保您的模型选定为 GPT-4。然后在对话框的提示区域点击 “+” 图标添加图像即可开始使用。

请注意,目前图像输入功能仅支持静态图像,尚不能处理视频内容。

支持哪些文件类型和尺寸?

ChatGPT 图像输入功能支持以下文件类型:

  • PNG (.png)

  • JPEG (.jpeg 和 .jpg)

  • 非动画 GIF (.gif)

此外,每张图片的大小限制为 20MB。上传图像的数量受图像大小和伴随的文本量影响,遇到问题时可尝试减少图像数量或大小。

图像功能的处理能力和局限性

虽然 ChatGPT 的图像处理功能强大,但仍存在一些局限性,用户在使用时需多加注意:

  • 模糊图像:模型会尝试解释模糊或不清楚的图像,但结果可能不够准确。

  • 医疗图像:不适用于专业医学图像(如 CT 扫描),也不应用于医疗建议。

  • 非拉丁文字:处理日语、韩语等非拉丁字母文本的图像效果较差。

  • 大文本或细节:放大图像中的文本可以提高可读性,但裁剪重要细节会影响结果。

  • 旋转图像:模型对旋转或颠倒的文本和图像理解可能出现偏差。

  • 视觉样式:模型难以准确识别文字或图形中的颜色、样式变化(如虚线或点线)。

  • 空间任务:无法处理需要精确空间定位的任务,例如识别国际象棋位置。

  • 准确性:某些情况下输出的描述或标题可能存在错误。

  • 特殊形状:处理全景或鱼眼图像的能力有限。

  • 调整大小:图像在分析前会被调整大小,可能影响原始分辨率。

  • 计数功能:模型可以对图像中的对象进行近似计数,但可能存在误差。

在使用图像输入功能时,请多考虑以上限制,以便更合理地与 ChatGPT 互动。

Subscribe to dbstibvhhzx
Receive the latest updates directly to your inbox.
Mint this entry as an NFT to add it to your collection.
Verification
This entry has been permanently stored onchain and signed by its creator.
More from dbstibvhhzx

Skeleton

Skeleton

Skeleton