随着基础模型(如 VLMs,例如 Minimax、Qwen-V)和尖端图像生成技术(如 Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像 T5 这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。在本组织中,我们测试了结合这些模型生成高质量 KVs 的潜力。我的任务是开发一个 KV 生成系统,能够复制特定风格,利用针对各个产品的预训练 LoRA 模型,提供视觉上令人惊艳的结果,甚至在适合打印的高分辨率格式中。为了构建原型,我探索了几种 AI 编码工具的能力。本文将分享我最初的经验和学习,首先介绍我用作这些系统输入的高层次 PRD。
KV 系统是一个基于 AI 的关键视觉生成系统,旨在为客户品牌生成高质量的关键视觉。
前端:Next.js
样式:Tailwind CSS
UI 组件:Shadcn UI
提示优化:OpenAI
数据库:Supabase
后端:Python + Flask
AI 图像生成:ComfyUI API
基于 KV 风格和设计产品的选择,生成客户品牌的关键视觉。
用户选择 KV 风格后,相应的提示将自动加载。
所有 KV 风格和提示均存储在数据库中,以便将来使用。
用户可以下载生成的图像并分享,或将其保存到服务器。
用户可以在生成图像前修改提示。
生成图像时显示等待动画。
KV_styles
:存储 KV 风格、KV 风格图像和提示。
Products
:存储产品信息、描述、图像和 LoRA 模型路径。
KV_images
:存储用户生成的图像。
使用 V0,我能够相当有效地开发单独的页面。然而,每个页面需要单独处理,适合前端任务而非完整应用开发。V0 的优势在于快速生成视觉上吸引人的前端设计,但后端功能有限。代码导出是页面特定的,这可能导致耗时。
优点:快速生成前端原型,适合视觉设计。缺点:后端开发能力不足,多页面集成耗时。
Cursor 基于 VSCode 开源版本构建,为开发者提供了熟悉的环境。然而,它在前端和后端文件夹的链接上表现不佳。虽然能生成初始项目结构,但在处理复杂项目时显得不可靠。
优点:快速生成项目结构,适合副驾驶式开发。缺点:处理复杂项目时能力有限。
Bolt.new 提供了前端和后端的同步开发,且无需本地环境设置。平台在执行任务前会询问确认,并自动修复代码问题。虽然速度较慢,但其与外部工具的集成能力令人印象深刻。
优点:自动化程度高,支持外部工具集成。缺点:编码和测试速度较慢。
Windsurf 提供了高度自动化的编码体验,适合专注于结果的用户。它支持最新的编程框架,但缺乏对视觉文件拖放的支持。
优点:编码准确性高,自动化能力强。缺点:视觉支持有限。
Cursor、V0、Bolt.new 和 Windsurf:均提供每月 $20 的基本订阅。
Windsurf:提供两周免费试用。
V0 和 Bolt.new:提供试用积分,但消耗较快。
Cursor:免费版本功能有限,不适合复杂项目。
前端原型设计:V0 或 Cursor。
全栈原型设计:Bolt.new。
后端/复杂编码:Windsurf。
预算友好选项:Windsurf 的两周免费试用。
文章来自于“barry的异想世界”,作者“barry的异想世界”。