认识这支画笔
在按下第一句提示词之前,先弄清楚你手里到底是什么。这一章给你一张全景图:图像生成技能能做什么、由哪两种模式构成,以及一套贯穿全书的心智模型。
"图像生成技能"不是一款软件,而是一种能力——挂在 Codex 智能体身上的一套技能(skill)。你用自然语言描述想要的画面,它替你调用底层的图像模型,生成或编辑出图片,再把成品交还给你。
换句话说:你负责说清楚要什么,它负责把像素摆好。本书要教你的,正是"怎么说"与"怎么调"——让这件事又快、又稳、又好看。
这支画笔,到底能画什么
技能文档把它的适用场景说得很具体。一句话概括:凡是"位图类"的视觉资产,它都能生成或编辑。
- 从零生成——概念图、产品照、封面、网站主视觉、信息图、Logo 探索、写实照片、插画。
- 带参考图生成——给它一两张参考,借用其风格、构图或氛围,但画一个新主体。
- 编辑已有图——局部重绘、改光线/天气、换背景、移除物体、多图合成、抠透明背景。
- 成套出物料——为一个任务一次产出许多张图或多个变体。
如果你要的是简单的形状、图表、线框图、图标,或者要扩展仓库里已有的 SVG/矢量图标系统——直接用 SVG / HTML / CSS 写更好,别用生图。判断标准很简单:你想要的是"确定性的代码原生输出",还是"一张生成的位图"?(这条原则贯穿全书,第 09、15 章会再深入。)
两种模式:内置工具 与 CLI 回退
这是整套技能最重要的一个分叉,请务必记牢。它恰好只有两种顶层模式,绝大多数时候你都待在第一种:
① 内置 image_gen 工具(默认、首选)
这是你的主战场。无需任何 API Key,常规的生成、编辑、以及简单的"透明图"需求都在这里完成。不要为了普通的画质、尺寸或文件路径控制就切换到 CLI——那些内置路径也能搞定。
② CLI 回退:scripts/image_gen.py
只有当你明确点名要走命令行/API/模型路径,或者确认要用 gpt-image-1.5 的"真·原生透明"时,才进入这里。它需要 OPENAI_API_KEY,并暴露三个子命令:
- generate — 从文字生成
- edit — 编辑(可带蒙版、参考图)
- generate-batch — 批量任务(多个 prompt 一起跑)
"批量(batch)"这个词本身不等于要走 CLI。如果你只是想要很多张图,但没点名要命令行/模型控制,那就留在内置路径,一个资产发一次内置调用即可(详见第 07 章)。
两个问题:意图 × 执行
面对任何一个出图请求,技能要你先想清楚两个彼此独立的问题。把它们摆成一个 2×2,路线一目了然:
意图怎么判?用户想在保留某些部分的前提下改一张已有的图 → 编辑;只把图当风格/构图/氛围参考、或干脆没给图 → 生成。
想要 10 个不同的资产时,不要用 n 来凑数。n 是"同一句提示词的多个变体";不同的资产需要不同的提示词——要么发多次内置调用,要么用 CLI 的 generate-batch。
一条主线:默认内置,降级需确认
把这条主线刻进脑子里,你就不会走错路:能用内置,就用内置;只有在用户明确要求时,才向 CLI 回退。
绝不要在用户不知情时,从内置 image_gen 或 CLI 的 gpt-image-2 偷偷切到 CLI 的 gpt-image-1.5。这是一次模型/路径的"降级",必须先问——除非用户已经明确点名了 gpt-image-1.5、scripts/image_gen.py 或"CLI 回退"。
同理:当一个透明需求太复杂、需要"真透明"时,要先解释清楚(gpt-image-2 不支持 background=transparent,真透明需 gpt-image-1.5),并征得同意后再跑 CLI。
为什么这么谨慎?因为 CLI 回退要 API Key、要联网、要花钱,还可能改变成图风格。把它当成"专业工具箱最底层那个抽屉"——好用,但不轻易打开。
画好了存哪儿:保存路径的心智模型
内置工具默认会把图存到 $CODEX_HOME/generated_images/...。这里给你一个三步心智模型,细节留到第 03 章:
只是预览 / 头脑风暴?
让它内联显示就好,文件留在默认路径无妨。
要用在你的项目/发布里?
把选中的成品移动或复制进工作区再收尾。
千万别…
把"项目要用的资产"只留在默认 $CODEX_HOME 路径里——那等于没交付。
图像生成技能 = 一支"用自然语言驱动"的画笔。它有两种模式:默认用内置 image_gen(无需 Key、覆盖绝大多数需求),只有被明确点名时才走CLI 回退。落到任何请求上,先问两件事:意图(生成/编辑)与执行(一张/多张)。主线是"默认内置、降级需确认",成品要记得落地进工作区。