Part One · 起步
01
The Brush · 认识这支画笔

认识这支画笔

在按下第一句提示词之前,先弄清楚你手里到底是什么。这一章给你一张全景图:图像生成技能能做什么、由哪两种模式构成,以及一套贯穿全书的心智模型。

"图像生成技能"不是一款软件,而是一种能力——挂在 Codex 智能体身上的一套技能(skill)。你用自然语言描述想要的画面,它替你调用底层的图像模型,生成或编辑出图片,再把成品交还给你。

换句话说:你负责说清楚要什么,它负责把像素摆好。本书要教你的,正是"怎么说"与"怎么调"——让这件事又快、又稳、又好看。

这支画笔,到底能画什么

技能文档把它的适用场景说得很具体。一句话概括:凡是"位图类"的视觉资产,它都能生成或编辑

也有它不该出手的时候

如果你要的是简单的形状、图表、线框图、图标,或者要扩展仓库里已有的 SVG/矢量图标系统——直接用 SVG / HTML / CSS 写更好,别用生图。判断标准很简单:你想要的是"确定性的代码原生输出",还是"一张生成的位图"?(这条原则贯穿全书,第 09、15 章会再深入。)

两种模式:内置工具 与 CLI 回退

这是整套技能最重要的一个分叉,请务必记牢。它恰好只有两种顶层模式,绝大多数时候你都待在第一种:

一句"帮我出张图" 进来 ↓ DEFAULT 默认 内置 image_gen 工具 BUILT-IN · 首选路径 无需 OPENAI_API_KEY 常规生成 / 编辑 / 简单透明 一次调用出一张图 多资产 = 发多次内置调用 默认存到 $CODEX_HOME > 95% 的需求都在这里完成 FALLBACK 需确认 CLI 回退 image_gen.py SCRIPTS · 仅显式要求时 需要 OPENAI_API_KEY generate / edit / generate-batch 真·原生透明(gpt-image-1.5) 蒙版 / 精确输出路径 / 格式 quality·size·fidelity 精控 > 用户明确点名才进入 🔒
两种模式对比 · 默认走左边,向右是一次需要确认的"降级"。

① 内置 image_gen 工具(默认、首选)

这是你的主战场。无需任何 API Key,常规的生成、编辑、以及简单的"透明图"需求都在这里完成。不要为了普通的画质、尺寸或文件路径控制就切换到 CLI——那些内置路径也能搞定。

② CLI 回退:scripts/image_gen.py

只有当你明确点名要走命令行/API/模型路径,或者确认要用 gpt-image-1.5 的"真·原生透明"时,才进入这里。它需要 OPENAI_API_KEY,并暴露三个子命令:

关键判断

"批量(batch)"这个词本身不等于要走 CLI。如果你只是想要很多张图,但没点名要命令行/模型控制,那就留在内置路径,一个资产发一次内置调用即可(详见第 07 章)。

两个问题:意图 × 执行

面对任何一个出图请求,技能要你先想清楚两个彼此独立的问题。把它们摆成一个 2×2,路线一目了然:

纵轴 · 意图 INTENT 这是"新图"还是"改图"? 横轴 · 执行 STRATEGY 一张,还是许多张/变体? 生成 GENERATE 编辑 EDIT 一张 · SINGLE 多张 / 变体 · MANY 生成 · 单张 一次内置 image_gen 调用, 最直接的起点。 生成 · 多张 逐个资产发多次内置调用; CLI 才用 generate-batch。 编辑 · 单张 先 view_image 载入本地图, 再走内置 edit。 编辑 · 多张 逐张编辑;n 是"同一句的变体", 不是"不同资产"。
意图 × 执行 = 四条路线。第 03–07 章会把每一格走一遍。

意图怎么判?用户想在保留某些部分的前提下改一张已有的图 → 编辑;只把图当风格/构图/氛围参考、或干脆没给图 → 生成

一个高频误区

想要 10 个不同的资产时,不要用 n 来凑数。n 是"同一句提示词的多个变体";不同的资产需要不同的提示词——要么发多次内置调用,要么用 CLI 的 generate-batch

一条主线:默认内置,降级需确认

把这条主线刻进脑子里,你就不会走错路:能用内置,就用内置;只有在用户明确要求时,才向 CLI 回退。

红线 · 别静默降级

绝不要在用户不知情时,从内置 image_gen 或 CLI 的 gpt-image-2 偷偷切到 CLI 的 gpt-image-1.5。这是一次模型/路径的"降级",必须先问——除非用户已经明确点名了 gpt-image-1.5、scripts/image_gen.py 或"CLI 回退"。

同理:当一个透明需求太复杂、需要"真透明"时,要先解释清楚(gpt-image-2 不支持 background=transparent,真透明需 gpt-image-1.5),并征得同意后再跑 CLI。

为什么这么谨慎?因为 CLI 回退要 API Key、要联网、要花钱,还可能改变成图风格。把它当成"专业工具箱最底层那个抽屉"——好用,但不轻易打开。

画好了存哪儿:保存路径的心智模型

内置工具默认会把图存到 $CODEX_HOME/generated_images/...。这里给你一个三步心智模型,细节留到第 03 章:

  • 只是预览 / 头脑风暴?

    让它内联显示就好,文件留在默认路径无妨。

  • 要用在你的项目/发布里?

    把选中的成品移动或复制进工作区再收尾。

  • 千万别…

    把"项目要用的资产"只留在默认 $CODEX_HOME 路径里——那等于没交付。

  • 顺手记一条:不要覆盖已有资产(除非用户明确要求替换)。需要新版就另存兄弟文件名,例如 hero-v2.png
    本章 TL;DR

    图像生成技能 = 一支"用自然语言驱动"的画笔。它有两种模式:默认用内置 image_gen(无需 Key、覆盖绝大多数需求),只有被明确点名时才走CLI 回退。落到任何请求上,先问两件事:意图(生成/编辑)执行(一张/多张)。主线是"默认内置、降级需确认",成品要记得落地进工作区。