壹

Part One · 起步

The Brush · 认识这支画笔

认识这支画笔

在按下第一句提示词之前，先弄清楚你手里到底是什么。这一章给你一张全景图：图像生成技能能做什么、由哪两种模式构成，以及一套贯穿全书的心智模型。

本章导读

这支画笔，到底能画什么
两种模式：内置工具与 CLI 回退
两个问题：意图 × 执行
一条主线：默认内置，降级需确认
画好了存哪儿：保存路径的心智模型

"图像生成技能"不是一款软件，而是一种能力——挂在 Codex 智能体身上的一套技能（skill）。你用自然语言描述想要的画面，它替你调用底层的图像模型，生成或编辑出图片，再把成品交还给你。

换句话说：你负责说清楚要什么，它负责把像素摆好。本书要教你的，正是"怎么说"与"怎么调"——让这件事又快、又稳、又好看。

这支画笔，到底能画什么

技能文档把它的适用场景说得很具体。一句话概括：凡是"位图类"的视觉资产，它都能生成或编辑。

从零生成——概念图、产品照、封面、网站主视觉、信息图、Logo 探索、写实照片、插画。
带参考图生成——给它一两张参考，借用其风格、构图或氛围，但画一个新主体。
编辑已有图——局部重绘、改光线/天气、换背景、移除物体、多图合成、抠透明背景。
成套出物料——为一个任务一次产出许多张图或多个变体。

也有它不该出手的时候

如果你要的是简单的形状、图表、线框图、图标，或者要扩展仓库里已有的 SVG/矢量图标系统——直接用 SVG / HTML / CSS 写更好，别用生图。判断标准很简单：你想要的是"确定性的代码原生输出"，还是"一张生成的位图"？（这条原则贯穿全书，第 09、15 章会再深入。）

两种模式：内置工具与 CLI 回退

这是整套技能最重要的一个分叉，请务必记牢。它恰好只有两种顶层模式，绝大多数时候你都待在第一种：

两种模式对比 · 默认走左边，向右是一次需要确认的"降级"。

① 内置 image_gen 工具（默认、首选）

这是你的主战场。无需任何 API Key，常规的生成、编辑、以及简单的"透明图"需求都在这里完成。不要为了普通的画质、尺寸或文件路径控制就切换到 CLI——那些内置路径也能搞定。

② CLI 回退：scripts/image_gen.py

只有当你明确点名要走命令行/API/模型路径，或者确认要用 gpt-image-1.5 的"真·原生透明"时，才进入这里。它需要 OPENAI_API_KEY，并暴露三个子命令：

generate — 从文字生成
edit — 编辑（可带蒙版、参考图）
generate-batch — 批量任务（多个 prompt 一起跑）

关键判断

"批量（batch）"这个词本身不等于要走 CLI。如果你只是想要很多张图，但没点名要命令行/模型控制，那就留在内置路径，一个资产发一次内置调用即可（详见第 07 章）。

两个问题：意图 × 执行

面对任何一个出图请求，技能要你先想清楚两个彼此独立的问题。把它们摆成一个 2×2，路线一目了然：

意图 × 执行 = 四条路线。第 03–07 章会把每一格走一遍。

意图怎么判？用户想在保留某些部分的前提下改一张已有的图 → 编辑；只把图当风格/构图/氛围参考、或干脆没给图 → 生成。

一个高频误区

想要 10 个不同的资产时，不要用 n 来凑数。n 是"同一句提示词的多个变体"；不同的资产需要不同的提示词——要么发多次内置调用，要么用 CLI 的 generate-batch。

一条主线：默认内置，降级需确认

把这条主线刻进脑子里，你就不会走错路：能用内置，就用内置；只有在用户明确要求时，才向 CLI 回退。

红线 · 别静默降级

绝不要在用户不知情时，从内置 image_gen 或 CLI 的 gpt-image-2 偷偷切到 CLI 的 gpt-image-1.5。这是一次模型/路径的"降级"，必须先问——除非用户已经明确点名了 gpt-image-1.5、scripts/image_gen.py 或"CLI 回退"。

同理：当一个透明需求太复杂、需要"真透明"时，要先解释清楚（gpt-image-2 不支持 background=transparent，真透明需 gpt-image-1.5），并征得同意后再跑 CLI。

为什么这么谨慎？因为 CLI 回退要 API Key、要联网、要花钱，还可能改变成图风格。把它当成"专业工具箱最底层那个抽屉"——好用，但不轻易打开。

画好了存哪儿：保存路径的心智模型

内置工具默认会把图存到 $CODEX_HOME/generated_images/...。这里给你一个三步心智模型，细节留到第 03 章：

只是预览 / 头脑风暴？

让它内联显示就好，文件留在默认路径无妨。

要用在你的项目/发布里？

把选中的成品移动或复制进工作区再收尾。

千万别…

把"项目要用的资产"只留在默认 $CODEX_HOME 路径里——那等于没交付。

顺手记一条：不要覆盖已有资产（除非用户明确要求替换）。需要新版就另存兄弟文件名，例如 hero-v2.png。

本章 TL;DR

图像生成技能 = 一支"用自然语言驱动"的画笔。它有两种模式：默认用内置 image_gen（无需 Key、覆盖绝大多数需求），只有被明确点名时才走CLI 回退。落到任何请求上，先问两件事：意图（生成/编辑）与执行（一张/多张）。主线是"默认内置、降级需确认"，成品要记得落地进工作区。