Part Six · 进阶 · 专家
13
Consistency & Series · 一致性与系列化

一致性与系列化

单张惊艳不难,难的是十张如出一手。当你要做一整组小红书笔记、一套人物表情包、一系列品牌头图时,真正的考验就从"画得好"变成了"画得一致"。本章拆开一致性的三层结构,给你锁风格、锁人物、锁品牌色的可复制方法,并交付一张能反复套用的"系列模板"配方。

系列化的本质,是把"随机的灵感"驯化成"可复用的常量"。第一张图你在探索;从第二张起,任务就转为复现——尽可能多地冻结那些不该变的东西,只放开那一处该变的。本章教你识别"哪些该冻、哪些该放",并把它们分别落到提示词与排版两个层面。

纲领先行:能用文字锁的,写进提示词;文字锁不住的,交给代码层。生图模型擅长氛围与风格,却不擅长像素级的精确——记住这条边界,后面所有手法都顺理成章。

一致性的三层:风格 / 主体 / 品牌色

"一致性"是个笼统的词。把它拆成三层,你才知道每张图到底在对齐什么、用什么手段对齐。这三层各有各的工具,且越往下越难用纯提示词搞定

一组图要"看起来是一家人" · 三层对齐 1 风格 STYLE 媒介 / 笔触 / 光线 / 色调 — 一整组的"统一气质" 手段 → 固定 style token 串 + reference image 角色 2 主体 SUBJECT · 人物 / IP 同一张脸 / 同一个角色 / 同一只吉祥物反复出现 手段 → identity-preserve 编辑 + 每轮复述 invariants 3 品牌色 PALETTE 精确 HEX / 标准字 / Logo — 容错最低的一层 手段 → 提示词给倾向 + 关键处用代码层 / 本地裁切兜底 易锁 ↑ 难锁 ↓ 越往下,纯提示词越不可靠 — 越要让"代码层"接管
一致性的三层 · 从上到下,控制权逐步从"提示词"转移到"代码 / 后处理"。

三层不是非此即彼,而是叠加:一组成功的系列图,往往三层都锁住了。但优先级与手段各异——风格靠固定的 style token 串与参考图;主体靠 identity-preserve 编辑与不变量复述;品牌色则要承认生图的局限,把最较真的部分交给排版与后处理。下面逐层展开。

风格锁定:把 style token 串当常量

风格是最好锁的一层,因为它本就活在提示词里。诀窍只有一个:把描述风格的那串词当成一个"常量",逐字复制到系列里的每一张提示词中。不要这张写"水彩"、下张写"watercolor illustration"——同义不同字,模型回给你的就是飘忽的两种风格。

关键判断 · style token 串要"逐字一致"

把媒介、笔触、光线、调色板凝练成一段固定字符串(一般用英文 style token 更稳),存成你的"风格常量"。系列里每一张,主体段可以变,这段风格常量一字不改。一致性的大半,就靠这一条。

下面给一对中英提示词卡。中文卡说清"要什么",英文卡是真正粘进 Style-medium 字段、逐字复用的那串常量。

提示词 · 风格锁定(中文意图)内置 image_gen
松墨纸系列做一张配图:主体是一支正在书写的钢笔。风格固定为温润的纸感插画柔和的侧光克制的低饱和暖色细腻的颗粒质感留白充足的构图。这是系列第 1 张,后续会换主体,但保持这套风格不变。
系列基准图illustration-story
STYLE TOKEN · 逐字复用的风格常量paste verbatim · 每张都用
warm paper-textured editorial illustration, soft directional side-light, restrained low-saturation earthy palette, fine grain, generous negative space, calm and quiet mood, consistent flat-ish depth — [keep this block identical across the whole series]
style constantdo-not-edit

光有文字常量还不够稳。第二根支柱是参考图角色:把系列里那张你最满意的成品,作为后续生成的参考图(reference image)喂进去——注意它的角色是"借风格 / 构图 / 氛围",不是编辑目标。这正是第一章决策树里"只把图当风格参考、画一个新主体 → 走 generate"的情形:你要的是一张新图,不是改那张参考图本身。

多图同时在手:按 index 引用

当对话里同时有好几张图(一张风格参考、一张构图参考、一张要避开的反例),用序号明确指代:"以第 1 张的笔触和调色为准,借第 2 张的构图,不要第 3 张那种高对比硬光。"含糊的"参考上面那张"会让模型猜错对象。

提示:风格常量建议存成一个纯文本片段放在手边(你的 style.txt 之类),每开一张系列图就粘一次。把它当代码里的常量对待——单一来源,只读不改

人物 / 身份一致:锁脸、锁形、复述不变量

第二层最棘手:让同一个人、同一个 IP 吉祥物,在不同场景里始终"是同一个"。这属于编辑用例里的 identity-preserve。核心心法是:先有一张"身份基准图",之后所有变体都从它"编辑"出来,而不是每次从文字重新"生成"。从零生成的脸,每次都是新人。

  • 立基准:先生成一张身份图

    把这张定为系列的"真身"——固定的脸型、发型、体型、标志性配色。满意后落地进工作区,当作后续所有编辑的母版。

  • 载入上下文:本地图先 view_image

    内置编辑只对"对话里可见的图"生效。母版若是本地文件,先用内置 view_image 把它载入对话,再走内置 edit;不要指望内置工具去编辑任意文件系统路径。

  • 逐轮编辑:每次只改一处

    换场景、换姿势、换表情——一次只动一个变量,改完复检,再动下一个。一口气改三处,身份最容易跑偏。

  • 每轮复述不变量 invariants

    每一轮编辑的提示词里,都把"要保留什么"重新讲一遍:同一张脸、同一个发型、同一套服装配色不变。

  • "复述不变量"是 identity-preserve 的灵魂,值得给一张专门的提示词卡。注意它既说要改什么,也反复声明不许动什么

    提示词 · 身份一致编辑(每轮复述 invariants)内置 edit · 先 view_image
    编辑当前这张角色图:把场景换成清晨的书桌前,姿势改为低头写字
    保持不变(invariants):同一张脸与五官、同一个短卷发发型、同一副圆框眼镜、同一套墨绿外套 + 米白内搭的服装配色、整体年龄与体型一致。
    不要:改变脸型、改变发色、添加新人物或新配饰、改动这套既定的服装配色。
    identity-preserve非破坏式另存
    红线 · 不要为了"锁脸"就擅自上 CLI

    身份一致默认仍走内置编辑。只有当你需要蒙版、精确文件路径控制,或用户明确点名要 CLI 回退 / 模型路径时,才考虑切换——而且要先问。绝不静默地把内置或 gpt-image-2 偷偷降级到 CLI 的 gpt-image-1.5。另外:编辑要非破坏式保存,每个变体另存版本化兄弟名(如 hero-pose-v2.png),不覆盖母版。

    对头发、毛发、半透明材质或写实接触阴影特别多的复杂主体,纯提示词的身份保持会更吃力。一旦遇到本地校验反复失败、或主体本就落在那张"复杂主体"清单里,先停下来问用户,而不是自动切到更重的路径——这条与第一章透明背景一节的红线一脉相承。

    品牌色注入:prompt 进得去,但别信精确 HEX

    第三层容错最低,也最容易让人栽跟头。你当然可以把品牌 HEX 写进提示词——这能给模型一个色彩"倾向",让画面整体偏向你的调性。但请把期望放对:

    红线 · 生图不保证精确 HEX,关键处交给代码层

    生图模型无法可靠地命中精确的十六进制色值。你写 #1C5D53,它给你的是"差不多的墨绿",而不是分毫不差的那一个。所以:精确品牌色块、标准 Logo、需要逐字正确的标题文案,都不要指望生图直接产出——改用 HTML / CSS 排版层叠加上去,或在本地后处理里裁切、铺色、压字。生图负责氛围底图,代码层负责较真的像素。

    落到实操,这是一种"分工":底图让生图出,精确的那一层用排版盖。下面这张对照表把"该谁干"说清楚。

    交给生图(倾向 · 氛围)

    整体色调向品牌色靠拢、背景氛围、材质质感、构图与留白、插画风格。提示词里写 HEX 只为"引导方向",不为"精确命中"。

    交给代码层(精确 · 较真)

    精确品牌色块与分隔线、标准字与标题逐字文案、Logo、需要像素对齐的版式安全区。用 HTML / CSS 叠层,或本地 pillow 裁切铺色。

    把品牌色当"倾向"写进提示词时,可以这样组织——注意它明说了"以下 HEX 仅供色彩倾向参考,精确色与文字将在后期叠加",避免对模型提出它做不到的承诺:

    PALETTE HINT · 品牌色倾向(非精确)tendency only
    overall palette leaning toward warm cream paper and deep pine green with subtle copper accents (reference tones #F7F3EA / #1C5D53 / #BD6B3A — approximate mood only); leave a clean uncluttered area at top for a title to be composited later in code; do not render any text or logo in the image.
    brand tendency文字留白

    这指向一条很实用的工作流:让生图出一张"干净的、留好标题空位的底图",关键文字和精确色块在 HTML 排版或本地处理里补。本书后续讲自媒体版式时,会反复用到这种"底图 + 叠层"的分工——它既省去和模型反复较劲文字的时间,又能保证品牌色分毫不差。

    系列模板:固定 schema,只换 subject 与 text

    把前面三层收束成一句操作指南:建一个固定的提示词模板,把每一个字段都写死,只留 subject 和 text 两个"插槽"对外开放。做第 N 张图时,你不重新构思,只往插槽里填新值。这就是系列化的工程化形态。

    RECIPE

    系列模板 · 松墨纸笔记配图(固定 schema,仅变 subject / text)

    Use case
    illustration-story(系列配图)— 默认内置 image_gen,一图一次调用
    Asset type
    系列插画底图(位图)· 固定不变
    Style-medium
    【风格常量 · 逐字复用】warm paper-textured editorial illustration, soft side-light, restrained low-saturation earthy palette, fine grain, generous negative space
    Composition-framing
    主体居中偏下,顶部留干净空白给标题;横竖比按平台选定后固定不变
    Lighting-mood
    柔和侧光、安静克制 · 固定不变
    Color palette
    奶白纸感 + 深松绿 + 少量铜色(仅作倾向,精确色后期叠加)· 固定不变
    Subject ◆插槽◆
    本张主体(每张更换:钢笔 → 茶杯 → 旧书 → …)
    Text(verbatim) ◆插槽◆
    本张标题文案——不在生图内渲染,留白后用排版层叠加
    Constraints
    风格常量一字不改;非破坏式另存为版本化文件名;成品落地进工作区
    Avoid
    在图内渲染文字或 Logo;改变既定调色与构图;为普通尺寸 / 画质擅自切 CLI

    有了这张模板,出第二张图的指令就极其简单——你只在一句话里替换那一个插槽,其余全部继承:

    terminal
    $ codex exec "用我的松墨纸系列模板出第 2 张:subject 换成「一只冒着热气的茶杯」,风格常量、构图、调色全部保持不变,顶部留白给标题,图内不要文字" # 只动 subject 这一个插槽,其余字段全部继承上一张 $ codex exec "再出第 3 张:subject 换成「一摞旧书」,同样保持模板不变"
    关键判断 · "很多张"不等于走 CLI

    用模板做一整组图,依然默认留在内置:一个资产发一次内置调用即可。"批量"这个词本身不召唤 CLI——只有当你明确点名 CLI / 模型路径,才用 generate-batch。别因为"图多"就误以为必须降级。还要记住:n 是同一句提示词的变体,不是不同资产;不同主体要写不同提示词。

    收尾三件套(每张都做)

    ① 校验:主体对、风格常量一致、构图与调色没跑偏、不变量保住、避免项没出现;② 落地:成品 move / copy 进工作区,版本化命名,不覆盖、不只留在 $CODEX_HOME;③ 汇报:每张都报最终保存路径 + 最终提示词 + 用了哪种模式,方便你日后原样复现整组。

    本章 TL;DR

    系列化 = 把灵感冻成常量。一致性分三层风格靠逐字复用的 style token 串 + 参考图(按 index 引用,新主体走 generate);主体 / 身份靠 identity-preserve 编辑、先 view_image 载入、每轮复述 invariants、一次只改一处、非破坏式另存;品牌色能写进提示词作倾向,但生图不保证精确 HEX——关键文字与精确色块交给 HTML 排版叠加或本地裁切。最后用一张固定 schema、只换 subject / text 的系列模板把一切收口:默认内置、逐图调用、版本化落地、原样可复现。