Part Four · 提示词工程
08
Prompt Anatomy · 提示词解剖学

提示词解剖学

一句"画只猫"和一段结构化的 spec,喂给同一个模型,得到的是两个世界。这一章把提示词拆开看:它由哪 14 个字段构成、该按什么顺序组织、何时该补细节何时该收手,以及怎样把"逐字文本"稳稳钉在画面上。

模型不会读心。它只会把你给的每一个词,当成一束需要被满足的约束去摆放像素。提示词工程的全部要义,就是把"你脑子里那张图"翻译成一份模型能逐项执行的清单——既不含糊,也不臃肿。

本书把这份清单叫做 shared prompt schema。它是一套贯穿"内置"与"CLI"两种模式的通用脚手架:你先用它把需求想清楚、写整齐,再决定用哪种模式去执行。这一章只讲"怎么写",执行细节留给后面的章节。

完整字段表:一条提示词的 14 个零件

一条成熟的提示词,可以拆成 14 个字段。你不必每条都填满——但心里要有这张表,才知道自己漏掉了什么。下面这张配方卡,是把"一张暮色书桌静物照"按字段逐项摊开的样子:

RECIPE · SCHEMA

共享提示词 14 字段 · 以"暮色书桌静物"为例

Use case
这张图拿来干嘛——决定整体走向。此例:photorealistic-natural(写实自然照)。
Asset type
资产类型——产品照 / UI 稿 / 信息图 / Logo……此例:一张写实静物摄影。它是思考脚手架,不是 CLI 标志。
Primary request
一句话主诉求——"暮色窗边木书桌上的一杯热茶与一本摊开的旧书"。
Input images
输入图(可选)——参考图 / 编辑目标 / 合成素材。此例无。同样是脚手架,不是 CLI 标志。
Scene-backdrop
场景与背景——靠窗一角,窗外是模糊的黄昏街景。注意:这不是 CLI 的 background 参数。
Subject
主体——一杯冒着热气的茶、一本摊开的精装旧书。这是画面的绝对中心。
Style-medium
风格与媒介——35mm 胶片质感的写实摄影,浅景深。
Composition-framing
构图与取景——三分法,茶杯居右下,俯角约 30°,近景特写。
Lighting-mood
光线与氛围——暖色侧逆光从窗口斜入,安静、慵懒、略带怀旧。
Color palette
配色——琥珀、奶白、深木棕为主,低饱和。
Materials-textures
材质与肌理——粗糙纸页、釉面陶杯、做旧木纹、升腾的水汽。
Text (verbatim)
逐字文本——画面内若有文字,在这里逐字写死并指定字体与位置。此例无文字。
Constraints
约束——画面整洁,只有这两件主体;保持竖构图。
Avoid
避免项——不要人物、不要文字水印、不要现代电子设备、不要高饱和荧光色。
提示:有四个字段容易被误解成"命令行参数",其实都只是思考脚手架Asset typeInput images 帮你想清楚要什么;Scene-backdrop 是画面里的背景,不是 CLI 的 background 开关。真正只属于 CLI 的,是画质(quality)、输入保真度(input fidelity)、蒙版、输出格式与输出路径——那些到 CLI 章节再说。

结构原则:场景 → 主体 → 细节 → 约束

14 个字段不必按表格顺序堆。真正好用的写作顺序,是从"大"到"小"再到"边界",分四段推进——这恰好对应人眼建立一幅画面的方式:先有舞台,再有演员,然后是质感,最后划清楚边框。

提示词解剖 · 一条句子的四个色段 ① 场景/背景 ② 主体 ③ 细节 ④ 约束/避免 ① SCENE · 先搭舞台 在靠窗的木书桌一角,窗外是黄昏模糊的街景, ② SUBJECT · 再放主角 一杯冒着热气的釉面陶茶杯,旁边是一本摊开的精装旧书, ③ DETAIL · 风格·光线·配色·材质·构图 35mm 胶片写实摄影、浅景深,暖色侧逆光从窗口斜入, 琥珀与木棕低饱和配色,纸页与水汽肌理清晰,三分法俯角取景。 ④ CONSTRAINTS / AVOID · 最后划边界 竖构图、画面整洁;不要人物、不要文字水印、不要现代电子设备。
同一条提示词的四段解剖:先场景、后主体、再细节、最后约束——从大到小,从有到无。
  1. ① 先搭舞台(场景/背景)

    主体站在哪儿?周遭环境如何?先确立空间,模型才有地方"放东西"。

  2. ② 再放主角(主体)

    画面的绝对中心是什么,写清楚、写靠前。主体含糊,后面再多细节也救不回。

  3. ③ 然后上细节(风格·光线·配色·材质·构图)

    把质感一层层叠上去。这是"普通"和"对味"的分水岭。

  4. ④ 最后划边界(约束 + 避免)

    明确要保留什么、坚决不要什么。边界放最后,像给画面装一道护栏。

关键判断

顺序本身就是信息。越靠前的词,模型越当回事。所以把"主体"和"最不可妥协的约束"往前放,把可有可无的氛围词往后放。一条读起来像"舞台说明"的提示词,几乎总比一串无序的形容词更稳。

具体度政策:该补的补,该收的收

新手最容易走两个极端:要么一句"画只猫"丢过去,要么把 200 个形容词堆成一座山。技能给的政策很克制——看用户原话的具体程度,再决定补多少

核心分寸是一句话:让目标更清晰、更可执行,但绝不盲目堆细节。哪些增强算"得体",哪些算"越界",这条线必须画清楚:

✓ 允许的增强

  • 构图 / 取景:补一个机位、景别、画幅比例。
  • 精细度 / 用途:说明这是缩略草稿还是终稿、印刷还是屏幕。
  • 实用布局:在请求已隐含的范围内,安排元素的相对位置。
  • 合理的场景具体化:为已定的请求补一个站得住脚的环境细节。

✗ 不允许的增强

  • 凭空加角色 / 物体:请求里没有暗示的人或东西,别自作主张塞进去。
  • 编品牌 / 口号 / 配色 / 叙事:用户没提的,不要替他发明。
  • 不被支持的定位:版面撑不起的任意"放这儿放那儿"。
  • 堆砌细节:为了显得"专业"而加的、对画面无实质贡献的词。

把政策落到一个真实例子上。下面是一条笼统提示词,以及把它规范化 + 得体增强后的样子——注意:我们补的是构图、光线、用途,但没有替用户发明任何品牌、人物或叙事。

提示词 · Before(笼统)内置 image_gen
给我画一杯咖啡,要好看一点。
含糊缺构图缺约束
提示词 · After(结构化 + 得体增强)内置 image_gen
场景:一张浅色木质咖啡馆桌面,背景柔焦虚化。 主体:一杯带细腻拉花的热拿铁,盛在白色厚壁陶杯里。 细节:写实摄影、自然窗光从左侧斜入、浅景深;暖奶白与木棕低饱和配色;可见杯壁釉面反光与微微升腾的热气。 构图:俯角约 45°,杯子居中略偏左,三分法,竖 3:4 画幅,留出顶部负空间。 用途:社媒首图终稿画质。 避免:不要人物、不要文字水印、不要高饱和滤镜、不要餐具杂物。
结构清晰补了构图/光线/用途未越界加料
提示:留意 热拿铁竖 3:4 用了占位高亮——它们是"可替换"的钩子。把一条提示词写成带占位的模板,你就能用同一套结构快速产出一整组变体。别忘了:这里的"变体"指同一句提示词换占位、改 n 出多张,不是不同资产;不同资产要各写各的提示词。

逐字文本:把字钉在画面上

"画面里要带字"是出图最容易翻车的环节。模型会把你随手写的文字理解成"大概那个意思",于是你常拿到拼错、漏字、字体乱飞的结果。规矩只有几条,但每条都要照做:

提示词 · 带逐字文本的海报内置 image_gen
主体:一张极简风格的活动海报,米白底、单色版式。 文字(逐字渲染,不要改写): · 主标题,居中偏上,无衬线粗体大号:"松墨夜话" · 副标题,主标题正下方,细体中号:"PINEMARK · 2026" · 棘手词逐字母拼写以确保准确:P-I-N-E-M-A-R-K。 约束:仅出现以上三处文字;字距均匀、拼写零误差。 避免:不要额外文字、不要装饰性乱码字符、不要水印。
逐字引用指定字体+位置棘手词拼写
红线 · 文字密集的稿子别用草稿画质

需要文字精确的图(海报、UI、信息图、含字编辑),不要图快用低画质出。若走 CLI 回退,低画质(low)适合缩略、草稿、快速迭代;一旦"文字必须对",就该用 medium / high / auto 这类终稿级画质。校验时逐字比对,错一个字母都算没过。

多图引用、重复不变量与单次迭代

当提示词涉及多张图、或进入反复修改时,还有三条纪律能帮你少走弯路。它们都很朴素,但漏掉任何一条,对话很快就会乱套。

① 多图按 index 引用

给了不止一张输入图时,用序号点名,别用"那张图""左边那个"这种模糊指代。比如"参考第 1 张的配色、保留第 2 张的主体姿态、把它合成进第 3 张的背景"。这样模型才知道每张图扮演什么角色(参考图 / 编辑目标 / 合成素材)。

② 编辑每轮重复不变量

编辑的本质是"改一处,保其余"。模型不会默认记住"上一轮我们说过脸不能动"。所以每一轮编辑,都要把不变量(invariants)——必须原样保留的部分——和这次要改的点一起重新声明。还要记住:内置编辑只对"对话上下文里可见的图"生效,要编辑本地文件得先用 view_image 把它载入对话,再走内置 edit。

③ 单次只改一处,再复检

一口气改五个地方,出了问题你根本不知道是哪条指令的锅。正确节奏是:一次只改一个变量 → 看结果 → 再改下一个。慢,但稳,且可回溯。

提示词 · 一轮规范的编辑指令内置 image_gen · edit
本轮唯一改动:把背景的阴天换成晴朗蓝天带少量卷云必须保留的不变量:人物的面部、发型、表情、姿态、服装颜色、画面构图与裁切,全部原样不动。 约束:光线随天空自然变暖即可,不要改变人物身份。 避免:不要新增任何人或物、不要移动主体位置、不要改画幅。
只改一处重复不变量身份保留
关键判断

把这三条连起来看,它们其实是同一个原则的三个侧面:消除歧义。序号消除"指哪张"的歧义,重复不变量消除"哪儿该保留"的歧义,单次迭代消除"是哪条指令起的作用"的歧义。提示词写得好不好,很大程度上就看你替模型消除了多少歧义

本章 TL;DR

一条好提示词由 14 个字段构成,写作顺序是场景 → 主体 → 细节 → 约束,从大到小、从有到无。具体度看人下菜:用户已具体就只规范化,笼统才得体增强——补构图、光线、用途可以,凭空发明品牌/人物/叙事不行。画面带字要逐字引用 + 指定字体位置,棘手词逐字母拼写,文字密集稿别用草稿画质。涉及多图与编辑时守三条纪律:按 index 引用、每轮重复不变量、单次只改一处再复检。归根结底,全章只在做一件事——替模型消除歧义