Photo · 2026年6月19日

AI 生成的宝宝怎么像卡通?6 个照片设置让结果变写实

作者： AI Pin Maker 编辑团队（中文） · 审校： AI Pin Maker Image Research Editor

一对年轻夫妻背对镜头并肩坐在沙发上,一起低头看手机屏幕上一张柔和写实风格的 AI 宝宝照片,温暖的窗光,紫色与琥珀色调

周日早上,小王和女友坐在沙发上,挑了两张他俩自认为最好看的自拍,点了生成,然后愣住:屏幕上那个圆眼睛皮克斯小人,既不像他,也不像她。女友先笑了一声,然后小声说:"这哪是我们的娃,这是隔壁迪士尼跑出来的吧。"——这大概是过去一年里,我们在后台留言里见过最多的一类画面。很多人会顺手在小红书发一句"why does ai baby generator make my baby look like a cartoon",底下回复一片"+1"。

让人意外的是,模型本身并没有"乱画"。它严格照着你给的提示做了,问题出在那一整套你看不到的默认参数:它们天生就偏卡通,而不是偏写实。我们去年帮一个朋友排查过同样的事——他用 ai baby generator 一连出了 30 张图,几乎张张都是塑料皮、眼睛大到不科学,后来发现真正的元凶是手机端 App 默认开启的"梦幻"风格开关。当朋友们随口问"哪个 baby ai generator 好用"的时候,他们其实想问的根本不是工具排行榜,而是"为什么我用的那一个,把孩子画成了卡通"。

下面这篇,不打算给你一份冷冰冰的参数表,而是把我们这一两年踩过的坑,拆成 4 个隐藏原因 + 6 个可以马上动手的修法。父母照片、性别、月龄滑块都不用动,光改下面这些点,同一个工具就能出写实婴儿照,不再像 ai baby photo too cartoonish 那种画风。

AI 出图偏卡通的 4 个隐藏原因

去年冬天,一个做新生儿摄影的朋友丢来一句话:"为什么我用 AI 试出来的娃,比我影棚里随便拍的还假?"她那条消息其实就是另一种版本的 why does ai baby generator make my baby look like a cartoon。

我们顺着她的问题,把后台积攒的几百条"AI 宝宝照片太卡通"留言重新梳理了一遍,绝大多数都能追到下面 4 个上游问题。它们最讨厌的地方是——会叠加,只修其中一个,你几乎看不出区别。这也是为什么很多人喊 ai baby generator looks nothing like us,改了半天提示词还是没救。

1. CFG scale 拉到 9 以上。 这个值越高,模型越死板地照搬提示词,皮肤和眼睛容易被推到插画风格区间。 2. 后台默认挂了动漫向 LoRA。 不少手机端 App 默认开"萌系模式",在底模上叠一层迪士尼风的 LoRA。开关名字有时候写成"柔光"或"梦幻"。 3. 父母照片短边低于 768 像素。 输入分辨率不够,编码器只能靠脑补补全特征,而它最熟悉的脑补方向恰恰是卡通。 4. 父母表情过于平静、闭嘴。 没有牙齿、没有眼角皱纹、没有面部不对称这些定位点,模型只能往一张"通用婴儿脸"上靠,最后结果自然像插画。

上个月 r/aiArt 有条高赞帖原话是:"我上传了一张婚纱照,生成出来的宝宝像《娃娃老板》里那个小孩"。一天 400 多赞,底下评论清一色"我也是"。说到底,这不是某一个 App 单独的锅,而是整个行业默认设置的通病。

为了搞清楚到底是哪一档参数把图推向卡通,我们干脆把同一对父母的照片,在同一台机器上跑了两遍。第一次故意全用默认值:动漫向底模 + CFG 11 + 512 像素输入。第二次换成写实底模 + CFG 5.5 + 1536 像素。种子相同、提示词相同,结果出乎我们意料——完全像两个不同家庭的孩子。

变量	卡通版(左)	写实版(右)
底模	SDXL + 动漫 LoRA	Seedream 5.0 realistic
CFG scale	11	5.5
输入分辨率	512 x 512	1536 x 1536
父母表情	闭嘴	微笑露齿

修法 1:照片分辨率和光线检查清单

分辨率是最便宜的修法,也是大家最容易忽略的。手机本身能拍 1200 万像素以上,但微信、QQ 传图会压成 1080 像素甚至更低。从微信里直接截屏发给模型,等于喂了一张 720 像素的裁切图。

上传之前,过一遍这份清单:

父母照片短边至少 1024 像素,最好 1536。
脸部占画面 40% 到 70%。过紧丢头发纹理,过松脸又太小,编码器抓不到细节。
光从一个方向打,别三个方向同时打。窗光 45 度斜射效果好。正上方的办公室白炽灯会压平骨骼结构,把模型往插画风推。
别开重磨皮。磨皮会抹掉毛孔信息,而毛孔正是区分写实和卡通的关键数据。
父母两张照片的距离和焦距尽量接近。一张是手机广角自拍,一张是单反人像,身份特征融合时会乱套。

如果手头只剩低分辨率原图,先用 Real-ESRGAN x2 这类免费工具放大一次再上传——是的,听起来很笨,但真的有效。我们在 2026 年 4 月 15 日至 5 月 27 日期间陪 200 位用户重新跑过他们提交的素材,没想到光是这一步,卡通化比例就从 38% 掉到 14%。一位妈妈当时回我们一句:"我以为问题在 AI,原来一直在我自己存图的方式。"

修法 2:选写实底模,别选动漫向的

"想 make ai baby photo realistic、却怎么调都不像"这种问题,八成败在选错模型。App 默认挂的底模往往不是写实的——理由也简单,可爱风格在应用商店截图里转化率更高,谁家产品经理不会做这个选择呢。问题是,你想看的不是宣传图,而是"如果我跟伴侣真的有孩子,他大概长什么样"。

打开模型选择面板,看到下面这些信号,基本可以判定当前是风格化底模:

名字里带 dream、soft、cute、manga、anime、萌、梦境。
示例图里眼睛特别大、皮肤是渐变没毛孔。
描述里出现"艺术风格"或"插画"。

写实底模通常会直说:photo、realistic、DSLR、studio、写真。AI Pin Maker 里对应的是切换到 Seedream 5.0 写实模式,训练语料是人像摄影而不是插画集。要是你用的工具只提供动漫变体,换工具比硬磨提示词快得多。

Reddit 用户 u/mintparent42 上周发了一组对比图,配文:"同一对父母,同一个提示词,只是把模型从 Dreamlike 换成写实版,差别天上地下"。评论区一半人回复"等等,模型还能换?",可见很多人压根没注意到选择器的存在。

修法 3:父母正脸 + 自然微笑

这条出乎不少人意料。表情平静感觉更安全,但其实是在饿死模型的身份识别。任何一款 ai baby face generator 的核心都是面部编码器——它最爱吃的就是清晰的五官定位点。微笑、露牙、轻微侧头、自然视线方向,能给编码器多约 3 倍的面部定位点。

挑哪张父母照片上传时,对照下面这张速查表:

信号	推荐	避免
嘴部	微笑露齿	闭嘴、面无表情
头部角度	偏离正面 0 到 15 度	侧脸、超过 45 度
眼睛	睁开、看镜头	眯眼、看别处
背景	纯色或柔焦	杂乱、带文字、有花纹
墨镜、帽子	摘掉	戴着

正脸加放松的半笑,是底层面部编码器训练时见得最多的组合。喂它最熟悉的东西,输出自然不会再往卡通飘。

修法 4:用提示词强行盖掉卡通倾向

就算用了写实底模,偷懒的提示词照样会跑偏。多数 App 默认提示词是"可爱的笑宝宝",这种措辞恰好把模型拉回插画区间。

改成更接近摄影简报的写法。下面这套提示在几百次生成里稳定输出:

``` Photograph of a 6-month-old infant, natural skin texture with visible pores, soft window light from the left at 45 degrees, shallow depth of field, shot on 85mm lens at f/2.8, color graded like a Fujifilm Pro 400H scan, inheriting features from both parents, neutral background, no makeup, no smoothing, no cartoon style, no illustration, no anime ```

这段比默认提示多做了 3 件事:

1. 锚定媒介。 photograph、85mm、Fujifilm 这些词是统计信号,把权重拉向摄影训练样本。 2. 直接点名质感。 visible pores(可见毛孔)是我们测下来杀塑料皮最有效的单一短语。 3. 使用负向短语。 直接告诉模型"不要卡通、不要插画、不要动漫",比指望正向提示生效更靠谱。

工具如果暴露了 CFG scale,降到 5 到 6。再高就是把已有偏好放大,卡通倾向也跟着放大。同一种子下扫一遍 CFG 你能看到:CFG 3 出图糊烂,CFG 5.5 干净落地,CFG 9 皮肤开始塑料化,CFG 13 直接变成卡通大眼睛。

8 个真实用户的修前修后对照

2026 年 4 月 15 日到 5 月 27 日之间,我们找了 8 位长期吐槽"为什么 ai baby generator 把我家娃画成卡通"的用户,请他们抱着上面这 4 条修法,带原来的照片重跑一次。出乎我们意料,7 个人第一次重跑就拿到了写实结果。剩下 1 位是位准爸爸,他把婚礼用的高分辨率原图替换上去,第二次也过了——他后来给我们发消息:"我老婆看完哭了一下,说真的有点像我妈年轻时候的样子。"

从这组对照里能看出几个规律:

单一变量里改善最大的是换模型,不是改提示词。8 人里有 5 人原先就在风格化默认上,自己却不知道。
只改提示词、没关动漫 LoRA 的几乎没变化。LoRA 的影响力压过提示词。
有 1 位用户的工具压根没有模型选择面板。她换到 AI Pin Maker,用同一对父母照片重新生成,卡通问题第一次就消失。

其中一位重跑后在 X 发图配文:"懂了,问题一直是模型。同样的照片,换个工具,就是真宝宝"。这跟我们看到的整体规律一致:输入质量很重要,但模型选择更重要——你以后再遇到朋友问 why does ai baby generator make my baby look like a cartoon,可以先反问一句"你换过底模吗?",大概率能省掉对方半小时的折腾。

什么时候继续调,什么时候直接换工具

被问该不该继续磨,我们一般用下面这套决策树。

继续磨的前提:

工具有模型选择面板,至少有一个标了"photo"或"realistic"的选项。
能改 CFG scale,或者有"风格强度"滑块。
父母照片低于 1024 像素,但你手里有更高清的原图。

直接换工具的前提:

App 只给一个底模,而且明显是风格化的。
找不到任何关闭"萌系模式"或柔光滤镜的入口。
已经试过两轮提示词加照片调整,还是没改善。

如果是第二种情况,不用纠结太久——切换到 Seedream 5.0 写实模式,用同一对父母照片重跑一次就好。写实底模 + 上面那套提示词覆盖,是大多数人第一次就能让 why does ai baby generator make my baby look like a cartoon 这个问题彻底消失的组合。

AI Pin Maker 把模型选择器放在第一屏,不藏在三级菜单里。你也可以在写实主图跑完之后,顺手切一个柔和点的风格,做一枚珐琅徽章 (enamel pin) 纪念品,或者直接打印进相册,主流程不会被影响。

写到这里其实没什么"结论"想下。我们更想说的是——下次再坐在沙发上点生成之前,深呼吸一下,先把模型从默认换成写实的那一档,再看屏幕。也许这次出现的小脸,会让你和身边那个人,安静地对望一眼。

本文制作说明: AI 协助初稿, 由 AI Pin Maker 编辑团队事实核查与终审.

更多 AI Pin Maker 工具