The Owl's Nook — AI Bedtime Stories — Idea #001

ทำไมถึงเริ่ม

ตอนที่ลูกชายอายุ 3 ขวบ ผมอยากมีคลิปสั้น ๆ ที่ผมกับลูกนั่งดูด้วยกันก่อนนอนได้ — และอยากใช้โอกาสนี้ลองดูจริง ๆ ว่า AI generative tools ในปี 2025 ทำหนัง animation สั้น ๆ แทนสตูดิโอเล็ก ๆ ได้แค่ไหน. ผลที่ได้คือช่อง The Owl’s Nook — เจ้าฮูกแก่ ๆ ใจดี เล่านิทานอีสปกับ bedtime story สไตล์ Pixar.

Pipeline (เวอร์ชันที่ใช้จริง)

ChatGPT  → storyboard + script (shot list, narration)
MidJourney → key frames + character design
Runway / Hailuo / Midjourney → image-to-video สำหรับแต่ละ shot
ElevenLabs → narration เสียงคุณตา
Suno → background music + opening jingle
CapCut → cut, mix, subtitle, export

แต่ละ shot คือ image → video แยกตัว แล้วเอามาตัดต่อใน CapCut. ความท้าทายไม่ได้อยู่ที่เครื่องมือใดเครื่องมือหนึ่ง — มันอยู่ที่ การประสานทั้งหมดให้ตัวละครเหมือนเดิมข้าม shot.

Trade-offs ที่เจอจริง

Character drift: ฮูกใน shot 1 vs shot 8 หน้าไม่เหมือนกันเลย ต้องล็อก reference image อย่างหนักและ iterate หลายรอบ
Prompt → image → regenerate loop: copy prompt จาก ChatGPT ไป MidJourney แล้วได้ภาพไม่ตรง storyboard ต้อง regen 4–6 ครั้งต่อ shot
Audio sync: เสียง narration จาก ElevenLabs สวย แต่ pacing ไม่ตรงกับ animation จาก Runway — ต้องตัดทีละ frame ใน CapCut
End-to-end ต่อ 1 ตอน: ~6–10 ชั่วโมง สำหรับคลิป 2–3 นาที

ทำไมหยุด (ตอนนี้)

ตอนนั้นงานหลักเริ่มกินเวลา ทำให้ workflow แบบ manual หลาย ๆ ขั้น (โดยเฉพาะการ copy prompt + regen image/video หลายรอบ + edit ใน CapCut) มันไม่ scale กับเวลาที่เหลือต่อสัปดาห์. ช่องเลย ship ไป 24 ตอน แล้ว pause ไว้ก่อน.

ถ้ากลับมาทำ

จะหา orchestration ที่:

Lock character ด้วย ref image ตั้งแต่ต้น pipeline ไม่ใช่ regen ที่ MidJourney แต่ละ shot
Auto chain: storyboard → image → video → audio → cut โดยไม่ต้อง manual copy ระหว่างเครื่องมือ
ลด edit time ใน CapCut ด้วย rough cut อัตโนมัติจาก beat ของ narration

นี่คือเหตุผลหนึ่งที่ผมสนใจ AI workflow orchestration มาก ๆ ตอนนี้ — มันคือ bottleneck จริง ๆ ของการทำ AI content solo.