วิธีสร้างวิดีโอแบบภาพยนตร์ด้วย Gemini 3 และ Veo 3.1

การปรับปรุงครั้งล่าสุด: มีนาคม 14, 2026
  • Veo 3.1 ที่ผสานรวมอยู่ใน Gemini ช่วยให้คุณสร้างวิดีโอสั้นในความละเอียด 720p, 1080p และ 4K พร้อมเสียงต้นฉบับและสไตล์ภาพยนตร์ที่หลากหลาย
  • เพื่อให้ได้ผลลัพธ์ที่เป็นมืออาชีพอย่างแท้จริง สิ่งสำคัญคือต้องเชี่ยวชาญในเรื่องต่อไปนี้: ตัวแบบ การกระทำ สไตล์ กล้อง สภาพแวดล้อม และภาพอ้างอิงที่อาจใช้ได้
  • Flow และ Flow TV เป็นเครื่องมือที่เหมาะอย่างยิ่งสำหรับการสร้างแรงบันดาลใจ ดูตัวอย่างงานจริง และเร่งกระบวนการสร้างคลิปที่พร้อมสำหรับโซเชียลมีเดีย
  • ปัจจุบัน การเข้าถึง Veo 3.1 อย่างเต็มรูปแบบและการสร้างวิดีโอด้วย Gemini นั้นจำกัดเฉพาะแพ็กเกจแบบชำระเงิน และในหลายกรณีจำกัดเฉพาะผู้ใช้ในสหรัฐอเมริกาเท่านั้น

วิดีโอแบบภาพยนตร์ด้วย Gemini 3

การใช้งานร่วมกันระหว่าง Gemini 3 กับกล้องวิดีโอ Veo 3 และ Veo 3.1 สิ่งนี้ทำให้ทุกคนเริ่มแชร์คลิปสุดอลังการบนโซเชียลมีเดียกันอย่างกระทันหัน เช่นเดียวกับ... วิดีโอภาพยนตร์ใหม่ที่สร้างด้วย AIหากคุณต้องการมีส่วนร่วมและได้ภาพที่ดูเหมือนมาจากภาพยนตร์ฟอร์มยักษ์ คุณต้องมากกว่าแค่เขียนข้อความสองสามบรรทัดลงในช่องข้อความ คุณต้องเข้าใจอย่างแท้จริงว่าเทคโนโลยีนี้ทำงานอย่างไรและรู้วิธีสื่อสารกับมันเพื่อให้มันทำในสิ่งที่คุณต้องการ

ในบรรทัดต่อไปนี้ คุณจะได้พบกับคู่มือฉบับสมบูรณ์ในภาษา1สเปน ด้วยภาษาที่เป็นมิตรนี่คือแหล่งรวบรวมแทบทุกอย่างที่อธิบายไว้ในเอกสารอย่างเป็นทางการของ Google ในกระทู้ X และในบทช่วยสอนเฉพาะทาง ตั้งแต่การเข้าถึง Veo 3 ผ่าน Gemini ไปจนถึงวิธีการใช้ภาพอ้างอิง การควบคุมอัตราส่วนภาพ การปรับแต่งเสียง และการใช้ Flow และ Flow TV อย่างเต็มประสิทธิภาพเพื่อ (อย่างถูกกฎหมาย) นำพรอมต์ที่ดีที่สุดมาใช้

Veo 3.1 คืออะไร และใช้งานร่วมกับ Gemini 3 ได้อย่างไร?

การสร้างวิดีโอด้วย Gemini 3

Veo 3.1 คือโมเดลวิดีโอรุ่นใหม่ล่าสุดจาก Googleออกแบบมาเพื่อสร้างคลิปวิดีโอขนาดสั้นแต่คุณภาพสูง ความละเอียดสูงสุดถึง 4K พร้อมเสียงที่สร้างขึ้นโดยตรง จุดเด่นคือคุณสามารถควบคุมได้ผ่าน API ของ Gemini หรือโดยตรงจากอินเทอร์เฟซ Gemini ในเบราว์เซอร์ของคุณ ขึ้นอยู่กับแพ็กเกจที่คุณเลือก

โมเดลนี้ได้รับการปรับแต่งให้เหมาะสมกับฉากที่มีความยาวประมาณ 8 วินาทีวิดีโอนี้ทำงานที่ 24 เฟรมต่อวินาที และมีให้เลือก 3 ความละเอียดหลัก ได้แก่ 720p, 1080p และ 4K ยิ่งความละเอียดสูงเท่าไหร่ ก็ยิ่งใช้เวลาในการสร้างวิดีโอมากขึ้น และยิ่งใช้ API มากขึ้นเท่านั้น ดังนั้นควรคำนึงถึงเรื่องนี้หากคุณวางแผนที่จะผลิตคอนเทนต์จำนวนมาก

หนึ่งในจุดเด่นสำคัญของ Veo 3.1 เมื่อเทียบกับเวอร์ชันก่อนหน้า มันจัดการกับสไตล์ภาพที่หลากหลายได้อย่างยอดเยี่ยม ไม่ว่าจะเป็นความสมจริงแบบภาพยนตร์ สุนทรียภาพแบบฟิล์มนัวร์ แอนิเมชั่น 3 มิติสไตล์การ์ตูน วิดีโอเหนือจริง... และทั้งหมดนี้ผสมผสานเข้ากับการเคลื่อนไหวของกล้องที่สมจริง ความลึกของภาพ เอฟเฟกต์แสง และเสียงที่เข้ากับฉากได้เป็นอย่างดี

จากมุมมองทางเทคนิค Veo 3.1 ถูกรวมเข้ากับตระกูลรุ่น Gemini ผ่านทางเอนด์พอยต์เฉพาะ (ตัวอย่างเช่น vea-3.1-generate-preview และเวอร์ชัน Fast) ซึ่งช่วยให้นักพัฒนาสามารถส่งข้อความ รูปภาพ หรือแม้แต่ตัวอย่างวิดีโอเป็นอินพุต และรับคลิปเอาต์พุตเดียวต่อคำขอ พร้อมเสียงที่ฝังอยู่ภายใน

รูปแบบ อัตราส่วนภาพ และความละเอียดสำหรับวิดีโอของคุณ

Veo 3.1 รองรับอัตราส่วนภาพพื้นฐานสองแบบอัตราส่วนภาพแนวนอน 16:9 (รูปแบบคลาสสิกของ YouTube หรือรูปแบบภาพยนตร์จอกว้าง) และอัตราส่วนภาพแนวตั้ง 9:16 (มาตรฐานสำหรับ TikTok, Reels และ Shorts) คุณสามารถระบุอัตราส่วนภาพได้โดยใช้การตั้งค่าอัตราส่วนภาพใน API หรือโดยการเลือกโหมดที่เหมาะสมในอินเทอร์เฟซที่รองรับ

ในส่วนของความละเอียด รุ่นนี้รองรับการสร้างวิดีโอในความละเอียด 720p, 1080p และ 4Kโดยปกติโหมดเริ่มต้นคือ 720p ซึ่งใช้สำหรับการขยายวิดีโอ (เมื่อคุณขยายคลิปที่คุณสร้างไว้แล้ว) ความละเอียด 1080p และ 4K มีให้เลือกใช้ แต่เฉพาะเมื่อความยาว 8 วินาทีขึ้นไปเท่านั้น และค่าใช้จ่ายและความหน่วงจะเพิ่มขึ้นอย่างมาก

ความยาวของวิดีโอเป็นอีกปัจจัยหนึ่งที่คุณต้องคำนึงถึงเมื่อออกแบบคำถามกระตุ้นความคิดVeo 3.1 ทำงานหลักๆ กับคลิปวิดีโอความยาว 4, 6 หรือ 8 วินาที แต่ในทางปฏิบัติแล้วเกือบทุกคนมักใช้คลิป 8 วินาที เพื่อให้ได้ประโยชน์สูงสุดจากฉาก ความละเอียดสูงสุด และสามารถใช้คุณสมบัติต่างๆ เช่น ภาพอ้างอิง หรือส่วนขยายได้

พารามิเตอร์พื้นฐานที่คุณสามารถปรับเปลี่ยนได้ในการเรียกใช้ API ซึ่งรวมถึง: ข้อความอธิบาย (ข้อความกระตุ้น) ภาพเริ่มต้น (ไม่บังคับ) ภาพอ้างอิงเพิ่มเติม วิดีโอตัวอย่างเพื่อขยายความ อัตราส่วนภาพ ระยะเวลาเป็นวินาที ความละเอียด และการควบคุมเฉพาะสำหรับการสร้างภาพบุคคล (โดยมีข้อจำกัดขึ้นอยู่กับภูมิภาค)

แปลงข้อความเป็นวิดีโอ: วิธีขอให้คนราศีเมถุน 3 คิดถึงภาพยนตร์

คลิปวิดีโอสุดเจ๋งส่วนใหญ่ที่คุณเห็นในโซเชียลมีเดียเริ่มต้นจากข้อความกระตุ้นความคิดที่ดีการเขียนแค่ "เมืองแห่งอนาคตที่สวยงาม" นั้นไม่เพียงพอ หากคุณต้องการให้มันดูเหมือนฉากในภาพยนตร์ คุณต้องสอนให้แบบจำลองคิดเหมือนช่างภาพและผู้กำกับภาพยนตร์ไปพร้อมๆ กัน

เอกสารประกอบของ Veo เน้นย้ำถึงองค์ประกอบสำคัญหลายประการที่ควรปรากฏในคำแนะนำเกือบทั้งหมดของคุณองค์ประกอบหลักของภาพ (บุคคล สัตว์ วัตถุ ทิวทัศน์) การกระทำที่เกิดขึ้น รูปแบบภาพที่ต้องการ ตำแหน่งและการเคลื่อนไหวของกล้อง องค์ประกอบของเฟรม เอฟเฟ็กต์ของเลนส์ และสภาพแวดล้อมด้านสีและแสง

ตัวอย่างเช่น แทนที่จะใช้คำพูดทั่วไป สำหรับฉาก "ชายคนหนึ่งกำลังคุยโทรศัพท์" นั้น ควรระบุรายละเอียดให้ชัดเจนกว่านี้ เช่น ภาพโคลสอัพแบบภาพยนตร์ ชายผู้สิ้นหวังในเสื้อโค้ทสีเขียวกำลังหมุนแป้นโทรศัพท์ แสงไฟนีออนสีเขียวส่องเป็นเงาบนกำแพงอิฐ การโฟกัสที่ตื้นมากเน้นความตึงเครียดบนใบหน้าของเขาและทำให้ฉากหลังที่เป็นแสงไฟในเมืองเบลอ ความแตกต่างในระดับรายละเอียดนี้ส่งผลให้คุณภาพของวิดีโอที่ได้นั้นดีขึ้นอย่างเห็นได้ชัด

นอกจากนี้ การเพิ่มคำศัพท์เฉพาะที่ใช้ในภาษาสื่อโสตทัศนูปกรณ์ก็เป็นความคิดที่ดีเช่นกัน: มุมมองจากมุมสูง, กล้องระดับสายตา, การถ่ายแบบดอลลี่ช็อต, ภาพโคลสอัพสุดๆ, ภาพมุมกว้าง, กล้องถือด้วยมือ, การถ่ายแบบติดตามช้าๆ, เลนส์มาโคร, มุมกว้าง, เบลอแบบนุ่มนวล… ยิ่งคำอธิบายของคุณคล้ายกับคำอธิบายบทภาพยนตร์ทางเทคนิคมากเท่าไหร่ ผมก็ยิ่งเห็นชัดเจนมากขึ้นเท่านั้น

  Google Translate เตรียม 'ฝึกฝน' เพื่อเรียนรู้ภาษาจากสถานการณ์จริง

ภาพนิ่งสู่ภาพเคลื่อนไหว: จากภาพนิ่งสู่ภาพเคลื่อนไหว

นอกจากข้อความแล้ว Veo 3.1 ยังอนุญาตให้ใช้รูปภาพเป็นกรอบเริ่มต้นได้อีกด้วยเหมาะอย่างยิ่งสำหรับการสร้างภาพเคลื่อนไหวให้กับภาพประกอบ ภาพถ่ายผลิตภัณฑ์ ภาพวาด หรือภาพเรนเดอร์ที่สร้างด้วยโมเดลภาพอื่นๆ เช่น Gemini 2.5 Flash Image (ซึ่งบางครั้ง Google เรียกกันว่า Nano Banana)

วิธีการทั่วไปคือเริ่มต้นด้วยการสร้างภาพที่สมบูรณ์แบบมาก ๆ ก่อน นั่นคือภาพที่แสดงถึงส่วนหน้าของฉากของคุณ (ตัวอย่างเช่น ภาพมาโครของนักโต้คลื่นตัวจิ๋วที่กำลังโต้คลื่นอยู่ภายในอ่างล้างหน้าหิน โดยมีก๊อกน้ำโบราณสร้างฟอง) จากนั้น ภาพนั้นจะถูกส่งไปยัง Veo 3.1 พร้อมกับข้อความแจ้งเตือนที่อธิบายว่ากล้องควรเคลื่อนที่อย่างไร องค์ประกอบใดควรเปลี่ยนแปลง และบรรยากาศและเสียงที่คุณต้องการ

โมเดลนี้ใช้ภาพนั้นเป็นเฟรมบูต จากนั้น โปรแกรมจะสร้างคลิปสั้นๆ ที่แสดงรายละเอียดต่างๆ ผ่านภาพเคลื่อนไหว เช่น น้ำที่ไหล นักเล่นกระดานโต้คลื่นที่เคลื่อนไหว กล้องที่หมุนช้าๆ แสงสะท้อนจากโลหะ เป็นต้น นี่เป็นวิธีที่มีประสิทธิภาพมากในการใช้ประโยชน์จากงานที่คุณเคยทำมาแล้วด้วยเครื่องมือสร้างภาพ

โปรดทราบว่า Veo 3.1 รองรับภาพอ้างอิงได้สูงสุดเพียงสามภาพต่อคำขอเท่านั้น และฟังก์ชันบางอย่าง เช่น การใช้ภาพอ้างอิงและภาพความละเอียดสูงพร้อมกัน จำเป็นต้องตั้งค่าระยะเวลาเป็น 8 วินาที หากคุณรวมภาพหลายภาพเข้าด้วยกัน (เช่น ใบหน้า เสื้อผ้า และเครื่องประดับ) โมเดลจะพยายามคงองค์ประกอบเหล่านั้นไว้ในผลลัพธ์สุดท้าย

ภาพอ้างอิงและการควบคุมรูปแบบภาพ

จุดเด่นสำคัญอย่างหนึ่งของ Veo 3.1 คือความสามารถในการใช้ภาพอ้างอิงเฉพาะภาพอ้างอิงเหล่านี้ ซึ่งแตกต่างจากภาพเริ่มต้นที่ใช้เป็นเฟรมแรก ช่วยรักษาความสม่ำเสมอของรูปลักษณ์ของตัวละคร ผลิตภัณฑ์ หรือองค์ประกอบสำคัญตลอดทั้งวิดีโอ

คุณสามารถอัปโหลดภาพอ้างอิงได้สูงสุดสามภาพซึ่งระบบจะตีความว่าเป็น “ส่วนประกอบ” ทางภาพ เช่น ชุดเฉพาะ ใบหน้าของผู้หญิง และแว่นตาเฉพาะแบบ Veo จะพยายามทำให้แน่ใจว่าในคลิปที่สร้างขึ้น ตัวละครยังคงสวมใส่เสื้อผ้า มีลักษณะใบหน้า และใช้เครื่องประดับเหล่านั้น แม้ว่าฉาก สภาพแวดล้อม หรือประเภทของภาพจะเปลี่ยนแปลงไปก็ตาม

เทคนิคนี้มีประโยชน์อย่างยิ่งเมื่อคุณต้องการสร้างตัวละครเอกคนเดียวกันในรูปแบบต่างๆ (สำหรับโฆษณา คอนเทนต์แบรนด์ ตัวละครที่ปรากฏซ้ำๆ ฯลฯ) โดยที่แต่ละวิดีโอไม่ได้ดูแตกต่างกันอย่างสิ้นเชิง ในตัวอย่างอย่างเป็นทางการ คุณจะเห็นว่าการอ้างอิงถึงปลาทะเลลึกถูกนำมาผสมผสานกับชุดเจ้าหญิงของเด็ก ๆ เพื่อสร้างภาพเคลื่อนไหวของปลาที่แต่งตัวและโบกไม้กายสิทธิ์

นอกจากนี้ Veo 3.1 ยังมีโหมดที่ให้คุณกำหนดเฟรมแรกและเฟรมสุดท้ายได้ในกรณีนั้น จะมีการส่งภาพสองภาพ ได้แก่ ภาพเริ่มต้นและภาพสุดท้าย จากนั้นแบบจำลองจะสร้างการประมาณค่าในช่วงที่เชื่อมต่อทั้งสองภาพเข้าด้วยกัน ซึ่งจะควบคุมไม่เพียงแค่จุดเริ่มต้น แต่ยังรวมถึงจุดจบของฉากด้วย (ตัวอย่างเช่น รถที่ขับโดยแมวที่ตกลงไปในหน้าผา)

การยืดวิดีโอ: ขยายช่วงเวลาของการกระทำโดยไม่ทำลายรูปแบบเดิม

อีกหนึ่งคุณสมบัติพิเศษของ Veo 3.1 คือส่วนขยายวิดีโอซึ่งช่วยให้คุณสามารถนำคลิปที่สร้างไว้แล้วด้วย Veo มาต่อเพิ่มอีกไม่กี่วินาทีในลักษณะที่สอดคล้องกับสิ่งที่เกิดขึ้นในช่วงท้าย

ตามข้อกำหนดปัจจุบัน คุณสามารถขยายวิดีโอได้ครั้งละประมาณ 7 วินาทีสามารถทำซ้ำได้สูงสุด 20 ครั้งติดต่อกัน โดยมีเงื่อนไขว่าคลิปต้นฉบับต้องไม่เกิน 141 วินาที มีความละเอียด 720p และอัตราส่วนภาพ 16:9 หรือ 9:16 ผลลัพธ์ที่ได้คือไฟล์เดียวที่มีความยาวสูงสุด 148 วินาที ซึ่งเป็นการผสมผสานระหว่างฟุตเทจเดิมและส่วนที่สร้างขึ้นใหม่

เพื่อให้ส่วนขยายทำงานได้อย่างถูกต้อง จำเป็นอย่างยิ่งที่วินาทีสุดท้ายของวิดีโออินพุตจะต้องมีเนื้อหาหรือเสียงที่คุณต้องการให้ทำงานต่อตัวอย่างเช่น หากเสียงพากย์ถูกตัดจบก่อนวินาทีสุดท้าย นางแบบจะมีปัญหาในการยืดเสียงให้ต่อเนื่องอย่างเป็นธรรมชาติ เหตุการณ์คล้ายๆ กันนี้เกิดขึ้นกับเอฟเฟ็กต์เสียงด้วย

ในแง่ของการใช้งาน ฟังก์ชันเสริมนี้ทำงานโดยการส่งวิดีโอต้นฉบับเป็นพารามิเตอร์ (อ้างอิงจากคลิปที่สร้างโดย API แล้ว ไม่ใช่ไฟล์ใดๆ ก็ได้) พร้อมกับคำแนะนำข้อความใหม่ที่ชี้แจงว่าควรเกิดอะไรขึ้นต่อไป เช่น ดำเนินการร่อนลงด้วยร่มร่อนต่อไป เพิ่มความเร็วในการไล่ล่า ดำเนินการถ่ายภาพต่อเนื่องผ่านป่า เป็นต้น

วิธีการทำงานของการทำงานแบบอะซิงโครนัสในการสร้างวิดีโอ

การสร้างวิดีโอในระบบคลาวด์ไม่ใช่เรื่องที่เกิดขึ้นทันทีGoogle แก้ปัญหานี้ด้วยระบบการทำงานแบบต่อเนื่องระยะยาว เมื่อคุณส่งคำขอไปยัง API ของ Gemini เพื่อสร้างวิดีโอด้วย Veo คุณจะไม่ได้รับไฟล์ทันที แต่จะได้รับอ็อบเจ็กต์การดำเนินการที่ระบุว่างานกำลังดำเนินการอยู่

วิธีการทำงานมาตรฐานคือการใช้ลูปตรวจสอบสถานะ ระบบจะตรวจสอบสถานะการดำเนินการนั้นเป็นระยะ จนกว่าช่องข้อมูลที่เกี่ยวข้องจะระบุว่าการดำเนินการเสร็จสิ้นแล้ว เมื่อถึงจุดนั้น การตอบกลับจะรวมถึง URL หรือแหล่งที่มาของวิดีโอที่ได้ ซึ่งคุณสามารถดาวน์โหลดหรือประมวลผลได้ตามต้องการ

เวลาแฝงที่โฆษณาไว้มีตั้งแต่ประมาณ 11 วินาทีในกรณีที่ดีที่สุด ไปจนถึงหลายนาทีในช่วงเวลาที่มีผู้ใช้งานหนาแน่นหากคุณต้องการผสานรวม Veo 3.1 เข้ากับเวิร์กโฟลว์การผลิตหรือแอปพลิเคชันสำหรับผู้ใช้ปลายทาง จำเป็นอย่างยิ่งที่จะต้องจัดการเวลาเหล่านี้ให้ดี แสดงแถบความคืบหน้าที่เหมาะสม และจัดการคิวงาน

นอกจากนี้ โปรดจำไว้ว่าวิดีโอที่สร้างขึ้นจะถูกจัดเก็บไว้บนเซิร์ฟเวอร์ของ Google เพียงแค่สองวันเท่านั้นหากคุณวางแผนที่จะนำคลิปกลับมาใช้ใหม่ในภายหลังหรือขยายคลิปหลายครั้ง ขอแนะนำให้ดาวน์โหลดและบันทึกสำเนาไว้ในเครื่อง หรือโปรดจำไว้ว่าการอ้างอิงวิดีโอในคำขอใหม่จะรีเซ็ตตัวนับสองวัน

  Google เปิดตัว Veo 3.1: เสียงดั้งเดิม ควบคุมได้มากขึ้น และ Flow ที่ได้รับการปรับปรุงใหม่

พารามิเตอร์หลักของ API Veo 3.1 และรุ่นต่างๆ

ตารางพารามิเตอร์อย่างเป็นทางการของ Veo แสดงรายละเอียดสิ่งที่สามารถปรับแต่งได้ในแต่ละรุ่น (Veo 3.1, Veo 3, Veo 2 และรุ่น Fast ต่างๆ) และประเภทข้อมูลที่แต่ละรุ่นยอมรับ แม้ว่าเราจะไม่คัดลอกตารางมาทั้งหมด แต่ก็ยังคุ้มค่าที่จะตรวจสอบฟิลด์ที่เกี่ยวข้องมากที่สุด

ในส่วน "ตัวอย่าง" มีสิ่งต่อไปนี้ที่โดดเด่น: ข้อความแจ้งเตือน รูปภาพเริ่มต้น รูปภาพสุดท้ายสำหรับการประมาณค่า รูปภาพอ้างอิงเฉพาะ (เฉพาะใน Veo 3.1) และวิดีโออินพุตสำหรับส่วนขยาย ทั้งหมดนี้ถูกห่อหุ้มไว้ในรูปแบบของวัตถุรูปภาพหรือวิดีโอที่ API เข้าใจและประมวลผลได้

พารามิเตอร์ที่สามารถกำหนดค่าได้ ได้แก่ อัตราส่วนภาพ (โดยมีอัตราส่วน 16:9 เป็นค่าเริ่มต้น และมีตัวเลือกสำหรับ 9:16) ระยะเวลาเป็นวินาที (ค่าคงที่ เช่น 4, 6 หรือ 8 ขึ้นอยู่กับรุ่น) โหมดการสร้างภาพบุคคล (โดยมีข้อจำกัดด้านภูมิภาคที่ชัดเจนสำหรับสหภาพยุโรป สหราชอาณาจักร สวิตเซอร์แลนด์ และ MENA) และความละเอียดของเอาต์พุต

สำหรับรุ่นต่างๆ นั้น Veo 3.1 และ Veo 3.1 Fast เปิดให้ทดลองใช้งานในโหมดพรีวิวด้วยการรองรับวิดีโอเพียงหนึ่งรายการต่อคำขอ การป้อนข้อมูลด้วยเสียง ข้อความ และรูปภาพแบบเนทีฟ และข้อจำกัดโดยประมาณที่ 1024 โทเค็นข้อความ Veo 3 และ Veo 2 ถือว่ามีความเสถียรมากกว่า แต่มีคุณสมบัติน้อยกว่า (ตัวอย่างเช่น Veo 2 ไม่รองรับเสียงที่สร้างขึ้น มีเพียงวิดีโอแบบไม่มีเสียงเท่านั้น)

การมีเวอร์ชัน "เร็ว" นั้นมีจุดประสงค์เพื่อรองรับการใช้งานเชิงพาณิชย์ ในกรณีที่ความเร็วมีความสำคัญพอๆ กับการรักษาระดับคุณภาพที่สูง เช่น การสร้างโฆษณาจำนวนมหาศาล การทดสอบ A/B ของแนวคิดสร้างสรรค์ หรือเครื่องมือที่สร้างเนื้อหาสำหรับเครือข่ายสังคมออนไลน์ในเวลาเกือบเรียลไทม์

มาตรการรักษาความปลอดภัย ลายน้ำ และข้อจำกัดระดับภูมิภาค

ฉันเห็นว่ามันใช้ตัวกรองความปลอดภัยและการตรวจสอบหน่วยความจำที่สอดคล้องกับ Gemini เพื่อป้องกันการสร้างเนื้อหาที่ไม่เหมาะสม เป็นอันตราย หรือละเมิดลิขสิทธิ์ หากคำขอเข้าข่ายกรณีสีเทา คำขอจะถูกบล็อก และคุณจะไม่ถูกเรียกเก็บค่าธรรมเนียมสำหรับคำขอนั้น

วิดีโอทั้งหมดที่สร้างขึ้นจะมีลายน้ำ SynthIDเทคโนโลยีเฉพาะของ Google ที่ออกแบบมาเพื่อฝังสัญญาณที่มองไม่เห็น ซึ่งช่วยให้ผู้ใช้ระบุได้ว่าเนื้อหานั้นสร้างขึ้นด้วย AI และสอดคล้องกับโครงการริเริ่มต่างๆ เช่น ฉลากรับรองความถูกต้องสามารถตรวจสอบเครื่องหมายเหล่านี้ได้ในภายหลังโดยใช้แพลตฟอร์มการตรวจสอบ SynthID

สำหรับการสร้างตัวละครสมมติ มีข้อกำหนดเฉพาะที่แตกต่างกันไปตามแต่ละภูมิภาคในสหภาพยุโรป สหราชอาณาจักร สวิตเซอร์แลนด์ และประเทศในกลุ่ม MENA ค่าที่อนุญาตสำหรับพารามิเตอร์การสร้างบุคคลนั้นเข้มงวดกว่า: ใน Veo 3 อนุญาตให้สร้างเฉพาะผู้ใหญ่บางประเภทเท่านั้น และใน Veo 2 ค่าเริ่มต้นคือไม่สร้างบุคคล เว้นแต่จะระบุไว้เป็นอย่างอื่นภายในขอบเขตที่กำหนดไว้

การเก็บรักษาวิดีโอก็อยู่ภายใต้การควบคุมเช่นกันคลิปวิดีโอที่สร้างขึ้นจะถูกเก็บไว้บนเซิร์ฟเวอร์ของ Google เป็นเวลาสูงสุดสองวันก่อนที่จะถูกลบ หากคุณอ้างอิงถึงวิดีโอนั้นอีกครั้งในช่วงเวลาดังกล่าว (เช่น เพื่อขยายเวลา) ตัวจับเวลาจะเริ่มต้นใหม่ แต่คุณควรเข้าใจเสมอว่าพื้นที่จัดเก็บข้อมูลนั้นเป็นเพียงชั่วคราว

วิธีเขียนคำโปรยที่ทรงพลังสำหรับวิดีโอสไตล์ภาพยนตร์

เคล็ดลับสำคัญที่จะทำให้ Veo 3.1 ทำงานได้อย่างเต็มประสิทธิภาพคืออะไร? ทุกอย่างขึ้นอยู่กับว่าคุณเขียนคำแนะนำได้ดีแค่ไหน Google มีคู่มือฉบับเต็มเกี่ยวกับการออกแบบคำแนะนำวิดีโอ ซึ่งระบุไว้อย่างชัดเจนว่ารายละเอียดเล็กๆ น้อยๆ นั้นสำคัญมาก

ในอีกด้านหนึ่ง พวกเขาแนะนำให้ใช้ภาษาที่บรรยายและเป็นรูปธรรมโดยใช้คำคุณศัพท์และคำวิเศษณ์ที่กำหนดโทนของภาพ เช่น ร่าเริง เศร้าหมอง น่ากังวล อบอุ่น เย็นชา เหนือจริง วินเทจ ล้ำยุค เป็นต้น นอกจากนี้ยังแนะนำให้ระบุว่าเมื่อใดที่คุณต้องการให้ใบหน้าเป็นจุดโฟกัสของภาพ โดยใช้คำต่างๆ เช่น ภาพบุคคล ภาพระยะใกล้มาก หรือเน้นที่การแสดงออกทางสีหน้า

ในทางกลับกัน พวกเขาแนะนำให้แบ่งแนวคิดออกเป็นส่วนๆสิ่งนี้ช่วยให้แบบจำลองเข้าใจลำดับความสำคัญในการสร้างสรรค์และหลีกเลี่ยงการหลงทาง เช่น ตัวละครปรากฏอย่างไร พวกเขาทำอะไร สไตล์ภาพยนตร์ที่ต้องการเป็นอย่างไร การเคลื่อนไหวของกล้องเป็นอย่างไร องค์ประกอบภาพเป็นอย่างไร เลนส์ที่จำลองเป็นแบบใด และแสงและสีบรรยากาศแบบใดที่โดดเด่นในฉาก

นอกจากนี้ ยังสามารถใช้ "คำสั่งเชิงลบ" เพื่อระบุองค์ประกอบที่คุณไม่ต้องการเห็นได้อีกด้วยอย่างไรก็ตาม Google ได้ทำการแยกแยะที่น่าสนใจในจุดนี้: แทนที่จะเขียนคำสั่งเช่น "ไม่ปรากฏอาคาร" ควรใช้วิธีการอธิบายแนวคิดที่จะยกเว้น (ตัวอย่างเช่น พื้นหลังเมือง สิ่งก่อสร้างที่มนุษย์สร้างขึ้น บรรยากาศที่คุกคาม) เพื่อให้โมเดลรู้ว่าควรหลีกเลี่ยงอะไรโดยไม่สับสนกับการปฏิเสธโดยตรง

เสียง บทสนทนา และเอฟเฟกต์เสียงด้วย Veo 3

ด้วย Veo 3 การสร้างเสียงจึงไม่ใช่ส่วนเสริมจากภายนอกอีกต่อไป และจะถูกผสานรวมเข้ากับโมเดลวิดีโอโดยตรง คุณสามารถระบุบทสนทนา เอฟเฟกต์เสียง และเสียงบรรยากาศโดยรอบได้โดยตรงในข้อความแจ้งเตือน และระบบจะพยายามซิงโครไนซ์สิ่งเหล่านั้นกับการกระทำทางภาพ

คำแนะนำของ Google คือให้ใช้เครื่องหมายอัญประกาศสำหรับคำพูดที่ตรงตัว คำสั่งกำกับเวทีเหล่านี้ช่วยให้ตัวละครออกเสียงได้อย่างชัดเจน โดยระบุให้ชัดเจนว่าใครกำลังพูดและใช้โทนเสียงแบบใด ตัวอย่างเช่น “นี่ต้องเป็นกุญแจแน่ๆ” เขาพึมพำ หรือ ผู้หญิง: (น้ำเสียงเครียด) “แล้วมันคืออะไรล่ะ?” คำสั่งกำกับเวทีประเภทนี้ช่วยให้มั่นใจได้ว่าการออกเสียงจะสม่ำเสมอ

จำเป็นต้องมีคำอธิบายที่ชัดเจนสำหรับเอฟเฟ็กต์เสียง (SFX)เสียงต่างๆ เช่น เสียงยางรถยนต์เสียดสี เสียงเครื่องยนต์คำราม เสียงฝีเท้าบนพื้นเปียก เสียงกิ่งไม้หัก เสียงปิดประตู เป็นต้น ในทำนองเดียวกัน สำหรับเสียงรบกวนรอบข้าง การกำหนดลักษณะเสียงโดยทั่วไปก็เป็นประโยชน์ เช่น เสียงหึ่งๆ ของอุปกรณ์ไฟฟ้า เสียงนกร้องแผ่วเบาจากระยะไกล เสียงพูดคุยในเมือง เสียงคลื่นเบาๆ ในพื้นหลัง

  NotebookLM และวิดีโอภาพยนตร์ที่ขับเคลื่อนด้วย AI รุ่นใหม่

อย่างไรก็ตาม เมื่อคุณขยายวิดีโอ โมเดลจะสามารถขยายเสียงได้ก็ต่อเมื่อเสียงนั้นปรากฏอยู่ในส่วนสุดท้ายของคลิปต้นฉบับเท่านั้นหากประโยคจบลงก่อนส่วนสุดท้าย ระบบจะไม่มีข้อมูลเพียงพอที่จะดำเนินประโยคต่อไปได้อย่างเป็นธรรมชาติ ดังนั้นโดยทั่วไปแล้วระบบจึงทำงานได้ดีกว่ากับเสียงประกอบและดนตรีมากกว่าบทสนทนาที่เปลี่ยนเนื้อหาไปเรื่อยๆ

Flow, Flow TV และวิธีการเรียนรู้โดยการเลียนแบบคำถามจริง

นอกเหนือจาก API แล้ว Google ยังขับเคลื่อนสภาพแวดล้อมสร้างสรรค์ที่เรียกว่า Flow อีกด้วยFlow ซึ่งเป็นการพัฒนาต่อยอดจากโครงการทดลองก่อนหน้านี้ที่รู้จักกันในชื่อ VideoFX นั้น เปิดให้ใช้งานสำหรับสมาชิก Google AI Pro และ Google AI Ultra ในสหรัฐอเมริกา โดยมุ่งเน้นไปที่การสร้างวิดีโอแบบโต้ตอบด้วยเครื่องมือ AI รวมถึงการเข้าถึง Veo 3 เวอร์ชันก่อนใครพร้อมระบบเสียงในตัว

หนึ่งในคุณสมบัติที่น่าสนใจที่สุดสำหรับการเรียนรู้วิธีเขียนคำถามกระตุ้นความคิดที่ดี นี่คือ Flow TV ส่วนที่คุณสามารถรับชมช่องวิดีโอที่สร้างขึ้นด้วย Flow ได้ จุดเด่นคือคุณสามารถดูคำสั่งที่ใช้ในการสร้างแต่ละคลิปได้ ทำให้คุณสามารถศึกษาโครงสร้างของคำสั่งที่ให้ผลลัพธ์ที่ดีที่สุดได้

ครีเอเตอร์หลายคนกล่าวว่านี่เป็นหนึ่งในวิธีที่ดีที่สุดในการพัฒนาฝีมืออย่างรวดเร็ว: ดูวิดีโอที่คุณชอบ ทบทวนเนื้อหาต้นฉบับ และปรับโครงสร้างนั้นให้เข้ากับไอเดียของคุณเอง โดยอาจเปลี่ยนแปลงสถานการณ์ ตัวละคร หรือสไตล์ แต่ยังคงรักษาความสมบูรณ์ของรายละเอียดและความสมเหตุสมผลของคำอธิบายไว้

นอกจากนี้ ผู้ใช้บางรายยังใช้ประโยชน์จาก Gemini ในการทำการวิจัยเชิงลึกอีกด้วย เกี่ยวกับการใช้เทคนิคการสร้างข้อความแจ้งเตือน การรวบรวมเคล็ดลับ แล้วขอให้โมเดลแปลงรายงานเหล่านั้นเป็นอินโฟกราฟิกเชิงภาพที่สรุปแนวทางปฏิบัติที่ดีที่สุด นี่เป็นอีกวิธีที่น่าสนใจในการใช้ Gemini และ Veo เป็นเครื่องมือการเรียนรู้เชิงสร้างสรรค์ ไม่ใช่แค่เป็นเครื่องมือสร้างข้อความแจ้งเตือนเท่านั้น

ข้อกำหนดและวิธีการทดสอบวิดีโอด้วย Gemini นอกสหรัฐอเมริกา

ณ ปัจจุบัน การสร้างวิดีโอด้วย Gemini โดยใช้ Veo 3 ยังไม่สามารถใช้งานได้สำหรับทุกคนGoogle เองระบุว่า ณ ตอนนี้ ฟังก์ชันนี้มีให้บริการเฉพาะผู้ใช้แพ็กเกจแบบชำระเงินบางแพ็กเกจในสหรัฐอเมริกาเท่านั้น ซึ่งทำให้ครีเอเตอร์จำนวนมากจากประเทศอื่นๆ ต้องมองหาทางลัด

ในการทดสอบ Veo 3 จากเว็บอินเทอร์เฟซของ Gemini คุณต้องมีสิ่งพื้นฐานสองอย่าง: การสมัครใช้งาน Google AI Pro ที่ใช้งานอยู่ (หรือแผนเทียบเท่าที่ให้สิทธิ์เข้าถึงฟีเจอร์วิดีโอล่าสุด) และการเชื่อมต่อที่ดูเหมือนว่าจะอยู่ในสหรัฐอเมริกา โดยปกติผ่าน VPN ที่น่าเชื่อถือ

ขั้นตอนทั่วไปที่แนะนำในบทแนะนำหลายๆ บท คือการเชื่อมต่อกับเซิร์ฟเวอร์ของสหรัฐอเมริกาโดยใช้ VPNในการเข้าใช้งาน Gemini ให้เปิดในเบราว์เซอร์ของคุณ (ฟีเจอร์นี้ยังไม่พร้อมใช้งานในแอปมือถือในขณะนี้) และมองหาปุ่มวิดีโอที่ด้านบนของอินเทอร์เฟซ บางครั้งปุ่มนี้อาจกะพริบหรือหายไปอย่างรวดเร็ว ดังนั้นผู้ใช้จึงมักโหลดหน้าเว็บใหม่และเตรียมเมาส์ให้พร้อมเพื่อคลิกทันทีที่เห็นปุ่มนั้น

เมื่อเปิดใช้งานตัวเลือกนี้แล้ว คุณเพียงแค่ต้องอธิบายคลิปที่คุณต้องการสร้างเนื่องจากระบบจะสร้างวิดีโอความยาวประมาณ 8 วินาทีในรูปแบบ MP4 ความละเอียด 720p จึงควรหลีกเลี่ยงการใส่การกระทำมากเกินไปในเวลาอันสั้น และควรเน้นไปที่ฉากเดียวที่ชัดเจนและมีสไตล์ภาพที่โดดเด่น

ผู้ใช้งานบางรายระบุว่า จำนวนวิดีโอที่คุณสามารถสร้างได้ต่อสัปดาห์นั้นมีจำกัดแม้ว่า Google จะไม่ได้โฆษณาเรื่องนี้อย่างเด่นชัดนัก แต่ก็มีรายงานว่ามีการสร้างภาพประมาณ 10 หรือ 12 ภาพต่อสัปดาห์ในแพ็กเกจบางแพ็กเกจ ดังนั้นคุณจึงต้องบริหารจัดการจำนวนครั้งในการใช้งานอย่างระมัดระวัง และหากเป็นไปได้ ควรปรับปรุงคำใบ้ของคุณก่อนที่จะใช้คำใบ้ชุดใหม่

แผนงานด้าน AI ของ Google และความร่วมมือกับผู้สร้างภาพยนตร์

Google ใช้แผนการสมัครสมาชิก AI Pro และ AI Ultra เป็นช่องทางในการเข้าถึงความสามารถขั้นสูงเหล่านี้AI Pro ให้สิทธิ์เข้าถึงฟีเจอร์สำคัญของ Flow และจำนวนการสร้างสรรค์ต่อเดือน (ตัวอย่างเช่น ประมาณ 100 รายการต่อเดือนในบางกรณี) ในขณะที่ AI Ultra เพิ่มขีดจำกัดและเปิดให้เข้าถึง Veo 3 รุ่นก่อนใครพร้อมระบบเสียงแบบเนทีฟ

ในขณะเดียวกัน บริษัทก็กำลังร่วมมือกับผู้สร้างภาพยนตร์มืออาชีพ เพื่อทำความเข้าใจว่า AI เข้ากับขั้นตอนการทำงานด้านการผลิตภาพและเสียงในโลกแห่งความเป็นจริงได้อย่างไร ผู้กำกับอย่างเดฟ คลาร์ก ได้ใช้เครื่องมือของ Google และโซลูชัน AI อื่นๆ ในการถ่ายทำภาพยนตร์สั้นเรื่องล่าสุด โดยทดลองผสมผสานการถ่ายทำแบบดั้งเดิมและภาพที่สร้างโดย AI

เป้าหมายที่ระบุไว้คือเพื่อให้คนรุ่นใหม่สามารถบอกเล่าเรื่องราวของตนเองได้โดยมีอุปสรรคทางเทคนิคและเศรษฐกิจน้อยลงGoogle ได้นำ Flow มาใช้ประโยชน์ทั้งในด้าน AI สำหรับการแสดงตัวอย่างอย่างรวดเร็วและลำดับภาพสุดท้าย โดยได้เปิดให้ผู้สร้างภาพยนตร์บางกลุ่มได้เข้าถึงก่อนใคร เพื่อให้พวกเขาสามารถรวบรวมข้อเสนอแนะในการปรับปรุงเครื่องมือและปรับให้เข้ากับภาษาและความต้องการของอุตสาหกรรมภาพยนตร์

แนวทางแบบผสมผสานนี้อธิบายได้ว่าทำไม Veo 3.1 จึงมีการอ้างอิงถึงภาษาของกล้องและรูปแบบภาพยนตร์คลาสสิกมากมายแนวคิดนี้ไม่ได้มีเพียงแค่การสร้างวิดีโอที่สวยงามสำหรับโซเชียลมีเดียเท่านั้น แต่ยังต้องการให้สามารถควบคุมองค์ประกอบ การเคลื่อนไหว และบรรยากาศได้อย่างละเอียดเพียงพอที่จะนำไปบูรณาการในโครงการเล่าเรื่องที่จริงจังมากขึ้นได้อีกด้วย

เมื่อพิจารณาจากทั้งหมดข้างต้นแล้ว เห็นได้ชัดว่าการสร้างวิดีโอคุณภาพระดับภาพยนตร์ด้วย Gemini 3 และ Veo 3.1 นั้นเป็นไปได้ มันไม่ใช่แค่เรื่องของการกดปุ่ม แต่เป็นการเรียนรู้ที่จะคิดและเขียนเหมือนทีมงานสร้างภาพยนตร์ที่ถูกย่อส่วนลงมาอยู่ในคำสั่ง: เมื่อคุณเชี่ยวชาญเรื่องอัตราส่วนภาพ พารามิเตอร์ของโมเดล ภาพอ้างอิง เสียง และเหนือสิ่งอื่นใด วิธีการอธิบายฉากอย่างแม่นยำ คลิปแต่ละคลิป 8 วินาทีก็จะกลายเป็นผืนผ้าใบอันทรงพลังอย่างน่าประหลาดใจสำหรับการเล่าเรื่องและสร้างสุนทรียภาพของคุณเอง ไม่ว่าจะเป็นสำหรับโครงการส่วนตัว โซเชียลมีเดีย หรือแม้แต่งานระดับมืออาชีพขนาดใหญ่

NotebookLM วิดีโอภาพยนตร์ที่ขับเคลื่อนด้วย AI
บทความที่เกี่ยวข้อง:
NotebookLM และวิดีโอภาพยนตร์ที่ขับเคลื่อนด้วย AI รุ่นใหม่