เราเล่นกับ Stable Video Diffusion และนั่นส่งสัญญาณถึงอนาคตที่น่ากลัวของการปลอมแปลง AI เชิงลึก

การกระจายวิดีโอที่เสถียรมาถึงแล้ว และถึงแม้จะยอดเยี่ยม แต่ก็สร้างอนาคตที่น่ากังวลเมื่อพูดถึงการปลอมแปลงอย่างล้ำลึก

ประเด็นที่สำคัญ

  • AI เจนเนอเรชั่น เช่น Stable Video Diffusion มีศักยภาพในการสร้างรูปภาพและวิดีโอที่สมจริงและปรับแต่งได้ตามคำแนะนำที่ให้ไว้
  • การใช้รูปภาพและวิดีโอที่สร้างโดย AI เพื่อบิดเบือนข้อมูลและการละเมิดความเป็นส่วนตัวกำลังกลายเป็นเรื่องปกติมากขึ้น และท้าทายความน่าเชื่อถือของหลักฐานที่เป็นภาพบนอินเทอร์เน็ต
  • การแพร่กระจายวิดีโอที่มีเสถียรภาพเป็นเพียงจุดเริ่มต้น และในขณะที่เทคโนโลยี AI ยังคงก้าวหน้าต่อไป อนาคตของสื่อออนไลน์ก็ถูกคุกคามจากการใช้งานในทางที่ผิดและข้อกังวลด้านจริยธรรม

การปฏิวัติ AI ถือเป็นหนึ่งในความก้าวหน้าที่ยิ่งใหญ่ที่สุดและสำคัญที่สุดในปี 2023 ด้วยความที่ OpenAI ครอบงำโลกด้วย ChatGPT และอื่น ๆ เช่น Bing Chat และ Google Bard ที่ตามมา AI กำเนิดจึงเป็นเทคโนโลยีที่ทรงพลังทีเดียว น่าเป็นห่วงตรงไหน. การสร้างภาพ AIเครื่องมือที่สามารถสร้างรูปภาพแบบกำหนดเองตามคำแนะนำที่ให้ไว้ ตอนนี้ด้วย Stable Video Diffusion สิ่งต่างๆ กำลังจะแย่ลงไปอีก

ฉันไม่กลัวเมื่อพูดถึงเทคโนโลยี และฉันคิดว่า generative AI มีประโยชน์มากมายในทั้งสองอย่าง

การเข้าถึง และ บริบทที่สนุกสนานแต่ไม่ต้องสงสัยเลยว่าเทคโนโลยีนี้สามารถนำไปใช้เพื่อสิ่งชั่วร้ายได้เช่นกัน การบิดเบือนข้อมูลเป็นปรากฏการณ์ที่เพิ่มมากขึ้นเรื่อยๆ และภาพปลอมที่สร้างขึ้นได้แสดงให้เห็นแล้วเพื่อหลอกผู้ใช้ในบริบทต่างๆ มากมาย จำรูปถ่ายของสมเด็จพระสันตะปาปาฟรานซิสที่กำลังเดินไปรอบๆ บริเวณที่พระองค์ทรงสวมแจ็กเก็ตปักเป้าตัวยาวสีขาวได้ไหม? ภาพนั้นไม่มีอยู่จริง แต่หลายคนคิดว่ามันเป็นอย่างนั้น รูปภาพไม่ใช่หลักฐานชิ้นเงินที่ผู้คนเคยคาดหวังไว้อีกต่อไป

ที่มา: เจเนอเรทีฟ เอไอ

เนื่องจากปัจจุบันนี้เป็นไปไม่ได้แล้วที่จะพึ่งพารูปภาพเป็นข้อพิสูจน์เพียงอย่างเดียว โดยมีวิดีโอเป็นลำดับถัดไป บนเขียง มันจะยากกว่าที่เคยที่จะพึ่งพาสิ่งที่คุณเห็นบนอินเทอร์เน็ต จริง.

ความเสถียร การกระจายวิดีโอที่เสถียรของ AI นั้นดีอย่างน่ากลัว

ตอนนี้ยังอยู่ในช่วงทดสอบเท่านั้น

Stable Video Diffusion ต่อจาก Stable Diffusion ที่เปิดตัวเมื่อปีที่แล้ว ซึ่งเป็นโมเดล "open Weights" นั่นอาจเป็นจุดเริ่มต้นของคลื่น AI ของเครื่องกำเนิดภาพ อย่างน้อยที่สุดก็มีส่วนสำคัญ ส่วนหนึ่ง. รูปแบบวิดีโอของรุ่นนี้สามารถเข้าถึงได้และใครก็ตามที่มีรูปแบบดังกล่าวก็สามารถเรียกใช้ได้ GPU Nvidia ที่ดีที่สุด.

วิธีการทำงานของโมเดลนี้ค่อนข้างน่าสนใจ และในขณะนี้ ยังมีข้อจำกัดอยู่ว่าสามารถทำได้จริงมากเพียงใด ดังที่ Stability AI กล่าวไว้ "ในขณะที่เรากระตือรือร้นที่จะอัปเดตโมเดลของเราด้วยความก้าวหน้าล่าสุดและการทำงาน รวมความคิดเห็นของคุณ โมเดลนี้ไม่ได้มีไว้สำหรับการใช้งานจริงหรือเชิงพาณิชย์ในตอนนี้ เวที. ข้อมูลเชิงลึกและข้อเสนอแนะของคุณเกี่ยวกับความปลอดภัยและคุณภาพมีความสำคัญต่อการปรับปรุงโมเดลนี้เพื่อการเปิดตัวในที่สุด"

มีสองรุ่นปัจจุบันให้ผู้ใช้ใช้งานได้; อันแรกคือ SVD และอันที่สองคือ SVD-XT สิ่งเหล่านี้สามารถสร้าง 14 และ 25 เฟรมตามลำดับที่อัตราเฟรมที่ปรับแต่งได้ระหว่าง 3 ถึง 30 FPS ด้วย AI ประเภทนี้ที่สามารถทำสิ่งต่างๆ ได้มากมาย จึงเป็นเพียงเรื่องของเวลาก่อนที่ผู้คนจะสามารถชงของปลอมเองที่บ้านกับใครก็ได้

การกระจายวิดีโอที่เสถียรน่าจะตั้งค่าได้ง่าย

นั่นไม่จำเป็นต้องเป็นสิ่งที่ดี

เมื่อ Stable Diffusion เริ่มต้นขึ้น เพื่อนของฉันคนหนึ่งได้ฝึกโมเดลบนใบหน้าของเพื่อนเพื่อเพิ่มเพื่อนคนดังกล่าวลงใน เมทัลเกียร์โซลิด จักรวาลในแกลเลอรีที่สร้างขึ้นเองสุดไร้สาระ มันเป็นของขวัญที่ค่อนข้างเจ๋งและสนุกมากที่ได้ทำงานและยุ่งด้วย (เพื่อนคนนี้ยินยอมอย่างเต็มที่ที่จะฝึกนางแบบบนใบหน้าของเขา) แต่ฉันคิดว่าย้อนกลับไปตอนนี้ ฉันรู้สึกตกใจมาก

ด้วยรูปภาพของเราหลายร้อยภาพที่เผยแพร่ออกไป ผู้คนจึงสามารถฝึกโมเดลบนนั้นได้ ใบหน้าของผู้ที่ไม่ยินยอม หรือใครก็ตามที่มีรูปถ่ายของตัวเองในที่สาธารณะ สามารถดูได้ ทีนี้ลองจินตนาการถึงความสามารถในการสร้างภาพของใครบางคน จากนั้นสามารถสร้างภาพเคลื่อนไหวโดยใช้ Stable Video Diffusion ได้หรือไม่

มีผลกระทบหลายประการตั้งแต่การละเมิดความเป็นส่วนตัวไปจนถึงเส้นเขตแดนที่ผิดกฎหมาย ฉันเคยได้ยินจากผู้หญิงในพื้นที่ผู้สร้างเนื้อหาที่บอกฉันเกี่ยวกับ AI ของแฟนๆ ที่สร้างภาพอนาจารของพวกเขาและ ส่งกลับมาให้พวกเขา เกือบจะเหมือนกับว่า "แฟนๆ" เหล่านั้นรู้สึกภาคภูมิใจที่พวกเขาได้ละเมิดความเป็นส่วนตัวของมนุษย์อีกคน สิ่งนี้เกิดขึ้นมานานกว่าหนึ่งปีแล้ว และเป็นตัวอย่างที่ฉันคุ้นเคย มันไม่ได้หมายความถึงความเป็นส่วนตัวเพียงอย่างเดียวของเครื่องมือประเภทนี้ และในความเป็นจริงแล้วมีแนวโน้มว่าจะแย่ลงเท่านั้น

ตัวอย่างการกระจายวิดีโอที่เสถียรมีอยู่แล้ว

น่ากลัวแต่ก็เหลือเชื่อ

วิดีโอด้านบนเผยแพร่โดย Stability AI แสดงให้เห็นพลังของ Stable Video Diffusion คนอื่นๆ ยังได้แสดงพลังของเทคโนโลยีนี้อีกด้วย โดยแสดงให้เห็นว่าเทคโนโลยีนี้สามารถทำให้ทุกสิ่งเคลื่อนไหวและเป็นภาพเคลื่อนไหวได้อย่างไรในหน้าต่างเล็กๆ ไม่กี่วินาที ต้องใช้พลังในการคำนวณมาก แต่มีบริการมากมาย เช่น Hugging Face และ Replicator ที่ผู้คนสามารถเช่าเวลาในการประมวลผลได้ ฉันรันมันในเครื่อง โดยใช้รูปภาพด้านล่าง (เผยแพร่ด้วยซอฟต์แวร์ Stable Video DIffusion) เพื่อทดสอบว่ามันดีแค่ไหน

ภาพด้านบนเป็นภาพที่ฉันสงสัยว่า AI สร้างขึ้น เนื่องจากฉันไม่พบภาพที่ตรงกันทุกประการทางออนไลน์ อย่างไรก็ตาม มันเป็นตัวเลือกที่สมบูรณ์แบบสำหรับการทดสอบ ฉันใช้งานโมเดล Stable Video Diffusion ภายในเครื่องด้วยภาพนี้ และในเวลาเพียงไม่ถึงชั่วโมง ก็มีคลิปสี่วินาทีต่อไปนี้

นี่เป็นสิ่งที่ดีอย่างน่าตกใจ แม้ว่าตอนนี้จะมีอัตราเฟรมต่ำ ดังที่ได้กล่าวไปแล้ว แต่นี่เป็นโมเดลที่อยู่ระหว่างการพัฒนาซึ่งยังไม่เหมาะสำหรับการใช้งานทั่วไป ผมลองด้วยภาพของตัวเองครับ เป็นภาพรถไฟที่มาถึงในสายหมอก

น่าเสียดายที่ผลลัพธ์ที่ได้ออกมาไม่ดีนัก แม้ว่าจะเป็นภาพที่ท้าทายกว่าสำหรับ AI ในการทำงานด้วยเนื่องจากมีหมอก

น่าประหลาดใจที่ดูเหมือนยังคงเข้าใจว่ารถไฟก็คือรถไฟ สุดท้ายก็ย้ายไปรางรถไฟอีกรางหนึ่ง แม้ว่านี่จะเป็นซอฟต์แวร์เบต้า แต่ผลลัพธ์ก็ยังน่าประทับใจ

การกระจายวิดีโอที่เสถียรเป็นเพียงจุดเริ่มต้น

ไม่ว่าคุณจะคิดว่าเทคโนโลยีนี้น่าประทับใจแค่ไหน แต่นี่เป็นเพียงจุดเริ่มต้นเท่านั้น นี่เป็นโมเดลโอเพ่นซอร์สแรกที่ผู้คนจะแยกส่วน ปรับปรุง และอาจนำไปใช้ประโยชน์โดยขาดการดูแลด้านจริยธรรมอย่างไม่ต้องสงสัย อนาคตของสื่อออนไลน์กำลังตกอยู่ในอันตราย โดยส่วนใหญ่ต้องขอบคุณวิดีโอและรูปภาพ AI และยิ่งดีขึ้นเรื่อยๆ ดีกว่านั้น มีผลกระทบในวงกว้างที่จะเปิดตัวกล่อง Pandora หลายเวอร์ชันในอีกไม่กี่เดือนข้างหน้า และปี

ในฐานะนักวิทยาศาสตร์คอมพิวเตอร์ เทคโนโลยีนี้น่าประทับใจมากจนทำให้จิตใจสับสน และการเติบโตอย่างรวดเร็วของภูมิทัศน์ AI กำเนิดก็น่าประทับใจมาก อย่างไรก็ตามในฐานะที่เป็น บุคคลเทคโนโลยีนี้ทำให้ฉันกลัว