บทความในสัปดาห์นี้ที่เผยแพร่ในบล็อกการวิจัยของ Google แสดงให้เห็นว่าทีมงานภายในของ บริษัท พยายามที่จะสร้างปัญญาประดิษฐ์ (AI) เช่นสมองมนุษย์กระตือรือร้นในเชิงรุกมุ่งเน้นไปที่แหล่งกำเนิดเสียงในขณะที่กรองแหล่งเสียงอื่น ๆ เช่นเดียวกับที่อยู่ในงานปาร์ตี้ เมื่อการสนทนาการปฏิบัติกับเพื่อน
วิธีการของ Google ใช้รูปแบบภาพและเสียงที่ให้ความสำคัญกับเสียงของวิดีโอนอกจากนี้ บริษัท ยังได้เผยแพร่วิดีโอ YouTube หลายรายการเพื่อแสดงให้เห็นถึงผลกระทบที่เกิดขึ้นจริงของเทคโนโลยี
Google กล่าวว่าเทคโนโลยีนี้สามารถใช้กับวิดีโอเพลงเดี่ยวและสามารถแยกเนื้อหาเสียงของคนอื่น ๆ ในวิดีโอตามอัลกอริทึมและอนุญาตให้ผู้ใช้เลือกใบหน้าในวิดีโอโดยเฉพาะเพื่อฟังเสียงของบุคคลได้
Google กล่าวว่าองค์ประกอบภาพเป็นหัวใจสำคัญเนื่องจากเทคโนโลยีนี้จะมุ่งเน้นไปที่การเคลื่อนไหวริมฝีปากของบุคคลเพื่อให้สามารถตรวจสอบว่าส่วนใดของเสียงควรมุ่งเน้นในช่วงเวลาหนึ่งและสร้างแทร็กเสียงอิสระที่แม่นยำขึ้นสำหรับวิดีโอที่ยาวขึ้น
นักวิจัยของ Google ได้พัฒนาแบบจำลองนี้โดยการรวบรวมวิดีโอคำพูด 100,000 ภาษาของ YouTube เนื้อหาทั้งหมดประมาณ 2,000 ชั่วโมงจากนั้นแทร็กเสียงก็มีการผสมผสานและเพิ่มเสียงรบกวนจากพื้นหลังเทียม
หลังจากที่ Google ได้รับการฝึกฝนเทคโนโลยีเพื่อแบ่งส่วนเสียงโดยการสังเกต spectrograms ของใบหน้าและแทร็ควิดีโอในแต่ละเฟรมของวิดีโอระบบสามารถแยกแยะว่าแหล่งข้อมูลใดเป็นของใบหน้าภายในระยะเวลาใดเวลาหนึ่งและเป็นเช่นนั้น ทุกคนทำเสียงแยกต่างหาก
Google เชื่อว่าระบบคำบรรยายใต้ภาพจะกลายเป็นพื้นที่สำหรับแอพพลิเคชันที่สำคัญสำหรับระบบนอกจากนี้พวกเขายังกำลังพิจารณาถึงแอพพลิเคชันที่กว้างขึ้นและกำลังสำรวจโอกาสในการผนวกรวมเข้ากับผลิตภัณฑ์ต่างๆของ Google ตัวอย่างเช่นถ้า การเพิ่มลงในสมาร์ทโฟนหน้าแรกของ Google คุณสามารถแยกแยะคำแนะนำที่ออกโดยผู้ใช้รายอื่น ๆ ได้
อย่างไรก็ตามรูปแบบนี้ต้องทำงานได้ดีกับวิดีโอดังนั้นจึงอาจเหมาะสำหรับ Amazon Echo Show Google เปิด Google Assistant สำหรับการแสดงสมาร์ทเช่น Echo Show ในช่วงต้นปีนี้ แต่ บริษัท เองยังไม่ได้แนะนำผลิตภัณฑ์ดังกล่าว
อย่างไรก็ตามเทคโนโลยีนี้อาจก่อให้เกิดความกังวลเรื่องความเป็นส่วนตัวแม้ว่าผลลัพธ์ที่แท้จริงของเทคโนโลยีจะน้อยกว่าการนำเสนอวิดีโอ แต่ก็อาจเป็นเครื่องมือตรวจสอบและตรวจสอบที่มีประสิทธิภาพด้วยการปรับเปลี่ยนเล็กน้อย