Google ใช้ AI เพื่อดึงแทร็กอิสระจากสภาพแวดล้อมที่มีเสียงดังหรือมีข้อกังวลเรื่องความเป็นส่วนตัว@goodchinabrand.com

นักวิจัยของ Google ได้มีการพัฒนาระบบการเรียนรู้ลึกคอมพิวเตอร์สามารถช่วยให้ดีขึ้นระบุและแยกแยะเสียงของมนุษย์ในสภาพแวดล้อมที่มีเสียงดัง

บทความในสัปดาห์นี้ที่เผยแพร่ในบล็อกการวิจัยของ Google แสดงให้เห็นว่าทีมงานภายในของ บริษัท พยายามที่จะสร้างปัญญาประดิษฐ์ (AI) เช่นสมองมนุษย์กระตือรือร้นในเชิงรุกมุ่งเน้นไปที่แหล่งกำเนิดเสียงในขณะที่กรองแหล่งเสียงอื่น ๆ เช่นเดียวกับที่อยู่ในงานปาร์ตี้ เมื่อการสนทนาการปฏิบัติกับเพื่อน

วิธีการของ Google ใช้รูปแบบภาพและเสียงที่ให้ความสำคัญกับเสียงของวิดีโอนอกจากนี้ บริษัท ยังได้เผยแพร่วิดีโอ YouTube หลายรายการเพื่อแสดงให้เห็นถึงผลกระทบที่เกิดขึ้นจริงของเทคโนโลยี

Google กล่าวว่าเทคโนโลยีนี้สามารถใช้กับวิดีโอเพลงเดี่ยวและสามารถแยกเนื้อหาเสียงของคนอื่น ๆ ในวิดีโอตามอัลกอริทึมและอนุญาตให้ผู้ใช้เลือกใบหน้าในวิดีโอโดยเฉพาะเพื่อฟังเสียงของบุคคลได้

Google กล่าวว่าองค์ประกอบภาพเป็นหัวใจสำคัญเนื่องจากเทคโนโลยีนี้จะมุ่งเน้นไปที่การเคลื่อนไหวริมฝีปากของบุคคลเพื่อให้สามารถตรวจสอบว่าส่วนใดของเสียงควรมุ่งเน้นในช่วงเวลาหนึ่งและสร้างแทร็กเสียงอิสระที่แม่นยำขึ้นสำหรับวิดีโอที่ยาวขึ้น

นักวิจัยของ Google ได้พัฒนาแบบจำลองนี้โดยการรวบรวมวิดีโอคำพูด 100,000 ภาษาของ YouTube เนื้อหาทั้งหมดประมาณ 2,000 ชั่วโมงจากนั้นแทร็กเสียงก็มีการผสมผสานและเพิ่มเสียงรบกวนจากพื้นหลังเทียม

หลังจากที่ Google ได้รับการฝึกฝนเทคโนโลยีเพื่อแบ่งส่วนเสียงโดยการสังเกต spectrograms ของใบหน้าและแทร็ควิดีโอในแต่ละเฟรมของวิดีโอระบบสามารถแยกแยะว่าแหล่งข้อมูลใดเป็นของใบหน้าภายในระยะเวลาใดเวลาหนึ่งและเป็นเช่นนั้น ทุกคนทำเสียงแยกต่างหาก

Google เชื่อว่าระบบคำบรรยายใต้ภาพจะกลายเป็นพื้นที่สำหรับแอพพลิเคชันที่สำคัญสำหรับระบบนอกจากนี้พวกเขายังกำลังพิจารณาถึงแอพพลิเคชันที่กว้างขึ้นและกำลังสำรวจโอกาสในการผนวกรวมเข้ากับผลิตภัณฑ์ต่างๆของ Google ตัวอย่างเช่นถ้า การเพิ่มลงในสมาร์ทโฟนหน้าแรกของ Google คุณสามารถแยกแยะคำแนะนำที่ออกโดยผู้ใช้รายอื่น ๆ ได้

อย่างไรก็ตามรูปแบบนี้ต้องทำงานได้ดีกับวิดีโอดังนั้นจึงอาจเหมาะสำหรับ Amazon Echo Show Google เปิด Google Assistant สำหรับการแสดงสมาร์ทเช่น Echo Show ในช่วงต้นปีนี้ แต่ บริษัท เองยังไม่ได้แนะนำผลิตภัณฑ์ดังกล่าว

อย่างไรก็ตามเทคโนโลยีนี้อาจก่อให้เกิดความกังวลเรื่องความเป็นส่วนตัวแม้ว่าผลลัพธ์ที่แท้จริงของเทคโนโลยีจะน้อยกว่าการนำเสนอวิดีโอ แต่ก็อาจเป็นเครื่องมือตรวจสอบและตรวจสอบที่มีประสิทธิภาพด้วยการปรับเปลี่ยนเล็กน้อย