ข่าว

ความถูกต้องไม่เพียงพอ | การต่อสู้วิสัยทัศน์ของเครื่อง AI | 'ประสิทธิภาพ'

แม้ว่าจะมีหลายโปรเซสเซอร์ประดิษฐ์ที่แข่งขันกันเพื่อคว้าตลาดซึ่งแต่ละคนอ้างว่าเป็น "นวัตกรรมใหม่" - ชุมชน AI ในปัจจุบันยังคงถูกคุกคามโดยปัญหามากมาย ได้แก่ พลังงานความเร็วขนาด AI และอัลกอริทึม AI, ไม่มีสิ่งใดที่พิสูจน์แล้วว่าได้รับการปรับปรุงให้มีความเหนียวและประสิทธิภาพสูงขึ้น

ในสายตาของคอมพิวเตอร์เช่น Rogerio Feris ผู้จัดการฝ่ายวิสัยทัศน์คอมพิวเตอร์และการวิจัยด้านมัลติมีเดียที่ IBM Research ความท้าทายที่ใหญ่ที่สุดคือการทำให้การวิเคราะห์ภาพมีประสิทธิภาพมากขึ้นโดยเฉพาะอย่างยิ่ง AI ยังอยู่ในช่วงเริ่มต้นของการพัฒนาและต้องการความใหม่ ความคิดวิสัยทัศน์ในระยะยาวและการลงทุนมากขึ้นในการวิจัยและพัฒนาโดยนักวิชาการและสถาบันการวิจัย

IBM Research เผยแพร่เอกสารสองเรื่องเกี่ยวกับซอฟต์แวร์ AI และเทคโนโลยีฮาร์ดแวร์ในการประชุม Computer Vision and Pattern Recognition (CVPR) ในสัปดาห์นี้ที่จัดขึ้นที่เมือง Salt Lake ในสัปดาห์นี้ในสัปดาห์นี้ CVPR ได้รับการสนับสนุนโดย Computer Vision Foundation และสมาคมคอมพิวเตอร์ IEEE และได้รับการยกย่องว่าเป็นหนึ่งในงานสัมมนาด้านเทคโนโลยีวิสัยทัศน์ด้านคอมพิวเตอร์ที่มีการแข่งขันกันมากที่สุด

ในส่วนฮาร์ดแวร์ AI ซอฟต์แวร์ IBM Research กำลังส่งเสริมระบบสเตอริโอวิชั่นที่ใช้เทคโนโลยีเครือข่ายประสาทเทียมที่ได้รับแรงบันดาลใจมาจากสมองเพื่อเก็บข้อมูล (sensors) พัฒนาโดยการประมวลผลข้อมูลการออกแบบใช้ประโยชน์จากชิป TureNorth ของไอบีเอ็มซึ่งเป็นตัวประมวลผลสถาปัตยกรรมที่ไม่ใช่ von-Neumann และการพัฒนาโดยอิงจากเหตุการณ์โดย iniLabs ในอุตสาหกรรมของประเทศสวิสเซอร์แลนด์ ) กล้องถ่ายรูป

สถาปัตยกรรม TrueNorth ของไอบีเอ็ม (ที่มา: IBM)

ในส่วนของซอฟต์แวร์ AI เอกสาร IBM Research เป็นเรื่องเกี่ยวกับ Blockdrop ซึ่งเป็นขั้นตอนสำคัญที่คิดว่าจะลดจำนวนการคำนวณทั้งหมดที่จำเป็นสำหรับเครือข่ายที่เหลืออยู่ลึก Feris อธิบายว่าเอกสารสองฉบับดังกล่าวมาจาก แก้ปัญหาเดียวกันจากสองมุมมองที่แตกต่างกัน - ประสิทธิภาพในการวิเคราะห์ภาพ

Feris กล่าวว่าเมื่อมีคนต้องการข้ามถนนยานพาหนะที่ขับด้วยตนเองคาดว่าจะทำให้การอนุมานทันทีแม้ว่าความถูกต้องของการรับรู้ภาพเป็นเรื่องสำคัญมาก แต่ต้องใช้เวลาเท่าไรในการขับรถเพื่อสรุปผลและระบุว่าเป็นอย่างไร การทดสอบที่ดีที่สุดในแอ็ปพลิเคชันในโลกแห่งความเป็นจริง

'Blockdrop' คืออะไร?

เครือข่ายที่เหลือซึ่งกลายเป็นผู้ชนะใน ImageNet 2015 ทำให้เกิดพายุในชุมชนเทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์เทคโนโลยีนี้พิสูจน์ให้เห็นว่าสามารถให้ผลลัพธ์การรับรู้ที่ยอดเยี่ยมเนื่องจากสามารถฝึกใช้เครือข่ายประสาทได้หลายร้อยหรือหลายร้อยครั้ง หลายพันชั้นอย่างไรก็ตาม Feris ชี้ให้เห็นว่า: "การคำนวณชิ้นเดียวที่ใช้โดยเครือข่ายที่เหลือในการถ่ายภาพทั้งหมดไม่มีประสิทธิภาพมากนัก" เขาอธิบายว่าถ้ามีสุนัขอยู่หน้าพื้นหลังสีขาวจะดีกว่าในฉากถนนที่วุ่นวายในเมือง ง่ายต่อการระบุ

ด้วยเหตุนี้ IBM Research ได้พัฒนา BlockDrop ซึ่งเป็นวิธีการเรียนรู้ว่าบล็อกใด (รวมถึงหลายชั้น) ในเครือข่ายที่เหลือเพื่อดำเนินการอนุมานแบบไดนามิก Feris ชี้ว่า "เป้าหมายของวิธีนี้คือการลดการประมวลผลโดยรวม โดยไม่สูญเสียความถูกต้องของการคาดการณ์

BlockDrop คำอธิบาย (ที่มา: IBM)

ไอบีเอ็มเรียกร้อง BlockDrop ในการทดสอบสามารถระบุค่าเฉลี่ย 20% ได้เร็วขึ้นและบางครั้งสามารถเพิ่มความเร็วขึ้น 36% โดยไม่ต้องเสียสละของเครือข่ายใน ImagNet ข้อมูลที่เหลือตั้งค่าความถูกต้องทำได้. Feris กล่าวว่าไอบีเอ็มการศึกษาในปี 2017 ในช่วงฤดูร้อนกับมหาวิทยาลัยเท็กซัส (มหาวิทยาลัยเท็กซัส), มหาวิทยาลัยแมรี่แลนด์ (มหาวิทยาลัยแมรี่แลนด์) เพื่อขยายความร่วมมือทาง บริษัท ฯ จะนำ BlockDrop ปล่อยให้เปิดแหล่งชุมชน

เทคโนโลยีการมองเห็นสเตอริโอใช้ neuromorphic

ในแง่ของฮาร์ดแวร์ไอบีเอ็มมุ่งเป้าไปที่ระบบการมองเห็นภาพสามมิติที่ใช้เครือข่ายประสาทเทียม บริษัท ระบุว่าในปัจจุบันอุตสาหกรรมนี้ใช้กล้องสองแบบ (แบบดั้งเดิม) เพื่อสร้างภาพสามมิติ แต่ก็ยังไม่มีใครเคยลองเลย เทคโนโลยี Neuromorphic แม้ว่าจะไม่สามารถจัดเตรียมภาพสามมิติได้โดยใช้กล้องทั่วไป แต่จำเป็นต้องมีการประมวลผลสัญญาณวิดีโอความละเอียดสูงเช่นการถ่ายภาพในช่วงไดนามิคสูง (HDR) การประมวลผลความละเอียดสูงและการปรับเทียบอัตโนมัติ

ตามที่นักวิจัยของ IBM Alexander Andreopoulos ได้กล่าวไว้ในบทความนี้คือการใช้กล้องสองตัวที่พัฒนาขึ้นโดย iniLabs (เรียกอีกอย่างว่า Dynamic vision sensor - DVSe) หลังจากจับภาพด้วยคลัสเตอร์ IBM TrueNorth cluster เพื่อดึงวัตถุเคลื่อนที่เร็ว ความลึก

เป้าหมายของไอบีเอ็มคือการลดการใช้พลังงานและเวลาแฝงที่ต้องใช้เพื่อให้ได้ภาพสามมิติหลังจากที่ได้รับข้อมูลอินพุตแบบสด (ซึ่งลดปริมาณข้อมูลลงอย่างมาก) ระบบจะใช้ฮาร์ดแวร์ neuromorphic ของไอบีเอ็มเพื่อสร้างภาพ 3D ประเมินความแตกต่างระหว่างภาพจาก DVSe สองเครื่องและหาตำแหน่งใน 3D space โดย triangulation

ภาพสเตอริโอ Neuromorphic (ที่มา: IBM)

การดึงข้อมูลและการประมวลผล

บริษัท Prophesee ของฝรั่งเศสใช้เทคโนโลยี neuromorphology ในการเก็บข้อมูลและลดปริมาณข้อมูลที่เก็บรวบรวมโดยเซ็นเซอร์เทคโนโลยีเซ็นเซอร์ของ บริษัท ไม่ได้อิงกับเฟรม แต่ช่วยลดความยุ่งยากและสร้างข้อมูลที่เหมาะสำหรับการใช้งานเครื่อง เป้าหมายการออกแบบในการสัมภาษณ์ก่อนหน้านี้กับ EE Times Prophesee กล่าวว่าสิ่งนี้สามารถลดภาระข้อมูลได้อย่างมากและควรอนุญาตให้รถยนต์ทำการตัดสินใจในทันที

อย่างไรก็ตามระบบวิสัยทัศน์แบบสามมิติของ IBM ไม่เพียงใช้เทคโนโลยีสมองของมนุษย์ในการเรียกข้อมูลเท่านั้น แต่ยังรวมถึงการประมวลผลข้อมูลเพื่อสร้างภาพสามมิติด้วย Andreopoulos กล่าวว่าระบบนี้มีหนึ่งในความสำเร็จที่ใหญ่ที่สุดซึ่งได้รับการออกแบบโดย TrueNorth IBM ได้เพิ่มสถาปัตยกรรมชิปของทรูเนตซึ่งใช้พลังงานน้อยกว่าระบบแบบเดิมซึ่งจะเป็นประโยชน์สำหรับระบบขับเคลื่อนอัตโนมัติ ออกแบบ

ในทำนองเดียวกันโดยใช้คู่ของกล้อง DVS (ข้อมูลที่ไม่ใช่สูตรบล็อก) สามารถลดปริมาณของข้อมูลและการใช้พลังงานและเพิ่มความเร็วในการลดความล่าช้าช่วงแบบไดนามิกที่ดีขึ้น แต่องค์ประกอบที่สำคัญเหล่านี้เป็นของไอบีเอ็มกล่าวว่าการออกแบบระบบทันที เมื่อถูกถามเกี่ยวกับระบบใหม่เช่นเดียวกับข้อได้เปรียบผู้ TrueNorth, Andreopoulos กล่าวว่าเมื่อเทียบกับระบบเดิมที่ใช้ CPU / GPU ประมวลผลใหม่ล่าสุดหรือ FPGA พิกเซลความแตกต่างกันในแต่ละแผนที่ของอำนาจ (power ต่อแผนที่พิกเซลความเหลื่อมล้ำ) ครั้งที่สอง การปรับปรุง

โดยใช้การป้อนข้อมูลเหตุการณ์ตามที่ให้อาหารไอบีเอ็มระบบข้อมูลภาพแบบ real-time เป็น 9 ชิป TrueNorth สำหรับการประมวลผลสามารถคำนวณต่อ 400 แผนที่แตกต่างล่าช้าเพียง 11 มิลลิวินาที (MS). ไอบีเอ็มระบุไว้ในกระดาษโดย โดยเฉพาะอย่างยิ่งการถ่วงดุลอำนาจ (ไม่ชอบการค้า) ระบบยังสามารถเพิ่มอัตรา 2,000 เฟรมต่อแผนที่ความเหลื่อมล้ำที่สอง

Andreopoulos กล่าวว่า "เราไม่สามารถเปิดเผยจุดเวลาได้เราสามารถพูดได้ว่าเราได้ทดสอบและตั้งโปรแกรมชิปให้มีประสิทธิภาพในการจัดการกับแผนที่ที่แตกต่างกันในขั้นตอนนี้เป็นหลักฐานของแนวคิด

Judith Cheng

2016 GoodChinaBrand | ICP: 12011751 | China Exports