Kompilieren: Judith Cheng Genauigkeit ist nicht genug | AI Machine Vision

Trotz der zahlreichen AI-Prozessoren konkurrieren um Shang-jeder behauptet, ein "Durchbruch"-die heutige Ki-Community ist immer noch von unzähligen Problemen geplagt, einschließlich Energie, Geschwindigkeit, Ai-Hardware-Größe und AI-Algorithmen, die noch nicht bewiesen haben, um die Zähigkeit und Leistung zu verbessern. In der Computer Vision, wie Rogerio feris, ein Computer-Vision und Multimedia Research Manager bei IBM Studies, sagt, die größte Herausforderung ist, wie "machen visuelle Analyse effizienter".

Insbesondere ist AI noch in den frühen Stadien der Entwicklung, die neue Ideen, langfristige Vision, und mehr Forschung und Entwicklung von Akademikern und Forschungseinrichtungen. Auf der 2018 Computer Vision and graphics Recognition Symposium (Konferenz über Computer Vision und Mustererkennung), die in Salt Lake City in Salt Lake City in dieser Woche stattfand, IBM, Veröffentlicht zwei Artikel über Ai Software und Hardware-Technologie;

CVPR ist eines der wettbewerbsfähigsten Computer Vision Technology Seminare, die von der Computer Vision Foundation (Computer Vision Foundation) und der IEEE Computer Society gesponsert werden. Im Abschnitt AI Hardware fördert IBM Research ein Stereo Vision (Stereo Vision)-System, das durch die Anwendung des Hirn inspirierten Spike neuronalen Netzwerks (stachelige neuronale Netzwerktechnologie) zur Datenerfassung (Sensor) und Verarbeitung entwickelt wird.

Das Design nutzt IBM eigenen Turenorth-Chip-ein Neumann (Non-von-Neumann) Architektur-Prozessor-und eine Ereignis-orientierte (Event-Driven) Kamera von einer Schweizer Industrie entwickelt Inilabs

IBM es TrueNorth Architecture (Quelle: IBM) Im Abschnitt Ai-Software handelt es sich bei IBM Research um "blockdrop", ein kritischer Schritt, der die Gesamtmenge der für ein tiefes Rest Netzwerk benötigten Computer reduzieren soll (Tiefe Rest Netzwerke).

Feris erklärt, dass die beiden oben genannten Papiere eines der gleichen Probleme aus zwei verschiedenen Perspektiven-visuelle Analyse Effizienz. Feris sagte, dass, wenn jemand will die Straße überqueren, automatische Fahrt wird erwartet, dass eine "sofortige Schlussfolgerung" zu machen;

Während die Genauigkeit der Bild Erkennung wichtig ist, dauert es eine lange Zeit zu einem Abschluss zu kommen und zu identifizieren, was es ist, das ist der ultimative Test für seine Anwendung in der realen Welt.

Was ist ' blockdrop '? Das restliche Netz, das der Sieger auf der Imagenet Konferenz in 2015 wurde, versetzte einen Sturm in der Computer Vision Technologiegemeinschaft; Die Technologie hat bewiesen, dass Sie hervorragende Erkennungsergebnisse liefern kann, weil Sie Hunderte oder sogar Tausende von Schichten neuronaler Netzwerke trainieren kann. Allerdings weist feris darauf hin: "es wäre zu ineffizient, den All-in-One-Betrieb des Rest Netzes auf alle Bildgebung anzuwenden.

Er erklärt, dass, wenn ein Hund in einem weißen Hintergrund ist, wird es leichter zu identifizieren als in einem geschäftigen Stadt Street View. Zu diesem Zweck hat IBM Research blockdrop entwickelt, das eine Methode ist, zu lernen, welche Blöcke (einschließlich mehrerer Schichten) im Rest Netzwerk der dynamischen Auswahl, um Inferenz Aufgaben auszuführen; Feris wies darauf hin: "das Ziel dieser Methode ist es, den Gesamt Betreiber richtig zu reduzieren, ohne die Vorhersagegenauigkeit zu verlieren.

Blockdrop Beschreibung (Quelle: IBM) IBM behauptet, dass blockdrop die Erkennungsrate um bis zu 20% im Test erhöhen kann, manchmal sogar schneller um 36%, ohne die Genauigkeit des Rest Netzes in iMagNet Datensätzen zu opfern.

Feris sagte, die IBM-Studie wurde im Sommer 2017 in Zusammenarbeit mit der University of Texas (University of Texas) und der University of Maryland (University of Maryland), die Freigabe blockdrop auf die Open-Source-Community.

Neuronale morphologische Techniken für Stereo-Vision-Anwendung In Bezug auf die Hardware, IBM hat sich auf ein Stereo-Vision-System mit dem Spine-Wave neuronalen Netz; Das Unternehmen sagt, die Industrie ist derzeit mit zwei traditionellen (Frame-) Kameras zu stereoskopischen Vision zu produzieren, aber niemand hat jemals versucht Nerven Form-Technologie.

Obwohl es nicht unmöglich ist, Stereobilder mit herkömmlichen Kameras bereitzustellen, ist eine qualitativ hochwertige bildsignalverarbeitung erforderlich, wie z. b. High Dynamic Range (HDR) Imaging, ultra-hochauflösende Verarbeitung und automatische Kalibrierung. Nach IBM Forscher Alexander Andreopoulos in der Zeitung, ist das System der Einsatz von zwei inilabs entwickelt Event-orientierte Kamera (auch als Dynamic Visual Sensor-dvse), nach der Erfassung der Bildschirm mit IBM

TrueNorth ein Chip-Cluster, um die Tiefe eines sich schnell bewegenden Objekts zu extrahieren.

Das Ziel von IBM ist es, die für die Erzielung von Stereobildern erforderliche Leistung und Latenz drastisch zu reduzieren, nach dem Empfang von Live-Spikes Eingang (die drastisch reduziert hat die Menge der Daten), verwendet das System von IBM neuronalen Form hartes Gewicht, um 3D-Bilder zu bauen, Schätzung der Unterschiede von zwei DVSE Bilder und Ortung von Objekten im 3D-Raum durch Triangulation.

Neuro-morphologisches Stereobild (Quelle: IBM)

Datenerfassung und-Verarbeitung Es gibt eine neue französische Firma. Prophesee verwendet neuronale morphologische Techniken, um Daten abzurufen und die von Sensoren gesammelte Datenmenge zu reduzieren. Die Sensor Technologie des Unternehmens basiert nicht auf Frames, sondern ist darauf ausgelegt, Daten zu vereinfachen und zu erstellen, die für den Maschineneinsatz geeignet sind.

"Das kann die Belastung der Daten erheblich verringern und sollte dem Auto erlauben, fast sofortige Entscheidungen zu treffen," sagte der Prophesee CEO früh in einem Interview mit EE Times. Aber eine neue Generation von IBM Stereo Vision System nutzt nicht nur die menschliche Gehirn-Technologie für den Datenabruf, sondern auch in der Verarbeitung verwendet, um das stereoskopische Bild zu rekonstruieren; Andreopoulos sagte, dass das System hat auch eine der größten Errungenschaften, ist durch die Programmierung zu ermöglichen TrueNorth effiziente Umsetzung der "Spine Wave neuronale Netzwerk Stereo Vision notwendig für die verschiedenen gemeinsamen unter Programme (Sub-Routinen)."

IBM fügte hinzu, dass TrueNorth-Chips weniger Strom als herkömmliche Systeme haben, was vorteilhaft für das Design von Autopilot-Systemen sein kann. Ebenso kann die Verwendung von einem Paar von DVS-Kameras (Non-Frame) auch die Daten-und Stromverbrauch zu reduzieren, und die Geschwindigkeit zu verbessern, Latenz zu reduzieren, bieten eine bessere Dynamikbereich, und IBM sagte, dies sind die wichtigsten Elemente der Echtzeit-System-Design. Auf die Frage nach den Vorteilen des neuen TrueNorth-Systems sagte Andreopoulos, dass im Vergleich zum State-of-the-Art-System, das einen herkömmlichen CPU/GPU-Prozessor oder FPGA verwendet, seine pro-Draw-Fähigkeit der Grafik Pixel-Ungleichheit-Karte ist.

wurde von 200 mal verbessert. Mit Ereignis basiertem Input werden die in das IBM-System eingespeisten Echt Zeit Bilddaten mit 9 TrueNorth-Chips, 400-Karten pro Sekunde und einer Verzögerung von nur 11 Millisekunden (MS) verarbeitet.

IBM hat in seinem Papier darauf hingewiesen, dass durch einen bestimmten Kompromiss (Trade-offs), kann das System weiter erhöhen die Rate auf 2.000lage Karten pro Sekunde. Wann kann das Stereo Vision System mit TrueNorth Chip kommerzialisiert werden? Andreopoulos sagte: "Wir können nicht offen legen die Zeit Punkt, kann nur sagen, dass wir getestet wurden und erfolgreich programmiert Chip, um mit der Karte zu befassen, in diesem Stadium ist das Konzept der Validierung.

Kompilieren: Judith Cheng Genauigkeit ist nicht genug | AI Machine Vision | Effizienz