IBM Researchのコンピュータ・ビジョンとマルチメディア研究のマネージャーであるRogerio Ferisのようなコンピュータビジョンでは、最大の課題は「視覚的分析をより効率的にする」方法です。特に、AIはまだ開発の初期段階にあり、学界や研究機関によるアイデア、長期ビジョン、研究開発への投資。
2018年次コンピュータビジョンとパターン認識ワークショップソルトレイクシティ(ソルトレイクシティ)でのIBM研究評議会(コンピュータビジョンとパターン認識、CVPR会議)が、今週はAIのソフトウェアとハードウェアの技術上の2本の論文を発表開催CVPRはComputer Vision FoundationとIEEE Computer Societyの後援を受けており、最も競争の激しいコンピュータビジョン技術セミナーの1つと考えられています。
AIハードウェアのセクションでは、IBM Researchが脳に影響を受けたスパイク・ニューラル・ネットワーク技術をデータ収集(センサー)に適用する立体視覚システムを推進しています。データ処理の開発、設計には、IBM独自のチップを利用──TureNorthは非ノイマン(非フォン・ノイマン)プロセッサ・アーキテクチャである、とのペア──スイスの業界はiniLabsガイド事象(イベント駆動型の開発)カメラ
IBMのTrueNorthアーキテクチャ(出典:IBM)
部分におけるAIソフトウェアは、「Blockdrop」、上のIBM研究論文、すなわち計算の総量は、残留ウェブの深さ(深残留ネットワーク)の重要なステップを低減することができる。Ferisから、二つ以上の論文を説明することを要求されます視覚的分析効率という2つの異なる視点から同じ問題を解決してください。
Ferisは、誰かが道路を横断しようとする場合、自律走行車は、「即時控除」を作ることが期待されていることと、画像認識精度が重要であるが、それはそれが何であるかを識別するために、結論に車でかかる時間、ですが現実のアプリケーションでの究極のテスト。
「Blockdrop」とは何ですか?
2015年、議会ImageNetは嵐による残留ネットワーク、コンピュータビジョン技術コミュニティの勝者になる。技術は、彼らが何百ものニューラルネットワークを訓練するかさえできるので、それは、優れた認識結果を提供できることを証明しましたメラルーカしかしFerisの数は言った:「ワンサイズは、あまりにも非効率的になり、ネットワークオペレータは、すべての画像に適用する必要のあるすべてのそれらの残差をフィットする。」と彼は説明し、市内の繁華街よりも白い背景の前で犬が、存在する場合それは、より容易に識別されます。
この目的のためにIBMの研究では、このタスク推論方法を実行するための(複数の層を含む)を残差ブロックの動的選択学習ネットワークである、BlockDropを開発した。Ferisは言った:「方法の目標は、全体的な動作ユニットを軽減することが適当です、予測の精度を失うことなく。 "
BlockDrop命令(出典:IBM)
IBMは、Feris前記。BlockDrop試験に速い平均20%を識別することができ、及び時々達成精度セットImagNet残差データにネットワークを犠牲にすることなく、36%をスピードアップすることができ、主張IBMは、2017年の研究でしたテキサス大学とメリーランド大学の夏に、同社はBlockDropをオープンソースコミュニティにリリースする予定です。
ステレオビジョンアプリケーションのためのニューロモルフィック技術
ハードウェアの面では、ニューラルネットワークのスパイクステレオビジョンシステムの使用を目的としたIBMリサーチ、会社を表し、業界は今、ステレオカメラを生成するために2つ(ブロック情報)を使用する従来のですが、それは試行されたことがありませんニューロモルフィック技術。従来のカメラは、立体画像が不可能ではないが、このような高ダイナミックレンジ(HDR)画像化、高解像度の自動キャリブレーション処理などの高精細映像信号処理を必要とするであろう提供するが。
アレクサンダーAndreopoulos後IBMの研究者は、二つのイベントを利用して開発されたシステムは、抽出された高速移動オブジェクトのIBMザTrueNorthクラスタにiniLabsカメラ、(動的視覚センサ-DVSeと呼ばれる)、チップショットを案内され、用紙に記載しました深さ。
IBMの目標は、立体画像を得るために必要な電力消費と待ち時間を大幅に削減することです。ライブスパイク入力(データ量が大幅に削減されています)を受信した後、システムはIBMのニューロモルフィックハードウェアを使用して3D画像を再構成します。 2つのDVSeからの画像の差を見積もり、三角測量によって3D空間内のオブジェクトを探します。
ニューロモルフィックステレオ画像(出典:IBM)
データの取得と処理
そこに新しいフランスのレコード会社Propheseeデータをキャプチャするニューロモルフィック技術を使用してであり、センサーによって収集されたデータの量を減らし、同社のセンサー技術は、フレームごとにニュースではなく、順番に簡素化し、データの使用に適したマシンを作成します設計目標Propheseeが以前EEタイムズとCEOのインタビューは、この負担が大幅にデータ量を削減するため、車は、ほぼリアルタイムの意思決定を行うことができるはずさせることができますと言いました。
しかし、新世代のIBM立体視覚システムは、人間の脳技術をデータ検索に使用するだけでなく、立体画像を再構成するためのデータ処理にも使用され、AndreopoulosにはTrueNorthによってプログラムされた最大の成果の1つがあります。 IBMはTrueNorthチップのアーキテクチャが従来のシステムよりも消費電力が少なく、自動運転システムにとって有益であると付け加えました。デザイン。
同様に、カメラDVS(非式情報ブロック)のペアを使用して、データおよび電力消費量を低減し、速度低下待ち時間、より良好なダイナミックレンジを増加させるが、これら重要な要素は、IBMは、インスタントシステム設計と言われることができます。新しいシステムならびにそれらの利点TrueNorthについて尋ねられたとき、Andreopoulos画素視差が電源の各(画素視差マップ当たりの電力)を2回マップ、最新のCPU / GPUプロセッサまたはFPGAを使用する従来のシステムと比較して、前記しました改善。
イベントベースの入力を使用して、供給IBMシステムのリアルタイム画像データを処理するための9つのTrueNorthチップであり、400視差マップごとに計算することができ、わずか11ミリ秒(ms)遅延。IBMにより、用紙に記さ具体的なトレードオフにより、システムは1秒間に2,000の視差マップをさらに増加させることができる。
?それはAndreopoulos商品化することができたときにステレオビジョンシステムを使用してTrueNorthチップは言った:「我々は時間のポイントを開示することはできません、唯一のコンセプト段階の証拠である、我々はテストされ、正常視差マップに効果的に対処するためにチップをプログラムされていると言うことができます。」
コンピレーション:Judith Cheng