Em termos de visão de computador, tais como IBM Research Computer Vision e Rogério Feris gerente de pesquisa multimídia disse, o maior desafio é como 'fazer análise visual mais eficiente' para ser digno de nota especial é, AI ainda está nos estágios iniciais de desenvolvimento, precisamos de novo Idéias, visão de longo prazo e mais investimento em pesquisa e desenvolvimento por acadêmicos e instituições de pesquisa.
A IBM Research publica dois trabalhos sobre tecnologia de software e hardware de IA na Conferência de 2018 sobre Visão Computacional e Reconhecimento de Padrões (CVPR) realizada em Salt Lake City esta semana. O CVPR é patrocinado pela Computer Vision Foundation e pela IEEE Computer Society e é considerado como um dos mais competitivos seminários de tecnologia de visão computacional.
Na seção de hardware de IA, a IBM Research está promovendo um sistema de visão estéreo que aplica tecnologia de rede neural spiking inspirada no cérebro para aquisição de dados (sensores). Desenvolvido pelo Data Processing, o design utiliza o chip TureNorth da IBM - um processador de arquitetura não-von-Neumann - e um desenvolvimento orientado a eventos pela iniLabs da indústria suíça. ) Câmera
Arquitetura TrueNorth da IBM (fonte: IBM)
Na seção de software de inteligência artificial, o artigo da IBM Research é sobre 'Blockdrop', um passo fundamental que é considerado para reduzir a quantidade total de computação necessária para redes residuais profundas. ”Feris explicou que os dois artigos acima são de Resolva o mesmo problema de duas perspectivas diferentes - eficiência da análise visual.
Feris disse que quando alguém quer atravessar a rua, espera-se que um veículo autônomo faça uma "inferência instantânea", embora a precisão do reconhecimento da imagem seja muito importante, mas quanto tempo leva para dirigir um carro para tirar conclusões e identificar o que é Seu teste final em aplicações do mundo real.
O que é 'Blockdrop'?
Em 2015, o Congresso IMAGEnet se tornar o vencedor da rede residual, computador visão comunidade de tecnologia pela tempestade, a tecnologia provou que ela pode proporcionar excelentes resultados de reconhecimento, porque eles podem treinar a rede neural de centenas ou mesmo o número de Melaleuca mas Feris disse: 'tamanho único todos aqueles resíduos da rede do operador deve aplicar-se a todos os imaging, seria muito ineficiente;', ele explicou, se há um cão na frente de um fundo branco, de uma rua movimentada na cidade Mais fácil de identificar.
Para este fim IBM Research desenvolveu BlockDrop, esta é uma rede de aprendizagem, em que a seleção dinâmica de blocos residuais (incluindo múltiplas camadas) para executar tarefas métodos de inferência; Feris disse: 'O objectivo do método é adequado para reduzir as unidades operacionais globais Sem perda de precisão de previsão.
Instruções de BlockDrop (Fonte: IBM)
A IBM alega que o BlockDrop pode aumentar a velocidade de reconhecimento em uma média de 20% durante os testes, às vezes até 36%, sem sacrificar a precisão da rede residual alcançada no dataset da ImagNet. ”Feris disse que o estudo da IBM foi em 2017. No verão, com a Universidade do Texas e a Universidade de Maryland, a empresa lançará o BlockDrop para a comunidade de código aberto.
Técnicas neuromórficas para aplicações de visão estéreo
Em termos de hardware, IBM Research visa o uso de um sistema de visão estéreo pico rede neural; representa a empresa, a indústria está agora convencional para usar dois (bloquear informações) para gerar uma câmera estereoscópica, mas nunca foi tentada Tecnologia neuromórfica Embora não seja impossível fornecer imagens estereoscópicas usando câmeras convencionais, é necessário o processamento de sinais de vídeo de alta definição, como imagens de alta faixa dinâmica (HDR), processamento de resolução ultra-alta e calibração automática.
Os pesquisadores da IBM após Alexander Andreopoulos descrito no documento, que é um sistema desenvolvido pelo uso de dois eventos guiar iniLabs câmera (também chamados dinâmica -DVSe sensor de visão), tiros de chips para cluster do IBM A TrueNorth de objetos em movimento rápido extraídas Profundidade
O objetivo da IBM é reduzir significativamente o consumo de energia e a latência necessária para obter imagens estereoscópicas.Depois de receber uma entrada de pico ao vivo (que reduziu drasticamente a quantidade de dados), o sistema usa o hardware neuromórfico da IBM para reconstruir imagens 3D. Estime a diferença entre as imagens de dois DVSe e localize os objetos no espaço 3D por triangulação.
Imagens estéreo neuromórficas (Fonte: IBM)
Recuperação e processamento de dados
Uma empresa francesa, a Prophesee, usa a neuromorfologia para capturar dados e reduzir a quantidade de dados coletados pelos sensores.A tecnologia do sensor da empresa não é baseada em quadros, mas simplifica e cria dados adequados ao uso da máquina. Metas de design Em uma entrevista anterior ao EE Times, Prophesee disse que isso pode reduzir drasticamente a carga de dados e permitir que o carro tome decisões quase instantâneas.
Mas uma nova geração de sistema de visão estéreo IBM não só como a tecnologia cérebro humano para captura de dados, também usado no processamento de dados para reconstruir imagens tridimensionais; Andreopoulos disse que uma das maiores conquistas do sistema é programado para que, através TrueNorth o desempenho eficiente de 'picos rede neural estereoscópico visão necessário variedade de subrotinas comuns (subrotinas)'. IBM adicionou que, TrueNorth arquitetura de chip de baixa energia que o sistema tradicional, o que vai facilitar o sistema piloto automático Design
Da mesma forma, utilizando um par de câmaras de DVS (bloco de informação não-fórmula) pode reduzir a quantidade de dados e o consumo de energia e aumentar a velocidade, a latência reduzida, melhor gama dinâmica, mas estes elementos-chave são IBM dito desenho do sistema instantâneo. quando perguntado sobre o novo sistema, bem como aquelas vantagens TrueNorth, Andreopoulos disse, em comparação com o sistema convencional, utilizando o mais recente processador CPU / GPU ou FPGA, pixel disparidade mapear cada uma o poder (poder per mapa de pixels disparidade) duas vezes Melhorias
Usando a entrada baseada em eventos, os dados da imagem em tempo real alimentação IBM System for 9 fichas TrueNorth para o processamento, pode ser calculado por 400 mapa disparidade, só atrasou 11 milissegundos (ms). IBM observado no papel, por Por trade-offs específicos, o sistema pode aumentar ainda mais a taxa para 2.000 mapas de disparidade por segundo.
Quando podem ser comercializados sistemas de visão estereoscópica com chips TrueNorth ?, disse Andreopoulos: "Ainda não podemos divulgar os pontos de tempo. Podemos apenas dizer que testamos e programamos com sucesso o chip para lidar efetivamente com mapas de disparidade. Nesse estágio, é prova de conceito.
Compilação: Judith Cheng