A carregar...

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Visual question answering (VQA) is a multi-modal task involving natural language processing (NLP) and computer vision (CV), which requires models to understand of both visual information and textual information simultaneously to predict the correct answer for the input visual image and textual quest...

ver descrição completa

Na minha lista:

Detalhes bibliográficos
Publicado no:	Sensors (Basel)
Main Authors:	Guo, Zihan, Han, Dezhi
Formato:	Artigo
Idioma:	Inglês
Publicado em:	MDPI 2020
Assuntos:	Article
Acesso em linha:	https://ncbi.nlm.nih.gov/pmc/articles/PMC7730290/ https://ncbi.nlm.nih.gov/pubmed/33255994 https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3390/s20236758
Tags:	Adicionar Tag Sem tags, seja o primeiro a adicionar uma tag!

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Registos relacionados