Načítá se...

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Visual question answering (VQA) is a multi-modal task involving natural language processing (NLP) and computer vision (CV), which requires models to understand of both visual information and textual information simultaneously to predict the correct answer for the input visual image and textual quest...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Sensors (Basel)
Hlavní autoři:	Guo, Zihan, Han, Dezhi
Médium:	Artigo
Jazyk:	Inglês
Vydáno:	MDPI 2020
Témata:	Article
On-line přístup:	https://ncbi.nlm.nih.gov/pmc/articles/PMC7730290/ https://ncbi.nlm.nih.gov/pubmed/33255994 https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3390/s20236758
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo otaguje tento záznam!

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Podobné jednotky