Abstracto
Con el desarrollo de la tecnología informática, la descripción de video, que combina las tecnologías clave en el campo del procesamiento del lenguaje natural y la visión artificial, ha atraído cada vez más la atención de los investigadores. Entre ellos, cómo describir de manera objetiva y eficiente videos deportivos detallados y de alta velocidad es la clave para el desarrollo del campo de descripción de video. En vista de los problemas de errores de oración y pérdida de información visual en la generación del texto de descripción de video debido a la falta de información de aprendizaje de idiomas en los métodos de descripción de video existentes, un modelo multicabezal que combina la red de memoria a corto y largo plazo y se propone un mecanismo de atención para la descripción inteligente del video de voleibol. A través de la introducción del mecanismo de atención, el modelo presta mucha atención a las áreas significativas del video al generar oraciones. A través del experimento comparativo con diferentes modelos, los resultados muestran que el modelo con el mecanismo de atención puede resolver efectivamente la pérdida de información visual. En comparación con el LSTM y el modelo base, el modelo multicabezal propuesto en este artículo, que combina la red de memoria a corto y largo plazo y el mecanismo de atención, tiene puntajes más altos en todos los índices de evaluación y mejoró significativamente la calidad de la descripción de texto inteligente de El vídeo del voleibol.
0 Comments