人工智能文生视频大模型在新闻传播领域的应用探析

作者：周洋龙欢婷

摘要：发展新质生产力是推动高质量发展的内在要求和重要着力点。作为新质生产力的人工智能文生视频大模型，Sora的诞生吸引着全球目光。本文从Sora的技术突破入手，深入探讨其在新闻传播领域的潜在应用价值，并进一步展望Sora在军事信息传播领域的广阔应用前景。

关键词：人工智能；文生视频大模型；新闻传播

2024年2月16日，继ChatGPT发布1年左右，OpenAI推出文生视频大模型Sora，迅速刷屏整个AI圈。这一创新性的技术突破，不仅将人工智能的应用范围推向了新的高度，更在新闻传播和军事领域展现出巨大的潜力。发展新质生产力是推动高质量发展的内在要求和重要着力点。作为新质生产力的人工智能文生视频大模型，Sora的诞生吸引着全球目光。本文从Sora的技术突破入手，深入探讨其在新闻传播领域的潜在应用价值，并进一步展望Sora在军事信息传播领域的广阔应用前景。

一、人工智能文生视频大模型Sora的技术突破

事实上，Sora并非首个文生视频大模型，在此之前，Runway、Pika、Stable Video Diffusion 已经掀起过一波 AI 视频浪潮。Sora 的横空出世之所以还能引起如此大的震撼,关键在于它将扩散模型（Diffusion Models）与 ChatGPT 所用的大型语言模型（LLM）相融合，使 OpenAI 在人工智能视频领域实现了三个方面的技术突破。

长时连贯性和高清分辨率。在视频生成领域，维持长视频的时间连贯性是一个挑战。对比其他文生视频模型，如Pika仅支持生成一段3秒的视频，Runway公测版本视频时长仅为4秒，网页版最长也仅支持18秒的视频生成，Sora可以根据用户的文本提示（Prompt）创建最长60秒1080P高清分辨率的连贯视频，在时长上实现数量级飞跃。Sora的突破得益于NaViT（Native Resolution Vision Transformer）技术，NaViT 可高效处理任何长宽比或分辨率的图像，允许它们直接输入模型而无需事先调整。基于此技术，Sora能够生成宽屏的1920×1080p视频、竖屏的1080×1920p视频以及它们之间的各种格式，通过无缝处理各种尺寸和形状的视频和图像，大大提高了Sora的灵活性和适应性。

三维一致性和物体同一性。相比 Pika、Runway等只能生成较为单一的镜头语言，Sora的一个显著特点是能够实现“运镜”，即在一段视频中围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。这意味着在生成的视频中，摄像机可以模拟真实的移动和旋转效果，使得人物和场景元素在三维空间中以一种连贯和一致的方式移动。此外，Sora还能较好地处理物体和画面的依赖关系，这意味着它能够在视频中保持人物、动物和物体的一致性，即使它们在画面中被遮挡或离开。Sora还能在视频的不同镜头中生成同一角色，并确保角色的外观在整个视频播放过程中保持一致。这些能力显著提高了视频内容的质量和观看体验，尽管在某些情况下，模型仍需改进以确保完全的时间连贯性。

物理世界模拟器。以往的AI生成视频大部分是基于“大模型+大数据”架构，难以突破AI幻觉问题。OpenAI 宣称，Sora已经具有了“世界模型”的雏形，其生成的视频是基于对真实物理世界的理解和重建，它能准确解释道具并生成引人注目的角色来表达充满活力的情感。从OpenAI公开的视频来看，它可以根据文字描述“一名时髦女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上”，生成一段包含有多镜头的高清晰视频，包括从大街景切入对女士脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。又如，Sora生成的雪地里打滚玩耍的小狗的视频，狗的毛发、神态，以及用鼻子拱雪时飞溅的雪粒子，所有的效果都让人感觉非常真实。

二、人工智能文生视频大模型在新闻传播领域的应用潜力与价值

以Sora为代表的人工智能文生视频大模型作为一种新质生产力，其应用领域极为广泛，涵盖所有需要高效处理文本、图像和视频信息的领域，如影视、广告、教育、医疗等行业，同时也展现出在新闻传播领域广阔的应用前景。

提高新闻质效。传统的新闻制作流程相对繁琐复杂，需要大量人力和时间投入。而Sora强大的文本到视频生成能力，使得新闻工作者能够迅速将文字描述转化为视频内容。这不仅大大缩短了新闻制作周期，提高了时效性，同时也可保证新闻内容的准确性和完整性。特别是在地震、火灾等突发事件报道中，文生视频大模型可以根据现场传来的文字描述和少量图片，快速生成现场模拟视频，使用户能够第一时间了解事件概况。此外，随着技术的不断进步，文生视频大模型生成的视频质量也在不断提升，画面更加清晰、逼真，为用户带来了更加优质的视觉体验。

创新报道方式。对于一些复杂的科学原理或技术进展，传统的文字和图片报道往往难以直观地传达给用户。而文生视频大模型可以通过模拟动画、3D建模等方式，将这些抽象的概念具象化，生成生动有趣的视频内容。此外，文生视频大模型还可以应用于一些特殊场景的报道中。比如，在报道一些历史事件或文化遗产时，由于时间久远或保护限制，无法获取现场画面。这时，文生视频大模型可以通过模拟重建历史场景，让用户穿越时空，亲身体验历史文化的魅力。这种创新的报道方式不仅可丰富新闻报道的内容形式，也可提升用户对历史和文化的认识和兴趣。

丰富多媒体生产。在新闻传播领域，多媒体内容的创作和呈现已经成为一种趋势。文生视频大模型可以将文字、图片、音频和视频等多种媒体形式融合在一起，生成多媒体新闻报道，提高信息的传达效率，优化用户的阅读体验。新闻机构可以利用文生视频大模型来制作更加丰富多样的新闻报道，如生成虚拟主播进行新闻播报，为用户带来新颖的视听体验；报道涉及多个地点的新闻事件时，根据文本描述生成交互式新闻地图，在地图上标注事件发生地、相关地点以及人员流动等信息，用户可以通过点击或拖动来查看更多细节，获得更直观的空间感知。

推动个性化生产。随着互联网的飞速发展和个性化需求的日益增长，用户对于新闻内容的需求愈发多样化和精细化，文生视频大模型以其独特的优势可满足这一迫切需求。对于新闻机构而言，文生视频大模型的引入为其提供了订制专属新闻报道内容的能力。他们可以根据用户的兴趣和偏好，将文生视频大模型与大数据算法相结合，生成符合不同用户口味的新闻报道，大大提高针对性和可读性。对用户而言，文生视频大模型具有极大的吸引力，他们可以根据自己的需求，轻松生成个性化的新闻视频。这种个性化的内容生成方式，不仅满足了用户的信息获取需求，还带来了全新的沉浸式体验。

三、人工智能文生视频大模型在军事信息传播领域中的应用思考

人工智能文生视频大模型在军事信息传播领域中的应用，既要用于平时，更要用于战时。

（一）平时应用

人工智能文生视频大模型凭借其强大的文本到视频转换能力、个性化内容生成功能以及高效的数据处理能力，拓宽了平时军事知识普及、党史军史传播创新、军事教学传播优化等路径。

军事知识普及。普及军事知识是维护国家安全、提升民众国防意识的基础。传统的军事知识传播往往受限于文字和图片，难以充分展示军事领域的复杂性和深刻性。而文生视频大模型通过文字转视频的方式，将军事知识以生动、直观的形式呈现出来，使公众能够更容易理解和接受。例如，可以通过制作军事科普动画和短视频，将复杂的军事知识以简洁易懂的方式呈现给官兵。这些动画和短视频采用生动的画面和有趣的解说，让官兵在轻松愉快的氛围中学习，提高军事知识的普及率和影响力。文生视频大模型还可以通过构建高清晰度的武器装备三维模型，结合线上云展厅，打破时间和空间的局限，为官兵呈现武器装备的结构及工作原理。这种立体化呈现可以让官兵对武器装备有更加深入、直观的认识，进而激发官兵爱装管装的主动意识。

党史军史传播创新。党史军史传播，是军事新闻传播中不可或缺的一环。文生视频大模型的应用，不仅可以将这些珍贵的历史资料以更加鲜活的方式呈现在受众面前，更能通过其先进的数据分析和可视化手段，深入挖掘这些资料背后的深层含义和故事。例如，在军史馆中，可以将文生视频技术与虚拟现实和增强现实技术相融合，重现那些惊心动魄的战争场面，让官兵仿佛置身于战火纷飞的年代，亲身感受先辈们的英勇无畏；在旅、团史馆中，可以运用文生视频技术带来的数据可视化功能，展示部队的发展历程和重大成就，让官兵深入了解本单位历史及传承；在营、连荣誉室中，文生视频技术则可以将那些值得铭记的时刻和事件永久地记录下来，激励官兵崇尚荣誉、创先争优，提高部队战斗力。

军事教学传播优化。在军事训练教学中，文生视频大模型的应用远不止实时视频生成和高效处理。它的功能强大且多样，可以深入训练的各个环节，为提升部队战斗力和官兵综合素质提供有力支持。例如，文生视频技术可以应用于战术演练和协同作战训练。通过模拟复杂的战术场景和多兵种协同作战的虚拟环境，让官兵在推演中掌握各种战术技巧，提高协同作战能力。文生视频技术还可以用于心理抗压训练。现代战争对官兵的心理素质要求极高，文生视频大模型能够模拟出紧张、激烈的战场环境，让官兵在训练中体验到真实的压力和挑战，逐渐适应战场，提高抗压能力。

（二）战时应用

人工智能文生视频大模型的特殊功能，在战时军事信息传播方面具有广阔的应用前景。

快速生成战况报道。文生视频大模型能够显著提高战况报道的时效性。传统的战况报道往往需要依赖现场拍摄和后期编辑，过程繁琐且耗时较长。而文生视频技术能够迅速将战况信息转化为直观的视频内容，实现即时播报。通过输入详细的文本描述，不仅可以快速生成包含多种元素和场景的战况视频，如战场环境、人员行动、武器装备等，还可以生成不同角度、不同景别的视频内容，使战况报道更加全面。此外，文生视频技术还可以提高战况报道的准确性和可靠性。卫星图像通常具有较广的覆盖范围和高分辨率，能够提供战场的宏观视图和关键细节，无人机侦察数据则具有实时性和灵活性，能够迅速获取特定区域的高清视频和图像，当文生视频大模型与这些信息源结合时，可以形成互补和增强的效果，提供更准确、可靠的战场信息。

战场决策直观呈现。对于指挥员来说，快速、准确地作出决策至关重要。一方面，通过输入相关的文本描述或图像，文生视频大模型能够迅速生成高清视频，展示战场的整体布局、敌我力量对比、火力分布等关键信息，为指挥员提供直观、全面的战场态势。另一方面，在战场决策中，指挥员往往需要考虑多种可能性和方案，以便在复杂多变的战场环境中灵活应对。文生视频大模型可以根据指挥员的指令，迅速生成不同方案下的战场模拟视频，帮助指挥员更全面地了解各种方案的效果和潜在风险，作出最优决策。此外，当指挥部需要向前线部队传达作战指令或调整作战计划时，可以利用文生视频大模型生成视频形式的指令内容，并通过加密通道进行传输。前线部队在接收指令后，可以迅速理解并执行，确保作战行动的顺利进行。

舆情引导信息攻防。战争期间，舆情的变化对于战争的走向具有重要影响。文生视频大模型可以利用大数据分析技术，对公众的情绪、态度和行为进行深入研究，生成针对性内容，精准投送至目标用户，提高舆论引导的效率。文生视频大模型还可以创建虚拟意见领袖，为特定的观点或立场发声。这些虚拟人物可以设计得具有高度的真实感和可信度，能够在社交媒体上吸引大量的粉丝和关注者，从而影响和引导公众的观点。此外，结合深度伪造技术，文生视频大模型还可以生成大量的虚假新闻、谣言等，通过网络水军、机器人账号等方式在对方境内广泛传播，造成敌方的信息混乱和信任危机。

（作者单位：国防大学军事文化学院）

责任编辑：姜兴华