邵典1,唐矗1,昌敏1,刘黎可1,王雨乐1,李浩2,白俊强1
摘要: 以大语言模型、视觉语言模型与视觉基础模型为代表的大型基础模型,正推动无人飞行器智能化的新一轮演进。围绕该趋势,首先对相关模型的关键特性与通用能力进行了归纳,总结其驱动的主流具身架构,并比较不同架构在无人飞行器高动态、强约束场景下的适配性。其次,阐明了各类大型基础模型如何通过开放环境理解、任务级语义规划、具身推理控制及多模态交互等方式,重塑无人飞行器感知、规划、控制与交互四大核心功能要素。进一步聚焦大型基础模型驱动的高阶认知功能,探讨了推理、记忆、反思与想象在应对无人飞行器复杂场景下的作用机制、实现途径、技术局限及评测范式。总结了大型基础模型在视觉-语言导航、主动目标搜索、语义物流配送及集群智能协同等四类典型决策任务中的赋能模式与前沿进展。最后,深入讨论了安全风险与防护机制、工程落地与端侧部署等核心挑战及应对策略,并从高效基础智能构建、感知-认知跨越及泛在智能产业融合等方面展望了未来发展方向。