给无人机装上大脑开始群聊人机交互的新进展
2024-01-03 19:05:05视觉测量

  自聊天软件开始兴起,它们就在渗透我们生活的同时也在悄然间改变我们的生活。

  对相当大一部分国内用户来说,QQ是网络启蒙产品,微信是移动网络的入门APP,阿里旺旺是了解网购必不可少的工具......这些软件的初衷都是社交,也都带有群聊功能,现在AIGC的时代兴起了,那么有没有可能让AI玩玩群聊呢?

  就在刚刚过去的上周末,一则消息需要我们来关注:西北工业大学光电与智能研究院李学龙教授和同事们在机器交互方面取得创新进展,他们基于国产大模型研发了“群聊式”无人机控制框架,给每架无人机装上了大脑,让无人机集群在语言沟通中动态协同,实现了开放环境下“人机”和“多机”的对话交互,打破人类和机器的交互壁垒,更加拓展了“临地安防”的应用场景。

  “临地安防”涵盖低空安防、水下安防及跨域安防等领域,是面向临地空间内防卫、防护、生产、安全、救援等需求的技术体系,具备多元化、跨域化、立体化、协同化、智能化等特征。

  1997年,IBM的“深蓝”战胜卡斯帕罗夫,AI首次在国际象棋领域战胜人类。2016年,谷歌的“阿尔法狗”击败李世石,围棋不再是“人类智慧的最后堡垒”。虽然“深蓝”和“阿尔法狗”都足够强大到被人铭记,但争议也始终存在,最常见的一种是说它们的能力太狭窄,“深蓝”不会围棋,“阿尔法狗”不会国际象棋,这样的AI与其说是智能倒不如说是超级玩具。

  人类虽然不可能做到每秒数万亿次的计算,但同时掌握两种甚至更多技能可并非天方夜谭,只是学习过程难以准确量化,这背后的秘密就在“通用”二字上。

  最近一年多来,AIGC与大模型能成为全世界瞩目的当红炸子鸡,很大程度上主要是因为它们带来了一丝AGI,即通用AI的曙光。然而读万卷书还要行万里路,在开放环境中,大模型需要真正地“走”进物理世界,才能切实地理解复杂任务、解决实际问题,落地应用产生价值。

  之前曾多次说过,AI可以视为对人类大脑工作原理的逆运用,这次李学龙教授团队的“AI群聊”也不例外,同样是受人类的认知模式启发。

  团队将人类认知形成的高度自主性概括为“思维计算—实体控制—环境感知”的三元交互,建立了由“书生·浦语”大模型驱动的自主无人机“群聊式”控制框架,实现了开放环境和复杂任务中的智能交互、主动感知和自主控制,提高了无人机任务执行的自主性。

  李学龙教授团队经过研究后认为,自主无人机集群的主要能力有三:类人对话交互、主动环境感知、自主实体控制。

  无人机现在已经屡见不鲜了,但大部分还是要由地面指令操控。要实现可控自主,就要探索人类用户与无人机的交互方式,让无人机理解复杂任务中的客户的真实需求,这是一切的前提。

  “AI群聊式”的对话交互方法,即是李学龙教授团队的针对性解决方案。团队为此设计了任务引导的主动感知机制,提出了多传感器融合的低空搜索、动态避障和视觉定位算法。

  在实际任务执行中,无人机根据感知信息和任务目标,动态调整飞行路径和观测位姿,尝试从不同角度和位置感知周围世界,逐渐降低环境中的不确定性,实现高效的信息采集和任务执行。

  无人机在飞行过程中会主动感知外部环境,实时调整任务规划,这也是完成复杂任务的关键环节。针对无人机在飞行中可能遇到的情况,李学龙教授团队设计了任务引导的主动感知机制,提出了多传感器融合的低空搜索、动态避障和视觉定位算法。

  在实际任务执行中,无人机根据感知信息和任务目标,动态调整无人机飞行路径和观测位姿,尝试从不同角度和位置感知周围世界,逐渐降低环境中的不确定性,实现高效的信息采集和任务执行。

  大模型时代新型智能体的研究重点在于探索复合智能体形态,即现在常说的具身智能,以及增强复杂任务解决能力。针对无人机的复合形态,李学龙教授团队专门设计了夹爪等末端执行器,传统无人机由此拓展为“飞行机器人”,长出“手”来,具备抓取等能力。

  团队同时构建了异构无人机集群协同控制机制,结合环境感知反馈,实时调整无人机编队的飞行状态,使集群分工执行区域搜索、目标定位和抓取等任务。

  社交软件与群聊极大地方便了人们的沟通,对我们的生活产生了莫大影响。现在AI 2.0时代已经成了明显的趋势,让AI也组群,让它们也能商量着干活,同时和人类无障碍地沟通和交流,更好地服务于我们的实际生活,这是很容易联想到的,而且这极具科幻风格的一幕正在慢慢地成为现实。

  通过“群聊式”对话,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了人机,无人机之间自主和直观的交互方式。同时李学龙教授团队设计了一套高效的实时反馈机制,使得无人机能够在任务执行的关键节点通过对话报告自身状态、寻求用户确认,大幅度的提升了复杂任务执行的稳定性和安全性。

  前面说过,李学龙教授团队将人类认知的高度自主性概括为“思维计算—实体控制—环境感知”的三元交互,此次的“无人机AI群聊”与“书生·浦语”大模型的结合,是团队将人类智能“思维计算—实体控制—环境感知”的三元交互模式应用于AI的一次成功尝试,依托AI、大模型、无人机和多种传感器,对安防巡检、灾害救援、空中物流等“临地安防”场景下的应用都具备极其重大意义。

  同时“书生·浦语”大模型作为上海AI实验室的作品,即使相比GPT等外国先进产品仍有差距,在国产同类型竞品中也算是佼佼者。此次作为无人机AI群聊的依托,也是为AIGC与大模型的落地应用开辟了新思路。

Copyright © 2018 BOB电子(中国)官方网站 All Rights Reserved
网站地图 备案信息: 湘ICP备14017517