学部新闻
学部新闻
当前位置:首页  学部新闻
TCDS | 计算学部范晓鹏教授团队在机器人和具身智能领域最新进展
发布人:王语涵  发布时间:2025-05-12   浏览次数:10

哈尔滨工业大学计算学部范晓鹏教授团队提出一种无任务学习方法,用于机器人和具身智能领域的智能决策问题,可使机器人完成未被训练过的任务。相关研究成果以《Task-Agnostic Learning to Accomplish New Tasks》为题,发表于期刊《IEEE Transactions on Cognitive and Developmental Systems》,中文简化版“无任务学习及在机器人任务和运动规划中的应用”发表于《中国人工智能学会通讯》2024年第14卷第2期,科研新范式:All-in-One下的基础模型专题。

智能决策是机器人和具身智能领域的重要研究方向。以往通常采用强化学习和模仿学习的方式训练策略进行决策。然而,强化学习存在奖励函数设计困难和分布偏移等问题,模仿学习需要收集专家演示数据并受限于数据多样性,这些问题影响了策略在新任务上的泛化性。研究团队提出了一种新的学习方法用于智能决策,即无任务学习(Task-Agnostic Learning, TAL)。无任务学习的提出,主要基于人类所学知识的碎片性和无目的性。知识的碎片性表现在完成具体任务所需的知识,通常不是连贯且完整学习的。一次性学习任务相关的所有知识后再去完成任务,在生活中并不常见,而是在生活中不断积累,在面向具体任务时筛选整合碎片化知识来完成任务(可能还需要学习部分任务相关的新知识)。无目的性则表现在很多知识的获取并没有具体目标,反而更倾向于在环境探索过程中的偶然性。例如,我们发现新买的杯子有点重,或者某个书签有点割手,这些知识在面向具体任务时会突然变得很有用,比如可能突然想起来某个杯子可以用来压住纸条以免它被风吹走。

什么叫“理解世界”?LeCun提出 AI 系统要能够:预测因果,即如果我推动这个物体,它会往哪里去?预演后果,即如果我采取这个动作,会产生什么影响?形成策略,即如果第一次失败,我是否能自我调整并换一种方式?

实际上,智能接口研究中心在2019年即开始了相关的研究,提出了一种动作特征提取器,并使用任务无关的探索数据对其进行训练,以进行碎片化的知识边缘学习,解决了预测因果的问题;设计了一种候选动作生成器,该生成器将动作特征提取器应用于新任务,以生成多个候选动作集,解决了形成策略的问题;构建了一个行动建议网络,能够根据环境信息为多个候选行动集中的行动生成执行顺序信息,解决了策略选择的问题。本研究可以从任务无关数据中学习零散的知识来完成新任务。

哈工大为论文第一作者与通讯作者单位。论文通讯作者为计算学部范晓鹏教授团队王兴涛老师,第一作者为范晓鹏教授指导的博士生张宪琦。研究工作受到国家自然科学基金重大研究计划等项目资助。

论文链接:https://ieeexplore.ieee.org/document/10979777