以人工智产业发展高地,北京为例。北京市《若干措施》的发布是国内首个地方政府紧贴AI大模型产业化发展提出的专项措施,北京打响了地方大模型竞赛的第一枪。当下正值Chat-GPT引发的“千模大战”打响,大模型可能为各行各业带来新的效率革命和体验升级。随着AI第一城北京行动了,上海、深圳、成都等地区都已陆续采取行动,抢占发展的“窗口期”。
三、人形机器人:人与机器的“不期而遇”
从定义和使用目的出发,人形机器人是具有与人类似的外观和运动方式的智能机器人。人形机器人(humanoid robots)又译“仿人机器人”,字面意思是模仿人的形态和行为设计制造的机器人。目前人形机器人并没有普遍定义,但根据专业书籍《Humanoid Robots》的归纳,人形机器人应当能“在人工作和居住的环境工作,操作为人设计的工具和设备,与人交流”。在此前提下,人形机器人最终应具有与人类似的身体结构,包括头、躯干和四肢,使用双足行走,用多指手执行各种操作,并具有一定程度的认知和决策智能。
人形机器人起步于1960年代后期,以日本的研究成果最为瞩目。1973年日本早稻田大学的加藤一郎教授研发出世界上第一款人形机器人 WABOT-1 的 WL-5 号两足步行机,严格讲类属于仿生机械,是人形机器人的雏形。1986年日本本田开始进行人形机器人 ASIMO 的研究,并成功于2000年发布第一代机型。
四、人形机器人与AI大模型:通用场景加速C端革命性推进
随着集成设计技术、运动管理控制技术、传感器感知技术等关键技术的不断突破,以及人工智能、5G等新一代信息技术的融合应用持续深入,特种机器人加速应用于煤矿、深海、极地等场景,释放出巨大的生产和科研价值,而其中最让前沿科技公司、普通消费者“着迷”的是以人形机器人为代表的智能移动机器人的出现,迭代。
目前,AI技术通过构建全面感知、实时互联、分析决策、自主学习的智能系统,使机器人自主作业成为可能。AI通过机器人视觉技术强化机器人的感知能力,通过构建算法模型提升其分析决策、自主学习的能力,从而使机器人能够独立完成作业。
1.感知世界的能力(机器人的眼睛)
机器人自主移动的感知和定位技术中激光和视觉导航是主流应用方案。计算机视觉的发展经历了基于以特征描述子代表的传统视觉方法、以CNN卷积神经网络为代表的深度学习技术,目前通用的视觉大模型正处于研究探索阶段,人形机器人的场景相对工业机器人更通用、更复杂,视觉大模型的All in One 的多任务训练方案能使得机器人更好地适应人类生活场景。
一方面,大模型的强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割等任务时具备更高的精确度;另一方面,大模型解决了深度学习技术过分依赖单一任务数据分布,场景泛化效果不佳的问题,通用视觉大模型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。
典型产品:特斯拉“Optimus(擎天柱)”
感知层面,特斯拉机器人头部使用8个摄像头采集视觉信息。计算层面,机器人将采用目前特斯拉汽车使用的FSD(Full Self-Driving,全自动驾驶)电脑、运用神经网络等模型实时处理信息。特斯拉将使用超算“Dojo(道场)”训练机器人使用的AI模型,使其更有效的识别外界物体并做出反应。