IPP蕉门河对话|管震:AI背景下的应用范式
2IPP评论是国家高端智库华南理工大学公共政策研究院(IPP)官方微信平台
近日,智用AI应用研究院院长、前微软(中国)有限公司首席技术顾问管震应邀出席第三期IPP“蕉门河对话”,他在会上发表了题为“AI背景下的应用范式”的演讲。
管震在演讲中详细阐述了人工智能的四轮发展历史,并解析了AI在当今产业变革中的角色。他表示,人工智能可以通过强大的算力来加速认知过程,实现科学探索的跃迁。其一直在升级的涌现能力、推演能力,能够使其在产业变革中分饰多角。
他表示,当前随着AI技术的不断成熟和应用场景的拓展,企业正逐步探索并实践着更高效、更智能的工作方式。但同时,由于技术提供方与需求方之间有行业知识的鸿沟,企业要真正的完成“人工智能+”,需要有更多认知及实践层面的思考。
首轮人工智能的提出可追溯至1956年,当时“Artificial Intelligence”这一术语首次被提出。在我九几年上大学的时候,当时有个词叫“专家系统”,尽管我的本科专业是飞行器制造,但“专家系统”这一个名字听起来极具吸引力,使我偏离了原专业方向,转而投身于计算机领域的研究。
到了2010年左右,第三轮人工智能的兴起主要得益于Geoffrey Hinton教授及其团队在神经网络生物学习领域的突破性进展,他们快速推动了深度学习的发展。
2012年,Hinton及其学生使用深度卷积神经网络大幅度降低了图像分类的错误率,标志着深度学习的崛起。 图源:wikimedia commons
同时,另一个企业协助他们将深度神经网络优化以适应GPU的运行,成功将多层神经网络部署在GPU上,使得游戏显卡意外成为了AI发展的基石。
然而,此后AI领域经历了一段沉寂期,人们开始思考人工智能还能在哪些领域展现其潜力。直至2022年底,人工智能再次焕发生机。今天,我将与大家伙儿一起来分享的是,这些不同轮次的人工智能如何共同作用,对当前产业产生深远影响,以及我们大家都认为可能正确的发展方向。
第一,阐述人工智能从第一轮、第二轮、第三轮到第四轮的发展历史,尤其是第四轮所带来的质量的跃迁;
第三,探讨AI应用落地的讲究,比如在南沙区某街道与政府合作项目中,我们应该细致考量,并提前在认知层面达成一致。
过去,人工智能常被戏称为“人工智障”,意指其智能程度有限,常显得不够聪明。这种情况在物联网、智能家居、楼宇智能等多个领域都都会存在。在2023年之前,行业内常提及AIoT(物联网+人工智能)的概念。这一概念源自物联网(IoT)和AI的结合,即在智能硬件上加上AI技术。
然而,AIoT由三个核心部分所组成:传感器、控制管理系统和执行系统。尽管这些部分分别对应了人类的感知(如眼睛、耳朵)、控制(大脑)和执行(如关节、肌肉),但早期的AIoT往往缺乏真正的“思考”部分,只有运动控制的那部分,而没办法真正理解并适应复杂情境。
举个例子,工地上使用摄像头抓拍未戴安全帽的行为,这种系统虽然能识别图像中的安全帽缺失,但如果只关注图像的一部分,可能会误将类似形状的其他物体识别为未戴安全帽。
再比如,行人闯红灯的抓拍系统曾错误地将董明珠的广告头像当作违章行人,这正是因为系统只有感知能力,没有认知能力去判断图像中的对象是否真实违反了交通规则。
同样,早期的聊天机器人也面临类似问题。它们能听懂你的话,但没办法理解你话语背后的意图和情感,导致对话过程中常出现误解和尴尬。直到OpenAI的出现,人工智能才真正从感知迈向认知。
从2016年起,AI在物体识别、语言识别、机器阅读理解和机器翻译等领域相继超越了人类。这些以OpenAI为代表的大模型,不仅拥有强大的感知能力,更重要的是它们具备了接近人类的抽象理解世界的能力。
这种能力使得它们能够总结规律、预测未来,从而在处理复杂任务时表现出更高的智能水平。当从感知过渡到认知后,这一认知过程发生了显著的变化。这些变化大多数表现在以OpenAI为代表的大模型上,它们不仅展现出了高度的智能,而且与传统人工智能有着本质的不同。
关键在于,这些大模型首先拥有了一个“聪明的脑子”,这一脑子具备几个核心指标,首要的就是接近人类抽象理解世界的能力,这一点至关重要。从哲学角度看,这种能力体现在能否对我们日常所见的事物进行规律总结。
总结规律之所以重要,是因为它使我们也可以预测未来。这正是人类抽象理解世界的方式,比如牛顿的三大定律,再到爱因斯坦的相对论,都是对客观世界进行抽象理解的典范。
然而,人类的认知方法有其局限性,许多事物我们尚无法完全理解,因为人的认知能力是有限的。但人工智能不同,只要给予足够的数据,它就能积累丰富的知识,并像人类一样进行融会贯通。人工智能的优点是,尽管运行它很耗电,但一旦数据充足,它就能全方位、无死角地去看待同一事实,同时会用像人一样的思考方式来实现融会贯通。
人工智能比人类的脑子强的地方在于虽然很耗电,但只要提供足够多的数据,有足够多的知识给它,它就可以全方位无死角的去看待同一事实,同时还能融会贯通。相比之下,人类的发明与创造往往伴随着高昂的边际成本,而AI则能明显降低这一成本。
随着技术的发展,语言模型、大语言模型、小语言模型等层出不穷,前段时间开始的世界人工智能大会上面的,大家又在争论各种模型该如何干?我们先不管他到底应该花多少算力去训练模型这件事情,我们就看看他到底有些什么样的东西。
第一类是语言模型,它可以用这种这个图能概括,即通过抽象归纳已有知识,生成新的内容。
它们不断吸纳各种知识,形成自己对世界的独特观察。以AI分析工厂团队图片为例,它能迅速指出未佩戴护目镜、安全距离不足、未戴帽子以及安全警示缺失等问题。
这显示了人工智能的融会贯通能力,即便面对未见过的图片,也能做出精准分析。大语言模型与传统人工智能的显著不同之处在于,后者是“教什么会什么”,而前者能将所有训练内容综合起来,甚至能推理出未曾直接学习过的知识。这种能力极为强大。
第二种叫做扩散模型,百度的文心一言和ChatGPT这一类就叫做扩散模型,扩散模型它们擅长文本生成图像、音乐、视频等。国内快手此公司通过“一只花狸猫在弹钢琴”这一句话,就生成出来这张视频,有人问这不是跟真的一样吗?有什么区别?
是的,在去年之前其实要生成相对来说比较稳定的这么一张动态图示或者动态视频是很难的。什么叫稳定?它能保持猫头转过来转过去,镜子里面镜面反射出来的能与物理世界上保持一致性,也就是说在物理世界里面是这样,人工智能这样一个时间段把物理世界的一些逻辑也植入到了扩散模型当中去了,因此他文生视频、文生音乐其实都开始尝试按照物理世界运行的方式来去做,这个很非常厉害。
第三类叫做垂类模型,垂类模型基于传统的机器学习或深度学习理论,支撑着人工智能的多种应用。比如,生产线上的瑕疵质检,原本依赖人工,现在则尝试让计算机自动完成,这正是传统模型能胜任的任务。有必要注意一下的是,人工智能的一个特点是,它能在很多情况下自我学习。
GPT4作为当前顶尖的大模型,理论上具备广泛的知识,但面对专业医疗知识时,其表现仍显不足。起初,它的能力范围大致如图中中间区域所示,因此无法直接作为医疗咨询专家。
随后,有公司推出了Med-PaLM 2模型,该模型专门针对医疗领域进行了优化,通过整合医疗知识库,使其在这一领域的表现更出色,能力范围扩展到了图中更外层的区域。然而,即便如此,它仍有提升空间。有趣的是,微软研究院的两位研究员发现,尽管向Med-PaLM 2灌输了大量医疗知识,但在回答某些复杂医疗问题时,其表现仍显肤浅。
于是,他们采用了一种名为“提示词工程”的方法,通过巧妙的提问引导模型深入挖掘其已掌握的知识。这种方法并未给GPT4直接增加新知识,但通过持续对话,明显提升了其解答专业问题的能力,使其表现达到了图中最外层的水平。例如,在应对美国、欧洲医师的职业考试题时,GPT4能够轻松应对。
所以跟人工智能对话的时候提问的能力很重要,就是这一个原因,你要想会用AI的话,你就得会提问,要有打破砂锅问到底的本事。
以深圳的伊登公司为例,他们利用人工智能来快速审阅大量文件。面对800页的长文,不一样的角色关注的重点各不相同,但传统方法要求每个人都需完整阅读,效率极低。而AI则能迅速浏览全文,并根据不一样的角色的需求提供精准的回答和摘要,大幅度的提升了工作效率。
此外,金蝶公司今年年初宣布要全员做“all in AI”,其软件产品也在进行相应调整。同样,可口可乐与微软签订的五年合作协议也彰显了AI在公司运营中的巨大潜力。
这些案例都表明,随着AI技术的不断成熟和应用场景的拓展,企业正逐步探索并实践着更高效、更智能的工作方式。
最后一个我举了个例子在跨境电子商务领域,由于国内市场之间的竞争激烈,许多企业选择出海寻找新机遇。面对不同国家的市场需求,产品展示方式需灵活调整。
以沙发为例,我们没办法将实物沙发搬至每个国家的样板房中拍摄,因此,我们利用AI生成虚拟环境,将沙发嵌入其中,不仅大幅度降低了成本,还明显提升了销售转化率。
通过高质量的图像和可能的增强现实(AR)或虚拟现实(VR)体验,提升消费者的购物体验,增加购买意愿。
未来,这种由AI生成的内容将无处不在,却难以察觉其人工痕迹。具身智能的兴起,使得机器人等实体机器灵活性更好多样。例如,有机器人能够与人类面部表情保持同步,甚至通过数百万次的训练,能够预判对方的表情变化,提前做出反应。
这种技术在阿尔茨海默症患者陪护中展现出巨大潜力。像我母亲这样的患者,虽然言语表达不清,但我能从细微之处判断她的情绪和需求。然而,并非所有人都能像我这样长期陪伴。因此,机器人未来有望成为老年陪护的重要力量。
机器人就是一个典型例子,它能理解并执行复杂的指令,如收拾桌面、取物等,这就是机器人加上了大脑之后能干出来的事情。那大脑是不是一个机器人?当然也是机器人。它有传感器,也有控制管理系统,也有执行系统,其实就缺了一个“脑子”,所以说具身智能在未来加上人工智能之后会有大量发展的可能性。
AI在产业变革中扮演的角色。如果单个的人工智能能够分饰不一样的角色,是否能尝试让他们做某些事?去年有一个很重要的例子叫斯坦福小镇,通过设定不一样的角色的居民,模拟他们的日常生活和学习工作,能够迅速发现潜在问题并提升相关技能。
此外,清华大学的论文通过模拟医院分诊台,展示了AI在医疗领域的潜力。在数千次模拟后,系统不仅仅可以帮助患者准确挂号,还能使医护人员达到较高的工作效率和诊断水平。所以这样一个时间段我们要想象一下,每个角色都可以让一个小机器人去跑一趟,那么人类对于未来的科技探索之路就非常有可能变成这样。
在人类科学发现的历程中,往往起点并不明确,例如微波炉的发明便是一个典型的例子。它并非源自某个明确的发明目标,而是源于对微波加热效应的惊奇发现,“b”到“c”的逐步推进,中间伴随着大量的未知与探索,所有的论文都是这样一层一层往上走的。
然而,人工智能的发展路径与此截然不同。它能够在被明确告知探索方向后,全面尝试各种可能性,用强大的算力来加速认知过程,实现科学探索的跃迁。这种“算力换脑力”的方式,让我们大概理解了人工智能的本质。
我们来看一看产业里面变革的大概的主线,有一些前置条件,这些条件大家可能是知道的。
第二,AI有一定的推理能力,就是它会一点,但没那么会。比如,GPT4现在测的IQ约等于50分,号称明年应该达到96分,再号称再往下它会更聪明,也就是说它的大脑发展非常快,有一定的推理能力,有很强的归纳能力,有一定的演绎能力。
同时AI目前需要工程化来更好地符合有关要求。这个工程化是目前非常需要的一件事情,因AI它经常会乱说,那么怎么样能减少它瞎说的频率呢?那就是用工程化的手段来去让它不要瞎说。
我总结了两条主线,第一条叫做每个环节都可能会加AI,第二条叫做每个环节加上人工智能后都能让自己的效率变高。
人工智能+它不单单是提高效率,还能让决策站得更高,就是站在更高的维度上去看决策。那么落到组织里面大概分为三个部分,第一个叫做辅助人机协作,第二个叫做释放数据价值,第三个是支持业务创新。
就是每个环节都有可能发生明显的变化,比方说知识库,因为我们现在的文件都是文件服务器,放在某个文件夹里面,但是你怎么让知识传递和承载下去呢?虽然知识库做了很多年,但是其中有很多很难做到的地方,而大模型能让知识库这件事做起来变非常简单。
知识库是应用的第一个起点,有了知识库之后有好多事情可以去做,它可以延伸出来很多种不同的方向,比方说培训。假如某个银行有个知识库,是否能用在新招客服的跟客户之间的对话的训练上。
可以设定一个AI是一个刁钻的客户,然后你当你跟它对话的时候,它会从知识库里面调出来历史对话的过程中,那些刁钻客户喜欢从哪几个角度来去挑战这样的产品,该怎么样应对,然后再设定小人工智能来去评估他们对话的过程中有哪些地方做得好,哪些地方做得不好的,这样的话我们就不难得知人工智能如何去辅助一个真实的人,更好、更快的提升技能。
还有一个更极端的例子:像这个例子就更极端了,这个是一个PCB Layout,就是画比如说电脑的主板之类的PCB板。人需三天才能画出这样一块板,人工智能去画只需要75分钟,而且还省了14%的线。当然这个有点极端,到目前为止并没有真实的实践,但是有可能是在三年两年一年之内会发生这样的情况。
再以实际案例说明,我们内部使用的Agent系统通过分配不同任务给多个小机器人,实现了销售准备工作的自动化与高效化。从客户信息搜集到策略建议,AI在极短时间内完成了大量工作,尽管初期可能不如人工精细,但其潜力与成长性不容忽视。
人工智能拥有独特的涌现能力。即便是一串对人类而言难以直接解读的复杂数字,人工智能却能瞬间识别出是某种物体的3D结构图,并精确指出其包含哪些组件。更令人惊奇的是,人工智能还能在这一些数据中发现问题。
在过去,许多因数据不足而难以实施的任务,如今在人工智能的帮助下正逐步变为可能。
以工业生产的预测性维护为例,传统上,车主往往根据4S店的建议进行定期保养,但这可能既不经济也不高效。预测性维护旨在找到一个平衡点,既能避免车辆突然故障,又能减少不必要的维护成本。
然而,预测性维护对数据量的要求极高,而实际可用的数据却往往有限。这时,人工智能通过自我生成数据的方式解决了这一难题。它基于少量故障样本,不断生成并优化数据,最终构建出用于预测性维护的可靠模型。
此外,人工智能还在新材料发现和产品创新领域发挥着及其重要的作用。通过快速预测材料属性,人工智能能够极大地加速新材料的研发进程。而在产品创新方面,无论是陪伴阿尔兹海默症患者的机器人Paro,还是与儿童进行互动教育的AI系统,都展现了AI在提升使用者真实的体验、增强人机交互方面的独特优势。
这些系统不仅仅可以根据用户的反馈不断调整交流方式,还能记住用户的喜好和习惯,从而提供更个性化的服务。
最后,值得一提的是Character.AI此公司的案例。它曾通过生成用户理想中的聊天伙伴而受到热烈欢迎,但由于资金链问题不得不降级服务,这引发了用户的不满。这一事件再次证明了AI在提供情感支持和陪伴方面的能力,同时也揭示了用户对于这类服务的依赖和期待。
最后简要一下AI应用落地的讲究,首先,人工智能还在不断的进步。两个不同的AI系统在面对同一问题时,展现出了截然不同的能力。一个直言无法将页面转化为代码,而另一个如GPT,则能迅速完成这项任务。
更令人惊讶的是,原本声称没办法做到的系统,在短短两周内便发布了新版本,同样掌握了代码书写能力。所以说每天大模型都在进步,然后很多时候大家都不知道到底人工智能实现用户什么样的场景,用户的需求是什么,这件事情是特别难说清楚的。
我只知道人工智能好,人工智能+是我们的未来,但是具体怎么“+”,加到什么需求上面,我们并不清楚。
因此,我们一般采用导入式咨询项目的方式,帮企业梳理其数据资源、明确需求场景,并评估AI技术的可行性。而不是光听自媒体说这个能做到咱们就能做。
目前还有很多短处,比如目前咱们不可以指望一个大模型解决所有问题,我们很可能是大模型加上小模型加专业模型和现有的数字化基础来去一起完成这件事。所以大多数企业要“人工智能+”,目前这几个台阶还是要上的。
首先是拉齐认知阶段,通过高管的头脑风暴和培训,帮企业从初步认识AI逐步深入到理解其适用场景。
其次,是实践应用阶段,鼓励企业在日常运营的所有的环节中尝试使用AI,亲身体验其带来的好处与不足。
紧接着,是构建知识库,让分散的知识成为宝贵经验。最后是经常说到的AI+Everything的状态,这也是我们研究院一直在努力构建的技术底座。由于算力成本高昂,我们开发了一体机解决方案,旨在将大模型引入企业。
然而,随着实践的深入,我们得知企业不仅需要算力,更需要将AI技术与内部系统数字化基础紧密结合。
今年在着重在做的东西是我刚才说的要让人工智能设定不同的小角色,并探索如何有效地分配任务、明确分工,以及如何引入类似“包工头”或“项目总监”的角色来管理这些AI小智能体,确保它们能够高效地满足各种应用场景。为此,我们正在开发AI Agent Foundry等新型技术架构,以实现这一目标。
所以在演变的过程中,人工智能落地应用是不断向前推进。然而,我们也注意到一个问题:许多智算中心在建立后并未得到充分利用。这还在于缺乏中间层的应用开发平台,使得智算中心的算力资源难以转化为实际应用。
有关研究表明,计算力指数平均每提高1个百分点,数字化的经济和国内生产总值(GDP)将分别增长3.3‰和1.8‰。
企业真正需要的是能够与其业务紧密结合的AI应用,而非单纯的算力支持。因此,我们正在致力于打造这样的平台,让AI技术更好地服务于企业的实际需求。
“蕉门河对话”是IPP落户广州南沙区 之后,着力打造的政策交流品牌性活动。活动聚焦经济、技术、产业和政策方面的前沿性话题,广泛邀请政府部门、政策学者、产业界人士参与对话,以多角度、多层次、多主体的视角激发各方智慧,为助力地方发展贡献巨大能量。
IPP专访|郑永年:中美围绕人工智能的对话,不要演变成新的“核武器谈判”
关于IPP华南理工大学公共政策研究院(IPP)是一个独立、非营利性的知识创新与公共政策研究平台。IPP围绕中国的体制改革、社会政策、中国话语权与国际关系等开展一系列的研究工作,并在此基础上形成知识创新和政策咨询协调发展的良好格局。IPP的愿景是打造开放式的知识创新和政策研究平台,成为领先世界的中国智库。