两年前我在将门分享了当时在阿里做的图像搜索的工作,今天我要分享的内容是最近这两年做的一些新工作。

最近我正好看到一个文件,说美国综合了很多调研报告,总结了20项在未来30年将会改变世界的技术,我自己看了一眼,发现前面10项基本上都跟人工智能直接、或间接相关。

所以,看得出来人工智能在将来的世界里未来30年会扮演非常重要的角色,它将会影响各行各业。

那这些行业到底会发生什么样的变化,是被颠覆、会被改变、还是会对它整个布局、整个发展、整个状态发生或大或小的变化,我们分享完以后可以回来再看一下。

前面是一个引子,接下来解释一下今天的题目。无行业,不AI有两种解释方法。

第一,无行业不AI没有一个行业没有AI,也就是说所有行业都会有AI降临(这个可能有些夸张,可以说是大部分行业吧),就是说AI将会渗透到各行各业里。

第二,无行业,不AI就是说不深入行业的话是没有成功的AI的。我经常听到的、也是经常讲的一句话,也是在阿里里经常讨论的一句话,就是说今天我们通用的计算是有的,但通用的AI是没有的。所以,AI的技术要让它真正的落地,一定是要深入一个行业,为什么这么说、为什么这样做才可以?后面我们会根据实例来一步步拆解。

第三,视觉智能因为我是做视觉的,所以重点从视觉智能案例一起来分析。视觉智能也是这次人工智能的热点,因为毕竟从应用的场景看,从今天技术成熟度来看,也是视觉方面做的更为靠前。人的信息获取绝大部分都是视觉,有人是70%、有人是80%、有人是90%,但至少有70%以上是从视觉获取的。所以,这一部分的信息也是最重要的。

第四,探索与实践我今天讲的例子还算相对比较成功的。其实背后还有很多辛酸、眼泪,今天就不见得给大家分享了,但中间一些坑我可能会提到。

今天的AI,我套用主席的一句诗叫“天生一个仙人洞,无限风光在险峰”。确实首先AI非常风光,AI行业的工资也非常高,现在AI的人才也比较难雇。不管是从工资也好、还是融资、估值等之类的角度看,都很风光,但这个风光确实有点像在险峰上。

所以我后面想接一句“却是容易翻车处”。要保证不翻车的话,很重要的是要在商业上要有成功。商业上的成功很重要的一条是谁来买单。我们不希望只是VC买单,一个个往下接盘,看上去好像也有人买单似的,但这个肯定不是我们希望的,也是不能长久的。

在商业上的成功关键是什么呢?刷榜、PR、融资还是估值?我想除了这些以外,还有一个就是我们今天的主题,即行业壁垒

我讲行业壁垒的时候,并不是着重说我们需要跟这个行业谁谁谁有什么关系,也不仅仅是行业的知识。

今天我讲的行业壁垒是我们对行业深入的理解,对行业的数据、对行业的问题、对行业的用户非常深入地理解它,为解决这个行业真正的问题,为这个行业的用户、客户带来真正不可带替代的价值。从这个角度来讲,它会成为一个壁垒,而且这个壁垒我个人认为可能会是更重要的壁垒。

前面说了一些自己的观点,后面我们还是从具体例子看一下。

视觉设计

这个其实做的人会比较少一点。曾经Google的DeepMind做过这个,今天我讲的是更能够商用的,更有商业价值的一种设计,而不是看着好玩的。

设计行业,我们这里主要讲二维设计平面设计,但实际上还有三维、还有动画、视频等。这个行业据说有4000万从业人员,他有很多工具,离线工具、在线工具,还有很多模块、很多素材,据说中国整个市场容量是3000亿,其实还是蛮大的。

现在这个行业基本上都是人工来做,效率还是比较低的。有很多工作并不需要顶级设计师来完成,但又不是说随便一个人就能设计出来的。我们看到这个情况以后,尤其在电商领域,阿里有这样一个很大的应用场景,有大量的商品广告(我们把它叫“Banner”),我们就开始思考这个问题的解决方案。

这个广告在电商的网站上经常出现,每天的需求量也非常大,我们就以这个作为突破口开始去看,我们能不能依靠算法能够达到初级设计师的水平。

在AI行业,大部分人做的都是识别、理解、搜索。这个基本上是从视觉的信号里去获取语义、或特征,而设计其实是反过来的,是生成或融合视觉信号。

今天也有一些这个方向的学术工作,像Style Transfer,很早就有人做了,也不难实现。但说真正商用的东西,还不多见,今天我来介绍的就是一个这样的例子。

整个2D设计,目标是可控视觉内容的设计与生成。给定一些要求、一些素材以后,要设计成一个稿子,每个人设计出来的都是不一样的,不大可能有两个互相不参考的人能够设计出同样一个东西来。我们也是这样的。我们既要给他足够大的自由度,但也有一定的可控性。所以我们这个系统做出来以后,其实每次同样的输入,每次输出的数据结果都可以是不一样的。

所以,我们的目标是:可控视觉内容设计与生成,让AI做设计,使数据内容、制造变得高质、高效、普惠、低成本。愿景是:“所想、即所见、即所得”。这个稍微夸张了一点,但实际上你还是要把一些素材,例如文字、图片送到系统中去,后面出来的就是你想要的东西。

这里基本的技术包括了图像的理解,包括了增强、编辑、渲染、生成、评估等,因为我们必须知道我们做出来的东西是好还是坏,而且要自动做出评估。

下面这张图是一个非常High level的系统构成,所想+云上的视觉(智能生成引擎),我们即所见、即所得的是三类东西。

第一类的东西应该很快就会面世、发布,我们内部叫鹿班,也就是二维图像的设计和生成。现在我们还在做的是三维的图像生成。

这项技术在去年的双11上得到了非常充分的运用。这项技术有了以后,对于每一个不同的产品会有不同的设计出来。我们做个性化推荐、搜索的时候是要千人千面,每个人的结果不一样。有了这项技术之后,是千货千面,合起来就是千人、千货、千千面。

所以,每一个不同的人对同一件商品会得到不同的设计,因为系统会根据他的喜好会得到不同的设计,可以以他更喜欢的方式来展现这个商品。

在去年双11的时候,有4.1亿的设计是用算法生成的。峰值的时候,每天可以生成5000万个,生成完以后直接就上线了。

我们把这个系统成功做出来,其中一定要有设计师一起来深度参与的,因为毕竟我们是做技术的人,不熟悉设计的原理。

大家可以看到刚才这个技术实际上有点想革设计师的命,那设计师怎么会跟你合作呢。我们在做很多行业的时候,比如像医疗,有时也会引起一些恐慌。其实我想这可能是还没有真正理解AI到底能做什么、到底什么东西是不能做的。

我们在寻求设计师合作的时候一定要找顶级设计师来合作,然后才能做出来一个AI的设计师(大概是一个入门级水平的设计师)。

但现在我们的AI设计师也只能做到这种比较有模式的设计。如果要做的非常有创新,今天的算法还是完成不了的。

所以,实际上设计师是不会失业的。但如果你只是一个二流、三流的平面设计师,可能会失业。这个其实也是在深入行业的时候碰到了一个很有意思的问题。有些行业我们虽然会颠覆它,但这个行业里的顶尖高手一定会有他们的未来,我想也会促使我们每个行业的从业者,从简单、重复的脑力劳动中、或有复杂但有模式的脑力劳动中解放出来,这是第一个例子。

视频广告

我记得在很多年前,YouTube刚出来,以及在国内很多视频网站还在为赢得用户而战斗的时候,可能没有多少人关注广告,因为那时候要吸引用户,后来慢慢地开始做广告了。

今天广告仍然是视频网站很重要的收入来源,当然也还有会员费的收入。但这个视频广告的体验到底好不好?我放一幅图在这其实就是这个意思,今天我们看到视频的广告体验有点像这个人拿着标枪就想把它砸掉,我不知道大家有没有这个体验。

那有没有更好的方式来做视频广告。那我们先来看一下广告的分类,大致可以分为三类。

一.  Video-In。就是把广告的内容插到视频里去,其实in有不同的做法。第一种是直接把视频的片段放进去,也有把广告overlay叠加到视频里面去,还有把广告信息作为三维的placement放到场景里面去。

二.  Video-Out。就是说从video已有的内容往外做,里面有什么商品、有什么人物,然后给一个上下文相关的广告。

三.  广告设计。这个跟刚才讲到的内容是类似的,这里就不再讲了。

这里我给大家讲两个例子。

案例一:场景关联的广告这个我们也是在优酷土豆上做过的技术,是基于对视频的里的目标和场景进行分析来做上下文关联广告。今天的视频识别技术远远比以前做得更精细,所以我们可以根据识别的目标和场景做内容更为相关的广告。

这里还有一些关于大场景判断的问题,这种方式比那种直接放一个完全不相关的广告,用户的体验会要好一些。

案例二:植入式的广告广告植入能不能做到更好?做到更好的话就是这种方式——我经常把它叫“优雅的广告”,者叫“植入式的广告”。比如说我们检测到视频里有一个平面,我们就把这个广告贴进去,像这个东西本来就在真实场景里存在一样。

这个技术当然也是要建立在识别的基础上,一定要对这个场景有非常好的理解,这种理解就分两类。

  • 对语义的理解。

  • 对三维结构的理解。

我们对它进行理解以后,就要找到合适的地方。刚才我们讲的是平面上去替换了,其实在桌面上它还可以放一个东西,比如放一瓶酸奶,把矿泉水换成别的东西之类的。所以平面的检测不管是水平还是竖直的,然后进行广告位的筛选。

这个技术,包括还有光照分析、模糊分析、遮挡分析之类的,到广告位的存储,再到线上的实时渲染。听起来有点像增强现实,其实这里有很多是相通的技术,只不过在这里它的要求不一样,它的难度也不一样。

从难度上来讲,它容易的地方在于我们不需要做到实时,因为我们是离线寻找广告位,然后在线把它放进去,所以大量的计算是离线完成。

它的难处是我们只有一个视频,我没有深度、没有双目、没有设备、没有相机的位置,什么都不知道,完全根据视频来做。所以,一般来说只有运动的视频,我们才可以通过structure from motion或类似的技术去估计场景的三维信息。

从应用角度讲,因为我们不需要实时,而且也不需要全程地去做渲染,我们可以选择合适的位置来做,因为一个视频你做广告的时候也不可能全部都做,全部都做的话体验也是非常差的。

我们可以选择我们最有把握的地方去把广告放进去,从而使得客户最后渲染出来的结果比较真实、自然。

还有一种情况,像直播的场景,虽然网红主播就可以挣到很多钱,但我们也不妨用一点点交互,使得它背后的背景墙也变成一个可以放广告的地方。这种广告的插入,需要有一点点交互,不然我们不知道三维的结构。

比如这个人晃动的时候遮住了后面背景上放广告的话,应该会产生实际的遮挡关系,遮挡的效果,包括相机如果有轻微抖动的话,后墙上的广告也会跟着一起来抖动。

视频广告其实一直是一个视频网站又爱又恨的东西,因为这里存在四方的关系。

  • 视频网站的服务商

  • 视频提供者

  • 广告

  • 用户

这四方的体验都是很重要的,广告做得太多,用户的体验就会比较差,广告商其实也会不高兴,因为看的人就会少,效果也不好。如果广告太少,整个网站的收入就会比较少,用户的体验当然是好的,这里有很多权衡在里面。

包括今天的视频网站,经常也不太敢去尝试一些非常创新的变化。因为本身整个大的网站的成本也非常高,目前的模式对他们有一定的收入,但一旦做很大改变的时候,引起收入很大的变化,这个风险也是非常大的。

所以,在这方面有些创新非常难,因为它带来的效果是立竿见影的,好的效果、坏的效果都是立竿见影的。

视觉诊断

如何诊断机器是今天我要讲,还有一种是诊断人,诊断人就是医疗图像处理,这部分我们今天就不涉及了。

这里有一些跟一般视觉识别任务不一样的地方。

它的发生概率比较低,数据量也比较少。它通常是一个小概率事件,而且小概率事件的差异性也比较大。所以我经常把它比喻成大海捞针,大海捞针非常不容易,但我能不能缩小范围,变成桌面上去找针,在桌面上一看我就知道针在哪里了。

我经常用一些数字来说明这个问题:比如说我们要在1万个样本里去找其中的10个有问题的样本。如果不用技术手段的话,只能这1万个样本都看一遍了,那你的劳动量就是1万。但我今天有个技术,虽然我不知道哪10个,但我一定知道在其中那100个里面。我知道那100个,这10个一定在那100个里,这就是从大海捞针到了桌面找针,这时候这100个需要人去看。

这时候我们看的样本里面只有10个是对的,准确率只有10%,到召回率在这个理想状态是100%。这时候虽然准确率虽然只有10%,可我们省的人力是多少?大家可以算一下这个数字,省的人力是99%,就是你有99%的人力已经省掉了。这个意义是非常重大的!

这类问题实际当中有很多很多,这时候我们在做算法的设计上要求是不一样的,就是你的recall要非常高,你的精度是可以牺牲一些的。这个只适合于发生概率低的事情,带来的效果一定是有它的价值,例如节省了人力、提升了质量、降低了成本,或者增强了安全性。有些情况下是不能用人去看的,人去检查的话风险比较大,我们可以通过机器来做。

其中,节省人力是最直接的,比如像刚才讲的99%的人力就已经节省掉了,哪怕我不是在那100个里面去找,而是需要在1000个里们去找,这时候准确率只有1%,但我已经省掉了90%的人力,已经相当了不起了。

接下来介绍一下行业视觉诊断,这里说的主要是除了医疗之外的其它里面视觉诊断,比如:太阳板瑕疵,太阳能电池板的瑕疵检测,虫板的密度估计,列车故障的检测等。这里的解决方法大家都可以比较容易想到的,深度学习、图像处理,加上检测识别,但这里每一个问题都看起来容易,其实实际上并不太容易,而且各种情况都有,怎样才能去避免每一个场景都重复去开发一套方法,这个也是我们需要去思考和解决的问题。

行业诊断的现状基本上有三种方式。

第一种:全人工实现的,人力成本非常高。

第二种:有摄像头,但靠人去观察。这个对于人来说每天压力很大,他没有看出来后面出现问题了,他可能这个月就白干了。实际上在我们真实场景中经常发现,人看漏的可能性是非常高的。人会有疲劳、会有情绪之类的,所以经常会漏掉。

第三种:简单的分析功能,但现在远远没有达到自动化的程度。

行业诊断哪些能做、哪些不能做?

第一类:基本上肉眼内容可分辨的其实是可以做的,所有需要人的肉眼去分辨的东西都可以考虑要不要用人工智能来识别。

第二类:还有一些肉眼分辨比较困难,机器在有些方面能够比人有更敏锐的洞察力,只要给一定量的数据,设计好算法,有些情况下是可以做的。

第三类:肉眼无法分辨的,需要辅助措施。比如需要手捏一捏、估计一下重量,这个机器就没有办法了。像内胎壁厚薄的检测、稻壳含水量的计算,估计应该过过称才能知道了。

我突然想起来一个以前讲听过的笑话,说有个生产线上有肥皂装到纸盒子里去,生产线上有时候出现有的盒子没有装肥皂,那怎样把没有装肥皂的盒子找出来,当时这个公司花了很多钱,请他们的博士用了很多方法,各种传感器、各种智能的方法去分析,做出一套东西出来了。结果与此同时,有一个工人在旁边放了一个电风扇,这个电风扇一开动,没有装肥皂的盒子就被吹走了,很简单的方法就解决了这个问题。

这虽然是个笑话,其实我们在真实场景下也可能会发生类似的事情。也就是,我们要清楚到底我们能够提供一些什么样的价值,哪些是适合我们技术来做的,有些东西可能有更简单的方法。

回到案例,第一是太阳能电池片的裂纹检测,这里有多种不一样的裂纹,有十几种不同的瑕疵,比如像单条的裂纹、交叉的裂纹等。

目前我们一个初步的结果,这个精度其实是指“recall”(召回率),快到100%了。误报目前是接近3%,这种情况下,根据整个电池面板的比例最后大概能省到1/10到1/20的能力。

我们再往前走一步的话,可能正常的误报率就进一步降低到跟人相当、或比人还有更好水平的时候,就完全代替了人工,所以人力的比例会变成零,但这也要求你的精度足够高,甚至高过人。实际上真正的情况下,机器的recall要比人的recall高,因为机器不会疲劳。

案例二是列车故障的检测。我们每天坐的列车,如果进了车站从来没有人检修,一直到出了故障才检修的话,这个也是挺恐怖的,其实大家也不用担心,车进站的时候都是有检修的。

这个图片显示的例子是货运列车,这个进来以后都会有检修,过去是人要上去检修,今天有很多公司用的方法都是拍几千上万张图片,这些图片就放到数据中心,大家喝着咖啡、喝着茶就可以看了,但其实他看的时候压力是很大的,因为很容易漏掉。

我们当时做了一个算法,故障的种类也是千奇百怪,有好几百种,比如开关没有关好、漏油、裂纹等。这个真的是非常难的问题,我们当时做了其中一部分。上线测试的时候,人检漏检掉而机器能够检出来的有141个,虽然这里的误检率还是蛮高的,因为这个情况非常复杂,但实际上可以大大地减少漏检的可能性,同时也可以降低人力。

我们基于这些案例,最后总结出来阿里视觉诊断的引擎。

城市大脑

最后要介绍的是城市大脑

它要解决的是城市数据的问题,这个问题提出来是因为今天城市里的数据其实是非常多的,尤其是摄像头的数据量非常大 。这些数据的价值还还可以进一步挖掘,有很多很有意义的、可以解决现在城市管理方面很多难题的一些价值,把这些挖掘出来。

为什么能挖掘出来呢?就是因为今天AI的技术、今天的算力到了这样一个阶段,可以让我们去思考、去尝试建一个这样的“城市大脑”去挖掘城市数据的价值。

我给城市大脑的定义就是用AI和算力挖掘大量城市数据不可替代的价值。这个价值是什么?可以有不同的角度去讲,城市治理和服务的数据化、智能化,全面实施全量的优化决策、预测和干预,带来的就是高效、低耗、少能力、便捷等。

城市大脑题目非常大,我们今天主要从其中两个角度讲即城市交通和安防两个角度来讲。

城市目前的几个现状是——

第一,盲人摸象

整个城市的感知其实是有点盲人摸象的。有很多感知手段,地磁线圈微波、卡口、GPS、视频,但视频没有被充分利用起来,其它的监察数据的话,设备也是经常损坏,没有一个全面的感知,只是看到了一部分的东西,所以叫“盲人摸象”。

第二,灯下黑。

即使我们用到摄像头了,其实大部分城市摄像头是不太智能的。“灯下黑”就是说摄像头有,可我没有办法去做分析,因为你人力只有这么多。摄像头有很多,几万、几十万,甚至大城市有上百万的摄像头。但是,除了查违章有一部分智能摄像头,其它大部分都是事后去看的和当时少量的人力观察。

第三,雾里看花。

今天的感知手段不能做全局、全量的实时感知。所以我们没有办法去找到很多现象,比如拥堵也好、安全隐患也好,它背后的原因在哪里,所以我们叫雾里看花。

我们进一步看城市大脑是什么样的东西?首先城市有大量的数据,包括视频数据,我今天讲的更多也是视频数据,而且视频数据跟其它数据不一样的地方在于,视频数据(pixel)是需要进行分析的,其它数据是直接可以使用的。

所以,我们希望所有摄像头里视野能看到的东西,我们都能理解,包括:车、人、物、事。

  • 车的情况,什么车、什么速度、往哪里走,车牌。

  • 人的情况,驾驶员、行人、骑自行车的人。

  • 物的情况,各种交通标志、抛洒物等之类的。

  • 事的情况,发生什么事件,有没有拥堵、逆行、交通事故等都要理解得很透彻。

有了这些之后,我们就可以进行决策和优化了,比如简单的决策是直接把这个事件事故的结果报告出来,有交警进行下一步处理;优化比如红绿灯优化,我们知道所有交通的流量,“眼见为实”地通过视觉分析出来交通的情况,基于此我们可以做更好的红绿灯配时的优化。

还有,把整个城市里面的视觉对象放到搜索引擎里去,这就是像上次讲过的拍立淘这样的技术,今天我们做的是城市元素,所以我们把它叫“索引城市”,里面可以进行搜索可疑车辆、可疑人,比如失踪的人、有肇事车辆逃逸等,就可以通过它来寻找。当然,我们建立这种视觉数据的关系以后,也可以发觉他们之间的规律,找到他们之间背后的原因。

下一步预测,虽然我们没有办法预测每一个人、每一辆车的行为,但我们可以预测一个趋势,比如10分钟以后的车流是什么,20分钟以后是什么样子的,甚至可以做长时间的预测。短时间预测对我们GPS导航就很有好处,今天的GPS导航其实是没有预测的,预测也是用的历史数据做的预测,不是实时数据做的预测。如果说有很好的预测,那对你的路径规划可以做的更优化。而长时间预测的话,比如如果对一个城市第二天发生的情况进行预测,比如第二天天气不好,还有几个重要的活动,你大概能够估计出来明天车流、人流的情况,可能有哪些地方交通拥堵会增加多长时间,哪里交通事故的概率可能会增加。

有了这些信息以后,你就可以进行干预了。

第一种干预,可以预先分配这个资源,预先放到那里,人力、警力、医疗资源,一旦出了事情以后,马上就可以应对。

更厉害的干预,就是比如明天要发生的不好事情的话,我们可以提前做一些事情不让它发生,比如交通的管控、比如诱导等之类的。

关于城市感知,我们今天提出来的城市大脑是要做感而全面知、感而全量知、感而实时知。这三个概念我分别简单做一下介绍。

全面知,我们需要对整个路面上的情况了如指掌,也是今天因为我们在云端的方案有这么大的算力、有这么大的灵活度,以及今天AI技术的发展,可以让我们去年做不同情况下的精细目标检测识别、跟踪等之类的,不管是什么天气、什么质量。

事件事故检测也是一个异常检测的问题,因为事件事故的种类样子也很多,样本数量又比较少,跟刚才讲的工业诊断有点像,不过它不是图片而是视频,而是视频的难度更大。这里我们也是把它变成异常检测的问题,也就是说我们有大量的正常的数据,我们去为正常的数据建模,有了正常的数据的模型,那么异常的视频片段送进来之后,它的响应就会非常高。

除了全面以外,还有全量、实时,这更多是两方面的内容。

方面一:系统层级。背后要有一套计算平台来支撑,也就是需要有一个大的视频处理的平台。我们处理一路视频、两路视频没有问题,处理十路有没有问题,但处理百路、千路、万路的时候会不会有问题?这里其实要有一套背后的系统来支撑。我们阿里云有这样一套系统,在这个基础上我们就build了一个视频处理的流水线。当然也有不一样的地方,因为数据的吞吐量大,计算的复杂度高,所以我们也需要对它进行一些优化和改造,使得它能够吃的进去这么大量的数据,处理得了,还能吐得出来结果。

方面二:算法本身的计算速度。这个也是非常重要的。如果计算的成本非常高,就没有办法实现。所以计算的加速是非常大的投入,当时我们做了三个方面的加速:器件加速、模型精简和并发计算流程的优化。

一个具体例子,就是我们最近发布的一个产品,叫“天曜”。这个产品背后我们做了球机的算法,使得原来没有智能的球机变成有智能的球机,就代替了交警的巡逻,而且它可以24小时巡逻,360度自动巡航,可以对交通违法、交通事故进行全面的监测。将来也许可以自动地进行处理,现在还是要人力来处理。

很多交通拥堵都是事故引起的,我们能够快速地处理,根据摄像头看的的内容,就知道是谁的责任。不是很严重的话,赶紧走人,以免造成交通拥堵;还有一些严重的事故,我们能够及时地发现,及时地把医疗资源(救护车)送过去就能挽救人的生命。天曜是全天候、全面交通事件、事故感知的一套系统。

这项工作的特点就是充分利用城市既有的监控设备发挥最大的效率。我们对现有整个链路、整个设备不进行任何改变,我们通过云计算,把无智能的设备变成一个具有强大人工智能的设备。让这个视频监控实现了自动的巡航、巡检,实现了让机器替换人力,使得警力可以用在更重要的地方,而不至于用在这样一个比较简单的场景。我们现在也在跟AI芯片进行测试,成本会进一步降低,能耗也会降低。

接下来我们跳出来看一下,城市大脑不同的地方在哪里?城市大脑的不同之处,我们是通过大量异构城市数据中,通过大规模的计算和AI算法挖掘出不可替代的价值。像刚才讲的这些价值,过去的方法是没有办法实现的,人力也是无法完成的。这就是第二点,城市大脑在做的事情是大多是人的智能是不能完成的,因为它的复杂度、计算量是没有办法完成的,AI在这些方面其实是超越人力的。

第三点是城市大脑希望有一些会成为一个城市基础设施,就像水和电一样。这是创造出来的一个需求。

城市大脑是一个如此巨大的项目,所以我们要把它做成人工智能开放创新平台的。因为它的问题复杂度、数据的量、数据的复杂度和要解决问题的数量之多,以及它可能产生的价值和影响力之大,使得它可以成为一个创新平台。这也是为什么城市大脑会成为科技部四个国家人工智能开放创新平台之一。

总结

我们刚才讲了四个例子,核心是要给客户创造价值,这个价值有的是锦上添花,但基本上是雪中送炭和创造出来的刚需为主,因为这部分更有竞争力一点,在商业上也更容易成功。

我们再回到最开始,确实人工智能会去改变、去颠覆、去革新各个行业。所以我经常讲的一句话是:Intelligence Everywhere,势不可当。我们从业者在这其中,到底是成为“势”还是“挡”,这是我们不同的选择,不同的选择和策略,可能成为挡,也可能成为势。

人工智能对行业的影响一定会进入各行各业,大量的简单劳动力可能会被机器替代,复杂但有规律的脑力劳动也可能会被替代掉,顶级的技术、艺术、设计、服务、科研、教育等这些还需要专业的人力,但人工智能会成为他们的助理。

人工智能今天如果真正能让它落地,而不是成为一个泡沫,不是成为一个虚的东西的话,我们一定要深入这个行业、理解这个行业,理解这个行业的数据、需求、局限、和价值点等,为这个行业的场景定制出最适合的最有效的算法和系统,这样的话才能够真正让人工智能落在实处,能够创造、改变我们的未来。