|
2010年前后,国内众多讨论集中于为什么中国造不出自己的操作系统。在IT行业,操作系统可谓王冠上的明珠,它控制了硬件和应用软件之间的联系,也控制了智能设备的整个生态。
正所谓“得操作系统者得天下”,上可支配应用,下可控制硬件,更重要的是操作系统是信息和知识的核心控制点,这是个出世界级企业的机会。当年微软正是依靠对PC操作系统的垄断,成为了全球市值最高的科技企业,也正是失去对操作系统的控制而彻底丧失了在智能手机中的机会。
如今,苹果和谷歌取而代之,在手机操作系统上占据着领先地位。调研公司Strategy Analytics去年11月份发布报告称,去年第三季度苹果公司攫取了全球智能手机利润的91%,创下历史新高。BMO Capital Markets则预计去年第三季度苹果攫取了全球智能手机行业103.6%的利润,而苹果在智能手机市场的份额只有12%。为什么超越了100%?因为有大量厂商在亏损。
(图片来源: Strategy Analytics)
过去的历史表明,有了操作系统这把屠龙刀,就能像微软、苹果那样汲取产业链条上的的大部分利润,公司也能立于不败之地,其它的都可能成为历史的配角和过客。
那么在人工智能时代,新的“操作系统”会是什么呢?
要回答这个问题,先从计算角度来分析,从目前人工智能行业的发展情况来看,由于人工智能算法涉及大量的矩阵计算和并行数值计算,下一代计算已经显示出从串行迁移到并行计算的趋势。过去的计算以CPU为代表,主要为串行指令而优化;而未来的计算可能以GPU为代表, 为大规模的并行运算而优化。
软件决定硬件的规律在历史上反复出现,如果大规模的并行计算成为主流,那么支配这些计算的机器学习框架则可能发展成为一个计算的“操作系统”,一个好的机器学习框架背后是一套完整的开发者工具和一个庞大的开发者社区,上层直接和应用层或者其他中间层交互,下面则是与计算设备交互。
援引《纽约时报》的说法,“人工智能时代利害攸关的不在于这些零零碎碎的创新,而是可能控制的一种全新的计算平台。”
以TensorFlow为代表的分布式机器学习框架就是一个很好的例子,Google很明显在不断地开源其深度学习算法,以推动TensorFlow成为工业界的事实标准。TensorFlow是核心,周边的库和框架比如TensorFlow Serving, TF-Slim等都是其生态系统的关键组件。向上对应用和算法,向下对硬件,都保持垂直整合的压力和绝对的统治力,让上下游的公司丧失战略可差别性,并越来越多地依赖核心部件的提供者,成为附庸。
(TensorFlow是Google主推的分布式机器学习框架)
而机器学习框架背后则是一条产业链,但是当产业链中的某一环是垄断时,它就会蚕食整条产业链的大部分利润。
理论上一个垄断的分布式机器学习框架可以左右硬件厂商的命运。往严重说,假设有一天TenslorFlow在业内获得垄断后决定渐渐放弃GPU支持,转而或者倾向于支持TPU的优化,那么英伟达等GPU厂商会面临巨大威胁。
而更可能发生的事情是,如果Google真的用TeensorFlow主导了分布式机器学习框架,那么Google肯定不希望硬件厂商一家独大,而希望他们成为无差别的硬件提供商。以芯片制造商英伟达为例,他们到时候会面临两个选择,要么选择和Google深度合作为其打工,要么选择放弃这个方向做其他的芯片。
同样如果TensorFlow优先或者深度优化某些Google Cloud的机器学习云计算相关的API,Google在这个机器学习云领域也会取得巨大的优势。事实上,Google内部版的TensorFlow就和Google Cloud深度绑定优化,其他厂商用的开源的TensorFlow在性能上处于劣势。再到应用层,垄断的TensorFlow也有权决定优化某些特性,从而让Google在应用层面上获得优势。
再往严重点说,个人、公司甚至国家在人工智能领域的自主发展都可能被垄断的机器学习框架所控制。
这个担忧并不是危言耸听,地平线机器人技术创始人&CEO、百度深度学习研究院( IDL )创始人、深度学习领域专家余凯也对硅谷密探表示了同样的忧虑,“放任TensorFlow成为世界上占统治地位的人工智能开发平台对世界是危险的。尽管这个平台目前是开源的,但是随着时间的推移,人工智能变得越来越强大,这个系统会变得极端复杂到失去透明性,而且会很可怕的变成全世界数据,计算,硬件,编译器等的标准制定者。这样会导致一个不健康的生态,阻碍年轻人掌握技术的自由,让个人,公司甚至国家在人工智能领域的自主发展,最终被一家商业公司所控制。”
分布式机器学习框架领域可能诞生世界级企业
如果我们认同人工智能是未来的发展方向,相信人工智能将进入未来的日常生活,那么未来的设备会有具有从感知、交互、理解到决策的智能,这也必将伴随诞生大量基于人工智能算法的芯片、系统和软硬件平台,这是一块数千亿美元的市场。
互联网的上半场已经积累了大量的数据,接下来,互联网行业将在人工智能领域展开竞争。而分布式机器学习框架是可能是人工智能产业链中的皇冠。拥有领先的分布式学习框架,将网罗一大批开发者,也将掌握分布式机器学习系统的标准,将影响计算,硬件,编译器等的标准的制定。更重要的是围绕分布式机器学习框架将有巨大的生态圈红利,这是一个诞生世界级企业的机会。
一个可能的例子就是芯片行业,从内部结构上来看,CPU内控制单元等模块的存在都是为了保证指令能够一条接一条的有序执行。通用性结构对于传统的编程计算模式非常适合,但无法满足不需要太多的程序指令却需要海量数据运算的深度学习的计算需求,所以人工智能芯片成为一个巨大市场,如果拥有领先的分布式学习框架,这将为给芯片企业带来巨大的优势。
另一个可能的例子则是云计算领域,随着人工智能的发展,人工智能技术必然改造云平台,未来的云平台是智能云,如同网络的大脑,IBM、谷歌、微软、亚马逊都推出了自己的基于云计算的机器学习服务。无论是网络安全公司、金融企业、智能家居厂商还是传统企业都在利用机器学习技术大幅改进和创新产品服务。而从这个角度,掌握分布式机器学习框架,拥有深度性能优化的优势,再结合生态圈红利,这甚至将决定云计算的下半场。
中国曾经错失各种机会
在过去,我们的高校和公司由于种种原因错失了PC操作系统,错失了手机操作系统,也没有搞出Hadoop和Spark这样的系统,或者后来我们做出了自己的技术标准,但是也没能够将这个标准推出去。
在过去,我们可以有理由说是因为我们缺基础研发实力,我们缺高端技术人才,我们缺生态圈,或者我们错过了合适的时间。
如今国内技术发展迅猛,近年开始华人已经处于人工智能研究的领先地位,占据了人工智能科研世界的半壁江山。
(图片来源:digitopoly.org)
国内围绕人工智能行业的投资也如火如荼,BAT和华为等大公司也在人工智能领域广泛布局,人工智能生态圈已经初见雏形。
我们去看Caffe、TensorFlow、MXNet、Torch、 Theano、Poseidon等深度学习框架,背后也有大量华人的身影,比如Caffe主要作者贾扬清,MXNet主要开发者李沐,Poseidon背后则是邢波(Eric Xing)。
推出中国主导的分布式机器学习框架,我们具备天时地利人和。
中国的智能产业不容乐观
理论上而言,中国现在有能力主导一个世界级的分布式机器学习框架的开发和推广,但是我们依旧要清楚的看到,目前并没有中国的学术机构或者公司推出一个全世界范围内有影响力的分布式机器学习框架并建立完整的生态圈。
推出一个框架或者标准其实不难,我们曾经做过的龙芯、WAPI和TD-SCDMA,都曾经掌握了一些技术标准,但是都无法建立完整的生态圈。
一方面,国内公司和科研机构需要有对这些核心技术平台的持续投入的决心。对这种没有短期效益,但是长期会成为一个公司核心竞争力的技术方向必须要有足够的耐心。
另一方面也需要我们摆脱单打独斗的思维模式,要走出去,与全球众多的科研人员、开发者、硬件厂商、应用软件厂商、集成商一起合作,形成良性的生态圈。
20世纪以来,汽车、化学制造、航空航天、新能源、通讯、物流、计算机软硬件、互联网、云计算这些产业都是欧美国家催生的,率先创造一个产业,自然居于这个产业的领先地位,我们也长期处于追赶状态。随着中国互联网等行业的发展,至少在人工智能领域,我们已经没有太多先例可以抄袭或者借鉴。
我们如今已经和其他国家站在了统一起跑线上,而我们能否抢占新一轮科技革命制高点,中国在智能时代能否崛起,这将关乎国家和民族的命运。
对于个体公司而言,或许选择任何框架都差异不大,但是对整个国家和民族产业而言,这却是涉及到巨大的产业利益分配。
在此我们呼吁国家人工智能战略层面上应当看到分布式机器学习框架的重要性,通过各种手段来支持分布式机器学习框架的自主研发和推广。
此外,由于开源软件的发展,中国深受其惠,但长期以来缺乏对开源社区的回馈,过去在操作系统上我们没有突破,而如今在人工智能领域,或许我们也可以对开源社区有所贡献,主导或者重度参与世界级的分布式机器学习框架,让中国创新走向世界。
也呼吁更多有识之士重视分布式机器学习框架,在人工智能产业链上下游的公司联合起来,风险和投资机构也参与进来,主导属于中国的分布式机器学习框架,摘取这颗王冠上的明珠。
|
|