2018年,是数据世界中激动人心但又复杂多变的一年。一方面,数据技术(大数据、数据科学、机器学习、人工智能)继续发展,变得越来越高效,在世界各地企业也得到了广泛的应用。

  全景图涵盖了大数据人工智能行业的基础架构、开源框架、数据API、数据资源、跨基础结构分析、工业应用、企业应用、分析工具等,涵盖有1095家大数据公司被纳入全景图。

  出现在全景图的一些关键公司上市了,尤其是Cloudera、MongoDBPivotal和Zuora。在撰写本文时,其他的正在准备上市,比如Elastic。

  2018年人工智能大数据发展趋势

  2018年,是数据世界中激动人心但又复杂多变的一年。一方面,数据技术(大数据、数据科学、机器学习、人工智能)继续发展,变得越来越高效,在世界各地企业也得到了广泛的应用。到目前为止,2018年企业界的关键主题之一是“数字化转型”,这绝非偶然。这个词语对有些人来说可能有点奇怪,他们会嘀咕:这难道不是过去25年来一直发生的事儿吗?但它恰恰反映出一个事实:许多传统的行业和企业现在正全力投入到真正的数据驱动之旅。另一方面,更广泛的公众群体已经意识到数据的缺陷。无论是通过关于人工智能风险的公开辩论、剑桥分析公司(CambridgeAnalytica)丑闻、大规模的Equifax数据泄露、与gdp相关的隐私讨论,还是有关中国政府监控活动日益增多的报道,数据世界已开始暴露出一些更阴暗、更可怕的隐患。

  1)基础设施和分析工具

  从行业的角度来看,数据生态系统仍然像以往一样令人兴奋和充满活力,拥有丰富的创新初创企业、成熟的“规模扩展”,以及许多积极的公共技术供应商。最重要的是,许多大大小小的客户都在大规模地应用这些技术,并从他们的努力中获得不可否认的价值。

  随着用更现代的数据产品替代旧的IT技术的循环继续,大数据市场(基础设施、分析)似乎正在快速地在早期的大多数买家中循环,并逐渐过渡到传统采用曲线的晚期。
  此外,数据世界继续朝着云的方向发展。考虑到大型公共云服务提供商的增长速度,每个季度都能产生数十亿美元的收入,这真是令人震惊。这一趋势引发了对供应商锁定的持续关注,这可能为提供多云解决方案的初创公司提供机会。然而,到目前为止,采用多云策略的公司仍然倾向于依赖一个供应商作为他们的主要提供者。

  随着他们的业务不断发展,大型云提供商通过其平台(如AmazonNeptune、GoogleAutoML等)提供一系列广泛的大数据、数据工程和机器学习工具,通常都制定了激进的定价策略,因而相互竞争越来越激烈,这一切都是为了吸引更多的开发者,因为他们真正的商业模式是数据存储。随着此类工具的范围和成熟度不断提高,这对数据技术领域产生了重大影响,可以说,初创企业更难与之竞争,至少在广阔的、横向的机遇面前就是如此。每年在大型云供应商会议上发布的产品公告列表(如AWSre:Invent)会给初创企业带来巨大的冲击波,因为他们将云供应商与数十家风投支持的初创企业直接竞争。看看公众市场如何应对即将到来的Elastic(一家开源软件企业)IPO将是一件有趣的事。

  然而,只要初创企业有足够的差异化,他们还是有很多机会的。在这个领域中,很多企业都在快速扩展,在生态系统的基础设施和分析部分中有许多特别有趣、快速增长的部分,包括流/实时、数据管控和数据结构/虚拟化。人们对人工智能的兴趣激增,也带来了在人工智能芯片、GPU数据库、人工智能DevOps工具以及能够在企业中部署数据科学和机器学习的平台上的巨大机遇,以及大量资金。

  2)机器学习和人工智能

  在人工智能研究领域,这无疑是疯狂的一年,从AlphaZero的威力到新技术发布的惊人速度——生成对抗网络的新形式,替代型的递归神经网络,GeoffHinton的新胶囊网络。像NIPS这样的人工智能会议已经吸引了8000人,每天都有成千上万的学术论文提交。

  与此同时,对AGI的追求仍然难以捉摸,这也许是值得谢天谢地的事儿。目前人们对人工智能的兴奋和恐惧,大部分源于2012年以来令人印象深刻的深度学习表现,但在人工智能研究领域中,有一种情绪在人们中日益弥漫开来:“接下来怎么办?”因为有些人质疑深度学习的基础(反向传播),而其他一些人希望能够超越他们所认为的“蛮力”方法(大量数据、大量算力),或许更倾向于采用更多基于神经科学的方法。

  在人工智能研究领域,许多人非但不担心机器人主宰世界,反而担心,该领域持续的过度炒作可能最终会让人失望,并导致另一个人工智能核冬天的到来。

  然而,在人工智能研究之外,我们正处于一波深度学习在现实世界中的部署和应用浪潮的开端,涉及不同行业的语音识别、图像分类、对象识别和语言等各种问题。如果说生态系统的基础设施和分析部分已经发展到后期的大多数,那么对于企业和垂直人工智能应用来说,我们仍然是非常早期的先驱者。

  尽管人工智能初创市场可以说已经显示出最终降温的迹象,但以深度学习为基础的初创企业在一两年前开始暴增的情况依然在继续。整体规模和估值的期望仍然很高,但我们肯定已经经过了这样一个阶段:大型互联网企业会为了人才而高价收购早期人工智能初创企业。与其他一些利用这种炒作的企业相比,市场中也出现了一些“真正”的人工智能初创企业。在2014~2016年期间成立的一些人工智能初创企业正开始初具规模,许多企业在医疗、金融、“工业4.0”和后台办公自动化等跨行业和垂直领域提供越来越有趣的产品。在未来的几年里,深度学习将继续为现实世界的应用带来巨大的价值,而专注于垂直方向的人工智能初创企业将面临许多巨大的机遇。

  这种持续的爆炸在很大程度上是一个全球现象,加拿大、法国、德国、英国和以色列都特别活跃。然而,中国在人工智能方面似乎处在一个完全不同的水平,有报道称,政府主导的数据汇集规模令人难以置信(跨越了互联网企业和市政当局),面部识别和人工智能芯片等领域的迅速发展,以及为初创企业提供数轮巨额融资:根据CBInsights的数据,中国仅占全球人工智能交易份额的9%,但2017年在全球人工智能资金的比例接近48%,高于2016年的11%(见下面的一些例子)。

  同样,数据隐私(以及所有权和安全性)问题也正成为全球关注的主要问题。在互联网发展的早期,数据隐私是为了保护我们在网上所做的事情,这是我们活动中相对较小的一部分。相应地,只有一小部分人真正在乎数据隐私的问题。随着我们个人和职业生活的方方面面都通过越来越多的联网设备连接到互联网上,利害关系正在发生变化。人工智能能够在大量数据集中发现异常、预测结果和识别人脸,这使数据隐私问题变得更加复杂。

  另一个独立但相关的问题是,这些数据中有很多都属于大型互联网企业(GAFA)所有。有些企业,比如Facebook,已经被证明不是完美的管理者。尽管如此,这些数据为他们在生产更强大人工智能的竞争中提供了不公平的优势。

  针对这些问题,一个新兴的主题是把区块链看作是对抗人工智能风险的一种可能的方式,同时也是在GAFA之外的企业生产更为出色的人工智能的另一种方式。加密经济被视为一种激励个人提供个人数据的方式,也是机器学习工程师通过匿名处理这些数据建立模型的一种方式。这一切仍处于试验阶段,但一些早期的市场和网络正在出现。