用4S标准带领团队锻造大数据+AI产品体系阿里

机器之心发布

机器之心编辑部

10月20日，在2021云栖大会上，阿里巴巴集团副总裁、阿里云计算平台事业部负责人、达摩院AI平台负责人贾扬清发布大数据+AI产品体系“阿里灵杰”。

“时至今日，我们可以越来越清晰的看到算力、算法、数据和场景的融合，尤其是AI和数据。没有数据，AI是留在实验室里的火花；而没有AI，数据就是堆在那里的一堆成本”，贾扬清提到，“阿里灵杰是我们在过去几年思考实践的过程中所沉淀下来的基于Scale、Speed、Simplicity和Scenario这样的4S标准的产品的体系。它不是一个为了创新而创新的过程，而是在我们希望AI能更加简易落地的时候不断生根的一个结果。我们希望阿里灵杰帮助我们和各行各业开发者一起，能够在云上画出人工智能增长的第二曲线。”

据悉，“阿里灵杰”是中国最大的大数据＋AI一体化平台。“阿里灵杰”包含机器学习平台PAI、云原生大数据计算服务MaxCompute、实时计算Flink版、大数据开发治理平台DataWorks、实时数仓Hologres等产品，可调动规模高达10万台以上计算集群，拥有云边端一体的高性能训练和推理引擎，能提供毫秒级延迟的实时数据分析能力等，也提供开箱即用的视觉、语音、决策、NLP、业务增长引擎等开放服务。

在过去一年，贾扬清介绍，他带领的团队在4S标准下也在不断提升产品能力，主要体现在四点：

Scale：灵活扩缩的大数据、大模型、大应用

贾扬清向大家分享了几个数字：1.云原生大数据平台Max?Compute已经以10万台集群，支持2000万表和千万级的调度。但同时也可以从一张表，一个GB，一个任务开始，用零启动成本来使用近乎无限的弹性。2.在AI领域，阿里云发布了大规模分布式训练框架Whale，提供分布式compgraph建模和自动优化，

达摩院的科学家们用Whale训练了全球首个十万亿级参数的预训练模型M6，以及AliceMind等模型。

Speed：极致的运行、开发、运维效率

今天性能已经不是刀耕火种的手工优化。基于AIforSystems的逻辑，通过自动优化，阿里云的成熟产品MaxCompute和实时计算Flink版持续提升自己性能，MaxCompute已经是第五年拿到TPCx-BB的性能第一名。

贾扬清介绍，“人力成本是最大的成本，开发效率越来越重要。我们的AI平台在前面一年完全实现云原生化，使我们可以一键式地完成从建模/训练/服务全链路的搭建过程。”

Simplicity：标准、像调用函数般易用

AI先驱RichardSutton说过一句话：70年研究得出的最大经验，最有效也最显著的技术，就是找到通用的方法来利用大量计算。

今年，阿里云MaxCompute和DataWorks提供了丰富的生态和数据建模治理工具。阿里云AI工程团队与达摩院算法的合作，在十多个AI场景下提供了上百个标准化的算法模型服务，解决AI落地应用最后一公里的问题。使用OCR、NLP等，应该像下一个App那么简单。

Scenario：向场景而生

没有场景化的AI能力是没有用处的。谁都需要算力，但是不一定管得好算力。阿里的云原生化的PAI软件层和Eflops高性能集群的结合，提供开箱即用的算力解决方案，支持从学术研究、工业制造场景的落地。

在金融领域，阿里云湖仓一体架构、离线实时一体化数仓，将各种形态的数据汇聚在一起，从传统的反欺诈到创新的用户营销，提升多个场景的应用效果。

和之前基于运营的增长黑客相比，今天的增长引擎很多都是基于数据和算法的。PAI将这些场景算法标准化，可以实现RTA、用户触达、智能搜索等多个客户应用中的明显的业务提升。

在过去一年，阿里灵杰也跟犀牛制造、北京大学化学与分子工程学院来鲁华教授组（靶向药物研究）、老视频修复B站Up主AI开发者大谷Spitzer，在一起探索各种业务场景，为企业和开发者提供“开箱即用”的大数据+AI一体化能力。