耗费十年重建计算引擎,SAS再造云原生数据分析之王

2021 SAS 全球论坛于5月20日圆满落下帷幕。在论坛会上,SAS 分享了如何通过提供数据和决策之间的重要联系来审查分析、如何通过使用数据和分析优化工作方式、SAS技术如何带领企业完成整个分析生命周期等数据分析相关内容,并探讨了云技术和复合人工智能是如何提供现代企业管理和探索海量数据所需的规模和适应性。点此回顾


(2021 SAS GOBAL FORUM)

说到数据分析软件,几乎可以由 SAS 公司的历史代言。SAS 公司,最早起源于美国北卡罗来纳州立大学1966年的一项研究,即开发数据分析软件用于农业数据研究,那还是只有 IBM 大机的时代。根据 IDC 在2020年7月发布的全球大数据与分析软件市场报告:SAS 公司占据全球高级分析与预测软件市场份额高达27.9%,远超第二名 IBM 的13.1%,并一直是 IDC 自1997年开始追踪该市场以来的第一名;而在全球人工智能软件平台市场,SAS 公司的市场份额也达到了4.4%,仅次于 IBM 的8.8%和微软的5.6%,而谷歌和 AWS 各占3.1%。

自2019年开始,SAS 公司耗资10亿美元推出新一代云服务 SAS Viya,2020年推出SAS Viya V4.0版本,该版本全面云原生化,即面向微服务、容器和 Kubernetes 技术等云原生技术,重构了 SAS Viya 软件。同时,SAS 9即本地部署版本也全面云原生化,这就是 SAS for Container 版本。无论 SAS Viya 或 SAS 9工作负载,都可以容器化方式运行在公有云、私有云和混合云环境中。同时,SAS Viya 还与微软智能云的深度集成,2021年5月 SAS Global Forum 2021上再宣布与 AWS、Google Cloud、Red Hat Openshift 等深度集成。

SAS公司联合创始人兼 CEO Jim Goodnight 在2011年被 Forbes 文章称为数据分析之王,他在 SAS Global Forum 2021上介绍说,SAS 公司于2009年开始了将计算引擎向高性能分布式分析转型,SAS Viya 就是该计算引擎的第三代并且其计算速度超过了市场上任何其它同类产品。截止到2020年 SAS Viya 的第四个版本也就是全面云原生化版本,SAS 公司已经耗费十年的时间完成了核心分析计算引擎的转型,接下来就是全面基于 Kubernetes 的云原生分布式计算架构,把 SAS 分析能力推向所有地方,包括阿里云、腾讯云、华为云等也在 SAS 公司的考虑之中。可以说,SAS 公司正在将自己再造成为云原生数据分析之王。

分析计算引擎的进化

作为数据和高级分析软件的鼻祖,SAS 公司的神奇故事开始于北卡罗纳州立大学在1966年到1971年间为农业数据研究而开发的一套方差与回归分析软件。当时 Jim Goodnight 作为北卡罗纳州立大学的博士参与到了该项目,项目组在分析农业数据时意识到如果把数据的读取与输出到磁盘上整合到一个程序中,那么就能在任何分析过程中反复使用这个程序,这就是早期的 SAS 软件,当时还是基于大型主机。


(SAS公司联合创始人兼CEO Jim Goodnight)

在80年代早期,当小型机和 PC 出现的时候,当时 SAS 软件产品还只能在大型主机上运行。SAS 公司认识到必须解决软件产品在不同计算平台的可移植性问题,而这就需要用全新的编程语言来重写软件。这个软件重写的工作,整整把下一个软件版本推迟了一年。但坚持软件可移植性是正确的选择,否则 SAS 软件就永远不可能离开大型主机,那么也许就没有后来“数据分析之王”的传奇了。

Jim Goodnight 在 SAS Global Forum 2021的主题演讲中回忆,2009年对于 SAS 公司来说是一个全新的开始,当时一个新加坡银行家向 SAS 公司抱怨说一个风险分析的计算工作需要耗时18个小时才能完成,而这已经远远超越了银行决策的时间。SAS 公司意识到,从当时的单机单线程计算向多核高性能分布式计算架构转型,已经势在必行。这就是SAS公司的高性能分布式分析计算引擎的开始,这个被称为 Analytical Server 的计算引擎软件并没有采用当时现成的 Hadoop 开源分布式计算软件,而是 SAS 公司自行开发了高性能分布式并行计算架构并加入了内存计算技术。Jim Goodnight 表示,之所以在当时加入内存计算,是因为非线性计算和机器学习计算等高级分析计算等需要多次读取数据,而内存计算就是加快这一过程。

2009年开始推出的第一代高性能分布式分析计算引擎就已经将新加坡银行家的18小时风险分析计算压缩到15分钟完成,四年后 SAS 公司推出了第二代高性能分布式分析计算引擎即 LASR。LASR 是一个安全的多用户计算平台,将数据加载到内存后可进行并行读取。LASR 在分布式计算环境中将数据和工作负载分布到多个机器上进行大规模并行处理,结合软件与硬件的方式可以高速处理分析计算。LASR 可以处理结构化数据,也可以处理文本分析等非结构化数据。

SAS 公司的第三代高性能分布式分析计算引擎就是 SAS Viya。Jim Goodnight 强调,SAS Viya 从一开始就是关于性能、速度和大数据处理,而且一旦分析数据和创建了模型之后就可以立即投入生产环境,而市场上其它产品还需要额外的编码和重写代码才能投入生产环境。SAS Viya 一开始是面向云计算特别是公有云这一新兴的海量数据和超大规模分布式计算架构,而 SAS Viya 4.0和 SAS for Container 面向容器、Kubernetes 和微服务等云原生架构再次重写了SAS软件和SAS分析计算引擎。

2021年1月,SAS 公司宣布收购 Boemska 公司。Boemska 公司曾是 SAS 公司的合作伙伴,其最大的技术特点就是采用面向特定设计的容器运行时(runtime container),以增强 SAS 分析软件的跨多云环境的弹性和可移植性,可以更好的将SAS 软件扩展到第三方云环境和云应用中,产生了更小的分析和模型计算运行时(runtime)。简单理解,Boemska 的技术让 SAS 容器运行时更加小型化,从而可以移植和运行到更多的云平台上。将 Boemska 技术嵌入到 SAS Viya 中,可以将云原生的 SAS 软件和第三方模型移动到移动计算和企业计算环境中,特别是支持低代码/无代码技术执行欺诈预测、制造缺陷检测等特定的分析任务。

五大愿景应对“最后一公里”挑战

作为全球高级分析与预测软件市场第一、全球人工智能软件平台第三大公司,SAS 在接下来需要解决的问题就是将建模和分析计算能力扩散到整个计算生态中,从而将分析计算落地“最后一公里”。实际上,今天的企业和组织要面对日益丰富和复杂的数据,分析生态也变得越来越大、越来越复杂,而分析结果的交付要赶上企业和组织的发展与变化速度。


(SAS 公司执行副总裁兼首席技术官 Bryan Harris)

SAS 公司如何应对这个挑战?SAS 公司执行副总裁兼首席技术官 Bryan Harris 介绍了 SAS 公司的五大愿景。首先,分析体验要无处不在,在“幕后”不断改进决策。SAS 可将分析能力整合到企业的方方面面,无论在企业所选择的“云”中还是嵌入到传感器里,从而帮助企业提升营收、降低成本和改进效率。对于数据科学家来说,SAS 平台为他们提供选择和控制分析过程和技术选择的能力,还支持 R、Python 等语言和开源软件生态。对于企业 IT 来说,SAS 软件现在已经全面容器化和云原生化,支持持续集成持续交付,可以与其它云生态整合。

其次,当企业和组织加速数字化转型进程时,分析软件和能力要能够被每一个人所使用和消费。企业和组织将高级分析和自动决策集成到各种流程中,最佳实践应为将分析操作视为一个整个企业和组织范围内跨角色的集体协作过程。例如,业务分析师对数据进行可视化及根据数据提出问题,数据科学家则构建分析模型以回应问题并提供新的洞察,而管理者观察这些洞察然后做出决策,所有这些角色都在同一个分析环境中无缝协作。

第三,分析要为整个企业和组织优化决策。在动荡的市场环境中,企业和组织的领导者不断寻找新兴的竞争优势,SAS 帮助企业和组织优化决策以建立和维持竞争优势,并寻求提高员工生产力。SAS 对数据转换、分析任务管道构建、模型选择和优化等提供了自动化,跨整个分析的生命周期监测分析和模型的性能,以确保模型按预期运行。

第四,分析要促进透明和信任。SAS 向客户交付端到端的数据、模型和决策管理,确保一致性和准确性,从而让企业管理者建立信心并信任机器学习和 AI 等算法在企业中的价值。对于数据科学家来说,SAS 为每个创建的分析模型提供了说明,从而确保模型的公平和可解释。

第五,SAS 正在推动大规模的可组合 AI。加速的数字化转型要求更为复杂的决策,这往往需要综合多个分析技术的结果,包括描述式统计、自然语言处理、深度学习、计算机视觉等等。那些能够快速组合这些AI能力的企业和组织,能够在数字化转型中建立新的竞争优势。对于数据科学家来说,他们能在重复性任务中集成差异化的分析能力。企业和组织正在部署成千上万的分析模型,而新的竞争优势要求企业和组织能够迅速捕捉新的机会,以开发分析模型、将分析模型集成到决策流中,并部署到任何业务流程或业务应用中。

正是在这五大愿景之上,SAS 公司在2019年强化了向云原生架构的迁移。2019年10月初 SAS 公司宣布了与 Red Hat 的合作,SAS 分析软件将支持 Red Hat Openshift。作为业界著名的 Kubernetes 发行版,Red Hat Openshift 在混合云中有着重要的价值。而把 SAS Viya 这样的 SAS 分析软件经过容器化后运行在 Openshift 之上,就可以给企业混合云环境中的高级分析、AI与机器学习等提供一个统一的治理平台。SAS 还将陆续兼容其它的 Kubernetes 发行版。Harris 强调 SAS Viya 的发展方向就是云原生化,支持微软云、AWS、GCP和 Openshift 等,而其它的 Kubernetes 版本包括阿里云、腾讯云、华为云等要视客户需求而定,因为针对不同的 Kubernetes 版本都需要重写或优化 SAS 软件才能紧密适配。

继续推进物联网与AI

在云原生的世界里,物联网与AI是两大主题,在很多时候二者更加紧密集成在一起,形成从边缘到云的数据分析链条。在物联网方面,SAS Viya 面向物联网进行了优化并与微软 Azure 物联网方案等结合,把分析能力推进到传感器和边缘。而 SAS 公司在2019年的时候,宣布将在未来三年向 AI 领域投资10亿美元,用于推动 AI 的研发创新、人才培养和专家服务。今天,SAS 公司已经成为多家市场分析机构 AI 领域研究报告的领导者。

首先,SAS 将物联网流数据处理与AI相结合而提供了具有特色的智能物联网(AIoT)方案,SAS Analytics for IoT 和 SAS Event Stream Processing 就是主要产品。IDC 在2019年就 SAS IoT 技术的评价是,SAS 不断将分析能力推进到边缘,整合了完整的AI、机器学习和商业智能的能力,打通了 IT 与 OT 系统。SAS Event Stream Processing 引擎可处理高速、低时延的流数据,还可在流数据处理过程中集成机器学习的能力并产生实时告警,这样企业就可以大幅降低传感器数据存储的数量和成本。



SAS AIoT 最新的方案就是疫情期间的冷链物流方案,包括高价值的医药、疫苗、基因治疗产品等。SAS 与主要的合作伙伴微软 Azure 和 Stress Engineering 等一起,将 SAS 分析能力用于冷链物流挑战。特别是基于公有云服务的 SAS 数据与分析能力,不仅能保护对温度敏感的药物有效性,同时还能处理安全与合规的要求。SAS AIoT 的另一应用场景就是精准农业,SAS 与合作伙伴一起促进全球食物链的安全与农业增产。一家欧洲最大的葡萄园及葡萄酒生产商就采用了 SAS 分析软件,用于监控葡萄蛾数量,以保护葡萄的健康和产量。SAS 还与美国北卡罗来纳州城市 Cary 合作,分析来自城市河流、街道和道路桥梁的传感器数据,预测和预警城市的洪涝灾害。

而随着收购的 Boemska 技术与 SAS Viya 的整合,进一步增强了 SAS 的 AIoT 能力,SAS 机器学习和高级分析可以支持诸如可穿戴设备发出的健康状况预警、无人机监控分布式资产以及维修需求、工厂智能摄像头监控制造缺陷以及降低损耗等场景。

其次,在 AI 方面,SAS 一直是可组合 AI、MLOps 和智能决策等 AI 领域的推动者和领导者。SAS 可视化数据挖掘和机器学习被广泛嵌入到 SAS Viya 的各种机器学习、数据科学和智能决策产品与服务中,并提供了强大的自动化能力。这些能力都促进了 SAS 持续推进可组合 AI,也就是在一个平台上提供所有所需 AI 与高级分析能力,帮助完成端到端的业务流程。例如一个零售商品的退货流程,就可以采用对话式 AI、预测模型和技术等识别顾客的喜好并在退货过程中提供促销等激励以促进顾客购买更多的商品。

在 SAS Global Forum 2021上,SAS 持续推出更多的 AI 产品和服务,例如基于 SAS Viya 平台 SAS Conversation Designer 而设计出的 VIVIAN 对话机器人,该机器人面向虚拟身份盗窃等复杂知识场景而构建,该产品是 SAS 公司与美国身份盗窃资源中心(ITRC)合作的最新成果,主要用于处理疫情期间激增的虚拟身份欺诈事件的在线处理。VIVIAN 的推出刷新了人们对 AI 的想象,该机器人甚至可以引导处理钓鱼邮件等复杂问题。

总结

从40多年前基于大型主机的 SAS 高级统计分析软件到今天全面云原生化的 SAS 高级分析与 AI 能力,SAS 正把分析与 AI 能力扩展向更广泛的 IT 与云计算生态中,让更多的企业和组织可以轻松使用高级分析与 AI 能力,进而在动态变化的市场环境构建新的竞争优势。SAS 作为全球数据分析软件的鼻祖,一直在穿越各种计算架构的变迁仍保持强大的竞争力。随着云原生计算的全面到来,SAS 公司也将再次成为云原生数据分析领域的领导者。