IT需要加速当今数据科学的关键要素

在各地的组织中,从数据中汲取有意义的见解的需求从未像现在这样迫切。这种现象使数据科学家迅速升任关键任务,甚至使“公民数据科学家”(部门级人员可能没有经过正规的数据科学培训)可以使用新的数据密集型工具。好消息是,可用于有效数据科学的平台技术比以往任何时候都更易于IT部门进行部署和管理。同时,许多IT部门都意识到,为实现此目的而推动Kubernetes本地平台对他们来说至关重要。

Kubernetes作为开源容器编排系统的实力已得到充分证明。该项目始于Google,现在由Cloud Native Computing Foundation维护。它已成为想要在云原生领域竞争的组织的关键解决方案,对于在多云和混合云环境中进行创新必不可少,并且它越来越成为数据科学家在大多数情况下运行最佳应用程序所需的结构的一部分强大的方法。现在,CIO和IT领导者比以往任何时候都需要了解Kubernetes以及其周围的数据科学工具和应用程序生态系统。

数据科学的范围已扩大

不久前,数据科学家使用了少数几种通用应用程序,这些应用程序远没有今天强大。他们通常在非常常见的硬件上的非常常见的环境中运行这些常见的应用程序。但是,现在,数据科学家需要将应用程序部署在不同类型的环境中,他们需要利用容器化的应用程序,并且需要比以往任何时候都扩展其使用的应用程序。在这些方面,Kubernetes令人瞩目,并且在平台级别集成时特别有效。

当今的IT领导者面临着以不增强数据科学家自由度和灵活性的方式来增强治理的方式来集中化数据科学基础架构的挑战。否则,将导致一个“狂野的西部”环境,其特征是整个企业内散布着孤立的,不一致的技术,其运行超出了IT的权限,并阻碍了企业从数据科学投资中获取价值的机会。在许多情况下,这些“影子实现”会以低效的方式或无法扩展应用程序以利于他人的方式旋转。平台级的Kubernetes可以将数据科学家所需的工具与优化的技术和云基础架构结合在一起,而这一切都属于IT部门。

通过在平台级别集成Kubernetes,数据科学家可以从自助服务环境中受益,从而使他们能够:

轻松使用他们为当今功能强大的应用程序所需的预配置基础架构

使用适用于工作空间的工具和应用程序来旋转工作空间

尝试跨弹性计算资源使用新工具和应用程序

阁楼上的玩具比以往任何时候都多:IT必须促进实验

数据科学家对有效实验的需求值得关注。为了跟上最新的技术和应用程序,数据科学家积极地进行实验,并且随着开放源代码应用程序生态系统的扩展,其实验速度也在不断提高。正如IT部门历来密切关注组织中已根深蒂固的开源平台和应用程序一样,他们也应关注数据科学家越来越采用的那些平台,并为利用这些应用程序的理想平台提供便利。

而且,不仅数据科学领域与机器学习和人工智能领域发生了明显的碰撞,而且Kubernetes也是如此。Kubernetes可以为希望通过机器学习和AI来探索业务洞察力的数据科学家提供大量信息。它可以流畅地协调可弥补这些领域与数据科学之间差距的应用程序。特别是,IT部门专注于提供可重现,可扩展,廉价的计算解决方案,以支持机器学习和AI。他们中的许多人应该理解,由于Kubernetes在平台级别上本机运行,因此在此方面他们具有优势。

一个例子:Kubernetes将Spark服务于开源桥

请考虑以下特定示例,该示例说明了本地运行Kubernetes的平台如何对数据科学家产生巨大影响:假设该科学家正在密切监视开源数据科学工具的出现,并希望利用Apache Spark作为开源分析引擎,大数据任务。毕竟,它具有用于流传输,SQL,机器学习和图形处理的内置模块,并且是免费的开放资源。Kubernetes本地平台可以提供对Spark分布式计算范式的访问,而无需设置专用的复杂集群。在此特定用例中,开放式编排工具(Kubernetes)为数据科学的一个开源宠儿(Spark)提供了入口,而促进者是提供Kubernetes本地平台的IT部门。

以这种方式,意识到数据科学的IT领导者将越来越多地帮助其组织将数据科学从业务外围转移到其核心,从而在最新的应用程序和平台之间提供不受限制的可扩展性。所有这些功能的核心是Kubernetes,它是一个功能强大的编排框架,可以弥补数据科学家与IT之间的鸿沟。