Run:ai
Run:ai

优化和编排 AI 资源,运行更快

Run:ai 详情

产品信息

位置

美国纽约州纽约市 以色列特拉维夫

产品描述

Run:ai 优化和编排 AI 和深度学习工作负载的 GPU 计算资源。

运行:ai Dev

加快人工智能开发和上市时间

  • 使用您喜爱的工具和框架启动自定义工作区。
  • 对批处理作业进行排队并使用单个命令行运行分布式训练。
  • 从一处部署和管理您的推理模型。

生态系统

提高 GPU 可用性并倍增 AI 投资回报

  • 工作负载
  • 资产
  • 指标
  • 管理员
  • 身份验证和授权

运行:ai API

  • 工作负载
  • 资产
  • 指标
  • 管理员
  • 身份验证和授权

运行:ai控制平面

部署在您自己的基础设施上;云。本地部署。气隙。

  • 多集群管理
  • 仪表板和报告
  • 工作负载管理
  • 资源访问政策
  • 工作负载政策
  • 授权和访问控制

运行:ai集群引擎

认识您的新人工智能集群;已利用。可扩展。尽在掌控。

  • AI 工作负载调度程序
  • 节点池
  • 容器编排
  • GPU 分段
  • GPU 节点
  • CPU 节点
  • 存储
  • 网络

CLI 和 GUI

Run:ai 提供用户友好的命令行界面 (CLI) 和全面的图形用户界面 (GUI),用于管理您的 AI 工作负载和基础设施。 CLI 提供高级控制和脚本编写功能,而 GUI 则提供直观的视觉体验,用于监控、配置以及与平台交互。

工作区

工作区是人工智能从业者的隔离环境。可以从事他们的项目。这些工作区预先配置了必要的工具、库和依赖项,简化了设置过程并确保团队之间的一致性。 可以自定义工作空间以满足特定的项目要求,并且可以轻松克隆或与协作者共享。

工具

Run:ai 提供了一套工具,旨在提高工作效率和生产力。人工智能开发。这些工具提供 Jupyter Notebook 集成、TensorBoard 可视化和模型跟踪等功能。这些工具简化了工作流程、简化了数据分析并改善了团队成员之间的协作。

开源框架

Run:ai 支持各种流行的开源 AI 框架,包括 TensorFlow 、PyTorch、JAX 和 Keras。这使得开发人员能够利用他们喜欢的工具和库,而无需将现有的代码库调整到专门的平台。

LLM 目录

Run:ai 提供了一个 LLM 目录,这是一个精选的集合流行的大型语言模型(LLM)及其相应的配置。该目录使部署和试验最先进的法学硕士变得更加容易,从而加速利用高级语言处理功能的人工智能应用程序的开发。

工作负载

运行: ai 平台可有效管理不同的 AI 工作负载,包括:
* **训练:** Run:ai 优化分布式训练作业,使您能够跨多个 GPU 在大型数据集上有效地训练模型。
* **推理:** Run:ai 简化了模型部署和推理,使您能够部署模型以进行实时预测或批处理。
* **笔记本农场:** Run:ai 支持创建和管理可扩展的笔记本农场,为数据探索和模型原型设计提供协作环境。
* **研究项目:** Run:ai 旨在促进研究活动,提供一个实验新模型、算法和技术的平台。

资产

Run:ai 允许用户管理和共享 AI 资产,包括:
* **模型:** 存储和版本训练模型,以便于访问和部署。
* **数据集:** 存储和管理大型数据集,以便在训练作业中高效使用。
* **代码:** 共享和协作处理与人工智能项目相关的代码。
* **实验:** 跟踪和比较不同人工智能实验的结果。

指标

Run:ai 提供全面的监控和报告功能,允许用户跟踪与其 AI 工作负载和基础设施相关的关键指标。这包括: * **GPU 利用率:** 监控整个集群中 GPU 的利用率,确保高效的资源分配。
* **工作负载性能:** 跟踪训练和推理作业的性能,识别瓶颈和优化机会。
* **资源消耗:** 监控 CPU、内存和网络使用情况,提供有关资源利用率和潜在优化策略的见解。

Admin

Run:ai 提供用于管理平台及其用户的管理工具,包括:
* **用户管理:** 控制不同用户的访问权限和权限或团体。
* **集群配置:** 配置AI集群内的硬件和软件资源。
* **政策执行:** 定义和执行资源分配政策,以确保公平和效率。

身份验证和授权

Run:ai提供安全的身份验证和授权机制来控制对资源和敏感数据的访问。这包括:
* **单点登录 (SSO):** 与现有身份提供商集成以实现无缝用户身份验证。
* **基于角色的访问控制 (RBAC):** 定义具有特定权限的角色,确保对资源访问的精细控制。
* **多重身份验证 (MFA):** 通过要求用户登录时使用多个因素来增强安全性。

多集群管理

Run:ai 支持从中央控制平面管理多个人工智能集群。这使组织能够:
* **整合资源:** 跨不同集群聚合资源,提供可用容量的统一视图。
* **标准化工作流程:** 在多个集群中应用一致的策略和配置。
* **优化利用率:** 平衡集群之间的工作负载分配,以实现最佳资源分配。

仪表板和报告

Run:ai 提供强大的仪表板和报告工具来可视化关键指标、跟踪工作负载性能并深入了解资源利用率。这些功能包括:
* **实时监控:** 实时跟踪 GPU 利用率、工作负载进度和资源使用情况。
* **历史分析:** 分析历史数据以识别趋势、优化资源分配并提高工作负载性能。
* **可自定义的仪表板:** 创建根据特定需求和观点量身定制的自定义仪表板。

工作负载管理

Run:ai 简化了人工智能工作负载的管理,包括:
* **调度:** 自动调度和执行训练和推理作业。
* **优先级:** 为工作负载分配优先级,以确保首先完成关键任务。
* **资源分配:** 根据工作负载的需求和优先级为工作负载分配资源(GPU、CPU、内存)。

资源访问策略

Run:ai 提供灵活的资源访问策略引擎,允许组织定义和实施规则,管理用户如何访问和利用集群资源。这可以实现:
* **公平分配:** 确保资源在用户和团队之间公平分配。
* **配额管理:** 设置资源使用限制,防止过度消耗并确保有效分配。
* **优先级强制执行:** 根据用户角色或工作负载重要性确定对资源的访问优先级。

工作负载策略

Run:ai 支持创建工作负载策略,定义管理 AI 工作负载的规则和指南。这使组织能够:
* **标准化工作流程:** 建立一致的工作流程和运行 AI 工作负载的最佳实践。
* **自动化任务:** 自动执行常见工作负载管理操作,例如资源分配和调度。
* **提高安全性:** 执行策略以确保遵守安全标准和法规。

授权和访问控制

Run:ai 采用强大的授权和访问控制机制来保护对资源和数据的访问,包括:
* **细粒度权限:* * 向用户或组授予特定权限,提供对资源访问的精细控制。
* **审核和日志记录:** 跟踪用户操作和访问模式,为安全和合规性目的提供审核跟踪。
* **与现有安全工具集成:** 将 Run:ai 与现有安全系统集成,以进行集中管理和控制。

AI 工作负载调度程序

Run:ai 的 AI 工作负载调度程序专门设计用于优化整个 AI 生命周期的资源管理,使您能够:
* **动态调度:* * 根据当前需求和优先级动态地将资源分配给工作负载。
* **GPU 池化:** 将 GPU 资源整合到池中,从而可以灵活分配给不同的工作负载。
* **优先级调度:** 确保关键任务首先分配资源,优化AI集群的整体吞吐量。

节点池

Run:ai引入了节点池的概念,使组织能够轻松管理异构AI集群。 此功能提供:
* **集群配置:** 在节点池级别定义配额、优先级和策略以管理资源分配。
* **资源管理:** 考虑 GPU 类型、内存和 CPU 核心等因素,确保集群内资源的公平高效分配。
* **工作负载分配:** 根据资源需求将工作负载分配到适当的节点池。

容器编排

Run:ai 与 Kubernetes 等容器编排平台无缝集成,实现分布式容器化 AI 工作负载的部署和管理。 这提供了:
* **自动扩展:** 根据需求无缝扩展或缩减 AI 工作负载。
* **高可用性:** 即使单个节点发生故障,也确保 AI 工作负载保持可用。
* **简化部署:** 使用容器化映像部署和管理 AI 工作负载,提高可移植性和可重复性。

GPU 分段

Run:ai 的 GPU 分段技术允许您将单个 GPU 划分为多个分段,从而提供一种经济高效的方式来运行仅需要一部分 GPU 的工作负载资源。此功能:
* **提高成本效率:** 允许您通过共享 GPU 资源在同一基础设施上运行更多工作负载。
* **简化资源管理:** 简化 GPU 资源向具有不同要求的不同工作负载的分配。
* **提高利用率:** 最大化 GPU 的利用率,减少空闲时间并提高效率。

GPU 节点

Run:ai 支持来自领先供应商的各种 GPU 节点,包括 NVIDIA、AMD 和 Intel。这确保了与各种硬件配置的兼容性,并允许组织利用现有基础设施或根据其特定需求选择最合适的 GPU。

CPU 节点

除了 GPU 节点之外,还可以运行:ai 还支持 CPU 节点来执行不需要 GPU 加速的任务。这使组织能够利用现有的 CPU 基础设施或利用更具成本效益的 CPU 资源来执行特定任务。

存储

Run:ai 与各种存储解决方案集成,包括 NFS、GlusterFS、ceph和本地磁盘。这种灵活性使组织能够选择最能满足其性能、可扩展性和成本要求的存储解决方案。

网络

Run:ai 旨在在高带宽网络上高效工作,实现节点之间数据的高效传输和分布式人工智能工作负载的执行。 Run:ai 还可以部署在没有互联网连接的气隙环境中,确保敏感数据的安全和隔离。

按需笔记本

Run:ai 的笔记本按需功能使用户能够使用自己喜欢的工具和框架启动预配置的工作区,包括 Jupyter Notebook、PyCharm 和 VS Code。这:
* **简化设置:**快速启动工作区,无需手动安装依赖项。
* **确保一致性:** 跨团队和项目提供一致的环境。
* **增强协作:** 与团队成员在工作空间上无缝共享和协作。

训练和微调

Run:ai 简化了训练和微调 AI 模型的过程:
* **排队批处理作业:** 安排和运行批处理使用单个命令行训练作业。
* **分布式训练:** 在多个 GPU 上的大型数据集上有效地训练模型。
* **模型优化:** 优化训练参数和超参数以提高性能。

私人 LLM

Run:ai 允许用户部署和管理自己的私人 LLM,即可用于特定应用程序的定制训练模型。 这可以实现:
* **模型部署:** 部署 LLM 模型以进行推理并生成个性化响应。
* **模型管理:** 存储、版本和管理 LLM 模型,以便于访问和更新。
* **数据隐私:** 确保用户数据在组织基础设施内的机密性和安全性。

NVIDIA 和 Run:ai 捆绑包

Run:ai 和 NVIDIA 合作,为 DGX 系统提供完全集成的解决方案,为 AI 工作负载提供性能最高的全栈解决方案。此捆绑包:
* **优化 DGX 性能:** 利用 Run:ai 的功能最大限度地提高 DGX 硬件的利用率和性能。
* **简化管理:** 提供用于管理 DGX 资源和 AI 工作负载的单一平台。
* **加速人工智能开发:** 使组织能够通过具有凝聚力的解决方案加速其人工智能计划。

部署在您自己的基础设施上;云。本地部署。气隙。

Run:ai 支持广泛的部署环境,为具有不同基础设施要求的组织提供灵活的选项。 这包括:
* **云部署:** 在主要云提供商(例如 AWS、Azure 和 Google Cloud)上部署 Run:ai,让您能够利用他们的服务和资源。
* **本地部署:** 在您自己的硬件基础设施上部署 Run:ai,提供对您的 AI 环境的完全控制。
* **气隙部署:** 在没有互联网连接的隔离环境中部署 Run:ai,确保数据的安全性和完整性。

任何机器学习工具和框架

Run:ai 旨在与各种机器学习工具和框架配合使用,包括:
* **TensorFlow:** Run并有效管理 TensorFlow 工作负载。
* **PyTorch:** 部署和优化 PyTorch 模型以进行训练和推理。
* **JAX:** 利用 JAX 进行高性能 AI 计算。
* **Keras:** 无缝构建和训练 Keras 模型。
* **Scikit-learn:** 利用 Scikit-learn 执行机器学习任务。
* **XGBoost:** 利用 XGBoost 进行梯度增强算法。
* **LightGBM:** 部署 LightGBM 以实现高效的梯度提升。
* **CatBoost:** 利用 CatBoost 实现强大的梯度提升。

任何 Kubernetes

Run:ai 与领先的容器编排平台 Kubernetes 无缝集成。这确保了与现有 Kubernetes 环境的兼容性,并允许组织利用其优势,包括:
* **自动扩展:** 根据需求动态扩展 AI 工作负载。
* **高可用性:** 即使单个节点发生故障,也确保 AI 工作负载保持可用。
* **容器化部署:** 将 AI 工作负载部署为容器,提高可移植性和可重复性。

任何地方

Run:ai 旨在部署在任何地方,为具有不同基础设施需求的组织提供灵活性。这包括:
* **数据中心:** 在您自己的数据中心部署 Run:ai,以实现最大程度的控制和安全性。
* **云提供商:** 在主要云提供商上部署 Run:ai,以实现可扩展性和灵活性。
* **边缘设备:** 在边缘设备上部署 Run:ai 以实现实时 AI 应用程序。

任何基础设施

Run:ai 支持广泛的基础设施组件,让您能够构建理想的 AI 环境:
* **GPU:** 利用高性能来自领先供应商(例如 NVIDIA、AMD 和 Intel)的 GPU。
* **CPU:** 利用 CPU 执行不需要 GPU 加速的任务。
* **ASIC:** 集成 ASIC 以执行专门任务,例如机器学习推理。
* **存储:** 选择最能满足您的性能、可扩展性和成本要求的存储解决方案。
* **网络:** 在高带宽网络上部署 Run:ai,以实现高效的数据传输和分布式工作负载。

显示更多

常见问题

Run:ai 支持多种基础设施,包括:
// * **云:** Run:ai 可以部署在任何主要云提供商上,包括 AWS、Azure和 GCP。
// * **本地:** Run:ai 也可以在本地部署,这使组织能够在自己的数据中心内保证数据和工作负载的安全。
// * **气隙:** Run:ai 也可以部署在气隙环境中,即未连接到互联网的环境。这允许组织在有严格安全要求的环境中部署 AI 工作负载。//

Run:ai 可用于各种用例,包括:< br>// * **训练和部署机器学习模型:** Run:ai 可用于更加高效、有效地训练和部署机器学习模型。//
// * **推理:** Run: ai 可用于在 GPU 上运行推理工作负载,这有助于提高 AI 应用程序的性能。//
// * **研究和开发:** Run:ai 可用于支持研究和开发工作通过提供一个强大的平台来管理和部署人工智能工作负载。//
// * **深度学习:** Run:ai 可用于训练和部署深度学习模型,这些模型在广泛的领域中越来越受欢迎//

您可以通过访问我们的网站 Run:ai 并注册来开始使用 Run:ai免费试用。您还可以通过阅读我们的文档Run:ai 文档并在社交媒体上关注我们来了解有关 Run:ai 的更多信息。
//
欲了解更多信息,请联系我们的团队[email protected]我们很乐意回答您的问题并帮助您获得从 Run:ai 开始。//

网站流量

无数据

替代产品