青云科技智算革新开启AI基础设施高效运营新篇章-科技之家-一个专业科技领域的科技门户网

青云科技智算革新开启AI基础设施高效运营新篇章

来源：互联网时间：2024-06-19 17:23:47

　　当前，全球算力需求结构正发生重大变化，智能计算已成为计算技术创新发展主条线。

　　我们知道，人工智能对算力的消耗极大。人工智能模型训练任务中的算力增长(所需算力每 3.5 个月翻一倍)已经超越摩尔定律(晶体管数量每18个月翻一倍)。例如，ChatGPT仅推出两个月，月活跃用户数预计已达1亿，成为史上最快达到1亿月活跃用户的应用，TikTok、Instagram、Facebook、Twitter 则分别用了9个月、2年半、4年半、5年的时间。但这背后消耗的是天文数字的算力支撑。据估计，在人工智能培训服务器方面，单个大语言模型培训驱动人工智能培训服务器的需求约为 2 亿美元。

　　同时，人工智能正加快融入千行百业。人工智能场景持续壮大的背后，也展示出对智能算力的巨大需求。另据相关统计显示，大模型训练、遥感探测、生命科学和自动驾驶等前沿领域对智能算力的需求也在快速增长中。

　　跳出行业应用的视角，从数字经济、数字社会的建设的高维度来看，数据要素的效用发挥离不开智能算力的支撑。目前，我们面临的问题是，真正得到有效利用的数据占比仍不足1%。如何精准抓取高质量数据，并依托这些数据构建精确模型，关键在于深度学习等先进AI算法的应用，而这一切背后，都离不开智能算力的强大支撑。根据国际数据公司(IDC)等权威机构发布的数据，未来五年内，我国智能算力规模的年复合增长率预计将达到惊人的52.3%。

　　智能算力将伴随着人工智能技术的广泛应用，深度渗透到各行各业，为各类应用提供坚实的算力保障，展现出无比广阔的发展前景。而作为智能算力的具体实现形式，智算中心将逐步成为支撑和引领数字经济、智能产业、智慧城市、智慧社会发展的新型关键基础设施，开启全新的智能时代。

　　青云科技AI 智算平台致力于打造算力中心建设与运营新模式，帮助智算中心像管理本地资源一样管理 AI 基础设施，以满足不同业务的需求，提高 AI 算力的整体使用效率和管理效率。2.0 新版全面拥抱云原生，实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理。

　　平台通过统一的集群管理，实现对 NVIDIA、国产 GPU 等多种异构算力的高效调度。无论是高速 IB、RoCE 网络建设，还是并行文件存储集群管理，平台均能提供从物理机到容器的全方位管理。新版平台支持共享 GPU、单卡、多卡、多节点的算力调度，用户可根据实际业务需求按需申请使用，极大地提高了算力资源的使用效率。

　　细致监控，全面守护 AI 基础设施

　　AI 智算平台 2.0 新增节点监控、任务监控、容器组监控、高速网络监控和 GPU 监控等功能，提供从硬件故障处理到资源使用情况的全方位监控，及时发现并解决潜在问题。同时，可视化的自定义告警配置支持邮件、企微、webhook等多种通知渠道，确保用户随时掌握 AI 基础设施的运行状态。

　　丰富的 AI 业务支持，加速创新

　　在算力调度的基础上，平台支持自定义镜像仓库，同时内置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用计算框架，支持一键创建开发机、分布式任务，自动挂载并行文件存储等常用 AI 业务流程。用户只需上传代码，即可快速启动多机多节点的分布式训练，系统将自动调度到可用 GPU 进行计算，任务完成后自动释放资源。这种自动化的算力调度分发与回收机制，让算法工程师能够更专注于 AI 模型本身，加速科研成果的创新。

　　便捷模型服务，一键部署，轻松推理

　　模型服务功能的优化，让用户可以一键部署在线推理服务，极大地提升了模型开发和部署的效率。无论是公开模型还是用户上传的自有模型，均可在线推理，满足各类业务需求。

　　自动化运营，计量计费服务

　　借助青云公有云智算专区运营经验，平台提供规格定价、在线充值、购买产品的全流程自服务管理，减少运营的技术人员、管理人员投入，同时减少客户试用沟通和准备环境的时间，加快算力中心资源售卖，提升资源运营效率。

通信

手机品牌

电脑