科技之家

科技之家,汇聚专业声音 解析IT潮流

首页 > IT业界 >

青云科技智算革新 开启AI基础设施高效运营新篇章

来源:互联网 时间:2024-06-19 17:23:47

  当前,全球算力需求结构正发生重大变化,智能计算已成为计算技术创新发展主条线。

  我们知道,人工智能对算力的消耗极大。人工智能模型训练任务中的算力增长(所需算力每 3.5 个月翻一倍)已经超越摩尔定律(晶体管数量每18个月翻一倍)。例如,ChatGPT仅推出两个月,月活跃用户数预计已达1亿,成为史上最快达到1亿月活跃用户的应用,TikTok、Instagram、Facebook、Twitter 则分别用了9个月、2年半、4年半、5年的时间。但这背后消耗的是天文数字的算力支撑。据估计,在人工智能培训服务器方面,单个大语言模型培训驱动人工智能培训服务器的需求约为 2 亿美元。

  同时,人工智能正加快融入千行百业。人工智能场景持续壮大的背后,也展示出对智能算力的巨大需求。另据相关统计显示,大模型训练、遥感探测、生命科学和自动驾驶等前沿领域对智能算力的需求也在快速增长中。

  跳出行业应用的视角,从数字经济、数字社会的建设的高维度来看,数据要素的效用发挥离不开智能算力的支撑。目前,我们面临的问题是,真正得到有效利用的数据占比仍不足1%。如何精准抓取高质量数据,并依托这些数据构建精确模型,关键在于深度学习等先进AI算法的应用,而这一切背后,都离不开智能算力的强大支撑。根据国际数据公司(IDC)等权威机构发布的数据,未来五年内,我国智能算力规模的年复合增长率预计将达到惊人的52.3%。

  智能算力将伴随着人工智能技术的广泛应用,深度渗透到各行各业,为各类应用提供坚实的算力保障,展现出无比广阔的发展前景。而作为智能算力的具体实现形式,智算中心将逐步成为支撑和引领数字经济、智能产业、智慧城市、智慧社会发展的新型关键基础设施,开启全新的智能时代。

  青云科技AI 智算平台致力于打造算力中心建设与运营新模式,帮助智算中心像管理本地资源一样管理 AI 基础设施,以满足不同业务的需求,提高 AI 算力的整体使用效率和管理效率。2.0 新版全面拥抱云原生,实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理。

  平台通过统一的集群管理,实现对 NVIDIA、国产 GPU 等多种异构算力的高效调度。无论是高速 IB、RoCE 网络建设,还是并行文件存储集群管理,平台均能提供从物理机到容器的全方位管理。新版平台支持共享 GPU、单卡、多卡、多节点的算力调度,用户可根据实际业务需求按需申请使用,极大地提高了算力资源的使用效率。

  细致监控,全面守护 AI 基础设施

  AI 智算平台 2.0 新增节点监控、任务监控、容器组监控、高速网络监控和 GPU 监控等功能,提供从硬件故障处理到资源使用情况的全方位监控,及时发现并解决潜在问题。同时,可视化的自定义告警配置支持邮件、企微、webhook等多种通知渠道,确保用户随时掌握 AI 基础设施的运行状态。

  丰富的 AI 业务支持,加速创新

  在算力调度的基础上,平台支持自定义镜像仓库,同时内置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用计算框架,支持一键创建开发机、分布式任务,自动挂载并行文件存储等常用 AI 业务流程。用户只需上传代码,即可快速启动多机多节点的分布式训练,系统将自动调度到可用 GPU 进行计算,任务完成后自动释放资源。这种自动化的算力调度分发与回收机制,让算法工程师能够更专注于 AI 模型本身,加速科研成果的创新。

  便捷模型服务,一键部署,轻松推理

  模型服务功能的优化,让用户可以一键部署在线推理服务,极大地提升了模型开发和部署的效率。无论是公开模型还是用户上传的自有模型,均可在线推理,满足各类业务需求。

  自动化运营,计量计费服务

  借助青云公有云智算专区运营经验,平台提供规格定价、在线充值、购买产品的全流程自服务管理,减少运营的技术人员、管理人员投入,同时减少客户试用沟通和准备环境的时间,加快算力中心资源售卖,提升资源运营效率。

相关文章