【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

ByteZenithMaster
• 阅读 163

本文根据2023云栖大会演讲实录整理而成,演讲信息如下:

演讲人:黄博远 | 阿里云计算平台事业部资深产品专家、阿里云人工智能平台PAI产品负责人

演讲主题:阿里云人工智能平台PAI年度发布

AIGC是我们这个时代的新机遇

今年云栖大会,阿里云机器学习平台PAI正式发布升级为人工智能平台PAI。在过去的12个月,AI生态发生了巨大的变化,AIGC已经成为继互联网时代的下一个产业时代风口,带来了很多新的机遇和挑战。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

在整个市场当中,AIGC领域可以分为三类:预训练大模型、开源生态和下游应用。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

AI研发新范式和新挑战

在新局势下,整个AI研发进入到新范式

  • 从预训练模型开始,快速定制、快速落地
  • AI开发门槛大大降低,AI推广加速,行业应用增长

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

研发新范式升级跟以往从搞数据到0-1搭模型是非常不一样的,主要会有三类客户:

  • 上游:通用模型生产者与平台方(如阿里);
  • 中游:利用垂直行业知识对模型进行优化(生态伙伴);
  • 下游:最终AI应用的使用者(最广大的用户群体)。

AI生态链的整合和角色分化是行业发展的方向,符合社会整体效率提高的要求,必将推动AI普惠化的进程。

阿里云人工智能平台PAI全面升级

人工智能平台PAI在4.0版本里,下层是强大的基础设施,中间层“PAI灵骏智算集群”,是专门面向超大规模分布式,重点解决预训练、Finetune、推理等工作。最上层“Model as a Service”概念,能够让不懂算法,但需要应用AI的人进行全链路的AI创新。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

PAI助力企业AI创新

人工智能平台PAI将围绕以下三个效率助力企业和开发者进行AI的创新,分别是开发效率、计算效率和业务效率。

提升开发效率:人,最宝贵的资源

AI工程化的工程师人才稀缺且昂贵,工程师从数据进来到整个开发环节再到模型生产上线,大约需要12种工具把整个AI流程走完。

阿里云PAI 全生命周期优化的AI平台

阿里云人工智能平台PAI作为全生命周期优化的AI平台,包含iTAG智能标注、DSW交互式建模、DLC AI训练服务、EAS在线预测服务、AI工作空间、AI资产、OpenAPI等服务,打造一体化全链路的AI工程平台,全面提升行业、产业落地效率

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

PAI-DSW 交互式建模

PAI平台的Notebook服务全面升级,DSW可以一站式AI开发,开箱即用,异构资源无缝对接,兼顾个人开发者及企业级协作需求,让整个开发过程变得更加高效。

同时我们也看到数据对于AI的重要性,PAI把整个阿里云上的存储都做了无缝对接(OSS、NAS、CPFS),可以很容易的在云上获得做大模型开发的工作的环境。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

PAI-DLC 分布式训练

在分布式训练里,大模型变得至关重要,怎么同时用512卡、上千卡做训练,可能很难做分布式这些细节的管理,如果涉及底层复杂软硬件能力可能更不清楚。今天通过DLC分布式训练可以实现单机多卡、多机多卡分布式训练,云原生灵活环境配置,企业级资源管理,快速把相应的模型训练出来。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

PAI 模型服务与AI推理

未来,我们认为在模型服务领域,模型的推理一定会成为整个产业的热潮。因为在我们平台上已经看到有几十家做大模型的企业训练出来50B~100B以上的大模型,这些模型日后一定会产业落地。

PAI EAS模型在线服务+Blade推理加速,帮助客户一站式解决AI部署和推理的全部环节。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布


提升计算效率:机器,如何高效的利用

对于大模型无法逃避的一个问题就是解决机器效率,如何让机器被整个产品和平台疯狂使用,对所有人来说都是巨大的挑战。

PAI灵骏智算服务 - 让大模型训练推理简单、高效

今年我们发布了PAI灵骏计算服务Serverless产品。使得AI的训练推理更快、更易用、更稳定,全面提升AI计算效率。

可以想象一下,当有1024张卡甚至有数千张卡做训练的时候,很难保证系统不出错误,所以我们推出了AI Master自动容错弹性训练。让系统帮你去解决各种各样的问题。对于整个大模型训练过程有巨大的效率提升的作用。

推出EasyCkpt秒级异步训练的快照,可以清楚知道每一个数据在整个显存、内存、缓存中存了多少,硬件或系统出现问题或者时我们不再需要做全局的checkpoint,可以通过EasyCkpt实现秒级训练精度无损的checkpoint,高效帮企业自动把这个问题恢复可执行状态。

TorchAcc和PAI-Blade则是在大规模分布式训练和推理上做的软硬结合优化。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

  1. 极致性能:高性能计算、网络、存储支撑的高性能AI集群

专为密集型深度学习业务及LLM/AIGC大模型训练场景打造的高性能集群架构

  1. 极致稳定:软硬结合、协同保障超大规模集群超高稳定性

集大规模集群管理、弹性AI调度、进度无损的模型保存与恢复、自动分布式性能测试于一体的稳定保障体系

  1. 基于PAI-DLC构建的LLM大模型强化学习训练框架RLHF

支持人工反馈的强化学习 RLHF训练框架,快速开发定制LLM**

提升业务效率:自带最佳实践,业务落地提速

阿里云是一个自带最佳实践的云,如何基于PAI平台让不懂AI的人快速上手,让没有接触过大模型、没有做过AIGC应用的人快速跟上节奏呢?是我们一直致力于解决的问题。

PAI平台提供了非常丰富的场景化最佳实践方案,把最佳实践产品化方式面向客户,企业开发者们可以通过接入PAI平台一步步体验模型构建的整个过程。

MaaS全链路提效

PAI平台一站式覆盖了AI工程化的全流程,无缝对接ModelScope/Huggingface等开源社区,让算法开发者、应用开发者和业务架构师可以专注、高效的完成创新。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

大模型场景化最佳实践

人工智能平台PAI提供全面覆盖大模型生产流程的端到端最佳实践。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

智码实验室-Notebook Galley

Notebook Galley上针对热门场景、前沿模型,打造属于开发者的内容平台,让开发者快速学习上手。

Notebook Galley上面现在已经有100多个热门AI的案例,例如:通义系列、Llama2、Stable Diffusion等案例在这上面全都可以一站式云上拉起服务,端到端体验。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

为AI提供极致性能、全链路工程覆盖、端到端最佳实践的云上服务

PAI团队持续迭代更新,面向AI、大模型、AGI领域做了三个核心工作:

1、软硬一体协同优化云上基础设施,把高性能网络、高性能存储和高性能计算的能力和编译优化能力、容错训练能力、快速异步checkpoint的能力相结合,提供极致且稳定的环境,供大家可以高效训练大模型。

2、提供了端到端涵盖整个AI工程链路的PaaS平台。

3、提供丰富的场景化最佳实践。

【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

人工智能平台PAI在今后会再这三个领域持续大力构建云上Serverless产品,给开发者提供更加廉价、更加好用的产品力。也希望大家可以借助AIGC这波浪潮,助力业务更好发展!

点赞
收藏
评论区
推荐文章
好买-葡萄 好买-葡萄
3年前
阿里云边缘云ENS再升级,四大场景应用加速产业数字化落地
好买网www.goodmai.comIT技术交易平台简介:云栖大会|于10月21日上午举办的边缘云应用升级与技术创新论坛中,阿里云边缘云ENS产品全面升级,从边缘云产品、技术、行业应用等维度全面阐述阿里云在边缘计算领域的技术积累、产品&解决方案沉淀、商业实践。一年一度科技圈盛事——云栖大会如期开幕,本届大会以“前沿探索想象力”为主
Stella981 Stella981
3年前
AnalyticDB for MySQL:PB级云数仓核心技术和场景解析
2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势。本文整理自数据库专场中阿里云智能高级技术专家南仙的精彩演讲,本文为分享了阿里云PB级云数据仓库AnalyticDBforMySQL的核心技术以及其应用场景。数据
Stella981 Stella981
3年前
JindoFS解析
作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。2019年云栖大会上,EMRJindo的技术存储分离方案得到很大的关注,视频直达链接【云上大数据的一种高性能数据湖存储方案】(https://www.oschina.net/action/GoToLink?ur
Stella981 Stella981
3年前
GopherChina大会嘉宾
嘉宾简介吴小伟:花名一啸,阿里巴巴技术专家,2010年加入阿里,目前在阿里云CDN事业部,从事CDN智能流量调度系统相关的研发工作;在阿里,从事过中间件、高性能服务器(Web服务器、DNS服务器等)、大数据等相关技术产品的开发;当前主要采用C和Go语言进行开发工作。大会主题《Go在阿里云CDN中的应用》主题摘要:阿里云CDN对
Wesley13 Wesley13
3年前
5G 时代,从视频互动特效技术看未来趋势
疫情期带来了在线娱乐行业的爆棚式发展,也让行业本身更加审视在交互体验上的突破价值。优酷团队开始了对互动视频体验的全新升级,升级集中体现在三个方面:直播化、游戏化、特效化。_本文根据阿里巴巴的资深算法专家李静,在云栖大会的《5G时代,优酷新型视频互动特效技术实践》的演讲整理而成,为大家分享优酷在互动视频领域的创新技术。__
Wesley13 Wesley13
3年前
1月2日云栖精选夜读:【2018新年巨献】像阿里巴巴一样高效工作!(含视频、文章、PDF文件)
WorkLikeAlibaba通过线下沙龙、线上直播、内容输出三个维度,携手阿里云的典型企业用户,联合云栖社区、阿里云、钉钉阿里产品,将阿里的前沿产品技术理念、敏捷研发模式、智能运维方法、智能办公、移动办公等渐渐渗透到外部的企业用户,形成了阿里特色的技术社区——你也可以像阿里巴巴一样高效工作。热点热议【2018新年巨献】像阿里巴巴一样高效工作
Wesley13 Wesley13
3年前
AI云原生浅谈:好未来AI中台实践
AI时代的到来,给企业的底层IT资源的丰富与敏捷提出了更大的挑战,利用阿里云稳定、弹性的GPU云服务器,领先的GPU容器化共享和隔离技术,以及K8S集群管理平台,好未来通过云原生架构实现了对资源的灵活调度,为其AI中台奠定了敏捷而坚实的技术底座。在2020年云栖大会上,好未来AI中台负责人刘东东,分享了他对AI云原生的理解与好未来的AI中台实践,本文为演
Wesley13 Wesley13
3年前
4项探索+4项实践,带你了解华为云视觉预训练研发技术
摘要:本文主要讲述云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。近日,在Qcon全球软件开发大会(深圳站)上,华为云人工智能领域首席科学家、IEEEFELLOW田奇博士,发表了“云原生时代,视觉预训练大模型探索与实践”的主题演讲,介绍了云原生时代华为云在AI基础研究、视觉预训练模
天翼云第八代云主机助力企业攻克上云“大象流”加密处理业务难题
2023年1月11日,以“芯加速行至远”为主题的第四代英特尔®至强®新品发布会在北京正大中心盛大举行。会上,云网产品事业部总经理杨鑫发表了题为《创新驱动天翼云展翅高飞》的演讲。天翼云基于英特尔至强SapphireRapids铂金系列可扩展处理器推出新一代产
正式发布!《ICPMM行业云平台运营管理能力成熟度》系列标准来了!
近日,由中国信息通信研究院(简称中国信通院)主办的企业上云用云专项行动会在北京举行。在“行业云平台研讨会暨年度成果发布会”专题会议中,中国信通院携手天翼云与业界多家头部机构发布《ICPMM行业云平台运营管理能力成熟度》系列标准以及《行业云平台年度发展指数暨洞察报告(2023)》
殊荣双至,天翼云边缘计算再获两项大奖!
近日,全球边缘计算大会·北京站在新世界大酒店成功召开。大会公布了“2023金边奖”评选结果,天翼云斩获“最佳智能边缘云服务商”“最佳边缘安全加速平台”两项大奖。天翼云边缘计算产品专家熊瑶、天翼云边缘安全产品专家杜茜参加会议并分别发表演讲,分享了天翼云边缘计算发展规划与实践。