你的位置:时光整形 > 科技创新 >

科技创新

你的位置:时光整形 > 科技创新 > 科技云报道:云原生是大模型“降本增效”的解药吗?

科技云报道:云原生是大模型“降本增效”的解药吗?

时间:2024-04-16 02:55 点击:188 次
<img data-reference="image" src="https://img-s-msn-com.akamaized.net/tenant/amp/entityid/BB1lvAT3" /><p class="ql-align-justify"><span>科技云报道原创。</span></p><p class="ql-align-justify"><span>在过去一两年里,以GPT和Diffusion model为代表的大语言模型和生成式AI,将人们对AI的期待推向了一个新高峰,并吸引了千行百业尝试在业务中利用大模型。</span></p><p class="ql-align-justify"><span>国内各家大厂在大模型领域展开了激烈的军备竞赛,如:文心大模型、通义千问、混元大模型、盘古大模型等等,这些超大规模的模型训练参数都在千亿以上,有的甚至超过万亿级。</span></p><p class="ql-align-justify"><span>即便训练一次千亿参数量模型的成本可能就高达数百万美元,但大厂们依然拼尽全力,除此之外也有很多行业企业希望拥有自己的专属大模型。</span></p><p class="ql-align-justify"><span>对于企业来说,要想在大模型的竞争中胜出,就必须充分利用算力,并且构建高效稳定的服务运行环境,这就对IT基础设施能力提出了更高的要求。</span></p><p class="ql-align-justify"><span>而云原生正是比拼的重要一环。云原生技术的自动化部署和管理、弹性伸缩等功能,能够有效提高大模型应用效率并降低成本。</span></p><p class="ql-align-justify"><span>据Gartner预测,2023年70%的AI应用会基于容器和Serverless技术开发。在实际生产中,越来越多的AI业务,比如自动驾驶、NLP等,也正在转向容器化部署。</span></p><p class="ql-align-justify"><span>那么,云原生是如何帮助大模型降本增效,在这个过程中又遇到了哪些挑战?</span></p><p class="ql-align-justify"><strong>云原生成为大模型的标配</strong></p><p class="ql-align-justify"><span>近年来,容器和Kubernetes已经成为越来越多AI应用首选的运行环境和平台。</span></p><p class="ql-align-justify"><span>一方面,Kubernetes帮助用户标准化异构资源和运行时环境、简化运维流程;另一方面,AI这种重度依赖GPU的场景可以利用K8s的弹性优势节省资源成本。</span></p><p class="ql-align-justify"><span>随着大模型浪潮的到来,以云原生环境运行AI应用正在变成一种事实标准。</span></p><ul><li class="ql-align-justify"><strong>弹性伸缩与资源管理</strong></li></ul><p class="ql-align-justify"><span>大模型训练往往需要大量的计算资源,而云原生环境通过容器化和编排工具可以实现资源的弹性调度与自动扩缩容。</span></p><p class="ql-align-justify"><span>这意味着在大模型训练过程中可以迅速获取所需资源,并在任务完成后释放资源,降低闲置成本。</span></p><ul><li class="ql-align-justify"><strong>分布式计算支持</strong></li></ul><p class="ql-align-justify"><span>云原生架构天然支持分布式系统,大模型训练过程中的并行计算需求可以通过云上的分布式集群轻松实现,从而加速模型收敛速度。</span></p><ul><li class="ql-align-justify"><strong>微服务架构与模块化设计</strong></li></ul><p class="ql-align-justify"><span>大模型推理服务可以被分解为多个微服务,比如预处理服务、模型加载服务和后处理服务等,这些服务能够在云原生环境中独立部署、升级和扩展,提高系统的可维护性和迭代效率。</span></p><ul><li class="ql-align-justify"><strong>持续集成/持续部署(CI/CD)</strong></li></ul><p class="ql-align-justify"><span>云原生理念强调快速迭代和自动化运维,借助CI/CD流程,大模型的研发团队能够以更高效的方式构建、测试和部署模型版本,确保模型更新的敏捷性。</span></p><ul><li class="ql-align-justify"><strong>存储与数据处理</strong></li></ul><p class="ql-align-justify"><span>云原生提供了多种数据持久化和临时存储解决方案,有助于解决大模型所需的大量数据读取和写入问题。</span></p><p class="ql-align-justify"><span>同时,利用云上大数据处理和流式计算能力可以对大规模数据进行有效预处理和后处理。</span></p><ul><li class="ql-align-justify"><strong>可观测性和故障恢复</strong></li></ul><p class="ql-align-justify"><span>在云原生环境下,监控、日志和追踪功能完善,使得大模型服务的状态更加透明,遇到问题时能更快地定位和修复,保证服务高可用性。</span></p><p class="ql-align-justify"><span>总体而言,云原生架构的诸多优势契合了大模型在计算密集、数据驱动、迭代频繁等方面的需求,能够为大模型带来成本、性能、效率等多方面的价值,因而成为大模型发展的标配。</span></p><p class="ql-align-justify"><strong>大模型对云原生能力提出新挑战</strong></p><p class="ql-align-justify"><span>尽管云原生对于大模型有着天然的优势,但是面对LLM、AIGC这样的新领域,依然对云原生能力提出了更多挑战。</span></p><p class="ql-align-justify"><span>在训练阶段,大模型对计算、存储、网络等基础架构的要求都更高。</span></p><p class="ql-align-justify"><span>规模上,要训练出具有广泛知识和专业领域理解及推理能力的大语言模型,往往需要高达万卡级别的GPU集群和PB级的数据存储以及TB级的数据吞吐。</span></p><p class="ql-align-justify"><span>此外,高性能网络也将达到单机800Gbps甚至3.2Tbps的RDMA互联。</span></p><p class="ql-align-justify"><span>性能方面,随着模型体积和参数量的增长,单张显卡已无法承载完整的模型。因此需要使用多张显卡进行分布式训练,并采用各种混合并行策略进行加速。</span></p><p class="ql-align-justify"><span>这些策略包括数据并行、模型并行、流水线并行以及针对语言模型的序列并行等,以及各种复杂的组合策略。</span></p><p class="ql-align-justify"><span>在推理阶段,大模型需要提供高效且稳定的推理服务,这需要不断优化其性能,并确保服务质量(QoS)得到保证。</span></p><p class="ql-align-justify"><span>在此基础上,最重要的目标是提高资源效率和工程效率。一方面,持续提高资源利用效率,并通过弹性扩展资源规模,以应对突发的计算需求。</span></p><p class="ql-align-justify"><span>另一方面,要最优化算法人员的工作效率,和记平台提高模型迭代速度和质量。</span></p><p class="ql-align-justify"><span>由此可见,大模型对云原生技术提出了新的能力要求:</span></p><p class="ql-align-justify"><strong>一是,统一管理异构资源,提升资源利用率。</strong></p><p class="ql-align-justify"><span>从异构资源管理的角度,对IaaS云服务或者IDC内的各种异构计算(如 CPU,GPU,NPU,VPU,FPGA,ASIC)、存储(OSS,NAS, CPFS,HDFS)、网络(TCP, RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。</span></p><p class="ql-align-justify"><span>在运维过程中,需要多维度的异构资源可观测性,包括监控、健康检查、告警、自愈等自动化运维能力。</span></p><p class="ql-align-justify"><span>对于宝贵的计算资源,如GPU和NPU等加速器,需要通过各种调度、隔离和共享的方法,最大限度地提高其利用率。</span></p><p class="ql-align-justify"><span>在此过程中,还需要持续利用云资源的弹性特征,持续提高资源的交付和使用效率。</span></p><p class="ql-align-justify"><strong>二是,通过统一工作流和调度,实现 AI、大数据等多类复杂任务的高效管理。</strong></p><p class="ql-align-justify"><span>对于大规模分布式AI任务,需要提供丰富的任务调度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、优先级队列等,并使用工作流或数据流的方式串联起整个任务流水线。</span></p><p class="ql-align-justify"><span>同时,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,Flink等各种计算引擎和运行时,统一运行各类异构工作负载流程,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。</span></p><p class="ql-align-justify"><span>一方面不断提升运行任务的性价比,另一方面持续改善开发运维体验和工程效率。</span></p><p class="ql-align-justify"><span>此外,在计算框架与算法层面适配资源弹性能力,提供弹性训练和弹性推理服务,优化任务整体运行成本。</span></p><p class="ql-align-justify"><span>除了计算任务优化,还应关注数据使用效率的优化。为此,需要统一的数据集管理、模型管理和访问性能优化等功能,并通过标准API和开放式架构使其易于被业务应用程序集成。</span></p><p class="ql-align-justify"><span>对于大模型还有一个主要能力,就是能够在分钟级内准备好开发环境和集群测试环境,帮助算法工程师开始执行深度学习任务。</span></p><p class="ql-align-justify"><span>把端到端的 AI 生产过程通过相同的编程模型、运维方式进行交付。</span></p><p class="ql-align-justify"><strong>结语</strong></p><p class="ql-align-justify"><span>随着大模型等AI技术的不断发展,云原生技术将面临一些新的挑战和需求。例如,如何快速适应新的开源大模型训练方法,以及如何提高大模型推理性能并确保其质量和稳定性。</span></p><p class="ql-align-justify"><span>同时,也需要关注一些前沿技术和创新能力,通过标准化和可编程的方式来集成,不断迭代业务应用,形成 AI+ 或 LLM+ 的新应用开发模式和编程模型。</span></p><p class="ql-align-justify"><span>但无论技术如何发展,为大模型提供快速、准确、稳定且成本可控的服务,保证大模型训练和推理的成本、性能和效率,都将成为企业为其价值买单的根本。</span></p><p class="ql-align-justify"><span>【关于科技云报道】</span></p><p class="ql-align-justify"><span>专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。</span></p>•

人民网北京4月26日电 (记者王连香)记者从中国铁路国际有限公司获悉,塞尔维亚当地时间4月25日14时30分(北京时间4月25日20时30分),在匈塞铁路塞尔维亚境内和记平台诺维萨德至苏博蒂察至匈塞两国边境(以下简称匈塞铁路诺苏段)的巴奇卡托波拉站施工现场,随着最后一组钢轨顺利铺设,匈塞铁路诺苏段实现铺轨贯通。 匈塞铁路塞尔维亚境内。中国铁路国际有限公司供图 同日,在诺维萨德至维尔巴斯间开展的线路动态测试中,实现了检测列车按时速200公里运行的目标,各项性能指标表现良好,新建线路顺利通过了欧洲
四月的花,争相斗艳,位于山东烟台的长岛综试区春和景明,盛产浪漫。岛上的春花盛开,如花在野,温柔热烈,山海之间温柔又明朗。(记者 王天乐) 而在几年的高考当中,清华大学的入学情况更是成为了很多人在意的话题,像武亦姝、杨晨煜等等的风云人物也加入了这所学校。在今年的新生开学当中,全校总共是迎来了3800多名本科学子,其中也包括了是有来自港澳台和国际上的400多人,这样的一个比例也足以能够看到这所大学的魅力所在,可其中还有一个比较令人关注的数据,那就是男女比例关系。 •
据了解,该机售价可能维持999美元不变。 网科技讯 4月16日和记平台,LeaksApplePro发布推文表示和记平台,苹果今年iPhone 16 Pro起步存储为256GB。 据了解,该机售价可能维持999美元(国内起售价为7999元)不变。 据悉和记平台,苹果iPhone 15 Pro机型起步存储为128GB,iPhone 15 Pro Max的起步存储为256GB,而今年推出的iPhone 16 Pro将拉到同一水平线上,均从256GB起步。据了解,此举能够进一步统一苹果iPhone Pr
p快科技4月19日消息,今日晚间,spanstrong极氪009光辉版上市,售价78.9万元,/strong/span新车只提供一款专属车身和内饰配色。/pp对于增购009光辉版的极氪老车主,极氪送出了5万元的增购优惠权益;同时,极氪ZAD高阶智能驾驶系统终身免费使用、首任车主终身享受安心护航计划。/pp align="center"img data-reference="image" src="https://img-s-msn-com.akamaized.net/tenant/amp/en
与2023年同期相比和记平台,由于当时市场面临通胀压力、需求疲软、库存等问题,出货量较低,因此今年的增长表现尤为突出。 因为进入2024年,随着厂商库存状况的改善,渠道能够承接本季度推出的多款新品,这为智能手机市场的增长提供了有力支撑。 不过除了国内手机市场的竞争很激烈之外,海外手机市场的竞争也是非常的夸张,尤其是印度手机市场。 近日,市场调查机构Canalys发布了一份关于2024年第一季度印度智能手机市场的报告,市场竞争可谓是非常的残酷。 数据显示,印度手机市场出货量达到了3530万部,同
人民网北京4月16日电 (记者赵竹青)4月15日,长征二号丁运载火箭在酒泉发射中心点火升空,成功将四维高景三号01星送入预定轨道,发射任务取得圆满成功。同日,由中国电子科技集团(简称中国电科)自主研发的四维宽幅焦面电子学组件成功开机并传回首批影像,图像清晰、层次丰富、色彩准确。 当中年男人的压力日渐变大和记平台,生活作息不规律时,身体会每况愈下,容易生病,做事情时体力也会跟不上。 据介绍,四维宽幅焦面电子学组件是我国首次投入应用的九谱段TDICCD(时间延迟积分电荷耦合器件)产品,具有高传函、
AMD MI350的具体内存容量不详,但肯定不会少于192GB。 快科技4月11日消息和记官网,集邦咨询的分析报告指出,AMD计划在今年底推出升级版的HPC/AI GPU加速器“Instinct MI350”,重点升级制造工艺和高带宽内存,竞争NVIDIA B200系列。 AMD现有的Instinct MI300A、MI300X基于CDNA3架构,采用的是台积电5nm、5/6nm工艺,分别配备128GB、192GB HBM3E内存。 接下来的Instinct MI350,应该会继续基于CDNA3
pimg data-reference="image" src="https://img-s-msn-com.akamaized.net/tenant/amp/entityid/BB1lwid6"/pp美的旗下具有先进技术的机器人产品(图片来源:钛媒体App编辑拍摄)/pp过去5年研发投入近600亿元之后,国内家电龙头持续发力科技创新。/pp钛媒体App 4月12日消息,美的集团旗下研究机构“美的集团中央研究院”在10周年活动上披露,美的集团已对其累计投入超过24亿,目前在全球拥有超过500名


时光整形

回到顶部
服务热线
官方网站:www.cqsgzx.com.cn
工作时间:周一至周六(09:00-18:00)
联系我们
QQ: 3f85b5f2dbf
邮箱: 3f85b5f2dbf@qq.com
关注公众号

Powered by 时光整形 RSS地图 HTML地图

Copy My-Web © 2013-2023 版权所有:真心相伴,不离不弃,爱心支持,一路相随,!
时光整形