《大模型时代的基础架构:大模型算力中心建设指南》方天戟

如何自学 占星术 占星教程网盘 塔罗牌教程百度网盘

《大模型时代的基础架构:大模型算力中心建设指南》方天戟【文字版_PDF电子书_】

《大模型时代的基础架构:大模型算力中心建设指南》方天戟

书名:大模型时代的基础架构:大模型算力中心建设指南
作者:方天戟
出版社:电子工业出版社
译者:
出版日期:2024-7
页数:240
ISBN:9787121481239
5.6
豆瓣评分
孔网购买全网资源sm.nayona.cn

内容简介:

大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。

《大模型时代的基础架构:大模型算力中心建设指南》总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。

无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。

作者简介:

方天戟

腾讯专有云首席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬件开发、内核与驱动开发、协议栈开发、网络与云计算解决方案设计等工作,曾在华为、新华三、Juniper等企业任职,为航天科技、中国建筑、BMW及环球影城等国内外知名客户设计且落地过云计算与网络解决方案。“云鉴”丛书编写组核心成员。

微信公众号:帅云霓的技术小屋

目  录:

第1章 AI与大模型时代对基础架构的需求

1.1 我们在谈论AI时,到底在谈论什么

1.2 机器学习算法初窥

1.3 一元线性回归算法剖析

1.4 机器学习算法对计算机硬件的特殊需求

1.4.1 机器学习算法的核心运算特征

1.4.2 使用CPU实现机器学习算法和并行加速

1.4.3 机器学习算法的主力引擎——GPU

1.4.4 机器学习算法的新引擎——TPU和NPU

1.5 本章小结

第2章 软件程序与专用硬件的结合

2.1 GPU并行运算库

2.2 机器学习程序的开发框架

2.3 分布式AI训练

2.4 本章小结

第3章 GPU硬件架构剖析

3.1 GPU的总体设计

3.2 Nvidia GH100芯片架构剖析

3.3 其他Hopper架构的GPU

3.4 本章小结

第4章 GPU服务器的设计与实现

4.1 初识Nvidia DGX

4.2 Nvidia DGX A100的总体设计

4.3 Nvidia DGX A100 CPU与内存子系统的设计

4.4 Nvidia DGX A100 PCI-E子系统的设计

4.5 Nvidia DGX A100 NVLink子系统的设计

4.6 其他辅助子系统的设计

4.7 本章小结

第5章 机器学习所依托的I/O框架体系

5.1 Magnum IO的需求来源

5.2 Magnum IO的核心组件

5.3 服务器内部的GPU互通

5.4 跨服务器节点的GPU通信

5.5 RDMA的两种实现

5.6 GPU对存储的访问

5.7 Magnum IO所依赖的其他支撑技术

5.7.1 DPDK( Data Plane Development Kit,数据平面开发套件)

5.7.2 DPU(Data Processing Unit,数据处理器)

5.7.3 MPI Tag Matching

5.8 本章小结

第6章 GPU集群的网络设计与实现

6.1 GPU集群中RoCE计算网络的设计与实现

6.2 GPU集群中存储与业务网络的设计与实现

6.3 GPU集群中带外管理监控网络的设计与实现

6.4 GPU集群中网络边界的设计与实现

6.5 本章小结

第7章 GPU板卡级算力调度技术

7.1 基于虚拟化技术的GPU调度

7.2 基于容器技术的GPU调度

7.3 本章小结

第8章 GPU虚拟化调度方案

8.1 Nvidia的GPU虚拟化调度方案

8.1.1 API Remoting与vCUDA

8.1.2 GRID vGPU

8.1.3 Nvidia MIG

8.2 其他硬件厂商的GPU虚拟化调度方案

8.2.1 AMD的SRIOV方案

8.2.2 Intel的GVT-G方案

8.3 云厂商与开源社区基于容器的GPU虚拟化调度方案

8.3.1 TKE vCUDA+GPU Manager

8.3.2 阿里云的cGPU

8.3.3 腾讯云的qGPU

8.4 本章小结

第9章 GPU集群的网络虚拟化设计与实现

9.1 基于SDN的VPC技术:网络虚拟化技术的基石

9.2 云负载均衡:机器学习网络的中流砥柱

9.3 专线接入、对等连接与VPC网关

9.4 SDN NFV网关的实现与部署

9.4.1 基于virtio-net/vhost的虚拟机部署NFV

9.4.2 基于SRIOV的虚拟机部署NFV

9.4.3 使用DPDK技术对NFV加速

9.5 本章小结

第10章 GPU集群的存储设计与实现

10.1 程序与系统存储——分布式块存储

10.1.1 块存储的业务需求

10.1.2 集中式块存储与分布式块存储

10.1.3 分布式块存储的故障恢复

10.1.4 分布式块存储的性能优化

10.1.5 分布式块存储的快照与回滚

10.2 海量非结构化数据存储——分布式对象存储

10.2.1 入门级对象存储的首选:Ceph

10.2.2 开源海量对象存储:Swift

10.2.3 商业化对象存储:大型公有云对象存储私有化

10.2.4 未来之星:Minio

10.3 AI训练素材存储——分布式并发高性能存储

10.3.1 开源大数据存储鼻祖:HDFS

10.3.2 业界对HDFS的改进

10.3.3 长青松柏:Lustre

10.4 本章小结

第11章 机器学习应用开发与运行平台的设计与实现

11.1 微服务平台

11.1.1 Kubernetes:微服务基础能力平台

11.1.2 Spring Cloud:Java系专属微服务平台

11.1.3 Istio:不挑开发语言,只挑部署架构

11.1.4 商业化微服务平台:兼顾各类需求的选择

11.2 中间件服务

11.2.1 消息中间件

11.2.2 缓存中间件

11.2.3 数据库(数据中间件)

11.3 应用日志服务

11.4 本章小结

第12章 基于云平台的GPU集群的管理与运营

12.1 云运维平台

12.1.1 硬件基础设施管理

12.1.2 系统监控与告警平台

12.1.3 CMDB

12.2 云运营平台

12.3 云审计平台

12.4 本章小结

第13章 服务机器学习的GPU计算平台落地案例

13.1 需求来源:自动驾驶模型训练

13.2 总体设计——基于云原生的高性能计算

13.3 计算需求分析与设计实现

13.4 存储需求分析与设计实现

13.5 网络需求分析与设计实现

13.6 本章小结

后记

浏览器不支持脚本!

摘要:在大模型迅猛发展的时代背景下,算力已经成为推动人工智能技术演进的核心资源。《大模型时代的基础架构:大模型算力中心建设指南》一书,由方天戟系统梳理了大模型算力中心从理念到落地的完整路径。文章围绕该书的核心思想,对大模型算力中心建设的时代背景、技术架构、工程实践以及未来趋势进行了全面解读。通过对算力需求爆发、基础设施重构、软硬协同优化和产业生态构建等关键问题的深入分析,本文力图呈现一幅清晰的大模型算力中心发展蓝图。文章不仅关注技术层面的创新,也强调管理模式、运营体系和可持续发展的重要性,为政府、企业及科研机构理解和建设新一代算力基础设施提供了系统性的参考和启示。

1、大模型时代背景

《大模型时代的基础架构:大模型算力中心建设指南》首先从时代背景入手,指出大模型已经成为人工智能发展的关键驱动力。随着参数规模不断扩大,模型训练和推理对算力的需求呈指数级增长,传统数据中心模式已难以支撑。

方天戟在书中强调,大模型不仅改变了算法范式,也倒逼底层基础设施进行系统性重构。算力中心不再只是简单的服务器堆叠,而是承载算法创新和产业升级的核心平台。

在这一背景下,算力中心的战略价值被提升到前所未有的高度。它既是国家数字经济竞争力的重要体现,也是企业实现智能化转型的关键支点。

2、算力中心架构设计

在架构设计层面,书中提出了面向大模型的算力中心应具备高密度、高带宽和高可靠性的特点。通过先进的芯片选型和异构计算架构,最大化释放算力潜能。

网络架构是算力中心设计的另一重点。方天戟详细分析了高速互联技术在大模型训练中的关键作用,指出低延迟、高吞吐的网络是提升整体效率的决定性因素。

同时,存储系统的设计也被纳入整体架构考量。针对海量数据读写需求,书中强调分布式存储与高速缓存协同的重要性,以保障模型训练的连续性和稳定性。

3、工程建设与运营

在工程建设方面,《大模型时代的基础架构:大模型算力中心建设指南》提出算力中心建设应遵循模块化、标准化原则,以提升建设效率并降低整体成本。

运维管理是算力中心长期价值实现的关键。方天戟指出,应通过智能运维系统,实现对算力资源、能耗和运行状态的实时监控与动态调度。

此外,绿色低碳理念贯穿于算力中心运营全过程。通过液冷技术、能源优化和智能调度,算力中心可以在满足高性能需求的同时,实现可持续发展目标。

4、未来趋势与生态

展望未来,书中认为算力中心将向平台化和服务化方向演进。算力不再是静态资源,而是以服务形式灵活供给,支持多场景应用。

产业生态的构建同样至关重要。方天戟强调,算力中心的发展离不开芯片厂商、系统集成商、软件开发者和应用企业的协同创新。

在政策与市场的双重驱动下,大模型算力中心有望成为新型基础设施的重要组成部分,为人工智能技术的持续突破提供坚实底座。

总结:

总体来看,《大模型时代的基础架构:大模型算力中心建设指南》系统阐述了大模型时代算力中心建设的理论基础与实践路径。方天戟通过宏观视角与微观细节相结合,全面揭示了算力基础设施在人工智能发展中的核心地位。

该书不仅为算力中心的规划、建设和运营提供了方法论指导,也为理解未来人工智能产业格局提供了重要参考。在大模型持续演进的背景下,其思想和观点具有长期的现实意义。

本文由nayona.cn整理

点击联系需要东西方神秘学学习资料,专业的咨询

只要网页介绍资料,全部都有,还有很多还没来得及更新
每天更新200-300款资料
全网最大最全的神秘学资料平台
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
图片2            

联系我们

图片2

关注公众号

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
雅书雅书
上一篇 2026年1月5日 下午3:00
下一篇 2026年1月5日 下午3:01
易学资料

对占星塔罗感兴趣关注公众号

相关推荐

会员介绍看上网站的私聊