作者:ZOMI酱
文章来源:https://zhuanlan.zhihu.com/p/453979535
近期一直在梳理做AI框架必懂的知识——AI框架系统知识,希望能够给自己从算法的研究,到AI框架的研究的近3年,做一个系列的总结,也会结合ZOMI酱在MindSpore的开发过程当中用到的一些最新的技术进行总结和梳理。
文章会陆续更新,从上层的算法、用户面的表达层、到中间的编译层对神经网络图的优化、最后底层的执行器,当然少不了的有AI加速芯片。可能有时候因为工作原因呐,更新得比较慢,但是未来半年会继续坚持!也希望大家能够关注我,并继续支持ZOMI酱更新哈!
虽然大部分是用MindSpore的整体架构来作为例子进行讲解,但是TensorFlow、Pytroch的基本架构和相关内容都会梳理一下,而且AI框架系统知识目前来看一直在发展,有种殊途同归和互相借鉴的味道,总的来说还是很有意思的一个方向。

MindSpore架构图,基本上目前AI框架的内容大部分会涵盖涉及
下面是所涉及到的知识点,其中有链接的是已经写好的内容,努力更新中!!!
2022.2.10更新:
ZOMI酱:分布式训练硬核技术——通讯原语
2022.1.27更新:
ZOMI酱:模型压缩:剪枝算法
- 深度学习的应用能力与发展
- 深度学习在视觉中的应用
- 深度学习的发展历程
- AI框架的发展历程
- AI芯片前言解读(文章)
- AI基本流程
- ML与DL算法流程(文章)
- AI编程范式
- AI一切皆数据
- AI中的数据处理
- AI框架基本概念
- AI框架总体架构介绍
- 微分与反向传播算法
- 自动微分机制
- 图表示神经网络
- 张量来表示数据
- 静态图与动态图
- 图表达会遇到的问题
- 计算时遇到的控制流
- 串行与并行执行模型
- 同步与异步更新梯度
- 编译优化阶段
- 图优化
- 图的优化编译
- 图的相关优化——图拆分、图融合
- 运算执行
- 算子表达、schedule与编译
- 算子硬件执行
- 内存优化
- 梯度累积算法(文章)
- 内存分配与复用
- 混合精度训练(文章)
- AI加速硬件
- 神经网络处理器概述
- AI硬件基本架构
- 310、910总体SoC架构
- AICore达芬奇架构
- 硬件性能评估与优化
- 其他常见AI加速硬件
- AI推理与部署
- 模型压缩——低比特量化(文章)
- 模型压缩——二值化网络(文章)
- 模型压缩——网络剪枝(文章)
- 模型压缩——模型蒸馏
- 图优化
- 算子融合/替换/重排
- 在线部署&离线推理
- 大模型分布式训练
- 大模型的发展与解决的问题(文章)
- 大模型训练带来的挑战(文章)
- 大模型训练的总体架构(文章)
- 分布式训练硬核技术——通讯原语(文章)
- 分布式训练硬核技术——算法结构
- 分布式训练硬核技术——并行策略
- 分布式训练硬核技术——内存和计算优化
展开阅读全文