您的位置:  首页 > 技术杂谈 > 正文

做AI框架必懂的知识

2022-02-11 17:00 https://my.oschina.net/u/5283003/blog/5440400 康康OSC 次阅读 条评论

作者:ZOMI酱

文章来源:https://zhuanlan.zhihu.com/p/453979535

近期一直在梳理做AI框架必懂的知识——AI框架系统知识,希望能够给自己从算法的研究,到AI框架的研究的近3年,做一个系列的总结,也会结合ZOMI酱在MindSpore的开发过程当中用到的一些最新的技术进行总结和梳理。

文章会陆续更新,从上层的算法、用户面的表达层、到中间的编译层对神经网络图的优化、最后底层的执行器,当然少不了的有AI加速芯片。可能有时候因为工作原因呐,更新得比较慢,但是未来半年会继续坚持!也希望大家能够关注我,并继续支持ZOMI酱更新哈!

虽然大部分是用MindSpore的整体架构来作为例子进行讲解,但是TensorFlow、Pytroch的基本架构和相关内容都会梳理一下,而且AI框架系统知识目前来看一直在发展,有种殊途同归和互相借鉴的味道,总的来说还是很有意思的一个方向。

MindSpore架构图,基本上目前AI框架的内容大部分会涵盖涉及

 

下面是所涉及到的知识点,其中有链接的是已经写好的内容,努力更新中!!!

2022.2.10更新: ZOMI酱:分布式训练硬核技术——通讯原语
2022.1.27更新: ZOMI酱:模型压缩:剪枝算法
  1. 深度学习的应用能力与发展
    1. 深度学习在视觉中的应用
    2. 深度学习的发展历程
    3. AI框架的发展历程
    4. AI芯片前言解读文章
  2. AI基本流程
    1. ML与DL算法流程文章
    2. AI编程范式
    3. AI一切皆数据
    4. AI中的数据处理
  3. AI框架基本概念
    1. AI框架总体架构介绍
    2. 微分与反向传播算法
    3. 自动微分机制
    4. 图表示神经网络
      1. 张量来表示数据
      2. 静态图与动态图
    5. 图表达会遇到的问题
      1. 计算时遇到的控制流
      2. 串行与并行执行模型
      3. 同步与异步更新梯度
  4. 编译优化阶段
    1. 图优化
      1. 图的优化编译
      2. 图的相关优化——图拆分、图融合
    2. 运算执行
      1. 算子表达、schedule与编译
      2. 算子硬件执行
    3. 内存优化
      1. 梯度累积算法文章
      2. 内存分配与复用
      3. 混合精度训练文章
  5. AI加速硬件
    1. 神经网络处理器概述
    2. AI硬件基本架构
      1. 310、910总体SoC架构
      2. AICore达芬奇架构
    3. 硬件性能评估与优化
    4. 其他常见AI加速硬件
  6. AI推理与部署
    1. 模型压缩——低比特量化文章
    2. 模型压缩——二值化网络文章
    3. 模型压缩——网络剪枝文章
    4. 模型压缩——模型蒸馏
    5. 图优化
      1. 算子融合/替换/重排
    6. 在线部署&离线推理
  7. 大模型分布式训练
    1. 大模型的发展与解决的问题文章
    2. 大模型训练带来的挑战文章
    3. 大模型训练的总体架构文章
    4. 分布式训练硬核技术——通讯原语文章
    5. 分布式训练硬核技术——算法结构
    6. 分布式训练硬核技术——并行策略
    7. 分布式训练硬核技术——内存和计算优化
展开阅读全文
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接