6. GPU 硬件加速
Quick search
code
Show Source
课程 GitHub English
机器学习编译
Table Of Contents
  • 1. 概述
  • 2. 张量程序抽象
    • 2.1. 元张量函数
    • 2.2. 张量程序抽象
    • 2.3. 总结
    • 2.4. TensorIR: 张量程序抽象案例研究
    • 2.5. TensorIR 练习
  • 3. 端到端模型执行
  • 4. 自动程序优化
  • 5. 与机器学习框架的整合
  • 6. GPU 硬件加速
    • 6.1. 第一部分
    • 6.2. 第二部分
  • 7. 计算图优化
机器学习编译
Table Of Contents
  • 1. 概述
  • 2. 张量程序抽象
    • 2.1. 元张量函数
    • 2.2. 张量程序抽象
    • 2.3. 总结
    • 2.4. TensorIR: 张量程序抽象案例研究
    • 2.5. TensorIR 练习
  • 3. 端到端模型执行
  • 4. 自动程序优化
  • 5. 与机器学习框架的整合
  • 6. GPU 硬件加速
    • 6.1. 第一部分
    • 6.2. 第二部分
  • 7. 计算图优化

6. GPU 硬件加速¶

  • 6.1. 第一部分
    • 6.1.1. 安装环境
    • 6.1.2. 准备工作
    • 6.1.3. GPU 体系结构
    • 6.1.4. 示例:窗口求和
    • 6.1.5. 矩阵乘法
    • 6.1.6. 共享内存分块 (Shared Memory Blocking)
    • 6.1.7. 利用自动程序优化
    • 6.1.8. 小结
  • 6.2. 第二部分
    • 6.2.1. 准备工作
    • 6.2.2. 硬件专业化趋势
    • 6.2.3. 张量化
    • 6.2.4. 讨论
    • 6.2.5. 小结
Previous
5. 与机器学习框架的整合
Next
6.1. 第一部分