6.
GPU 硬件加速
search
Quick search
code
Show Source
课程
GitHub
English
Table Of Contents
1. 概述
2. 张量程序抽象
2.1. 元张量函数
2.2. 张量程序抽象
2.3. 总结
2.4. TensorIR: 张量程序抽象案例研究
2.5. TensorIR 练习
3. 端到端模型执行
4. 自动程序优化
5. 与机器学习框架的整合
6. GPU 硬件加速
6.1. 第一部分
6.2. 第二部分
7. 计算图优化
Table Of Contents
1. 概述
2. 张量程序抽象
2.1. 元张量函数
2.2. 张量程序抽象
2.3. 总结
2.4. TensorIR: 张量程序抽象案例研究
2.5. TensorIR 练习
3. 端到端模型执行
4. 自动程序优化
5. 与机器学习框架的整合
6. GPU 硬件加速
6.1. 第一部分
6.2. 第二部分
7. 计算图优化
6.
GPU 硬件加速
¶
6.1. 第一部分
6.1.1. 安装环境
6.1.2. 准备工作
6.1.3. GPU 体系结构
6.1.4. 示例:窗口求和
6.1.5. 矩阵乘法
6.1.6. 共享内存分块 (Shared Memory Blocking)
6.1.7. 利用自动程序优化
6.1.8. 小结
6.2. 第二部分
6.2.1. 准备工作
6.2.2. 硬件专业化趋势
6.2.3. 张量化
6.2.4. 讨论
6.2.5. 小结
Previous
5. 与机器学习框架的整合
Next
6.1. 第一部分