【26届实习】深度学习推理/训练引擎研发工程师 一面
2024.9.27 约1h10min 一面挂
1、简历内容拷问
(1)美团实习经历
- flash Attention这块主要做了什么?
- 为什么要传最右可见下标,我理解kernel实现时传入完整Attention mask矩阵计算也是差不多的呀,mask矩阵跟输入比起来小很多?
- 推理框架里sd、flux、qwen2-vl等模型都是你自己接的?
- 对这些模型有没有做加速?
- tensorrt应该不是针对大模型进行加速优化的吧?
- vllm和tensorrt-llm的核心点是什么?
- page attention主要解决了什么问题?(显存浪费角度回答)
- 为什么小模型时代没有page Attention这种方法,能不能有?(主要是大模型输出变长)
- megatron中的并行方式有了解吗?
- 你了解的序列并行是怎么实现的?
- 张量并行是对于Attention和MLP中的矩阵乘法是怎么实现的?
- 为什么第一个矩阵乘法算完之后不需要进行通信?
(2)基于FFT进行卷积加速的并行算法实现 项目
- 这个项目里主要用了什么优化方法?
- cuda fft项目与cufft有对比过吗,效果如何?
- 为什么在被卷序列长度很大时会好于cuFFT,问题的核心是什么?
- 写过cuda,了解cutlass和triton吗?
- shared memory使用时需要注意什么?(bank conflict)
- bank conflict有什么解决办法?
2、代码考核
用c++写一个模版类,实现三维数组按照指定维度转置