小红书面经


【26届实习】深度学习推理/训练引擎研发工程师 一面

2024.9.27 约1h10min 一面挂

1、简历内容拷问

(1)美团实习经历

  • flash Attention这块主要做了什么?
  • 为什么要传最右可见下标,我理解kernel实现时传入完整Attention mask矩阵计算也是差不多的呀,mask矩阵跟输入比起来小很多?
  • 推理框架里sd、flux、qwen2-vl等模型都是你自己接的?
  • 对这些模型有没有做加速?
  • tensorrt应该不是针对大模型进行加速优化的吧?
  • vllm和tensorrt-llm的核心点是什么?
  • page attention主要解决了什么问题?(显存浪费角度回答)
  • 为什么小模型时代没有page Attention这种方法,能不能有?(主要是大模型输出变长)
  • megatron中的并行方式有了解吗?
  • 你了解的序列并行是怎么实现的?
  • 张量并行是对于Attention和MLP中的矩阵乘法是怎么实现的?
  • 为什么第一个矩阵乘法算完之后不需要进行通信?

(2)基于FFT进行卷积加速的并行算法实现 项目

  • 这个项目里主要用了什么优化方法?
  • cuda fft项目与cufft有对比过吗,效果如何?
  • 为什么在被卷序列长度很大时会好于cuFFT,问题的核心是什么?
  • 写过cuda,了解cutlass和triton吗?
  • shared memory使用时需要注意什么?(bank conflict)
  • bank conflict有什么解决办法?

2、代码考核

用c++写一个模版类,实现三维数组按照指定维度转置


文章作者: leven
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 leven !
评论
  目录