小红书面经

面试

面经

发布日期: 2024-12-07

更新日期: 2024-12-07

文章字数: 403

阅读时长: 1 分

【26届实习】深度学习推理/训练引擎研发工程师一面

2024.9.27 约1h10min 一面挂

1、简历内容拷问

（1）美团实习经历

flash Attention这块主要做了什么？
为什么要传最右可见下标，我理解kernel实现时传入完整Attention mask矩阵计算也是差不多的呀，mask矩阵跟输入比起来小很多？
推理框架里sd、flux、qwen2-vl等模型都是你自己接的？
对这些模型有没有做加速？
tensorrt应该不是针对大模型进行加速优化的吧？
vllm和tensorrt-llm的核心点是什么？
page attention主要解决了什么问题？（显存浪费角度回答）
为什么小模型时代没有page Attention这种方法，能不能有？（主要是大模型输出变长）
megatron中的并行方式有了解吗？
你了解的序列并行是怎么实现的？
张量并行是对于Attention和MLP中的矩阵乘法是怎么实现的？
为什么第一个矩阵乘法算完之后不需要进行通信？

（2）基于FFT进行卷积加速的并行算法实现项目

这个项目里主要用了什么优化方法？
cuda fft项目与cufft有对比过吗，效果如何？
为什么在被卷序列长度很大时会好于cuFFT，问题的核心是什么？
写过cuda，了解cutlass和triton吗？
shared memory使用时需要注意什么？（bank conflict）
bank conflict有什么解决办法？

2、代码考核

用c++写一个模版类，实现三维数组按照指定维度转置

leven

https://leven-comeon.github.io/2024/12/07/mian-jing/xiao-hong-shu-mian-jing/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 leven !

面试

评论

上一篇

bilibili面经

2025-09-14 面经

面试

下一篇

美团面经

2024-12-07 面经

面试