作者:小森(南京大學(xué) CS碩士在讀)
部門與崗位:Flow - 豆包團隊 - 大模型
一面
自我介紹,問實習(xí)和論文
看你實習(xí)微調(diào)過 Qwen2 ,說說 Qwen2 的模型結(jié)構(gòu)吧,Qwen2 相比 Qwen1 做了哪些改進
為什么現(xiàn)在 Decoder-only 成為大模型的主流架構(gòu),相比于 Encoder-Decoder 的架構(gòu)好在哪里
講一下 RoPE 吧,目前常用的位置編碼還有哪些,RoPE 有什么優(yōu)點(相對位置、外推性……),如何進一步外推
為什么有了 SFT 之后還需要 RLHF
PPO 和 DPO 的主要思想是什么,DPO 相比 PPO 的 RLHF 做了哪些改進,除此之外還知道哪些 RL 算法,知道 DeepSeek 的 GRPO 嗎
代碼: 23. 合并 K 個升序鏈表
一面整體來說還是比較基礎(chǔ)的,都是一些八股的知識,沒有考什么自由發(fā)揮的題。不過力扣還是難的,出了一道 hard
二面
自我介紹,選一個做的好的實習(xí)或者論文講一下,這里問的比較細,動機是什么,為什么用當前的方案
了解 KV cache 嗎, GQA 的思想是什么
講一下 FlashAttention 的思想和做法
除了剛剛說到的這些,還了解過哪些模型訓(xùn)練推理優(yōu)化的方法( DeepSpeed ,數(shù)據(jù)并行,張量并行,流水線并行……
開放題:如果要提升大模型的多輪對話能力,你有哪些可以改進的點
代碼:剛剛提到了 GQA,寫一下 GQA 吧
二面更偏底層優(yōu)化,沒有過多的問一些大模型結(jié)構(gòu)方面的東西,應(yīng)該是考慮到一面都問過了。整體的考察比較靈活一些
三面
自我介紹,過實習(xí)和論文,這里面試官會穿插問一些八股的知識,比如了解 Qwen 的結(jié)構(gòu)嗎,微調(diào)的數(shù)據(jù)配比是怎樣的
大模型的災(zāi)難性遺忘問題怎么解決
了解 RAG 嗎,GraphRAG 的做法
場景題:目前有一些專業(yè)領(lǐng)域知識,比如醫(yī)療知識或者法律條文,準備做一個智能助手,要讓你搭建一個 RAG 鏈路,會怎么做
開放題:用過豆包嗎,覺得目前豆包還存在什么問題
代碼: 416. 分割等和子集
三面一些八股還是問的比較常規(guī)的,但是自由發(fā)揮的題目有點多,感覺有點難答,不過好在面試官會進行啟發(fā),拋出一些小問題來引導(dǎo)回答
總結(jié)
整體來說面試還是有一些難度的,還是要好好準備
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.