作者:小森(阿里巴巴大模型算法工程師)
部門與崗位:阿里集團 - 通義實驗室 - 大語言模型
一面
首先自我介紹和過項目,因為之前在阿里系實習(xí),用過 Qwen 做業(yè)務(wù),面試官就很感興趣,問為什么選 Qwen,Qwen 落地的實際效果怎么樣等等
Qwen 的模型結(jié)構(gòu)是怎么樣的,相比于 LLaMA , DeepSeek 有什么區(qū)別
對于超長上下文業(yè)界一般是怎么做的,你知道 Qwen 是怎么做的嗎
大模型的 MoE 結(jié)構(gòu) 相比于 Dense 結(jié)構(gòu) 訓(xùn)練的難點在什么地方,DeepSeekMoE 為什么效果好,有什么值得我們借鑒創(chuàng)新點
怎么緩解大模型的幻覺問題
講一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,寫一下 PPO 和 DPO 的 Loss 表達式
代碼:Transformer Encoder
代碼: 152. 乘積最大子數(shù)組
一面整體難度我感覺還是比較大的,考察的內(nèi)容更加注重對大模型整體的理解,面的時間也比較久,通義 bar 還是高呀
二面
自我介紹和過項目,項目這里還是類似的,問 Qwen,為什么用 Qwen,相比于其他開源模型好在哪里
除了 Qwen 還了解哪些模型,LLaMA、DeepSeek、GLM……
你覺得 DeepSeek 做的好的有哪幾個點,講講 DeepSeekMoE 和 MLA
說一下 LoRA 是什么原理
了解 DeepSpeed 嗎, ZeRO-1 , ZeRO-2 和 ZeRO-3 分別做了哪些優(yōu)化
知道 FP16 和 BF16 有什么區(qū)別嗎,包括 FP32 和 INT8 這些,在訓(xùn)練大模型的時候,應(yīng)該怎么選擇
除了 DeepSpeed,在訓(xùn)練和推理的時候,顯存不足還有什么優(yōu)化方法嗎, FlashAttention 具體是怎么做的
代碼: 200. 島嶼數(shù)量
二面問的模型結(jié)構(gòu)方面的內(nèi)容比較少,更多的是訓(xùn)練推理優(yōu)化方面的內(nèi)容,更偏底層一些。從 DeepSeek 的動向來看,降低大模型的時間復(fù)雜度和空間復(fù)雜度應(yīng)該也是接下來一段時間的重點
三面
自我介紹,過項目,還是重點問了 Qwen,在過程中還一起討論了當(dāng)前做法的優(yōu)缺點,是否調(diào)研過其他方案等
開放題:站在你的視角,Qwen目前還存在哪些問題
開放題:你覺得目前大模型的上限在哪里
假如給你發(fā)了 Offer,會來嗎
三面還是常規(guī)的大老板面,相對氣氛比較輕松,會更加看重自己對于大模型的思考
總結(jié)
整體面下來感覺難度還是蠻大的,幾乎各個方面都被考察到了,通義目前應(yīng)該算是阿里系 bar 最高的一個部門了吧,之前面達摩院壓力都沒有這么大
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.