小森(南京大學 計算機碩士在讀)
部門與崗位:TEG - 混元大模型團隊 - 大模型對齊
一面
自我介紹,過實習,講論文,論文過的比較細,有說的籠統的地方面試官會實時進行詢問交流
了解哪些大模型,簡要挑一兩個介紹一下,當時說了 Qwen 和 DeepSeek,然后面試官又問了這兩個有什么區別
接著上一問,為什么大家都開始探索 MoE 架構,MoE 相比 Dense 有什么好處
在之前實習的時候用 LoRA 微調過 Qwen,于是問了有沒有全量微調過,有沒有對比過兩者的性能表現
講一下大模型訓練和推理的流程,SFT 和 RLHF 的作用分別是什么
在 RLHF 中,目前主流的強化學習算法有哪幾個,寫一下損失函數的表達式
代碼:22. 括號生成
代碼:多頭自注意力
一面問的八股還是比較多的,問的也比較細,而且還寫了兩道代碼題,整個面試花的時間也比較多,大概一個半小時左右
二面
自我介紹,過實習和論文,面試官會一起進行探討,包括工作的動機、貢獻和結果,也會提一些問題和建議
之前實習用 DeepSpeed 微調過 Qwen2-72B,于是面試官問了 ZeRO-1,ZeRO-2,ZeRO-3 三個模式的區別
當時你用 DeepSpeed ZeRO-3 來微調 Qwen2-72B,每一張卡占用的顯存大概是多少,估算一下為什么是占這么多的顯存
除了 DeepSpeed,還用過其他的什么優化方法嗎
我看你也用到了 LoRA,知道 LoRA 的原理嗎,A 和 B 兩個矩陣怎么初始化,有了解過其他的初始化方法嗎
對 RLHF 了解的多嗎
代碼:3. 無重復字符的最長子串
二面更多的是結合具體的工作來問的,從用到的東西來引出問題,問的也比較靈活。當然因為部門主要是做對齊的,所以也大概聊了聊 RLHF
三面
自我介紹,挑一個覺得做的比較好的論文和實習講一下,面試官問的比較詳細,為什么選現在這種方案,為什么 work,其他方案有考慮嗎
在微調 Qwen 的時候,數據是怎么構造的,有用到什么數據清洗方法嗎,數據配比是怎么做的
講一下 RLHF 的流程,之前有用 RLHF 做過模型對齊嗎
在做對齊的時候,為什么 SFT 之后還要做 RLHF,只用 SFT 可以嗎
知道哪些強化學習算法,除了 PPO 和 DPO 這些呢,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改進
開放題:對目前大模型的發展有什么看法
代碼:零錢的兩個題 322. 零錢兌換518. 零錢兌換 II
三面面試官更聚焦于對齊這一塊的內容,考的比較深。由于之前沒有接觸過強化學習,答得還是比較吃力的,不過面試官還挺好的,會一起討論來做引導
四面
自我介紹,過論文和實習,問的也比較細,這里能明顯的感受出來面試官的視角更系統,會把這些工作串起來問
我看你簡歷上沒寫 RLHF,平常有用過 RLHF 嗎
推導一下神經網絡反向傳播的過程
一道排列組合的概率題
開放題:你覺得大模型目前還有哪些可以改進的點
四面整體更看重思維和基礎,沒有考察什么八股
總結
一共四輪技術面,整體來說強度比較大,對于大模型八股的考察比較細,對大模型的理解問的也比較深刻,包括一些數理邏輯基礎,考察的比較全面
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.