網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

大模型面經(jīng)—字節(jié)跳動

2025-03-28 12:20:04　來源: 人工智能研究

貴州舉報

分享至

作者：小森（南京大學(xué) CS碩士在讀）

部門與崗位：Flow - 豆包團隊 - 大模型

一面

自我介紹，問實習(xí)和論文
看你實習(xí)微調(diào)過 Qwen2 ，說說 Qwen2 的模型結(jié)構(gòu)吧，Qwen2 相比 Qwen1 做了哪些改進
為什么現(xiàn)在 Decoder-only 成為大模型的主流架構(gòu)，相比于 Encoder-Decoder 的架構(gòu)好在哪里
講一下 RoPE 吧，目前常用的位置編碼還有哪些，RoPE 有什么優(yōu)點（相對位置、外推性……），如何進一步外推
為什么有了 SFT 之后還需要 RLHF
PPO 和 DPO 的主要思想是什么，DPO 相比 PPO 的 RLHF 做了哪些改進，除此之外還知道哪些 RL 算法，知道 DeepSeek 的 GRPO 嗎
代碼： 23. 合并 K 個升序鏈表

一面整體來說還是比較基礎(chǔ)的，都是一些八股的知識，沒有考什么自由發(fā)揮的題。不過力扣還是難的，出了一道 hard

二面

自我介紹，選一個做的好的實習(xí)或者論文講一下，這里問的比較細，動機是什么，為什么用當前的方案
了解 KV cache 嗎， GQA 的思想是什么
講一下 FlashAttention 的思想和做法
除了剛剛說到的這些，還了解過哪些模型訓(xùn)練推理優(yōu)化的方法（ DeepSpeed ，數(shù)據(jù)并行，張量并行，流水線并行……
開放題：如果要提升大模型的多輪對話能力，你有哪些可以改進的點
代碼：剛剛提到了 GQA，寫一下 GQA 吧

二面更偏底層優(yōu)化，沒有過多的問一些大模型結(jié)構(gòu)方面的東西，應(yīng)該是考慮到一面都問過了。整體的考察比較靈活一些

三面

自我介紹，過實習(xí)和論文，這里面試官會穿插問一些八股的知識，比如了解 Qwen 的結(jié)構(gòu)嗎，微調(diào)的數(shù)據(jù)配比是怎樣的
大模型的災(zāi)難性遺忘問題怎么解決
了解 RAG 嗎，GraphRAG 的做法
場景題：目前有一些專業(yè)領(lǐng)域知識，比如醫(yī)療知識或者法律條文，準備做一個智能助手，要讓你搭建一個 RAG 鏈路，會怎么做
開放題：用過豆包嗎，覺得目前豆包還存在什么問題
代碼： 416. 分割等和子集

三面一些八股還是問的比較常規(guī)的，但是自由發(fā)揮的題目有點多，感覺有點難答，不過好在面試官會進行啟發(fā)，拋出一些小問題來引導(dǎo)回答

總結(jié)

整體來說面試還是有一些難度的，還是要好好準備

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.