此项目创建的初衷是为了帮助人工智能、自然语言处理和大语言模型相关背景的同学找工作使用。项目将汇总并整理各类与自然语言处理(NLP)和大模型相关的面试题目(八股、知识点),包括但不限于以下内容:
- 机器学习基础
- 深度学习基础
- 自然语言处理基础
- Transformer、Bert、GPT系列模型
- 大模型架构与大模型预训练
- 大模型微调
- 大模型训练与推理加速
- 检索增强生成
- 大模型评测
- 大模型agent
- pytorch基础
- 其他问题
欢迎大家加入项目的建设和维护,共同完善和丰富题库内容。 目前主要针对文本模态,也欢迎多模态方向的同学加入。 答案来源于外部链接,如有侵权请联系删除,如有链接不可用请及时指出。
- 机器学习基础
- 深度学习基础
- 自然语言处理基础
- Transformer、Bert、GPT系列模型
- 大模型架构与大模型预训练
- 大模型微调
- 大模型训练与推理加速
- 大模型幻觉
- 大模型评测
- 大模型应用与大模型agent
- 其他问题
- pytorch基础
- 贡献指南
- 梯度裁剪目的、原理、示例代码
- 样本不均衡问题的解决
- 机器学习正则化
- 如何解决测试集和训练集分布差异问题
- 机器学习的分类(有监督无监督)
- 逻辑回归损失函数为什么用交叉熵不用MSE?
- 小样本学习
- 交叉熵损失的推导方式
- 集成学习
- 拒绝采样
- 查全率、查准率等指标的区别
- 模型显存占用分析
- weight_decay
- mse损失函数和cross entropy的区别
- 输入token太长了怎么办
- 怎么从0搭建一个深度学习模型
- 模型并行训练
- 大模型训练显存不够一般怎么解决
- gpu对深度学习的作用
- 学习率 warmup
- 数据清洗策略
- DP和DDP的区别
- 不同优化器的区别
- Tokenizer详解Tokenizer-huggingface实战
- TF_IDF
- Bi-LSTM
- RMSNorm
- 独热编码和embedding的区别
- word2vec
- CNN处理文本
- bpe分词
- 不同的采样方法
- NLP分词算法(总结篇)
- 如何缓解LLM复读机问题?
- 对强化学习在LLM中的理解
- 大模型量化
- 大模型分布式训练
- 如何获得高质量的训练数据
- 大语言模型模型对齐的方法
- flash attention
- group query attention
- page attention
- 模型训练速度受哪些方面影响
- 偏好对齐的理解,有哪些方式
- 什么是scale law
- 大模型训练过程学习率一般如何变化的
- 预训练退火
- 百川
- 千问
- 羊驼
- 大模型的温度系数
- 大模型上下文窗口
- 如何处理更长的文本
- prefix decoder和causal decoder的区别
- 大模型涌现能力
- 大模型若干参数的解析
- 大模型的性能和哪些因素有关
- 稀疏注意力机制
- 大模型提示学习
- 模型压缩与模型蒸馏
- 注:可能会在面试过程中考察手撕代码,包括但不限于基本训练代码(MLP+梯度更新)、normalization、经典模型的forward、损失函数
欢迎大家通过提交Issue或Pull Request来贡献题目和答案。在贡献之前,请确保您遵循以下指南:
- 确保提交的题目和答案清晰明了,并且经过验证。
- 在提交Pull Request之前,请检查是否有重复的题目。
- 请遵循Markdown格式,并保持项目的一致性。