数据域
- 谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途 https://36kr.com/p/2601576810183553
- 再看大模型预训数据质量如何评估:困惑度、错误L2范数和记忆化三种度量方法的效果对比分析研究 https://hub.baai.ac.cn/view/31238
- LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程 https://juejin.cn/post/7259385807550087226
- 智源社区 https://hub.baai.ac.cn/?tag_id=90
- The Life Cycle of Knowledge in Big Language Models: A Survey https://arxiv.org/pdf/2303.07616.pdf
- 大模型算法知乎论文 https://www.zhihu.com/people/jmxgodlz
- 张俊林NLP工作站系列文章 https://mp.weixin.qq.com/s/oMZSL_vEAfsHQG1j7lGoGg
- 大模型分布式训练 https://www.changping.me/2022/04/17/ai-distributed-training-framework-1/
- AI学习路径 https://datawhaler.feishu.cn/wiki/X9AVwtmvyi87bIkYpi2cNGlIn3v?table=tblWRQCuCqZHYFAM&view=vewWmbBtsn
- 数据处理pipeline https://www.jazzyear.com/article_info.html?id=1100
多模态
- 16篇多模态融合(Multimodal Fusion)优质论文,含2023最新 https://zhuanlan.zhihu.com/p/669017569
- 多模态融合 https://hub.baai.ac.cn/view/36050
- 大语言模型提示工程综述:技巧与应用领域
https://baoyu.io/translations/ai-paper/2402.07927-a-systematic-survey-of-prompt-engineering-in-large-language-models-techniques-and-applications