[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

编辑部 2026-05-30T11:48:29.101920 25063 阅读综合

原来不是。小米自己的回答是这样：训练数据的来源构成主流大模型的语料主要是： Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）书籍只占一小部分，而且受版权法律限制，不能随意大规模使用 Meta 的 LLaMA 训练数据中...

原来不是。小米自己的回答是这样：

Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）

书籍只占一小部分，而且受版权法律限制，不能随意大规模使用

Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集，但远不是"把整个图书馆都吃进去了"。

图书出版商正在起诉 AI 公司，所以各大厂商在书籍数据上其实越来越谨慎。

热门书籍（如《哈利波特》《三体》）：讨论量大，模型反复见过相关内容，确实能对答如流冷门书籍（如一本 2005 年出版的日本推理小说）：可能只是"见过"甚至"没见过"，复述会出错甚至胡编具体细节：即使是热门书，模型也很容易在页码、引用原文、小配角名字等细节上出错

"这本书的第 3 章主要讲了什么？" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来，要么一本正经地胡说八道。

来源: v2ex查看原文

人工智能以为模型训练语料一个帖子 IT

相关推荐