LLM Course documentation
本章简介
0. 安装
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微调一个预训练模型
4. 分享你的模型和标记器
5. 🤗 Datasets库
6. 🤗 Tokenizers库
本章简介根据已有的tokenizer训练新的tokenizer快速标记器的特殊能力QA 管道中的快速标记器标准化和预标记化字节对编码标记化WordPiece 标记化Unigram标记化逐块地构建标记器标记器,回顾!章末小测验
7. 主要的 NLP 任务
8. 如何寻求帮助
9. 构建并分享你的模型
课程活动
本章简介
在 第三章 中,我们研究了如何在特定任务上微调模型。当我们需要微调模型时,我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ?使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如,在英语语料库上训练的 tokenizer 在日语文本语料库上效果会大打折扣,因为两种语言在空格和标点的使用上有着显著的差异。
在本章中,你将学习如何在一份文本语料库上训练一个全新的 tokenizer,然后将使用它来预训练语言模型。这一切都将在 🤗 Tokenizers 库的帮助下完成,该库提供了 🤗 Transformers 库中的“快速” tokenizer 。 我们将深入探讨这个库所提供的功能,并研究“快速” tokenizer 与“慢速”版本的区别。
本章将涵盖以下主题:
- 如何在新的文本语料库上训练一个类似于给定 checkpoint 所使用的新 tokenizer
- 快速 tokenizer 的特殊功能
- 目前 NLP 中使用的三种主要子词 tokenization 算法之间的差异
- 如何使用🤗 Tokenizers 库从头开始构建 tokenizer 并在一些数据上进行训练
本章介绍的技术将使你为 第七章 中的部分做好准备,在那部分中,我们将尝试为 Python 源代码创建语言模型。让我们首先看一下什么是“训练” tokenizer
Update on GitHub