# Тест в конце главы[[end-of-chapter-quiz]]

Давайте проверим, чему вы научились в этой главе!

### 1. Когда следует обучать новый токенизатор?

### 2. В чем преимущество использования генератора списков текстов по сравнению со списком списков текстов при использовании `train_new_from_iterator()`?

train_new_from_iterator().",
			explain: "Список списков текстов - это особый вид генератора списков текстов, поэтому метод примет и его. Попробуйте еще раз!"
		},
		{
			text: "Это позволит избежать загрузки в память сразу всего набора данных.",
			explain: "Точно! Каждый батч текстов будет освобождаться из памяти при итерации, и выигрыш будет особенно заметен, если вы используете библиотеку 🤗 Datasets для хранения текстов.",
			correct: true
		},
		{
			text: "Это позволит библиотеке 🤗 Tokenizers использовать многопроцессорность (multiprocessing).",
			explain: "Нет, она будет использовать многопроцессорность в любом случае."
		},
        {
			text: "Обученный вами токенизатор будет генерировать более качественные тексты.",
			explain: "Токенизатор не генерирует текст - вы не путаете его с языковой моделью?"
		}
	]}
/>

### 3. Каковы преимущества использования "быстрого" токенизатора?

### 4. Как конвейер `token-classification` обрабатывает сущности, которые охватывают несколько токенов?

### 5. Как конвейер `question-answering` обрабатывает длинные контексты?

### 6. Что такое нормализация?

### 7. Что такое предварительная токенизация для токенизатора по подсловам?

### 8. Выберите предложения, которые относятся к модели токенизации BPE.

### 9. Выберите предложения, которые относятся к модели токенизации WordPiece.

### 10. Выберите предложения, которые относятся к модели токенизации Unigram.

