LLM Course documentation
Introdução
0. Configuração
1. Modelos de Transformers
2. Usando 🤗 Transformers
3. Ajustando um modelo pré treinado
4. Compartilhamento de modelos e tokenizer
5. A biblioteca Datasets 🤗
IntroduçãoE se o meu dataset não estiver no Hub?Hora de fatiar e dividir os dadosBig data? 🤗 Datasets ao resgateCriando seu próprio datasetBusca semântica com o FAISSConfira o 🤗 Datasets!Questionário de fim de capítulo
6. A biblioteca Tokenizers 🤗
7. Principais tarefas NLP
8. Como pedir ajuda 🤗
Evento do curso
Introdução
No Capítulo 3 você teve seu primeiro gostinho da biblioteca 🤗 Datasets e viu que havia três passos principais quando se tratava de treinar para melhorar (fine-tuning) um modelo:
- Carregar um conjunto de dados (dataset) do Hugging Face Hub.
- Pré-processar os dados com
Dataset.map(). - Carregar e calcular as métricas.
Mas isto está apenas arranhando a superfície do que 🤗 Dataset.map pode fazer! Neste capítulo, vamos dar um mergulho profundo na biblioteca. Ao longo do caminho, encontraremos respostas para as seguintes perguntas:
- O que você faz quando seu conjunto de dados não está no Hub?
- Como você pode separar um conjunto de dados? (E se você necessário usar Pandas?)
- O que você faz quando seu conjunto de dados é enorme e derreterá a RAM de seu laptop?
- O que diabos são “mapeamento de memória” e Apache Arrow?
- Como você pode criar seu próprio conjunto de dados e enviar para o Hub?
As técnicas que você aprender aqui vão prepará-lo para as tarefas avançadas de tokenization e fine-tuning no Capítulo 6 e Capítulo 7 — então pegue um café e vamos começar!
Update on GitHub