The do_lower_case should be 'true'

#17

by robin0307 - opened Mar 8, 2024

Discussion

robin0307

Mar 8, 2024

•

edited Mar 8, 2024

in tokenizer_config.json the "do_lower_case": false
but it's should be true

>>> from transformers import  AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained('google-bert/bert-base-chinese')
>>> tokenizer.do_lower_case
False
>>> tokenizer.decode(tokenizer('My name is Robin')['input_ids'])
'[CLS] [UNK] name is [UNK] [SEP]'

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment