[THUDM/ChatGLM-6B][BUG/Help] ice_text.model词表长度与config里设置不一致

2024-05-20 344 views
1

ice_text.model词表长度130344

>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
>>> len(tokenizer.get_vocab())
130344

config:

"vocab_size": 130528

模型参数:

transformer.word_embeddings.embedding_table torch.Size([130528, 4096]) torch.float16
lm_head.weight torch.Size([130528, 4096]) torch.float16

词表长度不一致导致有时会生成词表外的词,然后索引越界退出

词表大小与config、模型参数一致

>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
>>> len(tokenizer.get_vocab())
130344
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

5

你好,请问你解决这个问题了么,会不会是后面一部分是预留的token位置?

2

你好,请问你解决这个问题了么,会不会是后面一部分是预留的token位置?

没解决,应该不是预留的token位置。希望作者能给予答复~

2

同样遇到该问题,求教~~

8

需要把num_image_tokens这个参数置0

4

请问解决了吗