Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- from transformers import GPT2Tokenizer
- MODEL_PATH = 'Norod78/hewiki-articles-distilGPT2py-il'
- tokenizer = GPT2Tokenizer.from_pretrained(MODEL_PATH)
- text = 'כרטיס טלוויזיה משמש לצפייה או הקלטה של תוכניות טלוויזיה במחשב. הכרטיס ממיר את גלי הרדיו למידע ספרתי אשר יכול לשמש קלט לתוכנות מחשב.'
- tokens = tokenizer.encode(text, add_special_tokens=False)
- print("Encode: " + str(tokens))
- print("Decode: " + str(tokenizer.decode(tokens)))
- #print("<|startoftext|>: " + str(tokenizer.encode("<|startoftext|>")[1]))
- print("<|endoftext|>: " + str(tokenizer.encode("<|endofftext|>")[1]))
Advertisement
Add Comment
Please, Sign In to add comment