Norod78

Hebrew Tokenizer Encode / Decode

Aug 11th, 2020 (edited)
1,272
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 0.68 KB | None | 0 0
  1. from transformers import GPT2Tokenizer
  2.  
  3. MODEL_PATH = 'Norod78/hewiki-articles-distilGPT2py-il'
  4.  
  5. tokenizer = GPT2Tokenizer.from_pretrained(MODEL_PATH)
  6. text = 'כרטיס טלוויזיה משמש לצפייה או הקלטה של תוכניות טלוויזיה במחשב. הכרטיס ממיר את גלי הרדיו למידע ספרתי אשר יכול לשמש קלט לתוכנות מחשב.'
  7. tokens = tokenizer.encode(text, add_special_tokens=False)
  8.  
  9. print("Encode: " + str(tokens))
  10. print("Decode: " + str(tokenizer.decode(tokens)))
  11. #print("<|startoftext|>: " + str(tokenizer.encode("<|startoftext|>")[1]))
  12. print("<|endoftext|>: " + str(tokenizer.encode("<|endofftext|>")[1]))
  13.  
  14.  
Advertisement
Add Comment
Please, Sign In to add comment