Guest User

Untitled

a guest
May 21st, 2018
167
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 1.20 KB | None | 0 0
  1. from spacy.lang.id import Indonesian
  2.  
  3. nlp = Indonesian()
  4. # additional "stop words"
  5. # bisa diganti dengan yang lain
  6. nlp.Defaults.stop_words.update(['nya', 'yg', 'aja', 'deh', 'ny', 'dr', 'sy', 'ya','klo','sdh',
  7. 'udah','sampe','dah','tp','ga','gk','sih','gak','tdk','e','dgn','sm'])
  8.  
  9. def tokenizer(text):
  10. # hanya mengambil lemma saja, bisa diganti yang lain jika dibutuhkan
  11. return [token.lemma_.lower() for token in nlp(text) if not token.is_stop and not token.is_punct]
  12.  
  13. docs = [
  14. 'Saya pikir ayah saya terlihat seperti Matt Damon.',
  15. 'Tapi apakah rezim mempelajari sesuatu?',
  16. 'Lalu dia mulai berjualan mariyuana.',
  17. 'Apakah Anda ingin menjadi penerbit, seseorang yang memberi lisensi teknologi?',
  18. 'Seharusnya ini lebih seperti akuntansi pribadi.',
  19. 'Agni adalah salah satu dari lima rudal yang dikembangkan oleh DRDO.',
  20. 'Anda dapat menerapkan perspektif dinamis yang sama pada India.',
  21. 'PDIP resmi mencalonkan Gubernur DKI Jakarta, Jokowi sebagai calon presiden untuk bersaing dalam pemilihan presiden pada 9 Juli 2014.',
  22. 'Peserta yang hadir sebanyak 114 peserta dari target undangan sebanyak 125 peserta.'
  23. ]
  24.  
  25. for text in docs:
  26. print(tokenizer(text))
Add Comment
Please, Sign In to add comment