Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- from spacy.lang.id import Indonesian
- nlp = Indonesian()
- # additional "stop words"
- # bisa diganti dengan yang lain
- nlp.Defaults.stop_words.update(['nya', 'yg', 'aja', 'deh', 'ny', 'dr', 'sy', 'ya','klo','sdh',
- 'udah','sampe','dah','tp','ga','gk','sih','gak','tdk','e','dgn','sm'])
- def tokenizer(text):
- # hanya mengambil lemma saja, bisa diganti yang lain jika dibutuhkan
- return [token.lemma_.lower() for token in nlp(text) if not token.is_stop and not token.is_punct]
- docs = [
- 'Saya pikir ayah saya terlihat seperti Matt Damon.',
- 'Tapi apakah rezim mempelajari sesuatu?',
- 'Lalu dia mulai berjualan mariyuana.',
- 'Apakah Anda ingin menjadi penerbit, seseorang yang memberi lisensi teknologi?',
- 'Seharusnya ini lebih seperti akuntansi pribadi.',
- 'Agni adalah salah satu dari lima rudal yang dikembangkan oleh DRDO.',
- 'Anda dapat menerapkan perspektif dinamis yang sama pada India.',
- 'PDIP resmi mencalonkan Gubernur DKI Jakarta, Jokowi sebagai calon presiden untuk bersaing dalam pemilihan presiden pada 9 Juli 2014.',
- 'Peserta yang hadir sebanyak 114 peserta dari target undangan sebanyak 125 peserta.'
- ]
- for text in docs:
- print(tokenizer(text))
Add Comment
Please, Sign In to add comment