Untitled

from spacy.lang.id import Indonesian

nlp = Indonesian()
# additional "stop words"
# bisa diganti dengan yang lain
nlp.Defaults.stop_words.update(['nya', 'yg', 'aja', 'deh', 'ny', 'dr', 'sy', 'ya','klo','sdh',
                               'udah','sampe','dah','tp','ga','gk','sih','gak','tdk','e','dgn','sm'])

def tokenizer(text):
    # hanya mengambil lemma saja, bisa diganti yang lain jika dibutuhkan
    return [token.lemma_.lower() for token in nlp(text) if not token.is_stop and not token.is_punct]

docs = [
    'Saya pikir ayah saya terlihat seperti Matt Damon.',
    'Tapi apakah rezim mempelajari sesuatu?',
    'Lalu dia mulai berjualan mariyuana.',
    'Apakah Anda ingin menjadi penerbit, seseorang yang memberi lisensi teknologi?',
    'Seharusnya ini lebih seperti akuntansi pribadi.',
    'Agni adalah salah satu dari lima rudal yang dikembangkan oleh DRDO.',
    'Anda dapat menerapkan perspektif dinamis yang sama pada India.',
    'PDIP resmi mencalonkan Gubernur DKI Jakarta, Jokowi sebagai calon presiden untuk bersaing dalam pemilihan presiden pada 9 Juli 2014.',
    'Peserta yang hadir sebanyak 114 peserta dari target undangan sebanyak 125 peserta.'
]

for text in docs:
    print(tokenizer(text))