Advertisement
Guest User

Untitled

a guest
Jun 26th, 2019
146
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.09 KB | None | 0 0
  1. I am trying to calculate the frequency of the each element of string and store them into dataframe. i am using re.findall for searching. i have given some example . please help.
  2.  
  3. using bangla language self made dataset. separated with <s>....</s>
  4.  
  5. >>>text_list[0:1000]
  6. ['<s বিচারপতি মো: নিজামুল হক ও বিচারপতি মো: ফরিদ আহমদ শিবলীর সমন্বয়ে ঘটিত হাইকোর্ট বেঞ্চ আজ মঙ্গলবার এ আদেশ দেন। /s> /s> <s আদালতে লতিফ সিদ্দিকীর পক্ষে শুনানি করেন আইনজীবী জ্যোতির্ময় বড়ুয়া। /s> /s> <s রাষ্ট্রপক্ষে ছিলেন ডেপুটি অ্যাটর্নি জেনারেল শেখ এ কে এম মনিরুজ্জামান। /s> /s> <s এর আগে গত ২৬ মে ধর্মীয় অনুভূতিতে আঘাতের অভিযোগে করা আরও সাত মামলায় সাবেক এই মন্ত্রীকে ছয় মাসের অন্তর্বর্তী জামিন দিয়েছেন হাইকোর্ট। /s> /s> <s একই সঙ্গে এসব মামলার কার্যক্রম ছয় মাসের জন্য স্থগিত করেছিলেন আদালত। /s> /s> <s গত বছর সেপ্টেম্বরে যুক্তরাষ্ট্রের নিউইয়র্কে এক অনুষ্ঠানে হজ ও তাবলিগ জামাত নিয়ে বিরূপ মন্তব্য করে সমালোচনার মুখে পড়েন আবদুল লতিফ সিদ্দিকী। /s> /s> <s এ ঘটনার পর আওয়ামী লীগের সভাপতিমণ্ডলীর এই সদস্য দল থেকে বহিষ্কৃত হন। /s> /s> <s একই ঘটনায় ধর্মীয় অনুভূতিতে আঘাত ও কটূক্তির অভিযোগে তাঁর বিরুদ্ধে রাজধানী ঢাকাসহ দেশের বিভিন্ন জেলায় বেশ কয়েকটি মামলা হয়। /s> /s> <s নির্ধারিত সময়ে আদালতে হাজির না হওয়ায় প্রতিটি মামলায় তাঁর বিরুদ্ধে গ্রেপ্তারি পরোয়ানা জারি করেন আদালত। /s> /s> <s গত বছরের ২৫ নভেম্বর ধানমন']
  7. >>>word_list = pd.DataFrame({'words':text.str.split(' ', expand = True).stack().unique()})
  8. >>>word_count_table = pd.DataFrame()
  9. >>>for n,word in enumerate(word_list['words']):
  10. word_count = len(re.findall(' '+word+' ', text_list))
  11.  
  12. error: missing ), unterminated subpattern at position 1
  13.  
  14. but that should be a data frame with 3 columns (index, words, count)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement