Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- #! /usr/local/bin/python
- # -*- coding: utf-8 -*-
- import MeCab
- from jcconv import kata2hira
- # Kanji Massager
- # pip install MeCab,jcconv
- # Mecab testing conversion of a japanese text string to hiragana
- # Tested python 2.7.8
- def doMecab(dataM):
- try:
- mecab = MeCab.Tagger('-Oyomi')
- output = mecab.parse(dataM.encode('utf8'))
- except:
- output = '\nMecab Failed '
- raise
- return output
- def doHiragana(dataH):
- kshi = ""
- # External
- # mecab Ochase,Owakati Oyomi O
- #s='echo %s |mecab "-Oyomi"' % dataH # this translates kanji into konyomi using mecab
- #p = subprocess.Popen(s,stdout=subprocess.PIPE,shell=True)
- #output, err = p.communicate() # we get katakana
- output = doMecab(dataH) # we get katakana back
- # convert to hiragana
- kshi = kata2hira(unicode(output.rstrip(), encoding='utf-8'))
- return kshi
- test = "MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。"
- print
- print "Original : \n"
- print test
- print "\nHiragana : \n"
- print doHiragana(test.decode("utf-8"))
- print
- print
- ##############
- # Output :
- #Original :
- #MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
- #Hiragana :
- #MeCabは きょうとだいがくじょうほうがくけんきゅうかひくにほんでんしんでんわかぶしきがいしゃこみゅにけーしょんかがくきそけんきゅうじょ きょうどうけんきゅうゆにっとぷろじぇくとをつうじてかいはつされたおーぷんそーす けいたいそかいせきえんじんです。
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement