Advertisement
Guest User

Untitled

a guest
Jul 18th, 2019
331
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 134.39 KB | None | 0 0
  1. {
  2. "cells": [
  3. {
  4. "cell_type": "code",
  5. "execution_count": 5,
  6. "metadata": {},
  7. "outputs": [
  8. {
  9. "data": {
  10. "text/html": [
  11. "<div>\n",
  12. "<style scoped>\n",
  13. " .dataframe tbody tr th:only-of-type {\n",
  14. " vertical-align: middle;\n",
  15. " }\n",
  16. "\n",
  17. " .dataframe tbody tr th {\n",
  18. " vertical-align: top;\n",
  19. " }\n",
  20. "\n",
  21. " .dataframe thead th {\n",
  22. " text-align: right;\n",
  23. " }\n",
  24. "</style>\n",
  25. "<table border=\"1\" class=\"dataframe\">\n",
  26. " <thead>\n",
  27. " <tr style=\"text-align: right;\">\n",
  28. " <th></th>\n",
  29. " <th>tweetIdstr</th>\n",
  30. " <th>tweetLan</th>\n",
  31. " <th>tweetLenght</th>\n",
  32. " <th>tweetLikes</th>\n",
  33. " <th>tweetRetweets</th>\n",
  34. " <th>tweetSource</th>\n",
  35. " <th>tweetText</th>\n",
  36. " <th>userCreateDate</th>\n",
  37. " <th>userFollowers</th>\n",
  38. " <th>userIdstr</th>\n",
  39. " <th>userLocation</th>\n",
  40. " <th>userName</th>\n",
  41. " <th>userScreenName</th>\n",
  42. " <th>userVerified</th>\n",
  43. " <th>Tweet_punct</th>\n",
  44. " <th>Tweet_tokenized</th>\n",
  45. " <th>Tweet_stopped</th>\n",
  46. " </tr>\n",
  47. " </thead>\n",
  48. " <tbody>\n",
  49. " <tr>\n",
  50. " <th>0</th>\n",
  51. " <td>1147924907650637824</td>\n",
  52. " <td>ca</td>\n",
  53. " <td>293</td>\n",
  54. " <td>0</td>\n",
  55. " <td>0</td>\n",
  56. " <td>Twitter Web Client</td>\n",
  57. " <td>@neusparce @tv3cat TV3 està ple de comisàries ...</td>\n",
  58. " <td>2019-02-26 09:36:58</td>\n",
  59. " <td>39</td>\n",
  60. " <td>1100328860359581696</td>\n",
  61. " <td>Catalonia</td>\n",
  62. " <td>Eric Loup</td>\n",
  63. " <td>EricLoup3</td>\n",
  64. " <td>0</td>\n",
  65. " <td>neusparce tvcat TV està ple de comisàries de g...</td>\n",
  66. " <td>['neusparce', 'tvcat', 'tv', 'està', 'ple', 'd...</td>\n",
  67. " <td>['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie...</td>\n",
  68. " </tr>\n",
  69. " <tr>\n",
  70. " <th>1</th>\n",
  71. " <td>1148170304847568897</td>\n",
  72. " <td>ca</td>\n",
  73. " <td>263</td>\n",
  74. " <td>11</td>\n",
  75. " <td>1</td>\n",
  76. " <td>Twitter for iPhone</td>\n",
  77. " <td>@carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM...</td>\n",
  78. " <td>2012-12-01 18:08:05</td>\n",
  79. " <td>697</td>\n",
  80. " <td>983050094</td>\n",
  81. " <td>Barcelona, Espanya</td>\n",
  82. " <td>Pol</td>\n",
  83. " <td>PolWP</td>\n",
  84. " <td>0</td>\n",
  85. " <td>carlunsky OCLH BarcelonaLGTBI tvcat CCMAcat To...</td>\n",
  86. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  87. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  88. " </tr>\n",
  89. " <tr>\n",
  90. " <th>2</th>\n",
  91. " <td>1148159221558599688</td>\n",
  92. " <td>en</td>\n",
  93. " <td>140</td>\n",
  94. " <td>0</td>\n",
  95. " <td>3</td>\n",
  96. " <td>Twitter for iPhone</td>\n",
  97. " <td>RT @cgomara: THE DAY WILL COME, IN WHICH THERE...</td>\n",
  98. " <td>2017-02-10 16:42:44</td>\n",
  99. " <td>5623</td>\n",
  100. " <td>830094660815220736</td>\n",
  101. " <td>Barcelona, Catalunya</td>\n",
  102. " <td>Revolució 4.0</td>\n",
  103. " <td>Revolucio4</td>\n",
  104. " <td>0</td>\n",
  105. " <td>RT cgomara THE DAY WILL COME IN WHICH THERE WI...</td>\n",
  106. " <td>['rt', 'cgomara', 'the', 'day', 'will', 'come'...</td>\n",
  107. " <td>['rt', 'cgomara', 'day', 'robots', 'people', '...</td>\n",
  108. " </tr>\n",
  109. " <tr>\n",
  110. " <th>3</th>\n",
  111. " <td>1147913264183091203</td>\n",
  112. " <td>ca</td>\n",
  113. " <td>157</td>\n",
  114. " <td>51</td>\n",
  115. " <td>25</td>\n",
  116. " <td>Twitter Web Client</td>\n",
  117. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  118. " <td>2008-06-16 11:58:22</td>\n",
  119. " <td>115606</td>\n",
  120. " <td>15133318</td>\n",
  121. " <td>Catalunya</td>\n",
  122. " <td>Socialistes (PSC) /❤️</td>\n",
  123. " <td>socialistes_cat</td>\n",
  124. " <td>1</td>\n",
  125. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  126. " <td>['', 'demà', 'comencem', 'la', 'setmana', 'amb...</td>\n",
  127. " <td>['demà', 'comencem', 'setmana', 'secretari', '...</td>\n",
  128. " </tr>\n",
  129. " <tr>\n",
  130. " <th>4</th>\n",
  131. " <td>1150399363858010112</td>\n",
  132. " <td>es</td>\n",
  133. " <td>272</td>\n",
  134. " <td>0</td>\n",
  135. " <td>0</td>\n",
  136. " <td>Twitter for Android</td>\n",
  137. " <td>@xriusenoticies @enoticiescat @tv3cat @govern ...</td>\n",
  138. " <td>2011-08-19 06:12:26</td>\n",
  139. " <td>1254</td>\n",
  140. " <td>357994184</td>\n",
  141. " <td>España</td>\n",
  142. " <td>Sr. Ro-k</td>\n",
  143. " <td>elsenorroca</td>\n",
  144. " <td>0</td>\n",
  145. " <td>xriusenoticies enoticiescat tvcat govern La at...</td>\n",
  146. " <td>['xriusenoticies', 'enoticiescat', 'tvcat', 'g...</td>\n",
  147. " <td>['xriusenoticies', 'enoticiescat', 'tvcat', 'g...</td>\n",
  148. " </tr>\n",
  149. " </tbody>\n",
  150. "</table>\n",
  151. "</div>"
  152. ],
  153. "text/plain": [
  154. " tweetIdstr tweetLan tweetLenght tweetLikes tweetRetweets \\\n",
  155. "0 1147924907650637824 ca 293 0 0 \n",
  156. "1 1148170304847568897 ca 263 11 1 \n",
  157. "2 1148159221558599688 en 140 0 3 \n",
  158. "3 1147913264183091203 ca 157 51 25 \n",
  159. "4 1150399363858010112 es 272 0 0 \n",
  160. "\n",
  161. " tweetSource tweetText \\\n",
  162. "0 Twitter Web Client @neusparce @tv3cat TV3 està ple de comisàries ... \n",
  163. "1 Twitter for iPhone @carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM... \n",
  164. "2 Twitter for iPhone RT @cgomara: THE DAY WILL COME, IN WHICH THERE... \n",
  165. "3 Twitter Web Client 📺Demà comencem la setmana amb el primer secret... \n",
  166. "4 Twitter for Android @xriusenoticies @enoticiescat @tv3cat @govern ... \n",
  167. "\n",
  168. " userCreateDate userFollowers userIdstr \\\n",
  169. "0 2019-02-26 09:36:58 39 1100328860359581696 \n",
  170. "1 2012-12-01 18:08:05 697 983050094 \n",
  171. "2 2017-02-10 16:42:44 5623 830094660815220736 \n",
  172. "3 2008-06-16 11:58:22 115606 15133318 \n",
  173. "4 2011-08-19 06:12:26 1254 357994184 \n",
  174. "\n",
  175. " userLocation userName userScreenName userVerified \\\n",
  176. "0 Catalonia Eric Loup EricLoup3 0 \n",
  177. "1 Barcelona, Espanya Pol PolWP 0 \n",
  178. "2 Barcelona, Catalunya Revolució 4.0 Revolucio4 0 \n",
  179. "3 Catalunya Socialistes (PSC) /❤️ socialistes_cat 1 \n",
  180. "4 España Sr. Ro-k elsenorroca 0 \n",
  181. "\n",
  182. " Tweet_punct \\\n",
  183. "0 neusparce tvcat TV està ple de comisàries de g... \n",
  184. "1 carlunsky OCLH BarcelonaLGTBI tvcat CCMAcat To... \n",
  185. "2 RT cgomara THE DAY WILL COME IN WHICH THERE WI... \n",
  186. "3 📺Demà comencem la setmana amb el primer secret... \n",
  187. "4 xriusenoticies enoticiescat tvcat govern La at... \n",
  188. "\n",
  189. " Tweet_tokenized \\\n",
  190. "0 ['neusparce', 'tvcat', 'tv', 'està', 'ple', 'd... \n",
  191. "1 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  192. "2 ['rt', 'cgomara', 'the', 'day', 'will', 'come'... \n",
  193. "3 ['', 'demà', 'comencem', 'la', 'setmana', 'amb... \n",
  194. "4 ['xriusenoticies', 'enoticiescat', 'tvcat', 'g... \n",
  195. "\n",
  196. " Tweet_stopped \n",
  197. "0 ['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie... \n",
  198. "1 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  199. "2 ['rt', 'cgomara', 'day', 'robots', 'people', '... \n",
  200. "3 ['demà', 'comencem', 'setmana', 'secretari', '... \n",
  201. "4 ['xriusenoticies', 'enoticiescat', 'tvcat', 'g... "
  202. ]
  203. },
  204. "execution_count": 5,
  205. "metadata": {},
  206. "output_type": "execute_result"
  207. }
  208. ],
  209. "source": [
  210. "import locale\n",
  211. "import pandas as pd\n",
  212. "\n",
  213. "locale.setlocale(locale.LC_ALL,'es_ES.UTF-8')\n",
  214. "\n",
  215. "pd.set_option('display.float_format', lambda x: locale.format_string('%.0f', x, grouping=True))\n",
  216. "\n",
  217. "df = pd.read_csv('twitter_cleanedsample.csv')\n",
  218. "\n",
  219. "df.head()"
  220. ]
  221. },
  222. {
  223. "cell_type": "markdown",
  224. "metadata": {},
  225. "source": [
  226. "## Text before cleaning anything"
  227. ]
  228. },
  229. {
  230. "cell_type": "code",
  231. "execution_count": 13,
  232. "metadata": {},
  233. "outputs": [
  234. {
  235. "name": "stdout",
  236. "output_type": "stream",
  237. "text": [
  238. "There are 85577 words in the combination of all review.\n"
  239. ]
  240. }
  241. ],
  242. "source": [
  243. "text = \" \".join(review for review in df['tweetText'])\n",
  244. " \n",
  245. "print (\"There are {} words in the combination of all review.\".format(len(text)))"
  246. ]
  247. },
  248. {
  249. "cell_type": "markdown",
  250. "metadata": {},
  251. "source": [
  252. "## Begin cleaning"
  253. ]
  254. },
  255. {
  256. "cell_type": "code",
  257. "execution_count": 7,
  258. "metadata": {},
  259. "outputs": [
  260. {
  261. "data": {
  262. "text/html": [
  263. "<div>\n",
  264. "<style scoped>\n",
  265. " .dataframe tbody tr th:only-of-type {\n",
  266. " vertical-align: middle;\n",
  267. " }\n",
  268. "\n",
  269. " .dataframe tbody tr th {\n",
  270. " vertical-align: top;\n",
  271. " }\n",
  272. "\n",
  273. " .dataframe thead th {\n",
  274. " text-align: right;\n",
  275. " }\n",
  276. "</style>\n",
  277. "<table border=\"1\" class=\"dataframe\">\n",
  278. " <thead>\n",
  279. " <tr style=\"text-align: right;\">\n",
  280. " <th></th>\n",
  281. " <th>tweetIdstr</th>\n",
  282. " <th>tweetLan</th>\n",
  283. " <th>tweetLenght</th>\n",
  284. " <th>tweetLikes</th>\n",
  285. " <th>tweetRetweets</th>\n",
  286. " <th>tweetSource</th>\n",
  287. " <th>tweetText</th>\n",
  288. " <th>userCreateDate</th>\n",
  289. " <th>userFollowers</th>\n",
  290. " <th>userIdstr</th>\n",
  291. " <th>userLocation</th>\n",
  292. " <th>userName</th>\n",
  293. " <th>userScreenName</th>\n",
  294. " <th>userVerified</th>\n",
  295. " <th>Tweet_punct</th>\n",
  296. " <th>Tweet_tokenized</th>\n",
  297. " <th>Tweet_stopped</th>\n",
  298. " </tr>\n",
  299. " </thead>\n",
  300. " <tbody>\n",
  301. " <tr>\n",
  302. " <th>0</th>\n",
  303. " <td>1147924907650637824</td>\n",
  304. " <td>ca</td>\n",
  305. " <td>293</td>\n",
  306. " <td>0</td>\n",
  307. " <td>0</td>\n",
  308. " <td>Twitter Web Client</td>\n",
  309. " <td>@neusparce @tv3cat TV3 està ple de comisàries ...</td>\n",
  310. " <td>2019-02-26 09:36:58</td>\n",
  311. " <td>39</td>\n",
  312. " <td>1100328860359581696</td>\n",
  313. " <td>Catalonia</td>\n",
  314. " <td>Eric Loup</td>\n",
  315. " <td>EricLoup3</td>\n",
  316. " <td>0</td>\n",
  317. " <td>@neusparce @tvcat TV està ple de comisàries de...</td>\n",
  318. " <td>['neusparce', 'tvcat', 'tv', 'està', 'ple', 'd...</td>\n",
  319. " <td>['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie...</td>\n",
  320. " </tr>\n",
  321. " <tr>\n",
  322. " <th>1</th>\n",
  323. " <td>1148170304847568897</td>\n",
  324. " <td>ca</td>\n",
  325. " <td>263</td>\n",
  326. " <td>11</td>\n",
  327. " <td>1</td>\n",
  328. " <td>Twitter for iPhone</td>\n",
  329. " <td>@carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM...</td>\n",
  330. " <td>2012-12-01 18:08:05</td>\n",
  331. " <td>697</td>\n",
  332. " <td>983050094</td>\n",
  333. " <td>Barcelona, Espanya</td>\n",
  334. " <td>Pol</td>\n",
  335. " <td>PolWP</td>\n",
  336. " <td>0</td>\n",
  337. " <td>@carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc...</td>\n",
  338. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  339. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  340. " </tr>\n",
  341. " <tr>\n",
  342. " <th>2</th>\n",
  343. " <td>1148159221558599688</td>\n",
  344. " <td>en</td>\n",
  345. " <td>140</td>\n",
  346. " <td>0</td>\n",
  347. " <td>3</td>\n",
  348. " <td>Twitter for iPhone</td>\n",
  349. " <td>RT @cgomara: THE DAY WILL COME, IN WHICH THERE...</td>\n",
  350. " <td>2017-02-10 16:42:44</td>\n",
  351. " <td>5623</td>\n",
  352. " <td>830094660815220736</td>\n",
  353. " <td>Barcelona, Catalunya</td>\n",
  354. " <td>Revolució 4.0</td>\n",
  355. " <td>Revolucio4</td>\n",
  356. " <td>0</td>\n",
  357. " <td>RT @cgomara THE DAY WILL COME IN WHICH THERE W...</td>\n",
  358. " <td>['rt', 'cgomara', 'the', 'day', 'will', 'come'...</td>\n",
  359. " <td>['rt', 'cgomara', 'day', 'robots', 'people', '...</td>\n",
  360. " </tr>\n",
  361. " <tr>\n",
  362. " <th>3</th>\n",
  363. " <td>1147913264183091203</td>\n",
  364. " <td>ca</td>\n",
  365. " <td>157</td>\n",
  366. " <td>51</td>\n",
  367. " <td>25</td>\n",
  368. " <td>Twitter Web Client</td>\n",
  369. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  370. " <td>2008-06-16 11:58:22</td>\n",
  371. " <td>115606</td>\n",
  372. " <td>15133318</td>\n",
  373. " <td>Catalunya</td>\n",
  374. " <td>Socialistes (PSC) /❤️</td>\n",
  375. " <td>socialistes_cat</td>\n",
  376. " <td>1</td>\n",
  377. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  378. " <td>['', 'demà', 'comencem', 'la', 'setmana', 'amb...</td>\n",
  379. " <td>['demà', 'comencem', 'setmana', 'secretari', '...</td>\n",
  380. " </tr>\n",
  381. " <tr>\n",
  382. " <th>4</th>\n",
  383. " <td>1150399363858010112</td>\n",
  384. " <td>es</td>\n",
  385. " <td>272</td>\n",
  386. " <td>0</td>\n",
  387. " <td>0</td>\n",
  388. " <td>Twitter for Android</td>\n",
  389. " <td>@xriusenoticies @enoticiescat @tv3cat @govern ...</td>\n",
  390. " <td>2011-08-19 06:12:26</td>\n",
  391. " <td>1254</td>\n",
  392. " <td>357994184</td>\n",
  393. " <td>España</td>\n",
  394. " <td>Sr. Ro-k</td>\n",
  395. " <td>elsenorroca</td>\n",
  396. " <td>0</td>\n",
  397. " <td>@xriusenoticies @enoticiescat @tvcat @govern L...</td>\n",
  398. " <td>['xriusenoticies', 'enoticiescat', 'tvcat', 'g...</td>\n",
  399. " <td>['xriusenoticies', 'enoticiescat', 'tvcat', 'g...</td>\n",
  400. " </tr>\n",
  401. " <tr>\n",
  402. " <th>5</th>\n",
  403. " <td>1150814203382509568</td>\n",
  404. " <td>ca</td>\n",
  405. " <td>171</td>\n",
  406. " <td>3</td>\n",
  407. " <td>4</td>\n",
  408. " <td>TweetDeck</td>\n",
  409. " <td>. @elisabeni: \"Si la sentència del procés és d...</td>\n",
  410. " <td>2018-01-15 10:33:59</td>\n",
  411. " <td>12041</td>\n",
  412. " <td>952851349938622464</td>\n",
  413. " <td>NaN</td>\n",
  414. " <td>Tot es mou</td>\n",
  415. " <td>totesmoutv3</td>\n",
  416. " <td>0</td>\n",
  417. " <td>@elisabeni Si la sentència del procés és dura...</td>\n",
  418. " <td>['', 'elisabeni', 'si', 'la', 'sentència', 'de...</td>\n",
  419. " <td>['elisabeni', 'sentència', 'procés', 'dura', '...</td>\n",
  420. " </tr>\n",
  421. " <tr>\n",
  422. " <th>6</th>\n",
  423. " <td>1148159982040420353</td>\n",
  424. " <td>es</td>\n",
  425. " <td>169</td>\n",
  426. " <td>41</td>\n",
  427. " <td>1</td>\n",
  428. " <td>Twitter Web App</td>\n",
  429. " <td>@carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM...</td>\n",
  430. " <td>2013-06-22 09:57:15</td>\n",
  431. " <td>66</td>\n",
  432. " <td>1538408749</td>\n",
  433. " <td>||-// 🌻</td>\n",
  434. " <td>ダイアナ 🐣</td>\n",
  435. " <td>AlNaTuRaLTeTe</td>\n",
  436. " <td>0</td>\n",
  437. " <td>@carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc...</td>\n",
  438. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  439. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  440. " </tr>\n",
  441. " <tr>\n",
  442. " <th>7</th>\n",
  443. " <td>1150826254389657600</td>\n",
  444. " <td>ca</td>\n",
  445. " <td>140</td>\n",
  446. " <td>0</td>\n",
  447. " <td>11</td>\n",
  448. " <td>Twitter for Android</td>\n",
  449. " <td>RT @gnfreixe: Avui al telenotícies comarques d...</td>\n",
  450. " <td>2012-04-07 01:03:59</td>\n",
  451. " <td>733</td>\n",
  452. " <td>547295994</td>\n",
  453. " <td>Flix, Catalunya</td>\n",
  454. " <td>Lluïsa 🎗️🌱</td>\n",
  455. " <td>LluisaGaGa</td>\n",
  456. " <td>0</td>\n",
  457. " <td>RT @gnfreixe Avui al telenotícies comarques de...</td>\n",
  458. " <td>['rt', 'gnfreixe', 'avui', 'al', 'telenotícies...</td>\n",
  459. " <td>['rt', 'gnfreixe', 'avui', 'telenotícies', 'co...</td>\n",
  460. " </tr>\n",
  461. " <tr>\n",
  462. " <th>8</th>\n",
  463. " <td>1149000020676567041</td>\n",
  464. " <td>ca</td>\n",
  465. " <td>140</td>\n",
  466. " <td>0</td>\n",
  467. " <td>17</td>\n",
  468. " <td>Twitter for iPhone</td>\n",
  469. " <td>RT @dmarcop: @Revolucio4 @XSalaimartin @tv3cat...</td>\n",
  470. " <td>2016-02-27 18:20:46</td>\n",
  471. " <td>626</td>\n",
  472. " <td>703645968730820608</td>\n",
  473. " <td>Catalonia</td>\n",
  474. " <td>Meritxell Gelabert Borràs</td>\n",
  475. " <td>MeritxellMerigb</td>\n",
  476. " <td>0</td>\n",
  477. " <td>RT @dmarcop @Revolucio @XSalaimartin @tvcat @x...</td>\n",
  478. " <td>['rt', 'dmarcop', 'revolucio', 'xsalaimartin',...</td>\n",
  479. " <td>['rt', 'dmarcop', 'revolucio', 'xsalaimartin',...</td>\n",
  480. " </tr>\n",
  481. " <tr>\n",
  482. " <th>9</th>\n",
  483. " <td>1148163334476353538</td>\n",
  484. " <td>ca</td>\n",
  485. " <td>140</td>\n",
  486. " <td>0</td>\n",
  487. " <td>3</td>\n",
  488. " <td>Twitter for Android</td>\n",
  489. " <td>RT @ICOcells: Ja podeu recuperar el reportatge...</td>\n",
  490. " <td>2010-10-05 16:17:29</td>\n",
  491. " <td>4415</td>\n",
  492. " <td>198930900</td>\n",
  493. " <td>Barcelona</td>\n",
  494. " <td>Voluntariat Ambiental</td>\n",
  495. " <td>XVAC</td>\n",
  496. " <td>0</td>\n",
  497. " <td>RT @ICOcells Ja podeu recuperar el reportatge ...</td>\n",
  498. " <td>['rt', 'icocells', 'ja', 'podeu', 'recuperar',...</td>\n",
  499. " <td>['rt', 'icocells', 'recuperar', 'reportatge', ...</td>\n",
  500. " </tr>\n",
  501. " </tbody>\n",
  502. "</table>\n",
  503. "</div>"
  504. ],
  505. "text/plain": [
  506. " tweetIdstr tweetLan tweetLenght tweetLikes tweetRetweets \\\n",
  507. "0 1147924907650637824 ca 293 0 0 \n",
  508. "1 1148170304847568897 ca 263 11 1 \n",
  509. "2 1148159221558599688 en 140 0 3 \n",
  510. "3 1147913264183091203 ca 157 51 25 \n",
  511. "4 1150399363858010112 es 272 0 0 \n",
  512. "5 1150814203382509568 ca 171 3 4 \n",
  513. "6 1148159982040420353 es 169 41 1 \n",
  514. "7 1150826254389657600 ca 140 0 11 \n",
  515. "8 1149000020676567041 ca 140 0 17 \n",
  516. "9 1148163334476353538 ca 140 0 3 \n",
  517. "\n",
  518. " tweetSource tweetText \\\n",
  519. "0 Twitter Web Client @neusparce @tv3cat TV3 està ple de comisàries ... \n",
  520. "1 Twitter for iPhone @carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM... \n",
  521. "2 Twitter for iPhone RT @cgomara: THE DAY WILL COME, IN WHICH THERE... \n",
  522. "3 Twitter Web Client 📺Demà comencem la setmana amb el primer secret... \n",
  523. "4 Twitter for Android @xriusenoticies @enoticiescat @tv3cat @govern ... \n",
  524. "5 TweetDeck . @elisabeni: \"Si la sentència del procés és d... \n",
  525. "6 Twitter Web App @carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM... \n",
  526. "7 Twitter for Android RT @gnfreixe: Avui al telenotícies comarques d... \n",
  527. "8 Twitter for iPhone RT @dmarcop: @Revolucio4 @XSalaimartin @tv3cat... \n",
  528. "9 Twitter for Android RT @ICOcells: Ja podeu recuperar el reportatge... \n",
  529. "\n",
  530. " userCreateDate userFollowers userIdstr \\\n",
  531. "0 2019-02-26 09:36:58 39 1100328860359581696 \n",
  532. "1 2012-12-01 18:08:05 697 983050094 \n",
  533. "2 2017-02-10 16:42:44 5623 830094660815220736 \n",
  534. "3 2008-06-16 11:58:22 115606 15133318 \n",
  535. "4 2011-08-19 06:12:26 1254 357994184 \n",
  536. "5 2018-01-15 10:33:59 12041 952851349938622464 \n",
  537. "6 2013-06-22 09:57:15 66 1538408749 \n",
  538. "7 2012-04-07 01:03:59 733 547295994 \n",
  539. "8 2016-02-27 18:20:46 626 703645968730820608 \n",
  540. "9 2010-10-05 16:17:29 4415 198930900 \n",
  541. "\n",
  542. " userLocation userName userScreenName \\\n",
  543. "0 Catalonia Eric Loup EricLoup3 \n",
  544. "1 Barcelona, Espanya Pol PolWP \n",
  545. "2 Barcelona, Catalunya Revolució 4.0 Revolucio4 \n",
  546. "3 Catalunya Socialistes (PSC) /❤️ socialistes_cat \n",
  547. "4 España Sr. Ro-k elsenorroca \n",
  548. "5 NaN Tot es mou totesmoutv3 \n",
  549. "6 ||-// 🌻 ダイアナ 🐣 AlNaTuRaLTeTe \n",
  550. "7 Flix, Catalunya Lluïsa 🎗️🌱 LluisaGaGa \n",
  551. "8 Catalonia Meritxell Gelabert Borràs MeritxellMerigb \n",
  552. "9 Barcelona Voluntariat Ambiental XVAC \n",
  553. "\n",
  554. " userVerified Tweet_punct \\\n",
  555. "0 0 @neusparce @tvcat TV està ple de comisàries de... \n",
  556. "1 0 @carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc... \n",
  557. "2 0 RT @cgomara THE DAY WILL COME IN WHICH THERE W... \n",
  558. "3 1 📺Demà comencem la setmana amb el primer secret... \n",
  559. "4 0 @xriusenoticies @enoticiescat @tvcat @govern L... \n",
  560. "5 0 @elisabeni Si la sentència del procés és dura... \n",
  561. "6 0 @carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc... \n",
  562. "7 0 RT @gnfreixe Avui al telenotícies comarques de... \n",
  563. "8 0 RT @dmarcop @Revolucio @XSalaimartin @tvcat @x... \n",
  564. "9 0 RT @ICOcells Ja podeu recuperar el reportatge ... \n",
  565. "\n",
  566. " Tweet_tokenized \\\n",
  567. "0 ['neusparce', 'tvcat', 'tv', 'està', 'ple', 'd... \n",
  568. "1 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  569. "2 ['rt', 'cgomara', 'the', 'day', 'will', 'come'... \n",
  570. "3 ['', 'demà', 'comencem', 'la', 'setmana', 'amb... \n",
  571. "4 ['xriusenoticies', 'enoticiescat', 'tvcat', 'g... \n",
  572. "5 ['', 'elisabeni', 'si', 'la', 'sentència', 'de... \n",
  573. "6 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  574. "7 ['rt', 'gnfreixe', 'avui', 'al', 'telenotícies... \n",
  575. "8 ['rt', 'dmarcop', 'revolucio', 'xsalaimartin',... \n",
  576. "9 ['rt', 'icocells', 'ja', 'podeu', 'recuperar',... \n",
  577. "\n",
  578. " Tweet_stopped \n",
  579. "0 ['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie... \n",
  580. "1 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  581. "2 ['rt', 'cgomara', 'day', 'robots', 'people', '... \n",
  582. "3 ['demà', 'comencem', 'setmana', 'secretari', '... \n",
  583. "4 ['xriusenoticies', 'enoticiescat', 'tvcat', 'g... \n",
  584. "5 ['elisabeni', 'sentència', 'procés', 'dura', '... \n",
  585. "6 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  586. "7 ['rt', 'gnfreixe', 'avui', 'telenotícies', 'co... \n",
  587. "8 ['rt', 'dmarcop', 'revolucio', 'xsalaimartin',... \n",
  588. "9 ['rt', 'icocells', 'recuperar', 'reportatge', ... "
  589. ]
  590. },
  591. "execution_count": 7,
  592. "metadata": {},
  593. "output_type": "execute_result"
  594. }
  595. ],
  596. "source": [
  597. "import string\n",
  598. "import re\n",
  599. "string.punctuation = '!\"$%&\\'()*+,-./:;<=>?[\\\\]^_`{|}~'\n",
  600. "\n",
  601. "def remove_punct(text):\n",
  602. " text = \"\".join([char for char in text if char not in string.punctuation])\n",
  603. " text = re.sub('[0-9]+', '', text)\n",
  604. " return text\n",
  605. "\n",
  606. "df['Tweet_punct'] = df['tweetText'].apply(lambda x: remove_punct(x))\n",
  607. "df.head(10)"
  608. ]
  609. },
  610. {
  611. "cell_type": "code",
  612. "execution_count": 8,
  613. "metadata": {},
  614. "outputs": [
  615. {
  616. "data": {
  617. "text/html": [
  618. "<div>\n",
  619. "<style scoped>\n",
  620. " .dataframe tbody tr th:only-of-type {\n",
  621. " vertical-align: middle;\n",
  622. " }\n",
  623. "\n",
  624. " .dataframe tbody tr th {\n",
  625. " vertical-align: top;\n",
  626. " }\n",
  627. "\n",
  628. " .dataframe thead th {\n",
  629. " text-align: right;\n",
  630. " }\n",
  631. "</style>\n",
  632. "<table border=\"1\" class=\"dataframe\">\n",
  633. " <thead>\n",
  634. " <tr style=\"text-align: right;\">\n",
  635. " <th></th>\n",
  636. " <th>tweetIdstr</th>\n",
  637. " <th>tweetLan</th>\n",
  638. " <th>tweetLenght</th>\n",
  639. " <th>tweetLikes</th>\n",
  640. " <th>tweetRetweets</th>\n",
  641. " <th>tweetSource</th>\n",
  642. " <th>tweetText</th>\n",
  643. " <th>userCreateDate</th>\n",
  644. " <th>userFollowers</th>\n",
  645. " <th>userIdstr</th>\n",
  646. " <th>userLocation</th>\n",
  647. " <th>userName</th>\n",
  648. " <th>userScreenName</th>\n",
  649. " <th>userVerified</th>\n",
  650. " <th>Tweet_punct</th>\n",
  651. " <th>Tweet_tokenized</th>\n",
  652. " <th>Tweet_stopped</th>\n",
  653. " </tr>\n",
  654. " </thead>\n",
  655. " <tbody>\n",
  656. " <tr>\n",
  657. " <th>0</th>\n",
  658. " <td>1147924907650637824</td>\n",
  659. " <td>ca</td>\n",
  660. " <td>293</td>\n",
  661. " <td>0</td>\n",
  662. " <td>0</td>\n",
  663. " <td>Twitter Web Client</td>\n",
  664. " <td>@neusparce @tv3cat TV3 està ple de comisàries ...</td>\n",
  665. " <td>2019-02-26 09:36:58</td>\n",
  666. " <td>39</td>\n",
  667. " <td>1100328860359581696</td>\n",
  668. " <td>Catalonia</td>\n",
  669. " <td>Eric Loup</td>\n",
  670. " <td>EricLoup3</td>\n",
  671. " <td>0</td>\n",
  672. " <td>@neusparce @tvcat TV està ple de comisàries de...</td>\n",
  673. " <td>[, neusparce, tvcat, tv, està, ple, de, comisà...</td>\n",
  674. " <td>['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie...</td>\n",
  675. " </tr>\n",
  676. " <tr>\n",
  677. " <th>1</th>\n",
  678. " <td>1148170304847568897</td>\n",
  679. " <td>ca</td>\n",
  680. " <td>263</td>\n",
  681. " <td>11</td>\n",
  682. " <td>1</td>\n",
  683. " <td>Twitter for iPhone</td>\n",
  684. " <td>@carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM...</td>\n",
  685. " <td>2012-12-01 18:08:05</td>\n",
  686. " <td>697</td>\n",
  687. " <td>983050094</td>\n",
  688. " <td>Barcelona, Espanya</td>\n",
  689. " <td>Pol</td>\n",
  690. " <td>PolWP</td>\n",
  691. " <td>0</td>\n",
  692. " <td>@carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc...</td>\n",
  693. " <td>[, carlunsky, oclh, barcelonalgtbi, tvcat, ccm...</td>\n",
  694. " <td>['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat...</td>\n",
  695. " </tr>\n",
  696. " <tr>\n",
  697. " <th>2</th>\n",
  698. " <td>1148159221558599688</td>\n",
  699. " <td>en</td>\n",
  700. " <td>140</td>\n",
  701. " <td>0</td>\n",
  702. " <td>3</td>\n",
  703. " <td>Twitter for iPhone</td>\n",
  704. " <td>RT @cgomara: THE DAY WILL COME, IN WHICH THERE...</td>\n",
  705. " <td>2017-02-10 16:42:44</td>\n",
  706. " <td>5623</td>\n",
  707. " <td>830094660815220736</td>\n",
  708. " <td>Barcelona, Catalunya</td>\n",
  709. " <td>Revolució 4.0</td>\n",
  710. " <td>Revolucio4</td>\n",
  711. " <td>0</td>\n",
  712. " <td>RT @cgomara THE DAY WILL COME IN WHICH THERE W...</td>\n",
  713. " <td>[rt, cgomara, the, day, will, come, in, which,...</td>\n",
  714. " <td>['rt', 'cgomara', 'day', 'robots', 'people', '...</td>\n",
  715. " </tr>\n",
  716. " <tr>\n",
  717. " <th>3</th>\n",
  718. " <td>1147913264183091203</td>\n",
  719. " <td>ca</td>\n",
  720. " <td>157</td>\n",
  721. " <td>51</td>\n",
  722. " <td>25</td>\n",
  723. " <td>Twitter Web Client</td>\n",
  724. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  725. " <td>2008-06-16 11:58:22</td>\n",
  726. " <td>115606</td>\n",
  727. " <td>15133318</td>\n",
  728. " <td>Catalunya</td>\n",
  729. " <td>Socialistes (PSC) /❤️</td>\n",
  730. " <td>socialistes_cat</td>\n",
  731. " <td>1</td>\n",
  732. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  733. " <td>[, demà, comencem, la, setmana, amb, el, prime...</td>\n",
  734. " <td>['demà', 'comencem', 'setmana', 'secretari', '...</td>\n",
  735. " </tr>\n",
  736. " <tr>\n",
  737. " <th>4</th>\n",
  738. " <td>1150399363858010112</td>\n",
  739. " <td>es</td>\n",
  740. " <td>272</td>\n",
  741. " <td>0</td>\n",
  742. " <td>0</td>\n",
  743. " <td>Twitter for Android</td>\n",
  744. " <td>@xriusenoticies @enoticiescat @tv3cat @govern ...</td>\n",
  745. " <td>2011-08-19 06:12:26</td>\n",
  746. " <td>1254</td>\n",
  747. " <td>357994184</td>\n",
  748. " <td>España</td>\n",
  749. " <td>Sr. Ro-k</td>\n",
  750. " <td>elsenorroca</td>\n",
  751. " <td>0</td>\n",
  752. " <td>@xriusenoticies @enoticiescat @tvcat @govern L...</td>\n",
  753. " <td>[, xriusenoticies, enoticiescat, tvcat, govern...</td>\n",
  754. " <td>['xriusenoticies', 'enoticiescat', 'tvcat', 'g...</td>\n",
  755. " </tr>\n",
  756. " </tbody>\n",
  757. "</table>\n",
  758. "</div>"
  759. ],
  760. "text/plain": [
  761. " tweetIdstr tweetLan tweetLenght tweetLikes tweetRetweets \\\n",
  762. "0 1147924907650637824 ca 293 0 0 \n",
  763. "1 1148170304847568897 ca 263 11 1 \n",
  764. "2 1148159221558599688 en 140 0 3 \n",
  765. "3 1147913264183091203 ca 157 51 25 \n",
  766. "4 1150399363858010112 es 272 0 0 \n",
  767. "\n",
  768. " tweetSource tweetText \\\n",
  769. "0 Twitter Web Client @neusparce @tv3cat TV3 està ple de comisàries ... \n",
  770. "1 Twitter for iPhone @carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM... \n",
  771. "2 Twitter for iPhone RT @cgomara: THE DAY WILL COME, IN WHICH THERE... \n",
  772. "3 Twitter Web Client 📺Demà comencem la setmana amb el primer secret... \n",
  773. "4 Twitter for Android @xriusenoticies @enoticiescat @tv3cat @govern ... \n",
  774. "\n",
  775. " userCreateDate userFollowers userIdstr \\\n",
  776. "0 2019-02-26 09:36:58 39 1100328860359581696 \n",
  777. "1 2012-12-01 18:08:05 697 983050094 \n",
  778. "2 2017-02-10 16:42:44 5623 830094660815220736 \n",
  779. "3 2008-06-16 11:58:22 115606 15133318 \n",
  780. "4 2011-08-19 06:12:26 1254 357994184 \n",
  781. "\n",
  782. " userLocation userName userScreenName userVerified \\\n",
  783. "0 Catalonia Eric Loup EricLoup3 0 \n",
  784. "1 Barcelona, Espanya Pol PolWP 0 \n",
  785. "2 Barcelona, Catalunya Revolució 4.0 Revolucio4 0 \n",
  786. "3 Catalunya Socialistes (PSC) /❤️ socialistes_cat 1 \n",
  787. "4 España Sr. Ro-k elsenorroca 0 \n",
  788. "\n",
  789. " Tweet_punct \\\n",
  790. "0 @neusparce @tvcat TV està ple de comisàries de... \n",
  791. "1 @carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc... \n",
  792. "2 RT @cgomara THE DAY WILL COME IN WHICH THERE W... \n",
  793. "3 📺Demà comencem la setmana amb el primer secret... \n",
  794. "4 @xriusenoticies @enoticiescat @tvcat @govern L... \n",
  795. "\n",
  796. " Tweet_tokenized \\\n",
  797. "0 [, neusparce, tvcat, tv, està, ple, de, comisà... \n",
  798. "1 [, carlunsky, oclh, barcelonalgtbi, tvcat, ccm... \n",
  799. "2 [rt, cgomara, the, day, will, come, in, which,... \n",
  800. "3 [, demà, comencem, la, setmana, amb, el, prime... \n",
  801. "4 [, xriusenoticies, enoticiescat, tvcat, govern... \n",
  802. "\n",
  803. " Tweet_stopped \n",
  804. "0 ['neusparce', 'tvcat', 'tv', 'ple', 'comisàrie... \n",
  805. "1 ['carlunsky', 'oclh', 'barcelonalgtbi', 'tvcat... \n",
  806. "2 ['rt', 'cgomara', 'day', 'robots', 'people', '... \n",
  807. "3 ['demà', 'comencem', 'setmana', 'secretari', '... \n",
  808. "4 ['xriusenoticies', 'enoticiescat', 'tvcat', 'g... "
  809. ]
  810. },
  811. "execution_count": 8,
  812. "metadata": {},
  813. "output_type": "execute_result"
  814. }
  815. ],
  816. "source": [
  817. "def tokenization(text):\n",
  818. " text = re.split('\\W+', text)\n",
  819. " return text\n",
  820. "\n",
  821. "df['Tweet_tokenized'] = df['Tweet_punct'].apply(lambda x: tokenization(x.lower()))\n",
  822. "df.head()"
  823. ]
  824. },
  825. {
  826. "cell_type": "code",
  827. "execution_count": 9,
  828. "metadata": {},
  829. "outputs": [
  830. {
  831. "name": "stdout",
  832. "output_type": "stream",
  833. "text": [
  834. "['', 'INSERmi', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a ha', 'a lô', 'aan', 'abans', 'abban', 'abbia', 'abbiamo', 'abbiano', 'abbiate', 'aber', 'abia', 'about', 'above', 'aby', 'acaba', 'acea', 'aceasta', 'aceasta', 'aceea', 'aceeasi', 'aceia', 'acel', 'acela', 'acelasi', 'acelea', 'acest', 'acesta', 'aceste', 'acestea', 'acestei', 'acestia', 'acestui', 'ach', 'acolo', 'acum', 'ad', 'ad', 'ada', 'adalah', 'adanya', 'adapun', 'adesso', 'adica', 'af', 'after', 'again', 'against', 'agak', 'agaknya', 'agar', 'agl', 'agli', 'ahhoz', 'ahogy', 'ahoj', 'ahol', 'ai', 'ai', 'ai', 'ai', 'ai ai', 'ai nấy', 'ai đó', 'aia', 'aici', 'aie', 'aient', 'aies', 'ait', 'aiurea', 'aj', 'aj', 'ak', 'akan', 'akankah', 'akhirnya', 'aki', 'akik', 'akkor', 'ako', 'aku', 'akulah', 'al', 'al', 'al', 'al', 'ala', 'alatt', 'alaturi', 'albo', 'ale', 'ale', 'ale', 'alebo', 'algo', 'algun', 'alguna', 'algunas', 'algunes', 'algunos', 'alguns', 'all', 'all', 'alla', 'alla', 'alle', 'alle', 'alle', 'alle', 'alle', 'allem', 'allen', 'aller', 'alles', 'alles', 'allo', 'allora', 'allt', 'alors', 'als', 'als', 'also', 'alt', 'alt', 'alta', 'altceva', 'alte', 'altfel', 'alti', 'altii', 'altijd', 'altmýþ', 'altre', 'altre', 'altri', 'altro', 'altul', 'altý', 'alô', 'am', 'am', 'am', 'ama', 'amat', 'amatlah', 'amb', 'ambdós', 'amely', 'amelyek', 'amelyekben', 'amelyeket', 'amelyet', 'amelynek', 'amen', 'ami', 'amikor', 'amit', 'amolyan', 'amíg', 'an', 'an', 'anar', 'anche', 'ancora', 'and', 'and', 'anda', 'andalah', 'anden', 'ander', 'andere', 'andere', 'anderem', 'anderen', 'anderer', 'anderes', 'anderm', 'andern', 'anders', 'anebo', 'anh', 'anh ấy', 'ani', 'annak', 'ano', 'ans', 'antar', 'antara', 'antaranya', 'ante', 'antes', 'anume', 'any', 'ao', 'aos', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'apoi', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquell', 'aquelles', 'aquells', 'aquilo', 'aquí', 'ar', 'are', 'are', \"aren't\", 'arra', 'arról', 'as', 'as', 'as', 'as', 'asa', 'asemenea', 'asi', 'asi', 'aspoň', 'asta', 'astazi', 'astfel', 'asupra', 'at', 'at', 'at', 'at', 'atare', 'atat', 'atat', 'atata', 'atatea', 'atatea', 'atatia', 'atatia', 'atau', 'ataukah', 'ataupun', 'ati', 'atit', 'atita', 'atitea', 'atitia', 'att', 'atunci', 'até', 'au', 'au', 'auch', 'aucun', 'auf', 'aura', 'aurai', 'auraient', 'aurais', 'aurait', 'auras', 'aurez', 'auriez', 'aurions', 'aurons', 'auront', 'aus', 'aussi', 'autre', 'aux', 'av', 'av', 'av', 'avaient', 'avais', 'avait', 'avant', 'avea', 'avec', 'avem', 'avemmo', 'avendo', 'avere', 'avesse', 'avessero', 'avessi', 'avessimo', 'aveste', 'avesti', 'avete', 'aveva', 'avevamo', 'avevano', 'avevate', 'avevi', 'avevo', 'avez', 'aviez', 'avions', 'avoir', 'avons', 'avrai', 'avranno', 'avrebbe', 'avrebbero', 'avrei', 'avremmo', 'avremo', 'avreste', 'avresti', 'avrete', 'avrà', 'avrò', 'avut', 'avuta', 'avute', 'avuti', 'avuto', 'ayant', 'ayez', 'ayons', 'az', 'azi', 'azok', 'azon', 'azonban', 'azt', 'aztán', 'azután', 'azzal', 'azért', 'ačkoli', 'až', 'b', 'ba', 'ba', 'ba ba', 'ba bản', 'ba cùng', 'ba họ', 'ba ngày', 'ba ngôi', 'ba tăng', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bahkan', 'bahwa', 'bahwasanya', 'bana', 'banyak', 'bao giờ', 'bao lâu', 'bao nhiêu', 'bao nả', 'bardzo', 'bare', 'bare', 'bastant', 'bay biến', 'bazý', 'be', 'be', 'beberapa', 'because', 'been', 'before', 'begge', 'begge', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bei', 'being', 'belki', 'below', 'belum', 'belumlah', 'belül', 'ben', 'ben', 'benden', 'beni', 'benim', 'benne', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'bermacam', 'bersama', 'betulkah', 'between', 'bez', 'bez', 'bez', 'beze', 'beþ', 'biasa', 'biasanya', 'bij', 'bila', 'bilakah', 'bin', 'bin', 'bine', 'bir', 'biri', 'birkaç', 'birkez', 'birþey', 'birþeyi', 'bis', 'bisa', 'bisakah', 'bist', 'biz', 'bizden', 'bizi', 'bizim', 'biết', 'biết bao', 'biết bao nhiêu', 'biết chắc', 'biết chừng nào', 'biết mình', 'biết mấy', 'biết thế', 'biết trước', 'biết việc', 'biết đâu', 'biết đâu chừng', 'biết đâu đấy', 'biết được', 'ble', 'ble', 'blei', 'blei', 'blev', 'blev', 'bli', 'bli', 'bli', 'blir', 'blir', 'blir', 'blitt', 'blitt', 'blive', 'bliver', 'blivit', 'blízko', 'bo', 'bohužel', 'bol', 'bola', 'boleh', 'bolehkah', 'bolehlah', 'boli', 'bolo', 'bon', 'both', 'brzo', 'bu', 'buat', 'bude', 'bude', 'budem', 'budeme', 'budeme', 'budete', 'budete', 'budeš', 'budeš', 'budou', 'budu', 'budú', 'bukan', 'bukankah', 'bukanlah', 'bukannya', 'buna', 'bunda', 'bundan', 'bunu', 'bunun', 'but', 'buổi', 'buổi làm', 'buổi mới', 'buổi ngày', 'buổi sớm', 'by', 'by', 'byl', 'byla', 'byli', 'bylo', 'byly', 'bys', 'być', 'byť', 'bà', 'bà ấy', 'bài', 'bài bác', 'bài bỏ', 'bài cái', 'bác', 'bán', 'bán cấp', 'bán dạ', 'bán thế', 'bár', 'bây bẩy', 'bây chừ', 'bây giờ', 'bây nhiêu', 'både', 'både', 'båe', 'båe', 'bèn', 'bé', 'béng', 'bên', 'bên bị', 'bên có', 'bên cạnh', 'bông', 'během', 'bước', 'bước khỏi', 'bước tới', 'bước đi', 'bạn', 'bản', 'bản bộ', 'bản riêng', 'bản thân', 'bản ý', 'bất chợt', 'bất cứ', 'bất giác', 'bất kì', 'bất kể', 'bất kỳ', 'bất luận', 'bất ngờ', 'bất nhược', 'bất quá', 'bất quá chỉ', 'bất thình lình', 'bất tử', 'bất đồ', 'bấy', 'bấy chầy', 'bấy chừ', 'bấy giờ', 'bấy lâu', 'bấy lâu nay', 'bấy nay', 'bấy nhiêu', 'bập bà bập bõm', 'bập bõm', 'bắt đầu', 'bắt đầu từ', 'bằng', 'bằng cứ', 'bằng không', 'bằng người', 'bằng nhau', 'bằng như', 'bằng nào', 'bằng nấy', 'bằng vào', 'bằng được', 'bằng ấy', 'bển', 'bệt', 'bị', 'bị chú', 'bị vì', 'bỏ', 'bỏ bà', 'bỏ cha', 'bỏ cuộc', 'bỏ không', 'bỏ lại', 'bỏ mình', 'bỏ mất', 'bỏ mẹ', 'bỏ nhỏ', 'bỏ quá', 'bỏ ra', 'bỏ riêng', 'bỏ việc', 'bỏ xa', 'bỗng', 'bỗng chốc', 'bỗng dưng', 'bỗng không', 'bỗng nhiên', 'bỗng nhưng', 'bỗng thấy', 'bỗng đâu', 'bộ', 'bộ thuộc', 'bộ điều', 'bội phần', 'bớ', 'bởi', 'bởi ai', 'bởi chưng', 'bởi nhưng', 'bởi sao', 'bởi thế', 'bởi thế cho nên', 'bởi tại', 'bởi vì', 'bởi vậy', 'bởi đâu', 'bức', 'c', 'c', 'ca', 'cada', 'cam', \"can't\", 'cand', 'cand', 'cannot', 'cao', 'cao lâu', 'cao ráo', 'cao răng', 'cao sang', 'cao số', 'cao thấp', 'cao thế', 'cao xa', 'capat', 'car', 'care', 'careia', 'carora', 'caruia', 'cat', 'cat', 'cata', 'cate', 'cateva', 'cativa', 'catre', 'ce', 'ce', 'cea', 'ceci', 'ceea', 'cei', 'ceilalti', 'cel', 'cela', 'cele', 'celor', 'ces', 'cet', 'cette', 'ceux', 'ceva', 'cez', 'cha', 'cha chả', 'chao ôi', 'chaque', 'chce', 'chceme', 'chcete', 'chceš', 'chci', 'che', 'chi', 'chia sẻ', 'chiar', 'chiếc', 'cho', 'cho biết', 'cho chắc', 'cho hay', 'cho nhau', 'cho nên', 'cho rằng', 'cho rồi', 'cho thấy', 'cho tin', 'cho tới', 'cho tới khi', 'cho về', 'cho ăn', 'cho đang', 'cho được', 'cho đến', 'cho đến khi', 'cho đến nỗi', 'choa', 'chtít', 'chtějí', 'chu cha', 'chui cha', 'chung', 'chung cho', 'chung chung', 'chung cuộc', 'chung cục', 'chung nhau', 'chung qui', 'chung quy', 'chung quy lại', 'chung ái', \"chut'\", 'chuti', 'chuyển', 'chuyển tự', 'chuyển đạt', 'chuyện', 'chuẩn bị', 'chành chạnh', 'chí chết', 'chính', 'chính bản', 'chính giữa', 'chính là', 'chính thị', 'chính điểm', 'chùn chùn', 'chùn chũn', 'chú', 'chú dẫn', 'chú khách', 'chú mày', 'chú mình', 'chúng', 'chúng mình', 'chúng ta', 'chúng tôi', 'chúng ông', 'chăn chắn', 'chăng', 'chăng chắc', 'chăng nữa', 'chơi', 'chơi họ', 'chưa', 'chưa bao giờ', 'chưa chắc', 'chưa có', 'chưa cần', 'chưa dùng', 'chưa dễ', 'chưa kể', 'chưa tính', 'chưa từng', 'chầm chập', 'chậc', 'chắc', 'chắc chắn', 'chắc dạ', 'chắc hẳn', 'chắc lòng', 'chắc người', 'chắc vào', 'chắc ăn', 'chẳng lẽ', 'chẳng những', 'chẳng nữa', 'chẳng phải', 'chết nỗi', 'chết thật', 'chết tiệt', 'chỉ', 'chỉ chính', 'chỉ có', 'chỉ là', 'chỉ tên', 'chỉn', 'chị', 'chị bộ', 'chị ấy', 'chịu', 'chịu chưa', 'chịu lời', 'chịu tốt', 'chịu ăn', 'chọn', 'chọn bên', 'chọn ra', 'chốc chốc', 'chớ', 'chớ chi', 'chớ gì', 'chớ không', 'chớ kể', 'chớ như', 'chợt', 'chợt nghe', 'chợt nhìn', 'chủn', 'chứ', 'chứ ai', 'chứ còn', 'chứ gì', 'chứ không', 'chứ không phải', 'chứ lại', 'chứ lị', 'chứ như', 'chứ sao', 'ci', 'ci', 'ci', 'ci', 'ciebie', 'cikk', 'cikkek', 'cikkeket', 'cind', 'cine', 'cineva', 'cit', 'cita', 'cite', 'citeva', 'citi', 'citiva', 'cię', 'co', 'co', 'coi', 'coi bộ', 'coi mòi', 'col', 'com', 'com', 'come', 'comme', 'comment', 'como', 'como', 'con', 'con', 'con', 'con con', 'con dạ', 'con nhà', 'con tính', 'conform', 'consegueixo', 'conseguim', 'conseguir', 'consigueix', 'consigueixen', 'consigueixes', 'contra', 'contro', 'could', \"couldn't\", 'csak', 'cu', 'cu cậu', 'cual', 'cuando', 'cui', 'cui', 'cum', 'cuma', 'cumva', 'cuối', 'cuối cùng', 'cuối điểm', 'cuốn', 'cuộc', 'czy', 'càng', 'càng càng', 'càng hay', 'cá nhân', 'các', 'các cậu', 'cách', 'cách bức', 'cách không', 'cách nhau', 'cách đều', 'cái', 'cái gì', 'cái họ', 'cái đã', 'cái đó', 'cái ấy', 'câu hỏi', 'cây', 'cây nước', 'còn', 'còn có', 'còn như', 'còn nữa', 'còn thời gian', 'còn về', 'có', 'có ai', 'có chuyện', 'có chăng', 'có chăng là', 'có chứ', 'có cơ', 'có dễ', 'có họ', 'có khi', 'có ngày', 'có người', 'có nhiều', 'có nhà', 'có phải', 'có số', 'có tháng', 'có thế', 'có thể', 'có vẻ', 'có ý', 'có ăn', 'có điều', 'có điều kiện', 'có đáng', 'có đâu', 'có được', 'cóc khô', 'cô', 'cô mình', 'cô quả', 'cô tăng', 'cô ấy', 'công nhiên', 'cùng', 'cùng chung', 'cùng cực', 'cùng nhau', 'cùng tuổi', 'cùng tột', 'cùng với', 'cùng ăn', 'căn', 'căn cái', 'căn cắt', 'căn tính', 'cũng', 'cũng như', 'cũng nên', 'cũng thế', 'cũng vậy', 'cũng vậy thôi', 'cũng được', 'cơ', 'cơ chỉ', 'cơ chừng', 'cơ cùng', 'cơ dẫn', 'cơ hồ', 'cơ hội', 'cơ mà', 'cơn', 'cả', 'cả nghe', 'cả nghĩ', 'cả ngày', 'cả người', 'cả nhà', 'cả năm', 'cả thảy', 'cả thể', 'cả tin', 'cả ăn', 'cả đến', 'cảm thấy', 'cảm ơn', 'cấp', 'cấp số', 'cấp trực tiếp', 'cần', 'cần cấp', 'cần gì', 'cần số', 'cật lực', 'cật sức', 'cậu', 'cổ lai', 'cụ thể', 'cụ thể là', 'cụ thể như', 'của', 'của ngọt', 'của tin', 'cứ', 'cứ như', 'cứ việc', 'cứ điểm', 'cực lực', 'd', 'd', 'da', 'da', 'da', 'da', 'da', 'da', 'da', 'da', 'daar', 'daca', 'dagl', 'dagli', 'daha', 'dahi', 'dahulu', 'dai', 'dal', 'dalam', 'daleko', 'daleko', 'dall', 'dalla', 'dalle', 'dallo', 'dalt', 'damit', 'dan', 'dan', 'dann', 'dans', 'dapat', 'dar', 'dari', 'daripada', 'das', 'das', 'dass', 'dasselbe', 'dat', 'dat', 'dazu', 'daß', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'deasupra', 'decat', 'deci', 'decit', 'dedans', 'defa', 'deg', 'deg', 'degl', 'degli', 'degraba', 'dehors', 'dei', 'dei', 'dei', 'deim', 'deim', 'dein', 'deine', 'deinem', 'deinen', 'deiner', 'deines', 'deira', 'deira', 'deires', 'deires', 'deja', 'dekat', 'del', 'del', 'dela', 'delas', 'dele', 'deles', 'dell', 'della', 'delle', 'dello', 'dem', 'dem', 'dem', 'dem', 'dem', 'demi', 'demikian', 'demikianlah', 'demselben', 'den', 'den', 'den', 'den', 'den', 'den', 'dengan', 'denn', 'denna', 'denne', 'denne', 'denne', 'denselben', 'dentro', 'depan', 'depois', 'depuis', 'der', 'der', 'der', 'der', 'der', 'deras', 'dere', 'dere', 'derer', 'deres', 'deres', 'deres', 'derselbe', 'derselben', 'des', 'des', 'des de', 'desde', 'deset', 'desi', 'despre', 'dess', 'dessa', 'desselben', 'dessen', 'det', 'det', 'det', 'det', 'detta', 'dette', 'dette', 'dette', 'deux', 'devatenáct', 'devoir', 'devrait', 'devrez', 'devriez', 'devrions', 'devrons', 'devront', 'devět', 'deze', 'di', 'di', 'di', 'di', 'dia', 'dialah', 'diantara', 'diantaranya', 'dich', 'did', \"didn't\", 'die', 'die', 'dies', 'diese', 'dieselbe', 'dieselben', 'diesem', 'diesen', 'dieser', 'dieses', 'dig', 'dig', 'dikarenakan', 'din', 'din', 'din', 'din', 'din', 'dina', 'dini', 'dins', 'dintr', 'dintr-o', 'dintr-un', 'dintre', 'dintre', 'dir', 'diri', 'dirinya', 'disini', 'disinilah', 'disse', 'disse', 'disse', 'dit', 'ditt', 'ditt', 'ditt', 'diye', 'dla', 'dlaczego', 'dlatego', 'dnes', 'do', 'do', 'do', 'do', 'do', 'do', 'do vì', 'do vậy', 'do đó', 'doar', 'dobrze', 'dobrý', 'docela', 'doch', 'doch', 'doen', 'does', \"doesn't\", 'dog', 'doing', 'dois', 'doit', 'doksan', 'dokuz', 'dokąd', \"don't\", 'donc', 'donde', 'dong', 'door', 'dort', 'dos', 'dos', 'dov', 'dove', 'down', 'dość', 'droite', 'du', 'du', 'du', 'du', 'du', 'du', 'dulu', 'dupa', 'durante', 'durch', 'during', 'dus', 'duy', 'duy chỉ', 'duy có', 'dużo', 'dva', 'dvacet', 'dvanáct', 'dvě', 'dwa', 'dwaj', 'dwie', 'dwoje', 'dykk', 'dykk', 'dykkar', 'dykkar', 'dzisiaj', 'dziś', 'dài', 'dài lời', 'dài ra', 'dành', 'dành dành', 'dào', 'dál', 'dále', 'där', 'då', 'då', 'då', 'dès', 'début', 'dì', 'dört', 'dù', 'dù', 'dù cho', 'dù dì', 'dù gì', 'dù rằng', 'dù sao', 'dùng', 'dùng cho', 'dùng hết', 'dùng làm', 'dùng đến', 'děkovat', 'děkujeme', 'děkuji', 'dưới', 'dưới nước', 'dạ', 'dạ bán', 'dạ con', 'dạ dài', 'dạ dạ', 'dạ khách', 'dần dà', 'dần dần', 'dầu sao', 'dẫn', 'dẫu', 'dẫu mà', 'dẫu rằng', 'dẫu sao', 'dễ', 'dễ dùng', 'dễ gì', 'dễ khiến', 'dễ nghe', 'dễ ngươi', 'dễ như chơi', 'dễ sợ', 'dễ sử dụng', 'dễ thường', 'dễ thấy', 'dễ ăn', 'dễ đâu', 'dở chừng', 'dữ', 'dữ cách', 'e', 'e', 'e', 'e', 'ea', 'each', 'ebbe', 'ebben', 'ebbero', 'ebbi', 'ecco', 'ed', 'eddig', 'een', 'eens', 'efter', 'efter', 'eg', 'eg', 'egy', 'egyes', 'egyetlen', 'egyik', 'egyre', 'egyéb', 'egész', 'ehhez', 'ei', 'ei', 'ein', 'ein', 'ein', 'eine', 'einem', 'einen', 'einer', 'eines', 'einig', 'einige', 'einigem', 'einigen', 'einiger', 'einiges', 'einmal', 'eit', 'eit', 'eitt', 'eitt', 'eivät', 'ej', 'ekkor', 'el', 'el', 'el', 'el', 'ela', 'elas', 'ele', 'ele', 'eles', 'ella', 'ellas', 'elle', 'ellen', 'eller', 'eller', 'eller', 'eller', 'elles', 'elles', 'elles', 'elles', 'elli', 'ellos', 'ells', 'els', 'elsõ', 'elég', 'elõ', 'elõször', 'elõtt', 'em', 'em', 'em em', 'emilyen', 'emme', 'en', 'en', 'en', 'en', 'en', 'en', 'en', 'en', 'en', 'en', 'encore', 'end', 'enggak', 'enggaknya', 'enn', 'enn', 'ennek', 'ens', 'entah', 'entahlah', 'entre', 'entre', 'entre', 'er', 'er', 'er', 'er', 'er', 'er', 'era', 'era', 'era', 'era', 'era', 'era', 'erais', 'eram', 'eran', 'erano', 'eras', 'eravamo', 'eravate', 'erem', 'eren', 'eres', 'eres', 'eri', 'ero', 'erre', 'ert', 'es', 'es', 'es', 'es', 'esa', 'esas', 'ese', 'eso', 'esos', 'essa', 'essas', 'esse', 'essendo', 'esses', 'est', 'esta', 'esta', 'estaba', 'estabais', 'estaban', 'estabas', 'estad', 'estada', 'estadas', 'estado', 'estados', 'estamos', 'estamos', 'estan', 'estando', 'estar', 'estaremos', 'estará', 'estarán', 'estarás', 'estaré', 'estaréis', 'estaría', 'estaríais', 'estaríamos', 'estarían', 'estarías', 'estas', 'estas', 'estat', 'estava', 'estava', 'estavam', 'este', 'este', 'este', 'esteja', 'estejam', 'estejamos', 'estem', 'estemos', 'estes', 'esteu', 'esteve', 'estic', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéramos', 'estivéssemos', 'esto', 'estos', 'estou', 'estoy', 'estuve', 'estuviera', 'estuvierais', 'estuvieran', 'estuvieras', 'estuvieron', 'estuviese', 'estuvieseis', 'estuviesen', 'estuvieses', 'estuvimos', 'estuviste', 'estuvisteis', 'estuviéramos', 'estuviésemos', 'estuvo', 'està', 'está', 'está', 'estábamos', 'estáis', 'están', 'estás', 'estávamos', 'estão', 'esté', 'estéis', 'estén', 'estés', 'et', 'et', 'et', 'et', 'et', 'ets', 'ett', 'ett', 'ett', 'ette', 'etter', 'etter', 'että', 'etwas', 'eu', 'eu', 'eu', 'euch', 'eue', 'euer', 'eues', 'eure', 'eurem', 'euren', 'eurent', 'eurer', 'eures', 'eus', 'eusse', 'eussent', 'eusses', 'eussiez', 'eussions', 'eut', 'eux', 'exact', 'ez', 'ezek', 'ezen', 'ezt', 'ezzel', 'ezért', 'eûmes', 'eût', 'eûtes', 'ešte', 'f', 'fa', 'faccia', 'facciamo', 'facciano', 'facciate', 'faccio', 'face', 'facemmo', 'facendo', 'facesse', 'facessero', 'facessi', 'facessimo', 'faceste', 'facesti', 'faceva', 'facevamo', 'facevano', 'facevate', 'facevi', 'facevo', 'fai', 'faig', 'faire', 'fais', 'faisez', 'fait', 'faites', 'fan', 'fanno', 'fara', 'farai', 'faranno', 'fare', 'farebbe', 'farebbero', 'farei', 'faremmo', 'faremo', 'fareste', 'faresti', 'farete', 'farà', 'farò', 'fas', 'fata', 'fece', 'fecero', 'feci', 'fel', 'fel', 'felé', 'fem', 'fer', 'feu', 'few', 'fi', 'fi', 'fie', 'fino', 'foarte', 'foi', 'fois', 'fomos', 'font', 'for', 'for', 'for', 'for', 'for', 'for', 'fora', 'foram', 'force', 'fordi', 'fordi', 'forem', 'formos', 'fosse', 'fosse', 'fossem', 'fossero', 'fossi', 'fossimo', 'fost', 'foste', 'fosti', 'fra', 'fra', 'fra', 'fra', 'from', 'från', 'fu', 'fue', 'fuera', 'fuerais', 'fueran', 'fueras', 'fueron', 'fuese', 'fueseis', 'fuesen', 'fueses', 'fui', 'fui', 'fui', 'fuimos', 'fuiste', 'fuisteis', 'fummo', 'furent', 'furono', 'further', 'fus', 'fusse', 'fussent', 'fusses', 'fussiez', 'fussions', 'fut', 'fuéramos', 'fuésemos', 'fôramos', 'fôssemos', 'för', 'før', 'før', 'fûmes', 'fût', 'fûtes', 'für', 'gdyby', 'gdzie', 'ge', 'geaba', 'geen', 'gegen', 'geweest', 'gewesen', 'gibi', 'giá trị', 'giá trị thực tế', 'giù', 'giảm', 'giảm chính', 'giảm thấp', 'giảm thế', 'giống', 'giống người', 'giống nhau', 'giống như', 'giờ', 'giờ lâu', 'giờ này', 'giờ đi', 'giờ đây', 'giờ đến', 'giữ', 'giữ lấy', 'giữ ý', 'giữa', 'giữa lúc', 'gli', 'go', 'gây', 'gây cho', 'gây giống', 'gây ra', 'gây thêm', 'gì', 'gì gì', 'gì đó', 'gần', 'gần bên', 'gần hết', 'gần ngày', 'gần như', 'gần xa', 'gần đây', 'gần đến', 'gặp', 'gặp khó khăn', 'gặp phải', 'gồm', 'h', 'ha', 'ha', 'ha', 'ha', 'ha', 'haar', 'hab', 'habe', 'haben', 'habida', 'habidas', 'habido', 'habidos', 'habiendo', 'habremos', 'habrá', 'habrán', 'habrás', 'habré', 'habréis', 'habría', 'habríais', 'habríamos', 'habrían', 'habrías', 'habéis', 'había', 'habíais', 'habíamos', 'habían', 'habías', 'had', 'had', 'hadde', 'hadde', 'hade', \"hadn't\", 'hai', 'haja', 'hajam', 'hajamos', 'hal', 'ham', 'hampir', 'han', 'han', 'han', 'han', 'han', 'hanem', 'hanno', 'hans', 'hans', 'hans', 'hans', 'hanya', 'hanyalah', 'har', 'har', 'har', 'har', 'harus', 'haruslah', 'harusnya', 'has', 'has', \"hasn't\", 'hasta', 'hat', 'hatte', 'hatten', 'haut', 'havde', 'have', 'have', 'havemos', \"haven't\", 'haver', 'having', 'hay', 'hay', 'hay biết', 'hay hay', 'hay không', 'hay là', 'hay làm', 'hay nhỉ', 'hay nói', 'hay sao', 'hay tin', 'hay đâu', 'haya', 'hayamos', 'hayan', 'hayas', 'hayáis', 'he', 'he', 'he', \"he'd\", \"he'll\", \"he's\", 'heb', 'hebben', 'heeft', 'hei', 'heidän', 'heidät', 'heihin', 'heille', 'heillä', 'heiltä', 'heissä', 'heistä', 'heitä', 'hem', 'hem', 'hemos', 'hendak', 'hendaklah', 'hendaknya', 'hende', 'hendes', 'hennar', 'hennar', 'henne', 'henne', 'henne', 'hennes', 'hennes', 'hennes', 'hep', 'hepsi', 'her', 'her', 'her', 'her', 'her', 'here', \"here's\", 'hers', 'herself', 'het', 'hier', 'hier', 'hij', 'him', 'himself', 'hin', 'hingga', 'hinter', 'his', 'hiszen', 'hiç', 'hiểu', 'hiện nay', 'hiện tại', 'hjå', 'hjå', 'ho', 'ho', 'ho', 'ho', 'hodně', 'hoe', 'hoe', 'hoe', 'hogy', 'hogyan', 'hon', 'honom', 'honom', 'honom', 'hors', 'hos', 'hoss', 'hoss', 'hossen', 'hossen', 'houve', 'houvemos', 'houver', 'houvera', 'houveram', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houvermos', 'houverá', 'houverão', 'houveríamos', 'houvesse', 'houvessem', 'houvéramos', 'houvéssemos', 'how', \"how's\", 'hoàn toàn', 'hoặc', 'hoặc là', 'hube', 'hubiera', 'hubierais', 'hubieran', 'hubieras', 'hubieron', 'hubiese', 'hubieseis', 'hubiesen', 'hubieses', 'hubimos', 'hubiste', 'hubisteis', 'hubiéramos', 'hubiésemos', 'hubo', 'hun', 'hun', 'hun', 'hun', 'hur', 'hva', 'hva', 'hvad', 'hvem', 'hvem', 'hver', 'hver', 'hvilke', 'hvilke', 'hvilken', 'hvilken', 'hvis', 'hvis', 'hvis', 'hvor', 'hvor', 'hvor', 'hvordan', 'hvordan', 'hvorfor', 'hvorfor', 'há', 'hão', 'hãy', 'hãy còn', 'hän', 'häneen', 'hänelle', 'hänellä', 'häneltä', 'hänen', 'hänessä', 'hänestä', 'hänet', 'häntä', 'här', 'hơn', 'hơn cả', 'hơn hết', 'hơn là', 'hơn nữa', 'hơn trước', 'hầu hết', 'hết', 'hết chuyện', 'hết cả', 'hết của', 'hết nói', 'hết ráo', 'hết rồi', 'hết ý', 'họ', 'họ gần', 'họ xa', 'hỏi', 'hỏi lại', 'hỏi xem', 'hỏi xin', 'hỗ trợ', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', \"i'd\", \"i'll\", \"i'm\", \"i've\", 'ia', 'ia', 'ialah', 'iar', 'iba', 'ibarat', 'ich', 'ich', 'ich', 'ici', 'icke', 'iemand', 'iets', 'if', 'igen', 'ihm', 'ihn', 'ihnen', 'ihr', 'ihre', 'ihrem', 'ihren', 'ihrer', 'ihres', 'ii', 'ik', 'iki', 'ikke', 'ikke', 'ikke', 'ikkje', 'ikkje', 'il', 'il', 'il', 'ile', 'ile', 'ill', 'ill.', 'illetve', 'ils', 'ilyen', 'ilyenkor', 'im', 'im', 'imi', 'in', 'in', 'in', 'in', 'in', 'inainte', 'inapoi', 'inca', 'incat', 'incit', 'inclòs', 'ind', 'indem', 'ingen', 'ingen', 'ingen', 'ingi', 'ingi', 'ingin', 'inginkah', 'inginkan', 'ini', 'inikah', 'inilah', 'inkje', 'inkje', 'inn', 'inn', 'inni', 'inni', 'inny', 'inom', 'ins', 'insa', 'inte', 'into', 'intr', 'intr-o', 'intr-un', 'intre', 'iné', 'iný', 'io', 'is', 'is', 'ise', 'isi', 'ismét', \"isn't\", 'ison', 'isso', 'ist', 'isto', 'it', \"it's\", 'iti', 'its', 'itse', 'itself', 'itt', 'itu', 'itukah', 'itulah', 'için', 'j', 'j', 'ja', 'ja', 'ja', 'ja', 'ja', 'ja', 'jag', 'jak', 'jak', 'jakby', 'jaki', 'jangan', 'jangankan', 'janganlah', 'jde', 'je', 'je', 'je', 'je', 'je', 'jede', 'jedem', 'jeden', 'jeden', 'jeden', 'jedenáct', 'jeder', 'jedes', 'jedna', 'jedna', 'jedno', 'jedno', 'jednou', 'jedou', 'jeg', 'jeg', 'jeg', 'jego', 'jeho', 'jeho', 'jej', 'jej', 'jejich', 'její', 'jemu', 'jemu', 'jen', 'jene', 'jenem', 'jenen', 'jener', 'jenes', 'jenom', 'jer', 'jest', 'jestem', 'jestli', 'jestliže', 'jetzt', 'jeśli', 'ještě', 'jeżeli', 'jich', 'jika', 'jikalau', 'jimi', 'jinak', 'jo', 'jo', 'jobban', 'johon', 'joiden', 'joihin', 'joiksi', 'joilla', 'joille', 'joilta', 'joina', 'joissa', 'joista', 'joita', 'joka', 'joksi', 'jolla', 'jolle', 'jolta', 'jona', 'jonka', 'jos', 'jossa', 'josta', 'jota', 'jotka', 'jsem', 'jsi', 'jsme', 'jsou', 'jste', 'ju', 'juga', 'juste', 'justru', 'już', 'já', 'já', 'jí', 'jím', 'jó', 'jól', 'ją', 'k', 'k', 'kala', 'kalau', 'kalaulah', 'kalaupun', 'kalian', 'kam', 'kam', 'kami', 'kamilah', 'kamu', 'kamulah', 'kan', 'kan', 'kan', 'kan', 'kan', 'kann', 'kanssa', 'kapan', 'kapankah', 'kapanpun', 'karena', 'karenanya', 'katrilyon', 'każdy', 'každá', 'každé', 'každí', 'každý', 'kde', 'kde', 'kdo', 'kdy', 'když', 'ke', 'ke', 'kecil', 'keiden', 'keihin', 'keiksi', 'keille', 'keillä', 'keiltä', 'kein', 'keine', 'keinem', 'keinen', 'keiner', 'keines', 'keinä', 'keissä', 'keistä', 'keitä', 'kell', 'kellett', 'kemudian', 'kenapa', 'keneen', 'keneksi', 'kenelle', 'kenellä', 'keneltä', 'kenen', 'kenenä', 'kenessä', 'kenestä', 'kenet', 'kepada', 'kepadanya', 'keressünk', 'keresztül', 'ketika', 'ketkä', 'ketkä', 'ketä', 'kez', 'keď', 'khi', 'khi khác', 'khi không', 'khi nào', 'khi nên', 'khi trước', 'khiến', 'khoảng', 'khoảng cách', 'khoảng không', 'khususnya', 'khá', 'khá tốt', 'khác', 'khác gì', 'khác khác', 'khác nhau', 'khác nào', 'khác thường', 'khác xa', 'khách', 'khó', 'khó biết', 'khó chơi', 'khó khăn', 'khó làm', 'khó mở', 'khó nghe', 'khó nghĩ', 'khó nói', 'khó thấy', 'khó tránh', 'không', 'không ai', 'không bao giờ', 'không bao lâu', 'không biết', 'không bán', 'không chỉ', 'không còn', 'không có', 'không có gì', 'không cùng', 'không cần', 'không cứ', 'không dùng', 'không gì', 'không hay', 'không khỏi', 'không kể', 'không ngoài', 'không nhận', 'không những', 'không phải', 'không phải không', 'không thể', 'không tính', 'không điều kiện', 'không được', 'không đầy', 'không để', 'khẳng định', 'khỏi', 'khỏi nói', 'ki', 'ki', 'kiedy', 'kierunku', 'kim', 'kimden', 'kime', 'kimi', 'kini', 'kinilah', 'kiranya', 'kita', 'kitalah', 'kok', 'kolik', 'kom', 'kom', 'kon', 'korleis', 'korleis', 'korso', 'korso', 'koska', 'kromě', 'která', 'které', 'který', 'kteří', 'kto', 'kto', 'ktorou', 'ktorá', 'ktoré', 'ktorí', 'ktorý', 'ku', 'ku', 'kuin', 'kuka', 'kun', 'kun', 'kun', 'kunde', 'kunne', 'kunne', 'kunne', 'kunnen', 'kva', 'kva', 'kvar', 'kvar', 'kvarhelst', 'kvarhelst', 'kven', 'kven', 'kvi', 'kvi', 'kvifor', 'kvifor', 'kvůli', 'kívül', 'können', 'könnte', 'között', 'közül', 'kýrk', 'kể', 'kể cả', 'kể như', 'kể tới', 'kể từ', 'l', 'l', 'l', 'la', 'la', 'la', 'la', 'la', 'lagi', 'lagian', 'lah', 'lain', 'lainnya', 'lalu', 'lama', 'lamanya', 'las', 'le', 'le', 'le', 'le', 'lebih', 'lebo', 'legalább', 'legyen', 'lehet', 'lehetett', 'lei', 'len', 'lenne', 'lenni', 'les', 'les', 'les', 'lesz', \"let's\", 'lett', 'leur', 'leurs', 'lhe', 'lhes', 'li', 'li', 'liên quan', 'llarg', 'llavors', 'lo', 'lo', 'lor', 'loro', 'los', 'loại', 'loại từ', 'lub', 'lui', 'lui', 'lui', 'luôn', 'luôn cả', 'luôn luôn', 'luôn tay', 'là', 'là', 'là cùng', 'là là', 'là nhiều', 'là phải', 'là thế nào', 'là vì', 'là ít', 'làm', 'làm bằng', 'làm cho', 'làm dần dần', 'làm gì', 'làm lòng', 'làm lại', 'làm lấy', 'làm mất', 'làm ngay', 'làm như', 'làm nên', 'làm ra', 'làm riêng', 'làm sao', 'làm theo', 'làm thế nào', 'làm tin', 'làm tôi', 'làm tăng', 'làm tại', 'làm tắp lự', 'làm vì', 'làm đúng', 'làm được', 'lâu', 'lâu các', 'lâu lâu', 'lâu nay', 'lâu ngày', 'lên', 'lên cao', 'lên cơn', 'lên mạnh', 'lên ngôi', 'lên nước', 'lên số', 'lên xuống', 'lên đến', 'lòng', 'lòng không', 'lúc', 'lúc khác', 'lúc lâu', 'lúc nào', 'lúc này', 'lúc sáng', 'lúc trước', 'lúc đi', 'lúc đó', 'lúc đến', 'lúc ấy', 'lý do', 'lượng', 'lượng cả', 'lượng số', 'lượng từ', 'lại', 'lại bộ', 'lại cái', 'lại còn', 'lại giống', 'lại làm', 'lại người', 'lại nói', 'lại nữa', 'lại quả', 'lại thôi', 'lại ăn', 'lại đây', 'lấy', 'lấy có', 'lấy cả', 'lấy giống', 'lấy làm', 'lấy lý do', 'lấy lại', 'lấy ra', 'lấy ráo', 'lấy sau', 'lấy số', 'lấy thêm', 'lấy thế', 'lấy vào', 'lấy xuống', 'lấy được', 'lấy để', 'lần', 'lần khác', 'lần lần', 'lần nào', 'lần này', 'lần sang', 'lần sau', 'lần theo', 'lần trước', 'lần tìm', 'lớn', 'lớn lên', 'lớn nhỏ', 'lời', 'lời chú', 'lời nói', 'm', 'm', 'ma', 'ma', 'ma', 'ma', 'ma', 'maar', 'macam', 'machen', 'maga', 'magát', 'mai', 'maintenant', 'mais', 'mais', 'majd', 'majd', 'mají', 'mają', 'maka', 'makanya', 'makin', 'malah', 'malahan', 'mam', 'mampu', 'mampukah', 'man', 'man', 'man', 'man', 'man', 'mana', 'manakala', 'manalagi', 'manche', 'manchem', 'manchen', 'mancher', 'manches', 'mang', 'mang lại', 'mang mang', 'mang nặng', 'mang về', 'mange', 'mange', 'mange', 'mare', 'mas', 'masih', 'masihkah', 'masing', 'mau', 'maupun', 'mať', 'me', 'me', 'me', 'me', 'me', 'me', 'me', 'me', 'me', 'med', 'med', 'med', 'med', 'medan', 'medan', 'medzi', 'meer', 'meg', 'meg', 'meg', 'meget', 'meget', 'meget', 'meidän', 'meidät', 'meihin', 'meille', 'meillä', 'meiltä', 'mein', 'meine', 'meinem', 'meinen', 'meiner', 'meines', 'meissä', 'meistä', 'meitä', 'melainkan', 'melalui', 'mellan', 'mellett', 'mellom', 'mellom', 'mely', 'melyek', 'memang', 'men', 'men', 'men', 'men', 'men', 'mengapa', 'mentre', 'mereka', 'merekalah', 'mert', 'merupakan', 'mes', 'meski', 'meskipun', 'mesmo', 'met', 'meu', 'meu', 'meus', 'mezi', 'mi', 'mi', 'mi', 'mi', 'mi', 'mi', 'mi', 'mi', 'mia', 'mich', 'mie', 'miei', 'mig', 'mig', 'mihin', 'mij', 'mijn', 'mikor', 'miksi', 'mikä', 'mille', 'millä', 'miltä', 'milyar', 'milyen', 'milyon', 'min', 'min', 'min', 'min', 'mina', 'minden', 'mindenki', 'mindent', 'mindig', 'mine', 'mine', 'mine', 'minha', 'minhas', 'minkä', 'minkä', 'mint', 'mintha', 'minua', 'minulla', 'minulle', 'minulta', 'minun', 'minussa', 'minusta', 'minut', 'minuun', 'minä', 'minä', 'mio', 'mir', 'mis', 'missä', 'mistä', 'mit', 'mit', 'mit', 'mitkä', 'mitt', 'mitt', 'mitt', 'mitä', 'mivel', 'miért', 'mna', 'mne', 'mnie', 'mnou', 'mnou', 'mną', 'mně', 'moc', 'mod', 'mod', 'mode', 'moet', 'mohl', 'mohou', 'moi', 'moi', 'moins', 'moja', 'moje', 'moje', 'moji', 'molt', 'molts', 'mon', 'more', 'most', 'most', 'mot', 'mot', 'mot', 'mot', 'może', 'možná', 'mu', 'mu', 'mucho', 'muchos', 'muito', 'mukaan', 'mult', 'multa', 'multe', 'multi', 'mungkin', 'mungkinkah', 'musieť', 'muss', 'musste', \"mustn't\", 'musí', 'mutta', 'muy', 'muốn', 'my', 'my', 'my', 'my', 'mycket', 'mykje', 'mykje', 'myself', 'mà', 'mà cả', 'mà không', 'mà lại', 'mà thôi', 'mà vẫn', 'má', 'má', 'málo', 'mám', 'máme', 'már', 'más', 'más', 'másik', 'máte', 'máte', 'máš', 'mé', 'még', 'même', 'mình', 'mí', 'mí', 'mía', 'mías', 'míg', 'mío', 'míos', 'mít', 'mój', 'môcť', 'môj', 'môže', 'mü', 'mý', 'mě', 'můj', 'může', 'mạnh', 'mất', 'mất còn', 'mọi', 'mọi giờ', 'mọi khi', 'mọi lúc', 'mọi người', 'mọi nơi', 'mọi sự', 'mọi thứ', 'mọi việc', 'mối', 'mỗi', 'mỗi lúc', 'mỗi lần', 'mỗi một', 'mỗi ngày', 'mỗi người', 'một', 'một cách', 'một cơn', 'một khi', 'một lúc', 'một số', 'một vài', 'một ít', 'mới', 'mới hay', 'mới rồi', 'mới đây', 'mở', 'mở mang', 'mở nước', 'mở ra', 'mợ', 'mức', 'n', 'n', 'na', 'na', 'na', 'na', 'na', 'naar', 'nach', 'nad', 'nad', 'nada', 'nade', 'nagy', 'nagyobb', 'nagyon', 'nah', 'nam', 'nami', 'namun', 'nanti', 'nantinya', 'naproti', 'nas', 'nas', 'nasi', 'nasz', 'nasza', 'nasze', 'nasýl', 'natychmiast', 'nay', 'naše', 'naši', 'naši', 'ne', 'ne', 'ne', 'ne', 'ne', 'ne', 'ne', 'nebo', 'nebyl', 'nebyla', 'nebyli', 'nebyly', 'nech', 'ned', 'ned', 'ned', 'neden', 'nedělají', 'nedělá', 'nedělám', 'neděláme', 'neděláte', 'neděláš', 'negl', 'negli', 'nei', 'nejsi', 'nekem', 'neki', 'nel', 'nell', 'nella', 'nelle', 'nello', 'nem', 'nem', 'nemají', 'nemáme', 'nemáte', 'neměl', 'není', 'nerde', 'nerede', 'nereye', 'nestačí', 'nevadí', 'než', 'než', 'ngay', 'ngay bây giờ', 'ngay cả', 'ngay khi', 'ngay khi đến', 'ngay lúc', 'ngay lúc này', 'ngay lập tức', 'ngay thật', 'ngay tức khắc', 'ngay tức thì', 'ngay từ', 'nghe', 'nghe chừng', 'nghe hiểu', 'nghe không', 'nghe lại', 'nghe nhìn', 'nghe như', 'nghe nói', 'nghe ra', 'nghe rõ', 'nghe thấy', 'nghe tin', 'nghe trực tiếp', 'nghe đâu', 'nghe đâu như', 'nghe được', 'nghen', 'nghiễm nhiên', 'nghĩ', 'nghĩ lại', 'nghĩ ra', 'nghĩ tới', 'nghĩ xa', 'nghĩ đến', 'nghỉm', 'ngoài', 'ngoài này', 'ngoài ra', 'ngoài xa', 'ngoải', 'nguồn', 'ngày', 'ngày càng', 'ngày cấp', 'ngày giờ', 'ngày ngày', 'ngày nào', 'ngày này', 'ngày nọ', 'ngày qua', 'ngày rày', 'ngày tháng', 'ngày xưa', 'ngày xửa', 'ngày đến', 'ngày ấy', 'ngôi', 'ngôi nhà', 'ngôi thứ', 'ngõ hầu', 'ngăn ngắt', 'ngươi', 'người', 'người hỏi', 'người khác', 'người khách', 'người mình', 'người nghe', 'người người', 'người nhận', 'ngọn', 'ngọn nguồn', 'ngọt', 'ngồi', 'ngồi bệt', 'ngồi không', 'ngồi sau', 'ngồi trệt', 'ngộ nhỡ', 'nhanh', 'nhanh lên', 'nhanh tay', 'nhau', 'nhiên hậu', 'nhiều', 'nhiều ít', 'nhiệt liệt', 'nhung nhăng', 'nhà', 'nhà chung', 'nhà khó', 'nhà làm', 'nhà ngoài', 'nhà ngươi', 'nhà tôi', 'nhà việc', 'nhân dịp', 'nhân tiện', 'nhé', 'nhìn', 'nhìn chung', 'nhìn lại', 'nhìn nhận', 'nhìn theo', 'nhìn thấy', 'nhìn xuống', 'nhóm', 'nhón nhén', 'như', 'như ai', 'như chơi', 'như không', 'như là', 'như nhau', 'như quả', 'như sau', 'như thường', 'như thế', 'như thế nào', 'như thể', 'như trên', 'như trước', 'như tuồng', 'như vậy', 'như ý', 'nhưng', 'nhưng mà', 'nhược bằng', 'nhất', 'nhất loạt', 'nhất luật', 'nhất là', 'nhất mực', 'nhất nhất', 'nhất quyết', 'nhất sinh', 'nhất thiết', 'nhất thì', 'nhất tâm', 'nhất tề', 'nhất đán', 'nhất định', 'nhận', 'nhận biết', 'nhận họ', 'nhận làm', 'nhận nhau', 'nhận ra', 'nhận thấy', 'nhận việc', 'nhận được', 'nhằm', 'nhằm khi', 'nhằm lúc', 'nhằm vào', 'nhằm để', 'nhỉ', 'nhỏ', 'nhỏ người', 'nhớ', 'nhớ bập bõm', 'nhớ lại', 'nhớ lấy', 'nhớ ra', 'nhờ', 'nhờ chuyển', 'nhờ có', 'nhờ nhờ', 'nhờ đó', 'nhỡ ra', 'những', 'những ai', 'những khi', 'những là', 'những lúc', 'những muốn', 'những như', 'ni', 'ni', 'ni', 'ni', 'nic', 'nic', 'nich', 'nich', 'nicht', 'nichts', 'nici', 'niciodata', 'nie', 'nie', 'niego', 'niej', 'niektorý', 'niemu', 'niet', 'niets', 'nigdy', 'niiden', 'niihin', 'niiksi', 'niille', 'niillä', 'niiltä', 'niin', 'niin', 'niinä', 'niissä', 'niistä', 'niitä', 'nim', 'nimeni', 'nimi', 'nimi', 'nimic', 'nincs', 'niste', 'niye', 'niçin', 'nią', 'nič', 'niż', 'no', 'no', 'no', 'no', 'no', 'no', 'noch', 'noe', 'noe', 'noen', 'noen', 'nog', 'noget', 'nogle', 'noi', 'noi', 'noiden', 'noihin', 'noiksi', 'noilla', 'noille', 'noilta', 'noin', 'noina', 'noissa', 'noista', 'noita', 'noka', 'noka', 'noko', 'noko', 'nokon', 'nokon', 'nokor', 'nokor', 'nokre', 'nokre', 'nom', 'nommé', 'nommée', 'nommés', 'non', 'nor', 'nos', 'nos', 'nos', 'nosaltres', 'nosotras', 'nosotros', 'nossa', 'nossas', 'nosso', 'nossos', 'nostra', 'nostre', 'nostri', 'nostri', 'nostro', 'not', 'notre', 'nou', 'noua', 'nous', 'nouveau', 'nouveaux', 'nová', 'nové', 'nové', 'noví', 'nový', 'nu', 'nu', 'nu', 'nu', 'nuestra', 'nuestras', 'nuestro', 'nuestros', 'nula', 'num', 'numa', 'numai', 'nun', 'nuo', 'nur', 'nyaris', 'nyt', 'nào', 'nào cũng', 'nào hay', 'nào là', 'nào phải', 'nào đâu', 'nào đó', 'này', 'này nọ', 'nám', 'nám', 'námi', 'nás', 'náš', 'náš', 'não', 'näiden', 'näihin', 'näiksi', 'näille', 'näillä', 'näiltä', 'näinä', 'näissä', 'näistä', 'näitä', 'nämä', 'när', 'nå', 'nå', 'någon', 'något', 'några', 'når', 'når', 'når', 'néha', 'néhány', 'nélkül', 'nên', 'nên chi', 'nên chăng', 'nên làm', 'nên người', 'nên tránh', 'ním', 'nó', 'nóc', 'nói', 'nói bông', 'nói chung', 'nói khó', 'nói là', 'nói lên', 'nói lại', 'nói nhỏ', 'nói phải', 'nói qua', 'nói ra', 'nói riêng', 'nói rõ', 'nói thêm', 'nói thật', 'nói toẹt', 'nói trước', 'nói tốt', 'nói với', 'nói xa', 'nói ý', 'nói đến', 'nói đủ', 'nós', 'năm', 'năm tháng', 'ně', 'něco', 'nějak', 'někde', 'někdo', 'němu', 'nơi', 'nơi nơi', 'nước', 'nước bài', 'nước cùng', 'nước lên', 'nước nặng', 'nước quả', 'nước xuống', 'nước ăn', 'nước đến', 'nấy', 'nặng', 'nặng căn', 'nặng mình', 'nặng về', 'nếu', 'nếu có', 'nếu cần', 'nếu không', 'nếu mà', 'nếu như', 'nếu thế', 'nếu vậy', 'nếu được', 'nền', 'nọ', 'nớ', 'nức nở', 'nữa', 'nữa khi', 'nữa là', 'nữa rồi', 'o', 'o', 'o', 'o', 'o', 'o', 'oai oái', 'ob', 'obok', 'och', 'od', 'od', 'od', 'ode', 'oder', 'odo', 'of', 'of', 'of', 'off', 'og', 'og', 'og', 'også', 'også', 'også', 'ohne', 'około', 'ole', 'oleh', 'olehnya', 'olemme', 'olen', 'olet', 'olette', 'oli', 'olimme', 'olin', 'olisi', 'olisimme', 'olisin', 'olisit', 'olisitte', 'olisivat', 'olit', 'olitte', 'olivat', 'olla', 'olleet', 'ollut', 'olyan', 'om', 'om', 'om', 'om', 'om', 'omdat', 'on', 'on', 'on', 'on', 'on', 'on', 'on', 'on', 'ona', 'ona', 'ona', 'ona', 'once', 'ondan', 'onder', 'one', 'oni', 'oni', 'oni', 'onlar', 'onlardan', 'onlari', 'onlarýn', 'only', 'ono', 'ono', 'ono', 'ons', 'ont', 'onu', 'ony', 'ony', 'ook', 'op', 'op', 'opp', 'opp', 'or', 'or', 'ori', 'orice', 'oricum', 'os', 'os', 'os', 'osm', 'osmnáct', 'oss', 'oss', 'oss', 'other', 'otra', 'otras', 'otro', 'otros', 'ott', 'otuz', 'ou', 'ou', 'ought', 'our', 'ours', 'ourselves', 'out', 'ovat', 'over', 'over', 'over', 'over', 'over', 'own', 'owszem', 'oái', 'où', 'p', 'pada', 'padahal', 'padanya', 'pai', 'pak', 'paling', 'pana', 'pantas', 'par', 'para', 'para', 'para', 'parca', 'parce', 'parole', 'pas', 'pasti', 'pastilah', 'patnáct', 'pe', 'pedig', 'pela', 'pelas', 'pelo', 'pelos', 'pentru', 'per', 'per', 'per', 'per', 'per que', 'perché', 'percuma', 'pernah', 'pero', 'perquè', 'personne', 'personnes', 'persze', 'però', 'però', 'peste', 'peu', 'peut', 'pho', 'phè', 'phè phè', 'phía', 'phía bên', 'phía bạn', 'phía dưới', 'phía sau', 'phía trong', 'phía trên', 'phía trước', 'phóc', 'phót', 'phù hợp', 'phăn phắt', 'phương chi', 'phải', 'phải biết', 'phải chi', 'phải chăng', 'phải cách', 'phải cái', 'phải giờ', 'phải khi', 'phải không', 'phải lại', 'phải lời', 'phải người', 'phải như', 'phải rồi', 'phải tay', 'phần', 'phần lớn', 'phần nhiều', 'phần nào', 'phần sau', 'phần việc', 'phắt', 'phỉ phui', 'phỏng', 'phỏng như', 'phỏng nước', 'phỏng theo', 'phỏng tính', 'phốc', 'phụt', 'phứt', 'pina', 'più', 'plupart', 'plus', 'po', 'po', 'po', 'pochi', 'poco', 'poco', 'pod', 'pod', 'podem', 'poden', 'poder', 'podeu', 'podľa', 'poikki', 'pokiaľ', 'ponieważ', 'por', 'por', 'porque', 'potom', 'potom', 'potser', 'pour', 'pourquoi', 'pozdě', 'pořád', 'pre', 'prea', 'pred', 'predo', 'preto', 'pretože', 'prečo', 'pri', 'primer', 'prin', 'pro', 'prostě', 'prosím', 'proti', 'protože', 'proč', 'prvá', 'prvé', 'prví', 'prvý', 'przed', 'przedtem', 'práve', 'puc', 'pula', 'pun', 'putini', 'på', 'på', 'på', 'på', 'pýta', 'pět', 'před', 'přes', 'přese', 'qu', 'qua', 'qua', 'qua chuyện', 'qua khỏi', 'qua lại', 'qua lần', 'qua ngày', 'qua tay', 'qua thì', 'qua đi', 'qual', 'quale', 'quan', 'quan trọng', 'quan trọng vấn đề', 'quan tâm', 'quand', 'quando', 'quant', 'quanta', 'quante', 'quanti', 'quanto', 'quasi', 'quay', 'quay bước', 'quay lại', 'quay số', 'quay đi', 'que', 'que', 'que', 'quel', 'quella', 'quelle', 'quelle', 'quelles', 'quelli', 'quello', 'quels', 'quem', 'questa', 'queste', 'questi', 'questo', 'qui', 'qui', 'qui', 'quien', 'quienes', 'quindi', 'quá', 'quá bán', 'quá bộ', 'quá giờ', 'quá lời', 'quá mức', 'quá nhiều', 'quá tay', 'quá thì', 'quá tin', 'quá trình', 'quá tuổi', 'quá đáng', 'quá ư', 'qué', 'quả', 'quả là', 'quả thật', 'quả thế', 'quả vậy', 'quận', 'r', 'ra', 'ra bài', 'ra bộ', 'ra chơi', 'ra gì', 'ra lại', 'ra lời', 'ra ngôi', 'ra người', 'ra sao', 'ra tay', 'ra vào', 'ra ý', 'ra điều', 'ra đây', 'reeds', 'ren rén', 'riu ríu', 'riêng', 'riêng từng', 'riệt', 'rovně', 'rupanya', 'rày', 'rá', 'ráo', 'ráo cả', 'ráo nước', 'ráo trọi', 'rén', 'rén bước', 'rích', 'rón rén', 'rõ', 'rõ là', 'rõ thật', 'rút cục', 'răng', 'răng răng', 'rất', 'rất lâu', 'rằng', 'rằng là', 'rốt cuộc', 'rốt cục', 'rồi', 'rồi nữa', 'rồi ra', 'rồi sao', 'rồi sau', 'rồi tay', 'rồi thì', 'rồi xem', 'rồi đây', 'rứa', 's', 's', 's', 'sa', 'sa', 'sa', 'sa sả', 'sa-mi', 'sa-ti', 'saat', 'saatnya', 'sabem', 'saben', 'saber', 'sabeu', 'sai', 'saja', 'sajalah', 'saját', 'sale', 'saling', 'sam', 'sama', 'sama', 'sambil', 'same', 'samma', 'samme', 'samme', 'sampai', 'sana', 'sang', 'sang năm', 'sang sáng', 'sang tay', 'sangat', 'sangatlah', 'sanki', 'sans', 'sao', 'sao bản', 'sao bằng', 'sao cho', 'sao vậy', 'sao đang', 'sap', 'saps', 'sarai', 'saranno', 'sarebbe', 'sarebbero', 'sarei', 'saremmo', 'saremo', 'sareste', 'saresti', 'sarete', 'sarà', 'sarò', 'sau', 'sau', 'sau chót', 'sau cuối', 'sau cùng', 'sau hết', 'sau này', 'sau nữa', 'sau sau', 'sau đây', 'sau đó', 'saya', 'sayalah', 'se', 'se', 'se', 'se', 'se', 'se', 'se', 'se', 'sea', 'seamos', 'sean', 'seas', 'sebab', 'sebabnya', 'sebagai', 'sebagaimana', 'sebagainya', 'sebaliknya', 'sebanyak', 'sebegini', 'sebegitu', 'sebelum', 'sebelumnya', 'sebenarnya', 'seberapa', 'sebetulnya', 'sebisanya', 'sebuah', 'sedan', 'sedang', 'sedangkan', 'sedemikian', 'sedikit', 'sedikitnya', 'sedm', 'sedmnáct', 'seg', 'seg', 'segala', 'segalanya', 'segera', 'seharusnya', 'sehingga', 'sehr', 'sei', 'sein', 'seine', 'seinem', 'seinen', 'seiner', 'seines', 'seja', 'sejak', 'sejam', 'sejamos', 'sejenak', 'sekali', 'sekalian', 'sekaligus', 'sekalipun', 'sekarang', 'sekarang', 'seketika', 'sekiranya', 'sekitar', 'sekitarnya', 'sekiz', 'seksen', 'sekä', 'sela', 'selagi', 'selain', 'selaku', 'selalu', 'selama', 'selama', 'selamanya', 'selbst', 'seluruh', 'seluruhnya', 'selv', 'selv', 'selv', 'sem', 'sem', 'semacam', 'semakin', 'semasih', 'semaunya', 'sementara', 'semmi', 'sempat', 'semua', 'semuanya', 'semula', 'sen', 'sen', 'senden', 'sendiri', 'sendirinya', 'seni', 'senin', 'sense', 'senza', 'seolah', 'seorang', 'sepanjang', 'sepantasnya', 'sepantasnyalah', 'seperti', 'sepertinya', 'ser', 'sera', 'serai', 'seraient', 'serais', 'serait', 'seras', 'serei', 'seremos', 'seremos', 'serez', 'seria', 'seriam', 'seriez', 'sering', 'seringnya', 'serions', 'serons', 'seront', 'serta', 'serupa', 'será', 'será', 'serán', 'serás', 'serão', 'seré', 'seréis', 'sería', 'seríais', 'seríamos', 'seríamos', 'serían', 'serías', 'ses', 'sesaat', 'sesama', 'sesegera', 'sesekali', 'seseorang', 'sesuatu', 'sesuatunya', 'sesudah', 'sesudahnya', 'setelah', 'seterusnya', 'setiap', 'setidaknya', 'seu', 'seu', 'seulement', 'seus', 'seus', 'sewaktu', 'seáis', \"shan't\", 'she', \"she'd\", \"she'll\", \"she's\", 'should', \"shouldn't\", 'si', 'si', 'si', 'si', 'si', 'si', 'si', 'si', 'sia', 'sia', 'sia', 'siamo', 'siano', 'siapa', 'siapakah', 'siapapun', 'siate', 'sich', 'sidan', 'sidan', 'siden', 'siden', 'sido', 'sie', 'sien', 'siendo', 'siete', 'sig', 'sig', 'siihen', 'siinä', 'siitä', 'siksi', 'sille', 'sillä', 'sillä', 'siltä', 'sin', 'sin', 'sin', 'sin', 'sin', 'sina', 'sind', 'sine', 'sine', 'sine', 'sini', 'sinilah', 'sint', 'sintem', 'sinua', 'sinulla', 'sinulle', 'sinulta', 'sinun', 'sinussa', 'sinusta', 'sinut', 'sinuun', 'sinä', 'sinä', 'sit', 'sitt', 'sitt', 'sitta', 'sitä', 'siz', 'sizden', 'sizi', 'sizin', 'się', 'själv', 'sjøl', 'sjøl', 'skal', 'skal', 'skal', 'skoro', 'skulle', 'skulle', 'skulle', 'skulle', 'skąd', 'slik', 'slik', 'sme', 'smí', 'smějí', 'snad', 'so', 'so', 'so', 'so', 'so', 'so', 'so với', 'sobre', 'soc', 'soi', 'soient', 'sois', 'sois', 'soit', 'sok', 'sokat', 'sokkal', 'solament', 'solche', 'solchem', 'solchen', 'solcher', 'solches', 'soll', 'sollte', 'sols', 'som', 'som', 'som', 'som', 'som', 'som', 'some', 'somme', 'somme', 'sommes', 'somos', 'somos', 'somt', 'somt', 'son', 'son', 'sondern', 'song le', 'sono', 'sonst', 'sont', 'sopra', 'sota', 'sotto', 'sou', 'sous', 'soy', 'soyez', 'soyons', 'spolu', 'spre', 'sta', 'sta', 'stai', 'stando', 'stanno', 'starai', 'staranno', 'stare', 'starebbe', 'starebbero', 'starei', 'staremmo', 'staremo', 'stareste', 'staresti', 'starete', 'starà', 'starò', 'stava', 'stavamo', 'stavano', 'stavate', 'stavi', 'stavo', 'stemmo', 'stesse', 'stessero', 'stessi', 'stessimo', 'stesso', 'steste', 'stesti', 'stette', 'stettero', 'stetti', 'stia', 'stiamo', 'stiano', 'stiate', 'sto', 'sto', 'sté', 'su', 'su', 'sua', 'sua', 'suas', 'suatu', 'sub', 'such', 'sudah', 'sudahkah', 'sudahlah', 'sue', 'sugl', 'sugli', 'sui', 'suis', 'sujet', 'sul', 'sull', 'sulla', 'sulle', 'sullo', 'sunt', 'sunt', 'suntem', 'suntem', 'suo', 'suoi', 'supaya', 'sur', 'sus', 'sus', 'suya', 'suyas', 'suyo', 'suyos', 'suýt', 'suýt nữa', 'svoj', 'svoje', 'svojich', 'svojím', 'svojími', 'szemben', 'szerint', 'szinte', 'számára', 'sáng', 'sáng ngày', 'sáng rõ', 'sáng thế', 'sáng ý', 'são', 'så', 'så', 'så', 'sådan', 'sådan', 'sådana', 'sådant', 'sånn', 'sånn', 'sì', 'sì sì', 'sí', 'só', 'sú', 'są', 'sất', 'sắp', 'sắp đặt', 'sẽ', 'sẽ biết', 'sẽ hay', 'số', 'số cho biết', 'số cụ thể', 'số loại', 'số là', 'số người', 'số phần', 'số thiếu', 'sốt sột', 'sớm', 'sớm ngày', 'sở dĩ', 'sử dụng', 'sự', 'sự thế', 'sự việc', 't', 't', 'ta', 'ta', 'ta', 'tadi', 'tadinya', 'tady', 'tai', 'tak', 'tak', 'tak', 'tak', 'takhle', 'taki', 'taky', 'takže', 'talán', 'tam', 'tam', 'también', 'també', 'também', 'tamhle', 'tamhleto', 'tamto', 'tandis', 'tanh', 'tanh tanh', 'tanpa', 'tanto', 'tapi', 'tay', 'tay quay', 'te', 'te', 'te', 'te', 'te', 'te', 'te', 'te', 'te', 'tebe', 'tebou', \"ted'\", 'teda', 'tedy', 'tegen', 'tehát', 'teidän', 'teidät', 'teihin', 'teille', 'teillä', 'teiltä', 'teissä', 'teistä', 'teitä', 'telah', 'teljes', 'tellement', 'tels', 'tem', 'temos', 'ten', 'ten', 'ten', 'tendremos', 'tendrá', 'tendrán', 'tendrás', 'tendré', 'tendréis', 'tendría', 'tendríais', 'tendríamos', 'tendrían', 'tendrías', 'tene', 'tened', 'tenemos', 'tenga', 'tengamos', 'tengan', 'tengas', 'tengo', 'tengáis', 'tenha', 'tenham', 'tenhamos', 'tenho', 'tenida', 'tenidas', 'tenido', 'tenidos', 'teniendo', 'tenim', 'tenir', 'teniu', 'tentang', 'tento', 'tentu', 'tentulah', 'tentunya', 'tenéis', 'tenía', 'teníais', 'teníamos', 'tenían', 'tenías', 'terdiri', 'terei', 'teremos', 'terhadap', 'terhadapnya', 'teria', 'teriam', 'terlalu', 'terlebih', 'tersebut', 'tersebutlah', 'tertentu', 'terá', 'terão', 'teríamos', 'tes', 'tetapi', 'teu', 'teu', 'teus', 'teve', 'tha hồ', 'tha hồ chơi', 'tha hồ ăn', 'than', 'than ôi', 'thanh', 'thanh ba', 'thanh chuyển', 'thanh không', 'thanh thanh', 'thanh tính', 'thanh điều kiện', 'thanh điểm', 'that', \"that's\", 'thay đổi', 'thay đổi tình trạng', 'the', 'the', 'their', 'theirs', 'them', 'themselves', 'then', 'theo', 'theo bước', 'theo như', 'theo tin', 'there', \"there's\", 'these', 'they', \"they'd\", \"they'll\", \"they're\", \"they've\", 'thi', 'thi thoảng', 'this', 'thiếu', 'thiếu gì', 'thiếu điểm', 'those', 'thoạt', 'thoạt nghe', 'thoạt nhiên', 'thoắt', 'through', 'thuần', 'thuần ái', 'thuộc', 'thuộc bài', 'thuộc cách', 'thuộc lại', 'thuộc từ', 'thà', 'thà là', 'thà rằng', 'thành ra', 'thành thử', 'thái quá', 'tháng', 'tháng ngày', 'tháng năm', 'tháng tháng', 'thêm', 'thêm chuyện', 'thêm giờ', 'thêm vào', 'thì', 'thì giờ', 'thì là', 'thì phải', 'thì ra', 'thì thôi', 'thình lình', 'thích', 'thích cứ', 'thích thuộc', 'thích tự', 'thích ý', 'thím', 'thôi', 'thôi việc', 'thúng thắng', 'thương ôi', 'thường', 'thường bị', 'thường hay', 'thường khi', 'thường số', 'thường sự', 'thường thôi', 'thường thường', 'thường tính', 'thường tại', 'thường xuất hiện', 'thường đến', 'thảo hèn', 'thảo nào', 'thấp', 'thấp cơ', 'thấp thỏm', 'thấp xuống', 'thấy', 'thấy tháng', 'thẩy', 'thậm', 'thậm chí', 'thậm cấp', 'thậm từ', 'thật', 'thật chắc', 'thật là', 'thật lực', 'thật quả', 'thật ra', 'thật sự', 'thật thà', 'thật tốt', 'thật vậy', 'thế', 'thế chuẩn bị', 'thế là', 'thế lại', 'thế mà', 'thế nào', 'thế nên', 'thế ra', 'thế sự', 'thế thì', 'thế thôi', 'thế thường', 'thế thế', 'thế à', 'thế đó', 'thếch', 'thỉnh thoảng', 'thỏm', 'thốc', 'thốc tháo', 'thốt', 'thốt nhiên', 'thốt nói', 'thốt thôi', 'thộc', 'thời gian', 'thời gian sử dụng', 'thời gian tính', 'thời điểm', 'thục mạng', 'thứ', 'thứ bản', 'thứ đến', 'thửa', 'thực hiện', 'thực hiện đúng', 'thực ra', 'thực sự', 'thực tế', 'thực vậy', 'ti', 'ti', 'ti', 'ti', 'tiap', 'tidak', 'tidakkah', 'tidaklah', 'tiene', 'tienen', 'tienes', 'tieto', 'tiež', 'til', 'til', 'til', 'till', 'tin', 'tin thêm', 'tin vào', 'tinc', 'tinha', 'tinham', 'tisíc', 'tisíce', 'tive', 'tivemos', 'tiver', 'tivera', 'tiveram', 'tiverem', 'tivermos', 'tivesse', 'tivessem', 'tivéramos', 'tivéssemos', 'tiếp theo', 'tiếp tục', 'tiếp đó', 'tiện thể', 'to', 'to', 'to', 'to', 'toata', 'toate', 'tobie', 'tobą', 'tobě', 'toch', 'tocmai', 'todo', 'todos', 'toen', 'toh', 'tohle', 'toho', 'tohoto', 'toi', 'tom', 'tomto', 'tomuto', 'ton', 'too', 'tot', 'tot', 'tot', 'toti', 'toto', 'toto', 'toto', 'totul', 'totusi', 'tous', 'tout', 'tovább', 'továbbá', 'toà', 'toé khói', 'toẹt', 'tra', 'trilyon', 'trong', 'trong khi', 'trong lúc', 'trong mình', 'trong ngoài', 'trong này', 'trong số', 'trong vùng', 'trong đó', 'trong ấy', 'trop', 'trošku', 'tránh', 'tránh khỏi', 'tránh ra', 'tránh tình trạng', 'tránh xa', 'très', 'trên', 'trên bộ', 'trên dưới', 'trước', 'trước hết', 'trước khi', 'trước kia', 'trước nay', 'trước ngày', 'trước nhất', 'trước sau', 'trước tiên', 'trước tuổi', 'trước đây', 'trước đó', 'trả', 'trả của', 'trả lại', 'trả ngay', 'trả trước', 'trếu tráo', 'trển', 'trệt', 'trệu trạo', 'trỏng', 'trời đất ơi', 'trở thành', 'trừ phi', 'trực tiếp', 'trực tiếp làm', 'tu', 'tu', 'tu', 'tu', 'tu', 'tu', 'tu', 'tua', 'tua', 'tuas', 'tue', 'tuo', 'tuo', 'tuohon', 'tuoi', 'tuoksi', 'tuolla', 'tuolle', 'tuolta', 'tuon', 'tuona', 'tuossa', 'tuosta', 'tuota', 'tus', 'tutaj', 'tutti', 'tutto', 'tuturor', 'tuve', 'tuviera', 'tuvierais', 'tuvieran', 'tuvieras', 'tuvieron', 'tuviese', 'tuvieseis', 'tuviesen', 'tuvieses', 'tuvimos', 'tuviste', 'tuvisteis', 'tuviéramos', 'tuviésemos', 'tuvo', 'tuy', 'tuy có', 'tuy là', 'tuy nhiên', 'tuy rằng', 'tuy thế', 'tuy vậy', 'tuy đã', 'tuya', 'tuyas', 'tuyo', 'tuyos', 'tuyệt nhiên', 'tuần tự', 'tuốt luốt', 'tuốt tuồn tuột', 'tuốt tuột', 'tuổi', 'tuổi cả', 'tuổi tôi', 'tvoj', 'tvoje', 'tvojími', 'tvá', 'tvé', 'tvůj', 'twoi', 'twoja', 'twoje', 'twój', 'ty', 'ty', 'ty', 'tà tà', 'táto', 'tähän', 'täksi', 'tälle', 'tällä', 'tältä', 'tämä', 'tämän', 'tänä', 'tässä', 'tästä', 'tätä', 'tém', 'tên', 'tên chính', 'tên cái', 'tên họ', 'tên tự', 'tênh', 'tênh tênh', 'tìm', 'tìm bạn', 'tìm cách', 'tìm hiểu', 'tìm ra', 'tìm việc', 'tình trạng', 'tính', 'tính cách', 'tính căn', 'tính người', 'tính phỏng', 'tính từ', 'tínhamos', 'tít mù', 'tò te', 'tôi', 'tôi con', 'tông tốc', 'több', 'tù tì', 'tú', 'tú', 'túto', 'tüm', 'tým', 'týmto', 'tăm tắp', 'tăng', 'tăng chúng', 'tăng cấp', 'tăng giảm', 'tăng thêm', 'tăng thế', 'tě', 'tě', 'třeba', 'tři', 'třináct', 'tại', 'tại lòng', 'tại nơi', 'tại sao', 'tại tôi', 'tại vì', 'tại đâu', 'tại đây', 'tại đó', 'tạo', 'tạo cơ hội', 'tạo nên', 'tạo ra', 'tạo ý', 'tạo điều kiện', 'tấm', 'tấm bản', 'tấm các', 'tấn', 'tấn tới', 'tất cả', 'tất cả bao nhiêu', 'tất thảy', 'tất tần tật', 'tất tật', 'tập trung', 'tắp', 'tắp lự', 'tắp tắp', 'tọt', 'tỏ ra', 'tỏ vẻ', 'tốc tả', 'tối ư', 'tốt', 'tốt bạn', 'tốt bộ', 'tốt hơn', 'tốt mối', 'tốt ngày', 'tột', 'tột cùng', 'tớ', 'tới', 'tới gần', 'tới mức', 'tới nơi', 'tới thì', 'tức thì', 'tức tốc', 'từ', 'từ căn', 'từ giờ', 'từ khi', 'từ loại', 'từ nay', 'từ thế', 'từ tính', 'từ tại', 'từ từ', 'từ ái', 'từ điều', 'từ đó', 'từ ấy', 'từng', 'từng cái', 'từng giờ', 'từng nhà', 'từng phần', 'từng thời gian', 'từng đơn vị', 'từng ấy', 'tự', 'tự cao', 'tự khi', 'tự lượng', 'tự tính', 'tự tạo', 'tự vì', 'tự ý', 'tự ăn', 'tựu trung', 'u', 'u', 'ud', 'ugyanis', 'uit', 'ul', 'ului', 'um', 'um', 'um', 'um', 'uma', 'un', 'un', 'un', 'un', 'un', 'un', 'una', 'una', 'una', 'una', 'und', 'unde', 'under', 'under', 'under', 'une', 'unei', 'unele', 'uneori', 'unes', 'unii', 'uno', 'uno', 'unor', 'unos', 'uns', 'uns', 'unser', 'unsere', 'unserem', 'unseren', 'unserer', 'unseres', 'unter', 'until', 'unui', 'unul', 'up', 'upp', 'upp', 'upp', 'určitě', 'ut', 'ut', 'ut', 'utan', 'uten', 'uten', 'utolsó', 'után', 'utána', 'uw', 'už', 'už', 'v', 'v', 'va', 'va', 'vaan', 'vad', 'vagy', 'vagyis', 'vagyok', 'vai', 'vai', 'vaig', 'vaikka', 'valaki', 'valami', 'valamint', 'valeur', 'való', 'van', 'van', 'van', 'vannak', 'var', 'var', 'var', 'var', 'vara', 'varför', 'varit', 'varje', 'vars', 'vart', 'vart', 'vart', 'varte', 'varte', 'vaše', 'vaše', 'vaši', 've', 've', 'ved', 'ved', 'vedle', 'veel', 'vele', 'vem', 'veo', 'veo veo', 'vere', 'vere', 'verte', 'verte', 'very', 'veya', 'večer', 'vi', 'vi', 'vi', 'vi', 'vi', 'viac', 'vid', 'viel', 'vil', 'vil', 'vil', 'vilka', 'vilkas', 'vilken', 'vilket', 'ville', 'ville', 'ville', 'vissza', 'viszont', 'việc', 'việc gì', 'vlastně', 'vo', 'você', 'vocês', 'voi', 'voi', 'voient', 'vois', 'voit', 'volna', 'volt', 'voltak', 'voltam', 'voltunk', 'vom', 'vom', 'von', 'vont', 'voor', 'vor', 'vor', 'vor', 'vore', 'vore', 'vors', 'vors', 'vort', 'vort', 'vos', 'vos', 'vosaltres', 'vosotras', 'vosotros', 'vostra', 'vostre', 'vostri', 'vostro', 'votre', 'vous', 'vreo', 'vreun', 'vu', 'vuestra', 'vuestras', 'vuestro', 'vuestros', 'vung thiên địa', 'vung tàn tán', 'vung tán tàn', 'vy', 'vy', 'và', 'vài', 'vài ba', 'vài người', 'vài nhà', 'vài nơi', 'vài tên', 'vài điều', 'vào', 'vào gặp', 'vào khoảng', 'vào lúc', 'vào vùng', 'vào đến', 'vám', 'vám', 'vámi', 'vás', 'váš', 'váš', 'vâng', 'vâng chịu', 'vâng dạ', 'vâng vâng', 'vâng ý', 'vår', 'vår', 'vår', 'våra', 'vårt', 'være', 'være', 'være', 'været', 'vært', 'vært', 'vèo', 'vèo vèo', 'vì', 'vì chưng', 'vì rằng', 'vì sao', 'vì thế', 'vì vậy', 'ví bằng', 'ví dù', 'ví phỏng', 'ví thử', 'vô hình trung', 'vô kể', 'vô luận', 'vô vàn', 'vùng', 'vùng lên', 'vùng nước', 'văng tê', 'však', 'všechno', 'všetok', 'všichni', 'vůbec', 'vždy', 'vượt', 'vượt khỏi', 'vượt quá', 'vạn nhất', 'vả chăng', 'vả lại', 'vấn đề', 'vấn đề quan trọng', 'vẫn', 'vẫn thế', 'vậy', 'vậy là', 'vậy mà', 'vậy nên', 'vậy ra', 'vậy thì', 'vậy ư', 'về', 'về không', 'về nước', 'về phần', 'về sau', 'về tay', 'vị trí', 'vị tất', 'vốn dĩ', 'với', 'với lại', 'với nhau', 'vở', 'vụt', 'vừa', 'vừa khi', 'vừa lúc', 'vừa mới', 'vừa qua', 'vừa rồi', 'vừa vừa', 'waduh', 'wah', 'wahai', 'walau', 'walaupun', 'wam', 'wami', 'want', 'war', 'waren', 'waren', 'warst', 'was', 'was', 'was', 'was', 'wasi', \"wasn't\", 'wasz', 'wasza', 'wasze', 'wat', 'we', 'we', \"we'd\", \"we'll\", \"we're\", \"we've\", 'weg', 'weil', 'weiter', 'welche', 'welchem', 'welchen', 'welcher', 'welches', 'wenn', 'werd', 'werde', 'werden', 'were', \"weren't\", 'wezen', 'what', \"what's\", 'when', \"when's\", 'where', \"where's\", 'which', 'while', 'who', \"who's\", 'whom', 'why', \"why's\", 'wie', 'wie', 'wieder', 'wil', 'will', 'wir', 'wird', 'wirst', 'with', 'więc', 'wo', 'wollen', 'wollte', \"won't\", 'wong', 'worden', 'wordt', 'would', \"wouldn't\", 'wszystko', 'wtedy', 'wy', 'während', 'würde', 'würden', 'xa', 'xa cách', 'xa gần', 'xa nhà', 'xa tanh', 'xa tắp', 'xa xa', 'xa xả', 'xem', 'xem lại', 'xem ra', 'xem số', 'xin', 'xin gặp', 'xin vâng', 'xiết bao', 'xon xón', 'xoành xoạch', 'xoét', 'xoẳn', 'xoẹt', 'xuất hiện', 'xuất kì bất ý', 'xuất kỳ bất ý', 'xuể', 'xuống', 'xăm xúi', 'xăm xăm', 'xăm xắm', 'xảy ra', 'xềnh xệch', 'xệp', 'xử lý', 'y', 'y', 'ya', 'ya', 'yaitu', 'yakni', 'yang', 'yani', 'yedi', 'yetmiþ', 'yirmi', 'yli', 'yo', 'you', \"you'd\", \"you'll\", \"you're\", \"you've\", 'your', 'yours', 'yourself', 'yourselves', 'yêu cầu', 'yüz', 'z', 'za', 'za', 'zal', 'zatímco', 'zawsze', 'zač', 'ze', 'ze', 'zelf', 'zich', 'zij', 'zijn', 'zo', 'zo', 'zonder', 'zou', 'zu', 'zum', 'zur', 'zwar', 'zwischen', 'à', 'à', 'à', 'à này', 'à ơi', 'ào', 'ào vào', 'ào ào', 'às', 'á', 'á à', 'ái', 'ái chà', 'ái dà', 'által', 'általában', 'áng', 'áng như', 'áno', 'át', 'âu là', 'än', 'är', 'å', 'å', 'åt', 'ça', 'çok', 'çünkü', 'è', 'él', 'én', 'éppen', 'éramos', 'éramos', 'és', 'és', 'éssent', 'étaient', 'étais', 'était', 'étant', 'état', 'étiez', 'étions', 'été', 'étés', 'êtes', 'être', 'így', 'ít', 'ít biết', 'ít có', 'ít hơn', 'ít khi', 'ít lâu', 'ít nhiều', 'ít nhất', 'ít nữa', 'ít quá', 'ít ra', 'ít thôi', 'ít thấy', 'ô hay', 'ô hô', 'ô kê', 'ô kìa', 'ôi chao', 'ôi thôi', 'ông', 'ông nhỏ', 'ông tạo', 'ông từ', 'ông ấy', 'ông ổng', 'õ', 'õk', 'õket', 'össze', 'över', 'úgy', 'úi', 'úi chà', 'úi dào', 'új', 'újabb', 'újra', 'últim', 'ús', 'über', 'üç', 'ý', 'ý chừng', 'ý da', 'ý hoặc', 'þey', 'þeyden', 'þeyi', 'þeyler', 'þu', 'þuna', 'þunda', 'þundan', 'þunu', 'ăn', 'ăn chung', 'ăn chắc', 'ăn chịu', 'ăn cuộc', 'ăn hết', 'ăn hỏi', 'ăn làm', 'ăn người', 'ăn ngồi', 'ăn quá', 'ăn riêng', 'ăn sáng', 'ăn tay', 'ăn trên', 'ăn về', 'čau', 'či', 'čo', 'čtrnáct', 'čtyři', 'ďalšia', 'ďalšie', 'ďalší', 'đang', 'đang tay', 'đang thì', 'điều', 'điều gì', 'điều kiện', 'điểm', 'điểm chính', 'điểm gặp', 'điểm đầu tiên', 'đành đạch', 'đáng', 'đáng kể', 'đáng lí', 'đáng lý', 'đáng lẽ', 'đáng số', 'đánh giá', 'đánh đùng', 'đáo để', 'đâu', 'đâu có', 'đâu cũng', 'đâu như', 'đâu nào', 'đâu phải', 'đâu đâu', 'đâu đây', 'đâu đó', 'đây', 'đây này', 'đây rồi', 'đây đó', 'đã', 'đã hay', 'đã không', 'đã là', 'đã lâu', 'đã thế', 'đã vậy', 'đã đủ', 'đó', 'đó đây', 'đúng', 'đúng ngày', 'đúng ra', 'đúng tuổi', 'đúng với', 'đơn vị', 'đưa', 'đưa cho', 'đưa chuyện', 'đưa em', 'đưa ra', 'đưa tay', 'đưa tin', 'đưa tới', 'đưa vào', 'đưa về', 'đưa xuống', 'đưa đến', 'được', 'được cái', 'được lời', 'được nước', 'được tin', 'đại loại', 'đại nhân', 'đại phàm', 'đại để', 'đạt', 'đảm bảo', 'đầu tiên', 'đầy', 'đầy năm', 'đầy phè', 'đầy tuổi', 'đặc biệt', 'đặt', 'đặt làm', 'đặt mình', 'đặt mức', 'đặt ra', 'đặt trước', 'đặt để', 'đến', 'đến bao giờ', 'đến cùng', 'đến cùng cực', 'đến cả', 'đến giờ', 'đến gần', 'đến hay', 'đến khi', 'đến lúc', 'đến lời', 'đến nay', 'đến ngày', 'đến nơi', 'đến nỗi', 'đến thì', 'đến thế', 'đến tuổi', 'đến xem', 'đến điều', 'đến đâu', 'đều', 'đều bước', 'đều nhau', 'đều đều', 'để', 'để cho', 'để giống', 'để không', 'để lòng', 'để lại', 'để mà', 'để phần', 'để được', 'để đến nỗi', 'đối với', 'đồng thời', 'đủ', 'đủ dùng', 'đủ nơi', 'đủ số', 'đủ điều', 'đủ điểm', 'šest', 'šestnáct', 'żaden', 'że', 'že', 'že', 'ơ', 'ơ hay', 'ơ kìa', 'ơi', 'ơi là', 'ư', 'а', 'а', 'або', 'автентичен', 'адже', 'аж', 'аз', 'ако', 'ала', 'але', 'алло', 'ало', 'б', 'багато', 'бе', 'без', 'без', 'без', 'безперервно', 'беше', 'би', 'бивш', 'бивша', 'бившо', 'бил', 'била', 'били', 'било', 'благодаря', 'близко', 'близо', 'близько', 'более', 'больше', 'був', 'буває', 'буде', 'будем', 'будемо', 'будет', 'будете', 'будете', 'будеш', 'будешь', 'будто', 'буду', 'буду', 'будут', 'будуть', 'будь', 'будь', 'будь ласка', 'була', 'були', 'було', 'бути', 'бъдат', 'бъде', 'бы', 'бывает', 'бывь', 'был', 'была', 'были', 'было', 'быть', 'бяха', 'більш', 'більше', 'в', 'в', 'в', 'важлива', 'важливе', 'важливий', 'важливі', 'важная', 'важное', 'важные', 'важный', 'вам', 'вам', 'вами', 'вами', 'вас', 'вас', 'вас', 'ваш', 'ваш', 'ваш', 'ваша', 'ваша', 'ваша', 'ваше', 'ваше', 'ваши', 'ваші', 'вверх', 'вгору', 'вдали', 'вдалині', 'вдруг', 'ведь', 'везде', 'вероятно', 'весь', 'весь', 'вече', 'вже', 'взема', 'ви', 'ви', 'вие', 'винаги', 'вміти', 'вниз', 'вниз', 'внизу', 'внизу', 'внимава', 'во', 'вокруг', 'вон', 'вона', 'вони', 'воно', 'восемнадцатый', 'восемнадцать', 'восемь', 'восьмий', 'восьмой', 'вот', 'впрочем', 'време', 'времени', 'время', 'все', 'все', 'все', 'всегда', 'всего', 'всеки', 'всем', 'всеми', 'всему', 'всех', 'всею', 'всею', 'всички', 'всичко', 'всього', 'всьому', 'всю', 'всю', 'всюду', 'вся', 'вся', 'всяка', 'всё', 'всім', 'всіх', 'второй', 'втім', 'във', 'въпреки', 'върху', 'вы', 'від', 'відсотків', 'він', 'вісім', 'вісімнадцятий', 'вісімнадцять', 'г', 'г', 'г', 'где', 'геть', 'ги', 'главен', 'главна', 'главно', 'глас', 'го', 'говорив', 'говорил', 'говорит', 'год', 'года', 'година', 'години', 'годишен', 'году', 'д', 'да', 'да', 'давно', 'давно', 'даже', 'далеко', 'далеко', 'дали', 'дальше', 'далі', 'даром', 'даром', 'два', 'два', 'два', 'двадцатый', 'двадцать', 'двадцятий', 'двадцять', 'двама', 'двамата', 'дванадцятий', 'дванадцять', 'две', 'две', 'двенадцатый', 'двенадцать', 'двете', 'двох', 'двух', 'дві', 'де', \"дев'ятий\", \"дев'ятнадцятий\", \"дев'ятнадцять\", \"дев'ять\", 'девятнадцатый', 'девятнадцать', 'девятый', 'девять', 'действительно', 'дел', 'ден', 'день', 'день', 'десятий', 'десятый', 'десять', 'десять', 'для', 'для', 'днес', 'дни', 'до', 'до', 'до', 'добра', 'добре', 'добре', 'добро', 'добър', 'довго', 'довольно', 'докато', 'докога', 'долго', 'должно', 'дори', 'досега', 'досить', 'доста', 'друг', 'друга', 'другая', 'други', 'другие', 'другий', 'других', 'друго', 'друго', 'другое', 'другой', 'дуже', 'дякую', 'дійсно', 'е', 'е', 'е', 'евтин', 'его', 'едва', 'един', 'една', 'еднаква', 'еднакви', 'еднакъв', 'едно', 'ее', 'ей', 'екип', 'ему', 'если', 'есть', 'ето', 'еще', 'ещё', 'ею', 'её', 'ж', 'ж', 'же', 'живот', 'жизнь', 'життя', 'з', 'за', 'за', 'за', 'забавям', 'завжди', 'зад', 'заедно', 'зазвичай', 'зайнята', 'зайнятий', 'зайнято', 'зайняті', 'занадто', 'занят', 'занята', 'занято', 'заняты', 'заради', 'зараз', 'засега', 'заспал', 'зате', 'затем', 'зато', 'затова', 'зачем', 'защо', 'защото', 'звичайно', 'звідси', 'звідусіль', 'здається', 'здесь', 'значит', 'значить', 'знову', 'зовсім', 'зі', 'и', 'и', 'из', 'из', 'или', 'или', 'им', 'им', 'има', 'имат', 'именно', 'иметь', 'ими', 'имя', 'иногда', 'иска', 'их', 'й', 'його', 'йому', 'к', 'каждая', 'каждое', 'каждые', 'каждый', 'каже', 'кажется', 'каза', 'как', 'как', 'какая', 'какая', 'каква', 'какво', 'какой', 'както', 'какъв', 'като', 'кем', 'ким', 'кога', 'когато', 'когда', 'кого', 'кого', 'което', 'кожен', 'кожна', 'кожне', 'кожні', 'които', 'кой', 'който', 'коли', 'колко', 'ком', 'кому', 'кому', 'конечно', 'которая', 'которого', 'которой', 'которые', 'который', 'которых', 'която', 'краще', 'кроме', 'кругом', 'кругом', 'крім', 'кто', 'куда', 'куди', 'къде', 'където', 'към', 'кілька', 'ледве', 'лесен', 'лесно', 'лет', 'ли', 'ли', 'лише', 'лишь', 'лош', 'лучше', 'люди', 'люди', 'людина', 'м', 'м', 'м', 'май', 'майже', 'малко', 'мало', 'мало', 'мати', 'ме', 'между', 'между', 'мек', 'меля', 'мен', 'мене', 'менее', 'менше', 'меньше', 'меня', 'мені', 'месец', 'ми', 'ми', 'миллионов', 'мимо', 'мира', 'миру', 'мне', 'много', 'много', 'многочисленная', 'многочисленное', 'многочисленные', 'многочисленный', 'мнозина', 'мной', 'мною', 'мною', 'мог', 'мога', 'могат', 'могти', 'могут', 'мож', 'мож', 'може', 'може', 'может', 'можна', 'можно', 'можуть', 'можхо', 'мои', 'мой', 'мокър', 'моля', 'момента', 'мор', 'мочь', 'моя', 'моя', 'моё', 'моє', 'мої', 'му', 'мы', 'міг', 'між', 'мій', 'мільйонів', 'н', 'на', 'на', 'на', 'наверху', 'навколо', 'навіть', 'навіщо', 'нагорі', 'над', 'над', 'над', 'надо', 'назад', 'назад', 'назад', 'наиболее', 'най', 'найбільш', 'наконец', 'нам', 'нам', 'нами', 'нами', 'направи', 'напред', 'например', 'нарешті', 'нас', 'нас', 'нас', 'начала', 'наш', 'наш', 'наша', 'наша', 'наше', 'наше', 'наши', 'наші', 'не', 'не', 'не', 'не можна', 'небудь', 'него', 'него', 'недавно', 'недалеко', 'недалеко', 'нее', 'ней', 'нельзя', 'нем', 'немає', 'немного', 'нему', 'непрерывно', 'нередко', 'нерідко', 'несколько', 'нет', 'нещо', 'нещодавно', 'нею', 'нею', 'нея', 'неё', 'неї', 'ни', 'ни', 'нибудь', 'ние', 'ниже', 'нижче', 'низко', 'низько', 'никогда', 'никой', 'никуда', 'ними', 'ними', 'нито', 'них', 'них', 'ничего', 'нищо', 'но', 'но', 'нов', 'нова', 'нови', 'новина', 'ну', 'ну', 'нужно', 'нх', 'нх', 'нього', 'някои', 'някой', 'няколко', 'няма', 'ні', 'ніби', 'ніж', 'ній', 'ніколи', 'нікуди', 'нічого', 'о', 'об', 'оба', 'обаче', 'обидва', 'обычно', 'один', 'один', 'одинадцятий', 'одинадцять', 'одиннадцатый', 'одиннадцать', 'однажды', 'однак', 'однако', 'одного', 'одного', 'одного разу', 'одной', 'однієї', 'около', 'около', 'он', 'она', 'они', 'оно', 'опять', 'освен', 'особенно', 'особено', 'особливо', 'ось', 'от', 'от', 'отгоре', 'отново', 'отовсюду', 'отсюда', 'очень', 'още', \"п'ятий\", \"п'ятнадцятий\", \"п'ятнадцять\", \"п'ять\", 'пак', 'первый', 'перед', 'перед', 'перший', 'по', 'по', 'по', 'повече', 'повечето', 'повинно', 'под', 'под', 'пожалуйста', 'позже', 'пока', 'поки', 'поне', 'пор', 'пора', 'пора', 'поради', 'поруч', 'посеред', 'после', 'после', 'посреди', 'потом', 'потому', 'потрібно', 'потім', 'початку', 'почему', 'почти', 'почти', 'прави', 'пред', 'преди', 'през', 'прекрасно', 'прекрасно', 'при', 'при', 'при', 'про', 'про', 'просто', 'просто', 'проти', 'против', 'процентов', 'пък', 'първата', 'първи', 'първо', 'пъти', 'пятнадцатый', 'пятнадцать', 'пятый', 'пять', 'під', 'пізніше', 'пір', 'після', 'равен', 'равна', 'раз', 'раз', 'разве', 'рано', 'рано', 'раньше', 'раніше', 'раптом', 'року', 'років', 'році', 'рядом', 'рік', 'с', 'с', 'са', 'сам', 'сам', 'сам', 'сама', 'сама', 'саме', 'сами', 'самим', 'самим', 'самими', 'самими', 'самих', 'самих', 'само', 'само', 'самого', 'самого', 'самой', 'самом', 'самому', 'самому', 'саму', 'саму', 'самі', 'самій', 'свого', 'свое', 'своего', 'своей', 'свои', 'своих', 'свою', 'свою', 'своє', 'своєї', 'свої', 'своїх', 'се', 'сеаой', 'себе', 'себе', 'себя', 'сега', 'сегодня', 'седьмой', 'сейчас', 'семнадцатый', 'семнадцать', 'семь', 'си', 'син', 'сих', 'сих', 'сказав', 'сказал', 'сказала', 'сказала', 'сказати', 'сказать', 'сколько', 'скоро', 'скрізь', 'скільки', 'след', 'следващ', 'слишком', 'сме', 'смях', 'сначала', 'снова', 'со', 'собой', 'собою', 'собою', 'собі', 'совсем', 'спасибо', 'спасибі', 'според', 'спочатку', 'справ', 'сред', 'срещу', 'став', 'стал', 'сте', 'суть', 'суть', 'съм', 'със', 'също', 'сьогодні', 'сьомий', 'сім', 'сімнадцятий', 'сімнадцять', 'т', 'т', 'т', 'т.н.', 'та', 'та', 'тази', 'так', 'так', 'така', 'така', 'такая', 'таке', 'также', 'такива', 'такие', 'такий', 'такое', 'також', 'такой', 'такъв', 'такі', 'там', 'там', 'там', 'твой', 'твой', 'твоя', 'твоя', 'твоё', 'твоє', 'твій', 'те', 'те', 'тебе', 'тебе', 'тебя', 'теж', 'тези', 'тем', 'теми', 'тепер', 'теперь', 'тех', 'ти', 'ти', 'тим', 'тими', 'тисяч', 'тих', 'то', 'то', 'то', 'тобой', 'тобою', 'тобою', 'тобі', 'това', 'тогава', 'тогда', 'того', 'того', 'тоді', 'тоже', 'този', 'той', 'той', 'толкова', 'только', 'том', 'тому', 'тому', 'тот', 'точно', 'тою', 'тою', 'треба', 'третий', 'третій', 'три', 'три', 'три', 'тринадцатый', 'тринадцать', 'тринадцятий', 'тринадцять', 'трохи', 'трябва', 'ту', 'ту', 'туда', 'туди', 'тук', 'тут', 'тут', 'тъй', 'ты', 'тысяч', 'тя', 'тях', 'ті', 'тільки', 'у', 'у', 'у', 'уж', 'уже', 'уметь', 'усюди', 'усіма', 'утре', 'харесва', 'хиляди', 'хорошо', 'хотеть', 'хоть', 'хотя', 'хотіти', 'хоч', 'хоча', 'хочеш', 'хочешь', 'хто', 'хіба', 'це', 'цей', 'цим', 'цими', 'цих', 'цього', 'цьому', 'цю', 'ця', 'ці', 'цієї', 'ч', 'час', 'часа', 'часто', 'часто', 'частіше', 'часу', 'чаще', 'че', 'чего', 'человек', 'чем', 'чему', 'через', 'через', 'често', 'четвертий', 'четвертый', 'четыре', 'четырнадцатый', 'четырнадцать', 'чи', 'численна', 'численне', 'численний', 'численні', 'чого', 'чому', 'чотири', 'чотирнадцятий', 'чотирнадцять', 'чрез', 'что', 'чтоб', 'чтобы', 'чудово', 'чуть', 'шестнадцатый', 'шестнадцать', 'шестой', 'шесть', 'шостий', 'шістнадцятий', 'шістнадцять', 'шість', 'ще', 'ще', 'що', 'щоб', 'щом', 'эта', 'эти', 'этим', 'этими', 'этих', 'это', 'этого', 'этой', 'этом', 'этому', 'этот', 'эту', 'юмрук', 'я', 'я', 'я', 'як', 'як', 'яка', 'який', 'яких', 'якого', 'якої', 'якщо', 'які', 'є', 'і', \"ім'я\", 'іноді', 'інша', 'інше', 'інший', 'інших', 'інші', 'їй', 'їм', 'їх', 'її', '،', 'أ', 'ا', 'اثر', 'اجل', 'احد', 'اخرى', 'اذا', 'اربعة', 'اطار', 'اعادة', 'اعلنت', 'اف', 'اكثر', 'اكد', 'الا', 'الاخيرة', 'الان', 'الاول', 'الاولى', 'التى', 'التي', 'الثاني', 'الثانية', 'الذاتي', 'الذى', 'الذي', 'الذين', 'السابق', 'الف', 'الماضي', 'المقبل', 'الوقت', 'الى', 'اليوم', 'اما', 'امام', 'امس', 'ان', 'انه', 'انها', 'او', 'اول', 'اي', 'ايار', 'ايام', 'ايضا', 'ب', 'باسم', 'بان', 'برس', 'بسبب', 'بشكل', 'بعد', 'بعض', 'بن', 'به', 'بها', 'بين', 'تم', 'ثلاثة', 'ثم', 'جميع', 'حاليا', 'حتى', 'حوالى', 'حول', 'حيث', 'حين', 'خلال', 'دون', 'ذلك', 'زيارة', 'سنة', 'سنوات', 'شخصا', 'صباح', 'صفر', 'ضد', 'ضمن', 'عام', 'عاما', 'عدة', 'عدد', 'عدم', 'عشر', 'عشرة', 'على', 'عليه', 'عليها', 'عن', 'عند', 'عندما', 'غدا', 'غير', 'ـ', 'ف', 'فان', 'فى', 'في', 'فيه', 'فيها', 'قال', 'قبل', 'قد', 'قوة', 'كان', 'كانت', 'كل', 'كلم', 'كما', 'لا', 'لدى', 'لقاء', 'لكن', 'للامم', 'لم', 'لن', 'له', 'لها', 'لوكالة', 'ما', 'مايو', 'مساء', 'مع', 'مقابل', 'مليار', 'مليون', 'من', 'منذ', 'منها', 'نحو', 'نفسه', 'نهاية', 'هذا', 'هذه', 'هناك', 'هو', 'هي', 'و', 'و6', 'واحد', 'واضاف', 'واضافت', 'واكد', 'وان', 'واوضح', 'وفي', 'وقال', 'وقالت', 'وقد', 'وقف', 'وكان', 'وكانت', 'ولا', 'ولم', 'ومن', 'وهو', 'وهي', 'يكون', 'يمكن', 'يوم', 'अंदर', 'अत', 'अपना', 'अपनी', 'अपने', 'अभी', 'आदि', 'आप', 'इत्यादि', 'इन', 'इनका', 'इन्हीं', 'इन्हें', 'इन्हों', 'इस', 'इसका', 'इसकी', 'इसके', 'इसमें', 'इसी', 'इसे', 'उन', 'उनका', 'उनकी', 'उनके', 'उनको', 'उन्हीं', 'उन्हें', 'उन्हों', 'उस', 'उसके', 'उसी', 'उसे', 'एक', 'एवं', 'एस', 'ऐसे', 'और', 'कई', 'कर', 'करता', 'करते', 'करना', 'करने', 'करें', 'कहते', 'कहा', 'का', 'काफ़ी', 'कि', 'कितना', 'किन्हें', 'किन्हों', 'किया', 'किर', 'किस', 'किसी', 'किसे', 'की', 'कुछ', 'कुल', 'के', 'को', 'कोई', 'कौन', 'कौनसा', 'गया', 'घर', 'जब', 'जहाँ', 'जा', 'जितना', 'जिन', 'जिन्हें', 'जिन्हों', 'जिस', 'जिसे', 'जीधर', 'जैसा', 'जैसे', 'जो', 'तक', 'तब', 'तरह', 'तिन', 'तिन्हें', 'तिन्हों', 'तिस', 'तिसे', 'तो', 'था', 'थी', 'थे', 'दबारा', 'दिया', 'दुसरा', 'दूसरे', 'दो', 'द्वारा', 'न', 'नके', 'नहीं', 'ना', 'निहायत', 'नीचे', 'ने', 'पर', 'पहले', 'पूरा', 'पे', 'फिर', 'बनी', 'बही', 'बहुत', 'बाद', 'बाला', 'बिलकुल', 'भी', 'भीतर', 'मगर', 'मानो', 'मे', 'में', 'यदि', 'यह', 'यहाँ', 'यही', 'या', 'यिह', 'ये', 'रखें', 'रहा', 'रहे', 'ऱ्वासा', 'लिए', 'लिये', 'लेकिन', 'व', 'वर्ग', 'वह', 'वहाँ', 'वहीं', 'वाले', 'वुह', 'वे', 'वग़ैरह', 'संग', 'सकता', 'सकते', 'सबसे', 'सभी', 'साथ', 'साबुत', 'साभ', 'सारा', 'से', 'सो', 'ही', 'हुआ', 'हुई', 'हुए', 'है', 'हैं', 'हो', 'होता', 'होती', 'होते', 'होना', 'होने', 'ạ', 'ạ ơi', 'ấy', 'ấy là', 'ầu ơ', 'ắt', 'ắt hẳn', 'ắt là', 'ắt phải', 'ắt thật', 'ối dào', 'ối giời', 'ối giời ơi', 'ồ', 'ồ ồ', 'ổng', 'ớ', 'ớ này', 'ờ', 'ờ ờ', 'ở', 'ở lại', 'ở như', 'ở nhờ', 'ở năm', 'ở trên', 'ở vào', 'ở đây', 'ở đó', 'ở được', 'ủa', 'ứ hự', 'ứ ừ', 'ừ', 'ừ nhé', 'ừ thì', 'ừ ào', 'ừ ừ', 'ử', '\\ufeffa', '\\ufeffa']\n"
  835. ]
  836. }
  837. ],
  838. "source": [
  839. "from stop_words import get_stop_words\n",
  840. "\n",
  841. "stop_words_lang = ['Arabic','Bulgarian','ca','Czech','Danish','Dutch','en','Finnish','French','German','Hindi',\\\n",
  842. " 'Hungarian','Indonesian','Italian','Norwegian','Norwegian','Polish','Portuguese','Romanian',\\\n",
  843. " 'Russian','Slovak','es','Swedish','Turkish','Ukrainian','Vietnamese']\n",
  844. "stopwordslist = []\n",
  845. "stopwordslist.clear()\n",
  846. "#stopwords = set(STOPWORDS)\n",
  847. "for lang in stop_words_lang:\n",
  848. " stopwordslist.extend(get_stop_words(lang.lower()))\n",
  849. " #stopwords.update(get_stop_words(lang.lower()))\n",
  850. "\n",
  851. "stopwordslist.sort()\n",
  852. "print(stopwordslist)"
  853. ]
  854. },
  855. {
  856. "cell_type": "code",
  857. "execution_count": 10,
  858. "metadata": {},
  859. "outputs": [
  860. {
  861. "data": {
  862. "text/html": [
  863. "<div>\n",
  864. "<style scoped>\n",
  865. " .dataframe tbody tr th:only-of-type {\n",
  866. " vertical-align: middle;\n",
  867. " }\n",
  868. "\n",
  869. " .dataframe tbody tr th {\n",
  870. " vertical-align: top;\n",
  871. " }\n",
  872. "\n",
  873. " .dataframe thead th {\n",
  874. " text-align: right;\n",
  875. " }\n",
  876. "</style>\n",
  877. "<table border=\"1\" class=\"dataframe\">\n",
  878. " <thead>\n",
  879. " <tr style=\"text-align: right;\">\n",
  880. " <th></th>\n",
  881. " <th>tweetIdstr</th>\n",
  882. " <th>tweetLan</th>\n",
  883. " <th>tweetLenght</th>\n",
  884. " <th>tweetLikes</th>\n",
  885. " <th>tweetRetweets</th>\n",
  886. " <th>tweetSource</th>\n",
  887. " <th>tweetText</th>\n",
  888. " <th>userCreateDate</th>\n",
  889. " <th>userFollowers</th>\n",
  890. " <th>userIdstr</th>\n",
  891. " <th>userLocation</th>\n",
  892. " <th>userName</th>\n",
  893. " <th>userScreenName</th>\n",
  894. " <th>userVerified</th>\n",
  895. " <th>Tweet_punct</th>\n",
  896. " <th>Tweet_tokenized</th>\n",
  897. " <th>Tweet_stopped</th>\n",
  898. " </tr>\n",
  899. " </thead>\n",
  900. " <tbody>\n",
  901. " <tr>\n",
  902. " <th>0</th>\n",
  903. " <td>1147924907650637824</td>\n",
  904. " <td>ca</td>\n",
  905. " <td>293</td>\n",
  906. " <td>0</td>\n",
  907. " <td>0</td>\n",
  908. " <td>Twitter Web Client</td>\n",
  909. " <td>@neusparce @tv3cat TV3 està ple de comisàries ...</td>\n",
  910. " <td>2019-02-26 09:36:58</td>\n",
  911. " <td>39</td>\n",
  912. " <td>1100328860359581696</td>\n",
  913. " <td>Catalonia</td>\n",
  914. " <td>Eric Loup</td>\n",
  915. " <td>EricLoup3</td>\n",
  916. " <td>0</td>\n",
  917. " <td>@neusparce @tvcat TV està ple de comisàries de...</td>\n",
  918. " <td>[, neusparce, tvcat, tv, està, ple, de, comisà...</td>\n",
  919. " <td>[neusparce, tvcat, tv, ple, comisàries, gènere...</td>\n",
  920. " </tr>\n",
  921. " <tr>\n",
  922. " <th>1</th>\n",
  923. " <td>1148170304847568897</td>\n",
  924. " <td>ca</td>\n",
  925. " <td>263</td>\n",
  926. " <td>11</td>\n",
  927. " <td>1</td>\n",
  928. " <td>Twitter for iPhone</td>\n",
  929. " <td>@carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM...</td>\n",
  930. " <td>2012-12-01 18:08:05</td>\n",
  931. " <td>697</td>\n",
  932. " <td>983050094</td>\n",
  933. " <td>Barcelona, Espanya</td>\n",
  934. " <td>Pol</td>\n",
  935. " <td>PolWP</td>\n",
  936. " <td>0</td>\n",
  937. " <td>@carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc...</td>\n",
  938. " <td>[, carlunsky, oclh, barcelonalgtbi, tvcat, ccm...</td>\n",
  939. " <td>[carlunsky, oclh, barcelonalgtbi, tvcat, ccmac...</td>\n",
  940. " </tr>\n",
  941. " <tr>\n",
  942. " <th>2</th>\n",
  943. " <td>1148159221558599688</td>\n",
  944. " <td>en</td>\n",
  945. " <td>140</td>\n",
  946. " <td>0</td>\n",
  947. " <td>3</td>\n",
  948. " <td>Twitter for iPhone</td>\n",
  949. " <td>RT @cgomara: THE DAY WILL COME, IN WHICH THERE...</td>\n",
  950. " <td>2017-02-10 16:42:44</td>\n",
  951. " <td>5623</td>\n",
  952. " <td>830094660815220736</td>\n",
  953. " <td>Barcelona, Catalunya</td>\n",
  954. " <td>Revolució 4.0</td>\n",
  955. " <td>Revolucio4</td>\n",
  956. " <td>0</td>\n",
  957. " <td>RT @cgomara THE DAY WILL COME IN WHICH THERE W...</td>\n",
  958. " <td>[rt, cgomara, the, day, will, come, in, which,...</td>\n",
  959. " <td>[rt, cgomara, day, robots, people, world, prog...</td>\n",
  960. " </tr>\n",
  961. " <tr>\n",
  962. " <th>3</th>\n",
  963. " <td>1147913264183091203</td>\n",
  964. " <td>ca</td>\n",
  965. " <td>157</td>\n",
  966. " <td>51</td>\n",
  967. " <td>25</td>\n",
  968. " <td>Twitter Web Client</td>\n",
  969. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  970. " <td>2008-06-16 11:58:22</td>\n",
  971. " <td>115606</td>\n",
  972. " <td>15133318</td>\n",
  973. " <td>Catalunya</td>\n",
  974. " <td>Socialistes (PSC) /❤️</td>\n",
  975. " <td>socialistes_cat</td>\n",
  976. " <td>1</td>\n",
  977. " <td>📺Demà comencem la setmana amb el primer secret...</td>\n",
  978. " <td>[, demà, comencem, la, setmana, amb, el, prime...</td>\n",
  979. " <td>[demà, comencem, setmana, secretari, dels, soc...</td>\n",
  980. " </tr>\n",
  981. " <tr>\n",
  982. " <th>4</th>\n",
  983. " <td>1150399363858010112</td>\n",
  984. " <td>es</td>\n",
  985. " <td>272</td>\n",
  986. " <td>0</td>\n",
  987. " <td>0</td>\n",
  988. " <td>Twitter for Android</td>\n",
  989. " <td>@xriusenoticies @enoticiescat @tv3cat @govern ...</td>\n",
  990. " <td>2011-08-19 06:12:26</td>\n",
  991. " <td>1254</td>\n",
  992. " <td>357994184</td>\n",
  993. " <td>España</td>\n",
  994. " <td>Sr. Ro-k</td>\n",
  995. " <td>elsenorroca</td>\n",
  996. " <td>0</td>\n",
  997. " <td>@xriusenoticies @enoticiescat @tvcat @govern L...</td>\n",
  998. " <td>[, xriusenoticies, enoticiescat, tvcat, govern...</td>\n",
  999. " <td>[xriusenoticies, enoticiescat, tvcat, govern, ...</td>\n",
  1000. " </tr>\n",
  1001. " </tbody>\n",
  1002. "</table>\n",
  1003. "</div>"
  1004. ],
  1005. "text/plain": [
  1006. " tweetIdstr tweetLan tweetLenght tweetLikes tweetRetweets \\\n",
  1007. "0 1147924907650637824 ca 293 0 0 \n",
  1008. "1 1148170304847568897 ca 263 11 1 \n",
  1009. "2 1148159221558599688 en 140 0 3 \n",
  1010. "3 1147913264183091203 ca 157 51 25 \n",
  1011. "4 1150399363858010112 es 272 0 0 \n",
  1012. "\n",
  1013. " tweetSource tweetText \\\n",
  1014. "0 Twitter Web Client @neusparce @tv3cat TV3 està ple de comisàries ... \n",
  1015. "1 Twitter for iPhone @carlunsky @OCL_H @BarcelonaLGTBI @tv3cat @CCM... \n",
  1016. "2 Twitter for iPhone RT @cgomara: THE DAY WILL COME, IN WHICH THERE... \n",
  1017. "3 Twitter Web Client 📺Demà comencem la setmana amb el primer secret... \n",
  1018. "4 Twitter for Android @xriusenoticies @enoticiescat @tv3cat @govern ... \n",
  1019. "\n",
  1020. " userCreateDate userFollowers userIdstr \\\n",
  1021. "0 2019-02-26 09:36:58 39 1100328860359581696 \n",
  1022. "1 2012-12-01 18:08:05 697 983050094 \n",
  1023. "2 2017-02-10 16:42:44 5623 830094660815220736 \n",
  1024. "3 2008-06-16 11:58:22 115606 15133318 \n",
  1025. "4 2011-08-19 06:12:26 1254 357994184 \n",
  1026. "\n",
  1027. " userLocation userName userScreenName userVerified \\\n",
  1028. "0 Catalonia Eric Loup EricLoup3 0 \n",
  1029. "1 Barcelona, Espanya Pol PolWP 0 \n",
  1030. "2 Barcelona, Catalunya Revolució 4.0 Revolucio4 0 \n",
  1031. "3 Catalunya Socialistes (PSC) /❤️ socialistes_cat 1 \n",
  1032. "4 España Sr. Ro-k elsenorroca 0 \n",
  1033. "\n",
  1034. " Tweet_punct \\\n",
  1035. "0 @neusparce @tvcat TV està ple de comisàries de... \n",
  1036. "1 @carlunsky @OCLH @BarcelonaLGTBI @tvcat @CCMAc... \n",
  1037. "2 RT @cgomara THE DAY WILL COME IN WHICH THERE W... \n",
  1038. "3 📺Demà comencem la setmana amb el primer secret... \n",
  1039. "4 @xriusenoticies @enoticiescat @tvcat @govern L... \n",
  1040. "\n",
  1041. " Tweet_tokenized \\\n",
  1042. "0 [, neusparce, tvcat, tv, està, ple, de, comisà... \n",
  1043. "1 [, carlunsky, oclh, barcelonalgtbi, tvcat, ccm... \n",
  1044. "2 [rt, cgomara, the, day, will, come, in, which,... \n",
  1045. "3 [, demà, comencem, la, setmana, amb, el, prime... \n",
  1046. "4 [, xriusenoticies, enoticiescat, tvcat, govern... \n",
  1047. "\n",
  1048. " Tweet_stopped \n",
  1049. "0 [neusparce, tvcat, tv, ple, comisàries, gènere... \n",
  1050. "1 [carlunsky, oclh, barcelonalgtbi, tvcat, ccmac... \n",
  1051. "2 [rt, cgomara, day, robots, people, world, prog... \n",
  1052. "3 [demà, comencem, setmana, secretari, dels, soc... \n",
  1053. "4 [xriusenoticies, enoticiescat, tvcat, govern, ... "
  1054. ]
  1055. },
  1056. "execution_count": 10,
  1057. "metadata": {},
  1058. "output_type": "execute_result"
  1059. }
  1060. ],
  1061. "source": [
  1062. "def stoppedWords(listWords):\n",
  1063. " listWordsCleaned = []\n",
  1064. " for word in listWords:\n",
  1065. " if word not in stopwordslist:\n",
  1066. " listWordsCleaned.append(word)\n",
  1067. " return listWordsCleaned\n",
  1068. "\n",
  1069. "df['Tweet_stopped'] = df['Tweet_tokenized'].apply(lambda listWords: stoppedWords(listWords))\n",
  1070. "df.head()"
  1071. ]
  1072. },
  1073. {
  1074. "cell_type": "markdown",
  1075. "metadata": {},
  1076. "source": [
  1077. "## Result counting text with all the words ( should be less than without)"
  1078. ]
  1079. },
  1080. {
  1081. "cell_type": "code",
  1082. "execution_count": 11,
  1083. "metadata": {},
  1084. "outputs": [
  1085. {
  1086. "ename": "ValueError",
  1087. "evalue": "malformed node or string: ['neusparce', 'tvcat', 'tv', 'ple', 'comisàries', 'gènere', 'vetllen', 'repeteixi', 'mil', 'vegades', 'mentides', 'aquest', 'tema', 'censurar', 'tota', 'discrepància', 'programes', 'tipus', 'minuts', 'ficció', 'nomes', 'parline', 'daixò', 'importa', 'massa', 'tema', 'llengua']",
  1088. "output_type": "error",
  1089. "traceback": [
  1090. "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
  1091. "\u001b[0;31mValueError\u001b[0m Traceback (most recent call last)",
  1092. "\u001b[0;32m<ipython-input-11-9e38bba4d726>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[1;32m 10\u001b[0m \u001b[0;31m#ast.literal_eval is an effective way of turning list-looking strings into actual lists\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 11\u001b[0m \u001b[0;31m#without opening us up to security problems. So let's use that.\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 12\u001b[0;31m \u001b[0mstopwordstmp\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mast\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mliteral_eval\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mraw_stopwords\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 13\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 14\u001b[0m \u001b[0;31m#now add the words to the list of all words.\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
  1093. "\u001b[0;32m/opt/anaconda3/envs/dataenvironment/lib/python3.7/ast.py\u001b[0m in \u001b[0;36mliteral_eval\u001b[0;34m(node_or_string)\u001b[0m\n\u001b[1;32m 89\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0mleft\u001b[0m \u001b[0;34m-\u001b[0m \u001b[0mright\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 90\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0m_convert_signed_num\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 91\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0m_convert\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode_or_string\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 92\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 93\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
  1094. "\u001b[0;32m/opt/anaconda3/envs/dataenvironment/lib/python3.7/ast.py\u001b[0m in \u001b[0;36m_convert\u001b[0;34m(node)\u001b[0m\n\u001b[1;32m 88\u001b[0m \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 89\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0mleft\u001b[0m \u001b[0;34m-\u001b[0m \u001b[0mright\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 90\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0m_convert_signed_num\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 91\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0m_convert\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode_or_string\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 92\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
  1095. "\u001b[0;32m/opt/anaconda3/envs/dataenvironment/lib/python3.7/ast.py\u001b[0m in \u001b[0;36m_convert_signed_num\u001b[0;34m(node)\u001b[0m\n\u001b[1;32m 61\u001b[0m \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 62\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0;34m-\u001b[0m \u001b[0moperand\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 63\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0m_convert_num\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 64\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0m_convert\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 65\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mConstant\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
  1096. "\u001b[0;32m/opt/anaconda3/envs/dataenvironment/lib/python3.7/ast.py\u001b[0m in \u001b[0;36m_convert_num\u001b[0;34m(node)\u001b[0m\n\u001b[1;32m 53\u001b[0m \u001b[0;32melif\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mNum\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 54\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0mnode\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mn\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 55\u001b[0;31m \u001b[0;32mraise\u001b[0m \u001b[0mValueError\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m'malformed node or string: '\u001b[0m \u001b[0;34m+\u001b[0m \u001b[0mrepr\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 56\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0m_convert_signed_num\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 57\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mUnaryOp\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32mand\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnode\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mop\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m(\u001b[0m\u001b[0mUAdd\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mUSub\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
  1097. "\u001b[0;31mValueError\u001b[0m: malformed node or string: ['neusparce', 'tvcat', 'tv', 'ple', 'comisàries', 'gènere', 'vetllen', 'repeteixi', 'mil', 'vegades', 'mentides', 'aquest', 'tema', 'censurar', 'tota', 'discrepància', 'programes', 'tipus', 'minuts', 'ficció', 'nomes', 'parline', 'daixò', 'importa', 'massa', 'tema', 'llengua']"
  1098. ]
  1099. }
  1100. ],
  1101. "source": [
  1102. "import ast\n",
  1103. "all_words = []\n",
  1104. "for raw_stopwords in df['Tweet_stopped']:\n",
  1105. " #raw_stopwords is a string that _looks_ like a list of strings, for example:\n",
  1106. " #\"['micosapiens', 'faqstv', 'hannahbcn', 'joancbaez', 'tvcat']\"\n",
  1107. " #This looks like a list with a length of 5, but if you called len on it,\n",
  1108. " #you would actually get 60, because that's how many characters it has,\n",
  1109. " #counting the brackets and commas and quote marks and such.\n",
  1110. " #this is useless to us. If we want sensible length data, we need to convert to an actual list.\n",
  1111. " #ast.literal_eval is an effective way of turning list-looking strings into actual lists\n",
  1112. " #without opening us up to security problems. So let's use that.\n",
  1113. " stopwordstmp = ast.literal_eval(raw_stopwords)\n",
  1114. " \n",
  1115. " #now add the words to the list of all words.\n",
  1116. " all_words.extend(stopwordstmp)\n",
  1117. " \n",
  1118. "print (\"Found {} words.\".format(len(all_words)))\n",
  1119. "#resul"
  1120. ]
  1121. },
  1122. {
  1123. "cell_type": "code",
  1124. "execution_count": null,
  1125. "metadata": {},
  1126. "outputs": [],
  1127. "source": []
  1128. }
  1129. ],
  1130. "metadata": {
  1131. "kernelspec": {
  1132. "display_name": "Python 3",
  1133. "language": "python",
  1134. "name": "python3"
  1135. },
  1136. "language_info": {
  1137. "codemirror_mode": {
  1138. "name": "ipython",
  1139. "version": 3
  1140. },
  1141. "file_extension": ".py",
  1142. "mimetype": "text/x-python",
  1143. "name": "python",
  1144. "nbconvert_exporter": "python",
  1145. "pygments_lexer": "ipython3",
  1146. "version": "3.7.3"
  1147. }
  1148. },
  1149. "nbformat": 4,
  1150. "nbformat_minor": 2
  1151. }
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement