Advertisement
Guest User

Untitled

a guest
Oct 16th, 2019
125
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 16.00 KB | None | 0 0
  1. ## Abstract
  2. Kami mengusulkan kerangka kerja baru untuk memperkirakan model generatif melalui permusuhan
  3. proses, di mana kami secara bersamaan melatih dua model: model generatif G
  4. yang menangkap distribusi data, dan model diskriminatif D yang memperkirakan
  5. probabilitas bahwa sampel berasal dari data pelatihan daripada G. Pelatihan
  6. Prosedur untuk G adalah memaksimalkan probabilitas D melakukan kesalahan. Ini
  7. Kerangka sesuai dengan permainan dua pemain minimax. Di ruang sewenang-wenang
  8. fungsi G dan D, ada solusi unik, dengan G memulihkan data pelatihan
  9. distribusi dan D sama dengan 1
  10. 2
  11. dimana mana. Dalam kasus di mana G dan D didefinisikan
  12. oleh multilayer perceptrons, seluruh sistem dapat dilatih dengan backpropagation.
  13. Tidak perlu untuk rantai Markov atau jaringan inferensi perkiraan yang belum dikontrol
  14. selama pelatihan atau pembuatan sampel. Eksperimen menunjukkan
  15. potensi kerangka kerja melalui evaluasi kualitatif dan kuantitatif
  16. sampel yang dihasilkan.
  17.  
  18. ## Introduction
  19.  
  20. Janji pembelajaran yang mendalam adalah menemukan model kaya dan hierarkis yang mewakili probabilitas
  21. distribusi atas jenis data yang ditemukan dalam aplikasi kecerdasan buatan, seperti alami
  22. gambar, bentuk gelombang audio yang mengandung ucapan, dan simbol dalam bahasa alami. Sejauh ini
  23. keberhasilan yang paling mencolok dalam pembelajaran mendalam melibatkan model-model diskriminatif, biasanya yang demikian
  24. memetakan input sensorik kaya dimensi ke label kelas [14, 22]. Keberhasilan yang mencolok ini miliki
  25. terutama didasarkan pada algoritma backpropagation dan dropout, menggunakan unit linear piecewise
  26. [19, 9, 10] yang memiliki gradien yang berperilaku baik. Model generatif yang dalam memiliki lebih sedikit
  27. dari dampak, karena sulitnya mendekati banyak perhitungan probabilistik yang sulit
  28. muncul dalam estimasi kemungkinan maksimum dan strategi terkait, dan karena kesulitan meningkatkan
  29. manfaat unit linier piecewise dalam konteks generatif. Kami mengusulkan model generatif baru
  30. prosedur estimasi yang menghindari kesulitan-kesulitan ini. 1
  31. Dalam kerangka jaring permusuhan yang diusulkan, model generatif diadu melawan musuh: a
  32. model diskriminatif yang belajar untuk menentukan apakah sampel berasal dari distribusi model atau
  33. distribusi data. Model generatif dapat dianggap sebagai analog dengan tim pemalsu,
  34. mencoba menghasilkan mata uang palsu dan menggunakannya tanpa deteksi, sedangkan model diskriminatifnya adalah
  35. analog dengan polisi, mencoba mendeteksi mata uang palsu. Persaingan dalam drive game ini
  36. kedua tim untuk meningkatkan metode mereka sampai yang palsu tidak dapat dibedakan dari yang asli
  37. artikel.
  38. Kerangka kerja ini dapat menghasilkan algoritma pelatihan khusus untuk berbagai jenis model dan optimisasi
  39. algoritma. Dalam artikel ini, kami mengeksplorasi kasus khusus ketika model generatif menghasilkan sampel
  40. dengan melewati noise acak melalui perceptron multilayer, dan model diskriminatif juga a
  41. perceptron multilayer. Kami menyebut kasus khusus ini sebagai jaring permusuhan. Dalam hal ini, kita bisa berlatih
  42. kedua model hanya menggunakan algoritma backpropagation dan dropout yang sangat sukses [17] dan
  43. sampel dari model generatif hanya menggunakan propagasi maju. Tidak ada perkiraan inferensi atau
  44. Rantai Markov diperlukan.
  45.  
  46. ## Related Work
  47. Alternatif untuk model grafis terarah dengan variabel laten adalah model grafis tidak terarah
  48. dengan variabel laten, seperti mesin Boltzmann terbatas (RBM) [27, 16], deep Boltzmann
  49. mesin (DBM) [26] dan berbagai variannya. Interaksi dalam model tersebut adalah
  50. direpresentasikan sebagai produk dari fungsi potensial yang tidak dinormalisasi, dinormalisasi dengan penjumlahan / integrasi global
  51. atas semua keadaan variabel acak. Kuantitas ini (fungsi partisi) dan
  52. gradiennya sulit untuk semua kecuali instans yang paling sepele, meskipun mereka dapat diperkirakan dengan
  53. Metode rantai Markov Monte Carlo (MCMC). Mencampur merupakan masalah yang signifikan untuk belajar
  54. algoritma yang mengandalkan MCMC [3, 5].
  55. Deep belief networks (DBNs) [16] adalah model hibrida yang mengandung satu lapisan tidak berarah dan beberapa
  56. lapisan diarahkan. Sementara kriteria pelatihan layer-perkiraan cepat ada, DBNs dikenakan
  57. kesulitan komputasi yang terkait dengan model yang tidak diarahkan dan diarahkan.
  58. Kriteria alternatif yang tidak mendekati atau mengikat kemungkinan log juga telah diusulkan,
  59. seperti pencocokan skor [18] dan estimasi noise-contrastive (NCE) [13]. Keduanya membutuhkan
  60. kerapatan probabilitas yang dipelajari akan ditentukan secara analitis hingga konstanta normalisasi. Catat itu
  61. dalam banyak model generatif yang menarik dengan beberapa lapisan variabel laten (seperti DBNs dan
  62. DBM), bahkan tidak mungkin untuk mendapatkan kepadatan probabilitas yang tidak dinormalisasi yang dapat ditelusuri. Beberapa model
  63. seperti denoising auto-encoders [30] dan autoencoder kontraktif memiliki aturan belajar yang sangat mirip
  64. untuk skor cocok diterapkan pada RBM. Di NCE, seperti dalam pekerjaan ini, kriteria pelatihan diskriminatif adalah
  65. dipekerjakan agar sesuai dengan model generatif. Namun, alih-alih menyesuaikan model diskriminatif yang terpisah,
  66. model generatif itu sendiri digunakan untuk membedakan data yang dihasilkan dari sampel distribusi kebisingan tetap.
  67. Karena NCE menggunakan distribusi kebisingan tetap, pembelajaran melambat secara dramatis setelah model belajar
  68. bahkan distribusi yang kira-kira benar pada sebagian kecil dari variabel yang diamati.
  69. Akhirnya, beberapa teknik tidak melibatkan pendefinisian distribusi probabilitas secara eksplisit, melainkan melatih
  70. mesin generatif untuk mengambil sampel dari distribusi yang diinginkan. Pendekatan ini memiliki keunggulan
  71. bahwa mesin tersebut dapat dirancang untuk dilatih oleh back-propagasi. Pekerjaan terbaru yang menonjol dalam hal ini
  72. area mencakup kerangka kerja jaringan stokastik generatif (GSN) [5], yang meluas secara umum
  73. denoising auto-encoders [4]: ​​keduanya dapat dilihat sebagai mendefinisikan rantai Markov yang diparameterisasi, yaitu, satu
  74. mempelajari parameter-parameter mesin yang melakukan satu langkah dari rantai Markov generatif. Dibandingkan
  75. untuk GSN, kerangka kerja permusuhan tidak memerlukan rantai Markov untuk pengambilan sampel. Karena
  76. jaring permusuhan tidak memerlukan loop umpan balik selama generasi, mereka lebih mampu memanfaatkan
  77. piecewise linear units [19, 9, 10], yang meningkatkan kinerja backpropagation tetapi miliki
  78. masalah dengan aktivasi tanpa batas saat digunakan dalam loop umpan balik. Contoh pelatihan yang lebih baru
  79. sebuah mesin generatif dengan menyebarkan kembali ke dalamnya termasuk pekerjaan terbaru tentang variasi otomatis-encoding
  80. Bayes [20] dan backpropagation stokastik [24].
  81.  
  82. ## Adversarial Nets
  83. Kerangka pemodelan permusuhan paling mudah diterapkan ketika model keduanya
  84. perceptrons multilayer. Untuk mempelajari pg distribusi generator lebih dari data x, kami mendefinisikan sebelumnya pada
  85. input variabel noise pz (z), kemudian mewakili pemetaan ke ruang data sebagai G (z; θg), di mana G adalah
  86. fungsi terdiferensiasi diwakili oleh perceptron multilayer dengan parameter θg. Kami juga mendefinisikan a
  87. perceptron multilayer kedua D (x; θd) yang menghasilkan skalar tunggal. D (x) mewakili probabilitas
  88. bahwa x berasal dari data daripada pg. Kami melatih D untuk memaksimalkan probabilitas penempatan
  89. label yang benar untuk contoh pelatihan dan sampel dari G. Kami secara bersamaan melatih G untuk meminimalkan
  90. log (1 - D (G (z)))):
  91. Dengan kata lain, D dan G memainkan game minimax dua pemain berikut dengan fungsi nilai V (G, D):
  92. min
  93. G
  94. maks
  95. D
  96. V (D, G) = Ex∼pdata (x)
  97. [log D (x)] + Ez∼pz (z)
  98. [log (1 - D (G (z)))]]. (1)
  99. Pada bagian selanjutnya, kami menyajikan analisis teoritis dari jaring permusuhan, yang pada dasarnya menunjukkan hal itu
  100. kriteria pelatihan memungkinkan seseorang untuk memulihkan distribusi penghasil data ketika G dan D diberikan
  101. kapasitas yang cukup, mis., dalam batas non-parametrik. Lihat Gambar 1 untuk yang kurang formal, lebih pedagogis
  102. penjelasan pendekatan. Dalam praktiknya, kita harus mengimplementasikan game menggunakan iteratif, numerik
  103. pendekatan. Mengoptimalkan D hingga selesai di lingkaran dalam pelatihan adalah penghitungan secara komputasi,
  104. dan pada dataset yang terbatas akan menghasilkan overfitting. Alih-alih, kami bergantian antara langkah k untuk mengoptimalkan
  105. D dan satu langkah mengoptimalkan G. Ini menghasilkan D dipertahankan dekat solusi optimalnya, jadi
  106. selama G berubah cukup lambat. Strategi ini analog dengan cara SML / PCD [31, 29]
  107. pelatihan memelihara sampel dari rantai Markov dari satu langkah pembelajaran ke langkah berikutnya untuk menghindari
  108. membakar dalam rantai Markov sebagai bagian dari lingkaran dalam pembelajaran. Prosedurnya disajikan secara formal
  109. dalam Algoritma 1.
  110. Dalam praktiknya, persamaan 1 mungkin tidak memberikan gradien yang cukup bagi G untuk belajar dengan baik. Di awal belajar,
  111. ketika G buruk, D dapat menolak sampel dengan keyakinan tinggi karena mereka jelas berbeda
  112. data pelatihan. Dalam hal ini, log (1 - D (G (z))) jenuh. Daripada melatih G untuk meminimalkan
  113. log (1 - D (G (z)))) kita dapat melatih G untuk memaksimalkan log D (G (z)). Fungsi tujuan ini menghasilkan
  114. titik tetap yang sama dari dinamika G dan D tetapi memberikan gradien yang jauh lebih kuat di awal pembelajaran
  115. Gambar 1: Jaring permusuhan generatif dilatih dengan secara bersamaan memperbarui distribusi diskriminatif
  116. (D, biru, garis putus-putus) sehingga membedakan antara sampel dari distribusi menghasilkan data (hitam,
  117. garis putus-putus) px dari distribusi generatif pg (G) (hijau, garis padat). Garis horizontal bawah adalah
  118. domain tempat z diambil sampelnya, dalam hal ini seragam. Garis horizontal di atas adalah bagian dari domain
  119. dari x. Panah ke atas menunjukkan bagaimana pemetaan x = G (z) memaksakan pg distribusi tidak seragam aktif
  120. sampel yang diubah. Kontrak G di daerah dengan kepadatan tinggi dan berkembang di daerah dengan kepadatan rendah hal. (Sebuah)
  121. Pertimbangkan pasangan permusuhan di dekat konvergensi: pg mirip dengan pdata dan D adalah penggolong yang sebagian akurat.
  122. (B) Dalam loop dalam algoritma D dilatih untuk membedakan sampel dari data, konvergen ke D
  123. (x) =
  124. pdata (x)
  125. pdata (x) + pg (x)
  126. . (c) Setelah pembaruan ke G, gradien D telah memandu G (z) untuk mengalir ke daerah yang lebih mungkin
  127. untuk diklasifikasikan sebagai data. (d) Setelah beberapa langkah pelatihan, jika G dan D memiliki kapasitas yang cukup, mereka akan mencapai a
  128. titik di mana keduanya tidak dapat meningkatkan karena pg = pdata. Diskriminator tidak dapat membedakan
  129. dua distribusi, mis. D (x) = 1
  130. 2
  131.  
  132. ## Theoretical Results
  133. Generator G secara implisit mendefinisikan distribusi probabilitas pg sebagai distribusi sampel
  134. G (z) diperoleh saat z ∼ pz. Oleh karena itu, kami ingin Algoritma 1 konvergen ke estimator yang baik
  135. pdata, jika diberikan kapasitas dan waktu pelatihan yang cukup. Hasil bagian ini dilakukan secara nonparametrik
  136. pengaturan, mis. kami mewakili model dengan kapasitas tak terbatas dengan mempelajari konvergensi dalam
  137. ruang fungsi kepadatan probabilitas.
  138. Kami akan menunjukkan di bagian 4.1 bahwa game minimax ini memiliki global optimum untuk pg = pdata. Kami akan
  139. kemudian tunjukkan di bagian 4.2 bahwa Algoritma 1 mengoptimalkan Persamaan 1, sehingga memperoleh hasil yang diinginkan.
  140.  
  141.  
  142. ## Advantages and disadvantages
  143. Kerangka kerja baru ini dilengkapi dengan kelebihan dan kekurangan relatif terhadap kerangka kerja pemodelan sebelumnya.
  144. Kerugian utamanya adalah tidak ada representasi eksplisit pg (x), dan D
  145. harus disinkronkan dengan G selama pelatihan (khususnya, G tidak boleh dilatih terlalu banyak
  146. tanpa memperbarui D, untuk menghindari "skenario Helvetica" di mana G menciutkan terlalu banyak nilai
  147. dari z dengan nilai x yang sama untuk memiliki keragaman yang cukup untuk memodelkan pdata), seperti halnya rantai negatif a
  148. Mesin Boltzmann harus selalu diperbarui di antara langkah-langkah pembelajaran. Keuntungannya adalah bahwa Markov
  149. rantai tidak pernah dibutuhkan, hanya backprop yang digunakan untuk mendapatkan gradien, tidak diperlukan inferensi selama
  150. belajar, dan beragam fungsi dapat dimasukkan ke dalam model. Tabel 2 merangkum
  151. perbandingan jaring permusuhan generatif dengan pendekatan pemodelan generatif lainnya.
  152. Keuntungan yang disebutkan di atas terutama bersifat komputasi. Model permusuhan juga dapat meningkat
  153. beberapa keuntungan statistik dari jaringan generator tidak diperbarui secara langsung dengan contoh data,
  154. tetapi hanya dengan gradien yang mengalir melalui diskriminator. Ini berarti bahwa komponen
  155. input tidak disalin langsung ke parameter generator. Keuntungan lain dari jaringan permusuhan
  156. adalah bahwa mereka dapat mewakili distribusi yang sangat tajam, bahkan merosot, sementara metode berdasarkan
  157. Rantai Markov mensyaratkan bahwa distribusi agak buram agar rantai dapat
  158. campur antara mode.
  159.  
  160. ## Conclusions and future work
  161.  
  162.  
  163. This framework admits many straightforward extensions:
  164. 1. A conditional generative model p(x | c) can be obtained by adding c as input to both G and D.
  165. 2. Learned approximate inference can be performed by training an auxiliary network to predict z
  166. given x. This is similar to the inference net trained by the wake-sleep algorithm [15] but with
  167. the advantage that the inference net may be trained for a fixed generator net after the generator
  168. net has finished training.
  169. 3. One can approximately model all conditionals p(xS | x6S) where S is a subset of the indices
  170. of x by training a family of conditional models that share parameters. Essentially, one can use
  171. adversarial nets to implement a stochastic extension of the deterministic MP-DBM [11].
  172. 4. Semi-supervised learning: features from the discriminator or inference net could improve performance
  173. of classifiers when limited labeled data is available.
  174. 5. Efficiency improvements: training could be accelerated greatly by divising better methods for
  175. coordinating G and D or determining better distributions to sample z from during training.
  176. This paper has demonstrated the viability of the adversarial modeling framework, suggesting that
  177. these research directions could prove useful.
  178. 1236/5000
  179. Kerangka kerja ini menerima banyak ekstensi langsung:
  180. 1. Model generatif bersyarat p (x | c) dapat diperoleh dengan menambahkan c sebagai input untuk G dan D.
  181. 2. Inferensi perkiraan yang dipelajari dapat dilakukan dengan melatih jaringan bantu untuk memprediksi z
  182. diberikan x. Ini mirip dengan jaring inferensi yang dilatih oleh algoritma bangun-tidur [15] tetapi dengan
  183. keuntungan bahwa jaring inferensi dapat dilatih untuk jaring generator tetap setelah generator
  184. net telah menyelesaikan pelatihan.
  185. 3. Seseorang dapat kira-kira memodelkan semua kondisional p (xS | x6S) di mana S adalah subset dari indeks
  186. of x dengan melatih keluarga model kondisional yang berbagi parameter. Pada dasarnya, seseorang dapat menggunakan
  187. jaring permusuhan untuk mengimplementasikan ekstensi stokastik dari MP-DBM deterministik [11].
  188. 4. Pembelajaran semi-diawasi: fitur dari diskriminator atau jaringan inferensi dapat meningkatkan kinerja
  189. pengklasifikasi ketika data berlabel terbatas tersedia.
  190. 5. Peningkatan efisiensi: pelatihan dapat dipercepat dengan membagi metode yang lebih baik untuk
  191. mengoordinasikan G dan D atau menentukan distribusi yang lebih baik untuk sampel z dari selama pelatihan.
  192. Makalah ini telah menunjukkan kelayakan kerangka pemodelan permusuhan, menyarankan itu
  193. arahan penelitian ini terbukti bermanfaat.
  194. Kirim umpan balik
  195. Riwayat
  196. Disimpen
  197. Komunitas
  198.  
  199. ### Acknowledgments
  200. Kami ingin mengakui Patrice Marcotte, Olivier Delalleau, Kyunghyun Cho, Guillaume
  201. Alain dan Jason Yosinski untuk diskusi yang bermanfaat. Yann Dauphin membagikan evaluasi jendela Parzen-nya
  202. kode dengan kami. Kami ingin mengucapkan terima kasih kepada para pengembang Pylearn2 [12] dan Theano [7, 1],
  203. khususnya Fredic Bastien yang menggunakan fitur Theano secara khusus untuk mendapatkan manfaat dari proyek ini. Ar- ´
  204. naud Bergeron memberikan dukungan yang sangat dibutuhkan dengan pengaturan huruf LATEX. Kami juga ingin mengucapkan terima kasih
  205. Kursi Penelitian CIFAR, dan Kanada untuk pendanaan, dan Hitung Kanada, dan Hitung Quebec untuk ´
  206. menyediakan sumber daya komputasi. Ian Goodfellow didukung oleh Google Fellowship 2013 di
  207. Pembelajaran yang mendalam. Akhirnya, kami ingin mengucapkan terima kasih kepada Les Trois Brasseurs karena merangsang kreativitas kami
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement