Untitled

## Abstract
Kami mengusulkan kerangka kerja baru untuk memperkirakan model generatif melalui permusuhan
proses, di mana kami secara bersamaan melatih dua model: model generatif G
yang menangkap distribusi data, dan model diskriminatif D yang memperkirakan
probabilitas bahwa sampel berasal dari data pelatihan daripada G. Pelatihan
Prosedur untuk G adalah memaksimalkan probabilitas D melakukan kesalahan. Ini
Kerangka sesuai dengan permainan dua pemain minimax. Di ruang sewenang-wenang
fungsi G dan D, ada solusi unik, dengan G memulihkan data pelatihan
distribusi dan D sama dengan 1
2
dimana mana. Dalam kasus di mana G dan D didefinisikan
oleh multilayer perceptrons, seluruh sistem dapat dilatih dengan backpropagation.
Tidak perlu untuk rantai Markov atau jaringan inferensi perkiraan yang belum dikontrol
selama pelatihan atau pembuatan sampel. Eksperimen menunjukkan
potensi kerangka kerja melalui evaluasi kualitatif dan kuantitatif
sampel yang dihasilkan.

## Introduction

Janji pembelajaran yang mendalam adalah menemukan model kaya dan hierarkis yang mewakili probabilitas
distribusi atas jenis data yang ditemukan dalam aplikasi kecerdasan buatan, seperti alami
gambar, bentuk gelombang audio yang mengandung ucapan, dan simbol dalam bahasa alami. Sejauh ini
keberhasilan yang paling mencolok dalam pembelajaran mendalam melibatkan model-model diskriminatif, biasanya yang demikian
memetakan input sensorik kaya dimensi ke label kelas [14, 22]. Keberhasilan yang mencolok ini miliki
terutama didasarkan pada algoritma backpropagation dan dropout, menggunakan unit linear piecewise
[19, 9, 10] yang memiliki gradien yang berperilaku baik. Model generatif yang dalam memiliki lebih sedikit
dari dampak, karena sulitnya mendekati banyak perhitungan probabilistik yang sulit
muncul dalam estimasi kemungkinan maksimum dan strategi terkait, dan karena kesulitan meningkatkan
manfaat unit linier piecewise dalam konteks generatif. Kami mengusulkan model generatif baru
prosedur estimasi yang menghindari kesulitan-kesulitan ini. 1
Dalam kerangka jaring permusuhan yang diusulkan, model generatif diadu melawan musuh: a
model diskriminatif yang belajar untuk menentukan apakah sampel berasal dari distribusi model atau
distribusi data. Model generatif dapat dianggap sebagai analog dengan tim pemalsu,
mencoba menghasilkan mata uang palsu dan menggunakannya tanpa deteksi, sedangkan model diskriminatifnya adalah
analog dengan polisi, mencoba mendeteksi mata uang palsu. Persaingan dalam drive game ini
kedua tim untuk meningkatkan metode mereka sampai yang palsu tidak dapat dibedakan dari yang asli
artikel.
Kerangka kerja ini dapat menghasilkan algoritma pelatihan khusus untuk berbagai jenis model dan optimisasi
algoritma. Dalam artikel ini, kami mengeksplorasi kasus khusus ketika model generatif menghasilkan sampel
dengan melewati noise acak melalui perceptron multilayer, dan model diskriminatif juga a
perceptron multilayer. Kami menyebut kasus khusus ini sebagai jaring permusuhan. Dalam hal ini, kita bisa berlatih
kedua model hanya menggunakan algoritma backpropagation dan dropout yang sangat sukses [17] dan
sampel dari model generatif hanya menggunakan propagasi maju. Tidak ada perkiraan inferensi atau
Rantai Markov diperlukan.

## Related Work
Alternatif untuk model grafis terarah dengan variabel laten adalah model grafis tidak terarah
dengan variabel laten, seperti mesin Boltzmann terbatas (RBM) [27, 16], deep Boltzmann
mesin (DBM) [26] dan berbagai variannya. Interaksi dalam model tersebut adalah
direpresentasikan sebagai produk dari fungsi potensial yang tidak dinormalisasi, dinormalisasi dengan penjumlahan / integrasi global
atas semua keadaan variabel acak. Kuantitas ini (fungsi partisi) dan
gradiennya sulit untuk semua kecuali instans yang paling sepele, meskipun mereka dapat diperkirakan dengan
Metode rantai Markov Monte Carlo (MCMC). Mencampur merupakan masalah yang signifikan untuk belajar
algoritma yang mengandalkan MCMC [3, 5].
Deep belief networks (DBNs) [16] adalah model hibrida yang mengandung satu lapisan tidak berarah dan beberapa
lapisan diarahkan. Sementara kriteria pelatihan layer-perkiraan cepat ada, DBNs dikenakan
kesulitan komputasi yang terkait dengan model yang tidak diarahkan dan diarahkan.
Kriteria alternatif yang tidak mendekati atau mengikat kemungkinan log juga telah diusulkan,
seperti pencocokan skor [18] dan estimasi noise-contrastive (NCE) [13]. Keduanya membutuhkan
kerapatan probabilitas yang dipelajari akan ditentukan secara analitis hingga konstanta normalisasi. Catat itu
dalam banyak model generatif yang menarik dengan beberapa lapisan variabel laten (seperti DBNs dan
DBM), bahkan tidak mungkin untuk mendapatkan kepadatan probabilitas yang tidak dinormalisasi yang dapat ditelusuri. Beberapa model
seperti denoising auto-encoders [30] dan autoencoder kontraktif memiliki aturan belajar yang sangat mirip
untuk skor cocok diterapkan pada RBM. Di NCE, seperti dalam pekerjaan ini, kriteria pelatihan diskriminatif adalah
dipekerjakan agar sesuai dengan model generatif. Namun, alih-alih menyesuaikan model diskriminatif yang terpisah,
model generatif itu sendiri digunakan untuk membedakan data yang dihasilkan dari sampel distribusi kebisingan tetap.
Karena NCE menggunakan distribusi kebisingan tetap, pembelajaran melambat secara dramatis setelah model belajar
bahkan distribusi yang kira-kira benar pada sebagian kecil dari variabel yang diamati.
Akhirnya, beberapa teknik tidak melibatkan pendefinisian distribusi probabilitas secara eksplisit, melainkan melatih
mesin generatif untuk mengambil sampel dari distribusi yang diinginkan. Pendekatan ini memiliki keunggulan
bahwa mesin tersebut dapat dirancang untuk dilatih oleh back-propagasi. Pekerjaan terbaru yang menonjol dalam hal ini
area mencakup kerangka kerja jaringan stokastik generatif (GSN) [5], yang meluas secara umum
denoising auto-encoders [4]: keduanya dapat dilihat sebagai mendefinisikan rantai Markov yang diparameterisasi, yaitu, satu
mempelajari parameter-parameter mesin yang melakukan satu langkah dari rantai Markov generatif. Dibandingkan
untuk GSN, kerangka kerja permusuhan tidak memerlukan rantai Markov untuk pengambilan sampel. Karena
jaring permusuhan tidak memerlukan loop umpan balik selama generasi, mereka lebih mampu memanfaatkan
piecewise linear units [19, 9, 10], yang meningkatkan kinerja backpropagation tetapi miliki
masalah dengan aktivasi tanpa batas saat digunakan dalam loop umpan balik. Contoh pelatihan yang lebih baru
sebuah mesin generatif dengan menyebarkan kembali ke dalamnya termasuk pekerjaan terbaru tentang variasi otomatis-encoding
Bayes [20] dan backpropagation stokastik [24].

## Adversarial Nets
Kerangka pemodelan permusuhan paling mudah diterapkan ketika model keduanya
perceptrons multilayer. Untuk mempelajari pg distribusi generator lebih dari data x, kami mendefinisikan sebelumnya pada
input variabel noise pz (z), kemudian mewakili pemetaan ke ruang data sebagai G (z; θg), di mana G adalah
fungsi terdiferensiasi diwakili oleh perceptron multilayer dengan parameter θg. Kami juga mendefinisikan a
perceptron multilayer kedua D (x; θd) yang menghasilkan skalar tunggal. D (x) mewakili probabilitas
bahwa x berasal dari data daripada pg. Kami melatih D untuk memaksimalkan probabilitas penempatan
label yang benar untuk contoh pelatihan dan sampel dari G. Kami secara bersamaan melatih G untuk meminimalkan
log (1 - D (G (z)))):
Dengan kata lain, D dan G memainkan game minimax dua pemain berikut dengan fungsi nilai V (G, D):
min
G
maks
D
V (D, G) = Ex∼pdata (x)
[log D (x)] + Ez∼pz (z)
[log (1 - D (G (z)))]]. (1)
Pada bagian selanjutnya, kami menyajikan analisis teoritis dari jaring permusuhan, yang pada dasarnya menunjukkan hal itu
kriteria pelatihan memungkinkan seseorang untuk memulihkan distribusi penghasil data ketika G dan D diberikan
kapasitas yang cukup, mis., dalam batas non-parametrik. Lihat Gambar 1 untuk yang kurang formal, lebih pedagogis
penjelasan pendekatan. Dalam praktiknya, kita harus mengimplementasikan game menggunakan iteratif, numerik
pendekatan. Mengoptimalkan D hingga selesai di lingkaran dalam pelatihan adalah penghitungan secara komputasi,
dan pada dataset yang terbatas akan menghasilkan overfitting. Alih-alih, kami bergantian antara langkah k untuk mengoptimalkan
D dan satu langkah mengoptimalkan G. Ini menghasilkan D dipertahankan dekat solusi optimalnya, jadi
selama G berubah cukup lambat. Strategi ini analog dengan cara SML / PCD [31, 29]
pelatihan memelihara sampel dari rantai Markov dari satu langkah pembelajaran ke langkah berikutnya untuk menghindari
membakar dalam rantai Markov sebagai bagian dari lingkaran dalam pembelajaran. Prosedurnya disajikan secara formal
dalam Algoritma 1.
Dalam praktiknya, persamaan 1 mungkin tidak memberikan gradien yang cukup bagi G untuk belajar dengan baik. Di awal belajar,
ketika G buruk, D dapat menolak sampel dengan keyakinan tinggi karena mereka jelas berbeda
data pelatihan. Dalam hal ini, log (1 - D (G (z))) jenuh. Daripada melatih G untuk meminimalkan
log (1 - D (G (z)))) kita dapat melatih G untuk memaksimalkan log D (G (z)). Fungsi tujuan ini menghasilkan
titik tetap yang sama dari dinamika G dan D tetapi memberikan gradien yang jauh lebih kuat di awal pembelajaran
Gambar 1: Jaring permusuhan generatif dilatih dengan secara bersamaan memperbarui distribusi diskriminatif
(D, biru, garis putus-putus) sehingga membedakan antara sampel dari distribusi menghasilkan data (hitam,
garis putus-putus) px dari distribusi generatif pg (G) (hijau, garis padat). Garis horizontal bawah adalah
domain tempat z diambil sampelnya, dalam hal ini seragam. Garis horizontal di atas adalah bagian dari domain
dari x. Panah ke atas menunjukkan bagaimana pemetaan x = G (z) memaksakan pg distribusi tidak seragam aktif
sampel yang diubah. Kontrak G di daerah dengan kepadatan tinggi dan berkembang di daerah dengan kepadatan rendah hal. (Sebuah)
Pertimbangkan pasangan permusuhan di dekat konvergensi: pg mirip dengan pdata dan D adalah penggolong yang sebagian akurat.
(B) Dalam loop dalam algoritma D dilatih untuk membedakan sampel dari data, konvergen ke D
∗
(x) =
pdata (x)
pdata (x) + pg (x)
. (c) Setelah pembaruan ke G, gradien D telah memandu G (z) untuk mengalir ke daerah yang lebih mungkin
untuk diklasifikasikan sebagai data. (d) Setelah beberapa langkah pelatihan, jika G dan D memiliki kapasitas yang cukup, mereka akan mencapai a
titik di mana keduanya tidak dapat meningkatkan karena pg = pdata. Diskriminator tidak dapat membedakan
dua distribusi, mis. D (x) = 1
2

## Theoretical Results
Generator G secara implisit mendefinisikan distribusi probabilitas pg sebagai distribusi sampel
G (z) diperoleh saat z ∼ pz. Oleh karena itu, kami ingin Algoritma 1 konvergen ke estimator yang baik
pdata, jika diberikan kapasitas dan waktu pelatihan yang cukup. Hasil bagian ini dilakukan secara nonparametrik
pengaturan, mis. kami mewakili model dengan kapasitas tak terbatas dengan mempelajari konvergensi dalam
ruang fungsi kepadatan probabilitas.
Kami akan menunjukkan di bagian 4.1 bahwa game minimax ini memiliki global optimum untuk pg = pdata. Kami akan
kemudian tunjukkan di bagian 4.2 bahwa Algoritma 1 mengoptimalkan Persamaan 1, sehingga memperoleh hasil yang diinginkan.


## Advantages and disadvantages
Kerangka kerja baru ini dilengkapi dengan kelebihan dan kekurangan relatif terhadap kerangka kerja pemodelan sebelumnya.
Kerugian utamanya adalah tidak ada representasi eksplisit pg (x), dan D
harus disinkronkan dengan G selama pelatihan (khususnya, G tidak boleh dilatih terlalu banyak
tanpa memperbarui D, untuk menghindari "skenario Helvetica" di mana G menciutkan terlalu banyak nilai
dari z dengan nilai x yang sama untuk memiliki keragaman yang cukup untuk memodelkan pdata), seperti halnya rantai negatif a
Mesin Boltzmann harus selalu diperbarui di antara langkah-langkah pembelajaran. Keuntungannya adalah bahwa Markov
rantai tidak pernah dibutuhkan, hanya backprop yang digunakan untuk mendapatkan gradien, tidak diperlukan inferensi selama
belajar, dan beragam fungsi dapat dimasukkan ke dalam model. Tabel 2 merangkum
perbandingan jaring permusuhan generatif dengan pendekatan pemodelan generatif lainnya.
Keuntungan yang disebutkan di atas terutama bersifat komputasi. Model permusuhan juga dapat meningkat
beberapa keuntungan statistik dari jaringan generator tidak diperbarui secara langsung dengan contoh data,
tetapi hanya dengan gradien yang mengalir melalui diskriminator. Ini berarti bahwa komponen
input tidak disalin langsung ke parameter generator. Keuntungan lain dari jaringan permusuhan
adalah bahwa mereka dapat mewakili distribusi yang sangat tajam, bahkan merosot, sementara metode berdasarkan
Rantai Markov mensyaratkan bahwa distribusi agak buram agar rantai dapat
campur antara mode.

## Conclusions and future work


This framework admits many straightforward extensions:
1. A conditional generative model p(x | c) can be obtained by adding c as input to both G and D.
2. Learned approximate inference can be performed by training an auxiliary network to predict z
given x. This is similar to the inference net trained by the wake-sleep algorithm [15] but with
the advantage that the inference net may be trained for a fixed generator net after the generator
net has finished training.
3. One can approximately model all conditionals p(xS | x6S) where S is a subset of the indices
of x by training a family of conditional models that share parameters. Essentially, one can use
adversarial nets to implement a stochastic extension of the deterministic MP-DBM [11].
4. Semi-supervised learning: features from the discriminator or inference net could improve performance
of classifiers when limited labeled data is available.
5. Efficiency improvements: training could be accelerated greatly by divising better methods for
coordinating G and D or determining better distributions to sample z from during training.
This paper has demonstrated the viability of the adversarial modeling framework, suggesting that
these research directions could prove useful.
1236/5000
Kerangka kerja ini menerima banyak ekstensi langsung:
1. Model generatif bersyarat p (x | c) dapat diperoleh dengan menambahkan c sebagai input untuk G dan D.
2. Inferensi perkiraan yang dipelajari dapat dilakukan dengan melatih jaringan bantu untuk memprediksi z
diberikan x. Ini mirip dengan jaring inferensi yang dilatih oleh algoritma bangun-tidur [15] tetapi dengan
keuntungan bahwa jaring inferensi dapat dilatih untuk jaring generator tetap setelah generator
net telah menyelesaikan pelatihan.
3. Seseorang dapat kira-kira memodelkan semua kondisional p (xS | x6S) di mana S adalah subset dari indeks
of x dengan melatih keluarga model kondisional yang berbagi parameter. Pada dasarnya, seseorang dapat menggunakan
jaring permusuhan untuk mengimplementasikan ekstensi stokastik dari MP-DBM deterministik [11].
4. Pembelajaran semi-diawasi: fitur dari diskriminator atau jaringan inferensi dapat meningkatkan kinerja
pengklasifikasi ketika data berlabel terbatas tersedia.
5. Peningkatan efisiensi: pelatihan dapat dipercepat dengan membagi metode yang lebih baik untuk
mengoordinasikan G dan D atau menentukan distribusi yang lebih baik untuk sampel z dari selama pelatihan.
Makalah ini telah menunjukkan kelayakan kerangka pemodelan permusuhan, menyarankan itu
arahan penelitian ini terbukti bermanfaat.
Kirim umpan balik
Riwayat
Disimpen
Komunitas

### Acknowledgments
Kami ingin mengakui Patrice Marcotte, Olivier Delalleau, Kyunghyun Cho, Guillaume
Alain dan Jason Yosinski untuk diskusi yang bermanfaat. Yann Dauphin membagikan evaluasi jendela Parzen-nya
kode dengan kami. Kami ingin mengucapkan terima kasih kepada para pengembang Pylearn2 [12] dan Theano [7, 1],
khususnya Fredic Bastien yang menggunakan fitur Theano secara khusus untuk mendapatkan manfaat dari proyek ini. Ar- ´
naud Bergeron memberikan dukungan yang sangat dibutuhkan dengan pengaturan huruf LATEX. Kami juga ingin mengucapkan terima kasih
Kursi Penelitian CIFAR, dan Kanada untuk pendanaan, dan Hitung Kanada, dan Hitung Quebec untuk ´
menyediakan sumber daya komputasi. Ian Goodfellow didukung oleh Google Fellowship 2013 di
Pembelajaran yang mendalam. Akhirnya, kami ingin mengucapkan terima kasih kepada Les Trois Brasseurs karena merangsang kreativitas kami