Untitled

RETURNN starting up, version 20180918.113416--git-ef519a3, date/time 2018-10-03-05-22-57 (UTC+0200), pid 339, cwd /work/smt2/makarov/NMT, Python /usr/bin/python3
RETURNN command line options: ['hmm-factorization/en-de/transformer-hmm']
Hostname: cluster-cn-216
TensorFlow: 1.9.0 (v1.9.0-0-g25c197e023) (<site-package> in /u/makarov/.local/lib/python3.5/site-packages/tensorflow)
Error while getting SGE num_proc: FileNotFoundError(2, "No such file or directory: 'qstat'")
Setup TF inter and intra global thread pools, num_threads None, session opts {'device_count': {'GPU': 0}, 'log_device_placement': False}.
CUDA_VISIBLE_DEVICES is set to '1'.
Local devices available to TensorFlow:
  1/2: name: "/device:CPU:0"
       device_type: "CPU"
       memory_limit: 268435456
       locality {
       }
       incarnation: 3957494146875968502
  2/2: name: "/device:GPU:0"
       device_type: "GPU"
       memory_limit: 10915220685
       locality {
         bus_id: 3
         numa_node: 2
         links {
         }
       }
       incarnation: 12079591820331675797
       physical_device_desc: "device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:41:00.0, compute capability: 6.1"
Using gpu device 1: GeForce GTX 1080 Ti
<TranslationDataset 'dev' epoch=1>: waiting for data length info...
<TranslationDataset 'train' epoch=1>: waiting for data length info...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (176536 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (337293 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (499005 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (652725 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (813324 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (974394 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1128281 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1289733 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1450179 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1611445 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1765489 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (1919088 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2072864 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2233664 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2387009 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2548141 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2709416 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (2863560 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3017322 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3162975 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3324726 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3478511 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3631523 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3792573 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (3946154 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4107273 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4260136 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4413473 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4574533 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4727686 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (4881106 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5034970 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5195904 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5349291 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5502423 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5663958 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5817471 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (5970659 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6123912 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6285104 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6438822 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6599880 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6753151 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (6914701 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7068295 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7221632 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7375275 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7536427 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7689729 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7842801 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (7996648 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8157644 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8310471 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8464375 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8625442 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8779388 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (8933284 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9086438 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9239330 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9400120 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9553923 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9707107 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (9860411 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10022067 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10175145 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10328003 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10481148 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10634347 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10788315 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (10941864 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11095517 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11249202 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11402595 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11563281 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11716833 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (11870435 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12023539 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12185177 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12338570 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12492296 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12653028 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12806337 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (12960467 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13113820 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13274577 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13428222 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13581922 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13742852 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (13889085 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14042850 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14203231 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14357482 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14510676 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14671414 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14824201 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (14978019 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15138657 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15291788 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15444741 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15606231 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15759000 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (15904743 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16059153 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16212601 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16365960 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16511978 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16665664 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16826382 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (16979543 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17132848 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17286992 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17448667 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17601847 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17755599 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (17908877 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18070305 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18223233 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18376359 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18530181 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18690986 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18844197 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (18997199 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19142611 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19303843 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19456774 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19610061 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19764176 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (19925307 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20078997 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20232105 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20385414 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20538785 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20692069 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20845738 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (20991753 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (21152861 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (21306787 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (21460216 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (21613731 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 21826104 (21767737 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (21836948 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (21990810 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22144763 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22297950 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22451182 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22603913 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22757257 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (22910035 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (23063757 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23232217 (23217089 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23526579 (23232399 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 23526579 (23385998 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (23539819 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (23693276 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (23847021 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (23992433 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24146396 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24292528 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24445776 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24599544 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24745486 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (24891284 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25044506 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25205256 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25358793 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25512318 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25665392 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25819256 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (25973004 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26126656 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26280647 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26441910 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26595164 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26748940 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (26902341 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27055745 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27209105 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27369780 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27523031 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27676658 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27830454 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (27983927 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28137189 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28290428 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28451923 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28597938 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28758610 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (28973760 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (29288171 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (29618233 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (29941434 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (30256213 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 30815203 (30579011 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 31533234 (30832360 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 31533234 (31147358 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 31533234 (31462529 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32692165 (31554159 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32692165 (31891258 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32692165 (32190816 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32692165 (32513343 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32760483 (32698103 loaded so far)...
<TranslationDataset 'train' epoch=1>: waiting for 'data', line 32795599 (32789983 loaded so far)...
Train data:
  input: 46300 x 1
  output: {'data': [46300, 1], 'classes': [34908, 1]}
  TranslationDataset, sequences: 327993, frames: unknown
Dev data:
  TranslationDataset, sequences: 2169, frames: unknown
Learning-rate-control: file hmm-factorization/logs/en-de/transformer-hmm/newbob.data does not exist yet
Setup tf.Session with options {'device_count': {'GPU': 1}, 'log_device_placement': False} ...
Rec layer sub net:
  Input layers moved out of loop: (#: 0)
    None
  Output layers moved out of loop: (#: 142)
    output_prob
    decoder_int
    decoder
    dec_06
    dec_06_ff_out
    dec_06_ff_drop
    dec_06_ff_conv2
    dec_06_ff_conv1
    dec_06_ff_laynorm
    dec_06_att_out
    dec_06_att_drop
    dec_06_att_lin
    dec_06_att_att
    dec_06_att0
    dec_06_att_weights_drop
    dec_06_att_weights
    dec_06_att_energy
    dec_06_att_query
    dec_06_att_query0
    dec_06_att_laynorm
    dec_06_self_att_out
    dec_06_self_att_drop
    dec_06_self_att_lin
    dec_06_self_att_att
    dec_06_self_att_laynorm
    dec_05
    dec_05_ff_out
    dec_05_ff_drop
    dec_05_ff_conv2
    dec_05_ff_conv1
    dec_05_ff_laynorm
    dec_05_att_out
    dec_05_att_drop
    dec_05_att_lin
    dec_05_att_att
    dec_05_att0
    dec_05_att_weights_drop
    dec_05_att_weights
    dec_05_att_energy
    dec_05_att_query
    dec_05_att_query0
    dec_05_att_laynorm
    dec_05_self_att_out
    dec_05_self_att_drop
    dec_05_self_att_lin
    dec_05_self_att_att
    dec_05_self_att_laynorm
    dec_04
    dec_04_ff_out
    dec_04_ff_drop
    dec_04_ff_conv2
    dec_04_ff_conv1
    dec_04_ff_laynorm
    dec_04_att_out
    dec_04_att_drop
    dec_04_att_lin
    dec_04_att_att
    dec_04_att0
    dec_04_att_weights_drop
    dec_04_att_weights
    dec_04_att_energy
    dec_04_att_query
    dec_04_att_query0
    dec_04_att_laynorm
    dec_04_self_att_out
    dec_04_self_att_drop
    dec_04_self_att_lin
    dec_04_self_att_att
    dec_04_self_att_laynorm
    dec_03
    dec_03_ff_out
    dec_03_ff_drop
    dec_03_ff_conv2
    dec_03_ff_conv1
    dec_03_ff_laynorm
    dec_03_att_out
    dec_03_att_drop
    dec_03_att_lin
    dec_03_att_att
    dec_03_att0
    dec_03_att_weights_drop
    dec_03_att_weights
    dec_03_att_energy
    dec_03_att_query
    dec_03_att_query0
    dec_03_att_laynorm
    dec_03_self_att_out
    dec_03_self_att_drop
    dec_03_self_att_lin
    dec_03_self_att_att
    dec_03_self_att_laynorm
    dec_02
    dec_02_ff_out
    dec_02_ff_drop
    dec_02_ff_conv2
    dec_02_ff_conv1
    dec_02_ff_laynorm
    dec_02_att_out
    dec_02_att_drop
    dec_02_att_lin
    dec_02_att_att
    dec_02_att0
    dec_02_att_weights_drop
    dec_02_att_weights
    dec_02_att_energy
    dec_02_att_query
    dec_02_att_query0
    dec_02_att_laynorm
    dec_02_self_att_out
    dec_02_self_att_drop
    dec_02_self_att_lin
    dec_02_self_att_att
    dec_02_self_att_laynorm
    dec_01
    dec_01_ff_out
    dec_01_ff_drop
    dec_01_ff_conv2
    dec_01_ff_conv1
    dec_01_ff_laynorm
    dec_01_att_out
    dec_01_att_drop
    dec_01_att_lin
    dec_01_att_att
    dec_01_att0
    dec_01_att_weights_drop
    dec_01_att_weights
    dec_01_att_energy
    dec_01_att_query
    dec_01_att_query0
    dec_01_att_laynorm
    dec_01_self_att_out
    dec_01_self_att_drop
    dec_01_self_att_lin
    dec_01_self_att_att
    dec_01_self_att_laynorm
    target_embed
    target_embed_with_pos
    target_embed_weighted
    encoder_int
    prev_outputs_int
    target_embed_raw
    output
  Layers in loop: (#: 0)
    None
  Unused layers: (#: 1)
    end
Warning: using numerical unstable sparse Cross-Entropy loss calculation
Network layer topology:
  extern data: data: Data(shape=(None,), dtype='int32', sparse=True, dim=46300), classes: Data(shape=(None,), dtype='int32', sparse=True, dim=34908, available_for_inference=False)
  used data keys: ['classes', 'data']
  layer source 'data' #: 46300
  layer split_dims 'dec_01_att_key' #: 64
  layer linear 'dec_01_att_key0' #: 512
  layer split_dims 'dec_01_att_value' #: 64
  layer linear 'dec_01_att_value0' #: 512
  layer split_dims 'dec_02_att_key' #: 64
  layer linear 'dec_02_att_key0' #: 512
  layer split_dims 'dec_02_att_value' #: 64
  layer linear 'dec_02_att_value0' #: 512
  layer split_dims 'dec_03_att_key' #: 64
  layer linear 'dec_03_att_key0' #: 512
  layer split_dims 'dec_03_att_value' #: 64
  layer linear 'dec_03_att_value0' #: 512
  layer split_dims 'dec_04_att_key' #: 64
  layer linear 'dec_04_att_key0' #: 512
  layer split_dims 'dec_04_att_value' #: 64
  layer linear 'dec_04_att_value0' #: 512
  layer split_dims 'dec_05_att_key' #: 64
  layer linear 'dec_05_att_key0' #: 512
  layer split_dims 'dec_05_att_value' #: 64
  layer linear 'dec_05_att_value0' #: 512
  layer split_dims 'dec_06_att_key' #: 64
  layer linear 'dec_06_att_key0' #: 512
  layer split_dims 'dec_06_att_value' #: 64
  layer linear 'dec_06_att_value0' #: 512
  layer decide 'decision' #: 34908
  layer copy 'enc_01' #: 512
  layer linear 'enc_01_ff_conv1' #: 2048
  layer linear 'enc_01_ff_conv2' #: 512
  layer dropout 'enc_01_ff_drop' #: 512
  layer layer_norm 'enc_01_ff_laynorm' #: 512
  layer combine 'enc_01_ff_out' #: 512
  layer self_attention 'enc_01_self_att_att' #: 512
  layer dropout 'enc_01_self_att_drop' #: 512
  layer layer_norm 'enc_01_self_att_laynorm' #: 512
  layer linear 'enc_01_self_att_lin' #: 512
  layer combine 'enc_01_self_att_out' #: 512
  layer copy 'enc_02' #: 512
  layer linear 'enc_02_ff_conv1' #: 2048
  layer linear 'enc_02_ff_conv2' #: 512
  layer dropout 'enc_02_ff_drop' #: 512
  layer layer_norm 'enc_02_ff_laynorm' #: 512
  layer combine 'enc_02_ff_out' #: 512
  layer self_attention 'enc_02_self_att_att' #: 512
  layer dropout 'enc_02_self_att_drop' #: 512
  layer layer_norm 'enc_02_self_att_laynorm' #: 512
  layer linear 'enc_02_self_att_lin' #: 512
  layer combine 'enc_02_self_att_out' #: 512
  layer copy 'enc_03' #: 512
  layer linear 'enc_03_ff_conv1' #: 2048
  layer linear 'enc_03_ff_conv2' #: 512
  layer dropout 'enc_03_ff_drop' #: 512
  layer layer_norm 'enc_03_ff_laynorm' #: 512
  layer combine 'enc_03_ff_out' #: 512
  layer self_attention 'enc_03_self_att_att' #: 512
  layer dropout 'enc_03_self_att_drop' #: 512
  layer layer_norm 'enc_03_self_att_laynorm' #: 512
  layer linear 'enc_03_self_att_lin' #: 512
  layer combine 'enc_03_self_att_out' #: 512
  layer copy 'enc_04' #: 512
  layer linear 'enc_04_ff_conv1' #: 2048
  layer linear 'enc_04_ff_conv2' #: 512
  layer dropout 'enc_04_ff_drop' #: 512
  layer layer_norm 'enc_04_ff_laynorm' #: 512
  layer combine 'enc_04_ff_out' #: 512
  layer self_attention 'enc_04_self_att_att' #: 512
  layer dropout 'enc_04_self_att_drop' #: 512
  layer layer_norm 'enc_04_self_att_laynorm' #: 512
  layer linear 'enc_04_self_att_lin' #: 512
  layer combine 'enc_04_self_att_out' #: 512
  layer copy 'enc_05' #: 512
  layer linear 'enc_05_ff_conv1' #: 2048
  layer linear 'enc_05_ff_conv2' #: 512
  layer dropout 'enc_05_ff_drop' #: 512
  layer layer_norm 'enc_05_ff_laynorm' #: 512
  layer combine 'enc_05_ff_out' #: 512
  layer self_attention 'enc_05_self_att_att' #: 512
  layer dropout 'enc_05_self_att_drop' #: 512
  layer layer_norm 'enc_05_self_att_laynorm' #: 512
  layer linear 'enc_05_self_att_lin' #: 512
  layer combine 'enc_05_self_att_out' #: 512
  layer copy 'enc_06' #: 512
  layer linear 'enc_06_ff_conv1' #: 2048
  layer linear 'enc_06_ff_conv2' #: 512
  layer dropout 'enc_06_ff_drop' #: 512
  layer layer_norm 'enc_06_ff_laynorm' #: 512
  layer combine 'enc_06_ff_out' #: 512
  layer self_attention 'enc_06_self_att_att' #: 512
  layer dropout 'enc_06_self_att_drop' #: 512
  layer layer_norm 'enc_06_self_att_laynorm' #: 512
  layer linear 'enc_06_self_att_lin' #: 512
  layer combine 'enc_06_self_att_out' #: 512
  layer layer_norm 'encoder' #: 512
  layer rec 'output' #: 34908
  layer dropout 'source_embed' #: 512
  layer linear 'source_embed_raw' #: 512
  layer eval 'source_embed_weighted' #: 512
  layer positional_encoding 'source_embed_with_pos' #: 512
net params #: 122126176

net trainable params: [<tf.Variable 'dec_01_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_01_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_02_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_02_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_03_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_03_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_04_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_04_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_05_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_05_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_06_att_key0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'dec_06_att_value0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_01_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_01_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_01_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_01_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_01_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_01_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_01_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_01_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_01_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_01_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_02_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_02_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_02_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_02_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_02_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_02_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_02_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_02_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_02_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_02_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_03_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_03_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_03_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_03_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_03_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_03_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_03_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_03_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_03_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_03_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_04_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_04_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_04_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_04_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_04_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_04_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_04_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_04_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_04_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_04_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_05_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_05_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_05_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_05_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_05_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_05_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_05_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_05_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_05_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_05_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'enc_06_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'enc_06_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'enc_06_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'enc_06_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_06_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_06_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_06_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'enc_06_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_06_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'enc_06_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'encoder/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'encoder/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_01_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_02_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_03_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_04_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_05_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_att_query0/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_conv1/W:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_conv1/b:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_conv2/W:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_conv2/b:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_ff_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_self_att_att/QKV:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_self_att_laynorm/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_self_att_laynorm/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/dec_06_self_att_lin/W:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'output/rec/decoder/bias:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/decoder/scale:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'output/rec/decoder_int/W:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'output/rec/encoder_int/W:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'output/rec/output_prob/dense/kernel:0' shape=(1000, 34908) dtype=float32_ref>, <tf.Variable 'output/rec/prev_outputs_int/W:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'output/rec/target_embed_raw/W:0' shape=(34908, 512) dtype=float32_ref>, <tf.Variable 'source_embed_raw/W:0' shape=(46300, 512) dtype=float32_ref>]
start training at epoch 1 and step 0
using batch size: 400, max seqs: 50
learning rate control: NewbobMultiEpoch(numEpochs=20, updateInterval=1, relativeErrorThreshold=-0.005, learningRateDecayFactor=0.9, learningRateGrowthFactor=1.0), epoch data: , error key: None
pretrain: None
start epoch 1 with learning rate 0.0003 ...
TF: log_dir: "net-model/network/en-de/train-2018-10-03-03-22-57
Create optimizer <class 'tensorflow.python.training.adam.AdamOptimizer'> with options {'epsilon': 1e-08, 'learning_rate': <tf.Variable 'learning_rate:0' shape=() dtype=float32_ref>, 'beta1': 0.9, 'beta2': 0.999}.
Initialize optimizer with slots ['m', 'v'].
These additional variable were created by the optimizer: [<tf.Variable 'optimize/gradients/dec_01_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_01_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_02_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_02_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_03_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_03_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_04_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_04_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_05_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_05_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_06_att_key0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/dec_06_att_value0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_01_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_02_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_03_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_04_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_05_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/enc_06_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/encoder/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/encoder/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_01_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_02_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_03_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_04_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_05_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_att_query0/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_conv1/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 2048) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_conv1/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_conv2/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(2048, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_conv2/linear/add_bias_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_ff_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_self_att_att/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1536) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_self_att_laynorm/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_self_att_laynorm/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/dec_06_self_att_lin/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/decoder/add_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/decoder/mul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512,) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/decoder_int/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/encoder_int/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/output_prob/dense/Tensordot/transpose_1_grad/transpose_accum_grad/var_accum_grad:0' shape=(1000, 34908) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/prev_outputs_int/linear/dot/MatMul_grad/tuple/control_dependency_1_accum_grad/var_accum_grad:0' shape=(512, 1000) dtype=float32_ref>, <tf.Variable 'optimize/gradients/output/rec/target_embed_raw/linear/embedding_lookup_grad/Reshape_accum_grad/var_accum_grad:0' shape=(34908, 512) dtype=float32_ref>, <tf.Variable 'optimize/gradients/source_embed_raw/linear/embedding_lookup_grad/Reshape_accum_grad/var_accum_grad:0' shape=(46300, 512) dtype=float32_ref>, <tf.Variable 'optimize/apply_grads/accum_grad_multiple_step/beta1_power:0' shape=() dtype=float32_ref>, <tf.Variable 'optimize/apply_grads/accum_grad_multiple_step/beta2_power:0' shape=() dtype=float32_ref>].
train epoch 1, step 0, cost:output/output_prob 10.579492196670572, error:decision 0.0, error:output/output_prob 0.9999999441206455, loss 1290.6981, max_size:classes 15, max_size:data 4, mem_usage:GPU:0 2.1GB, num_seqs 26, 8.767 sec/step, elapsed 0:02:14, exp. remaining 51:35:23, complete 0.07%
train epoch 1, step 1, cost:output/output_prob 10.488510898613981, error:decision 0.0, error:output/output_prob 1.0000000251457095, loss 1908.9089, max_size:classes 16, max_size:data 4, mem_usage:GPU:0 3.0GB, num_seqs 25, 0.783 sec/step, elapsed 0:02:23, exp. remaining 51:31:50, complete 0.08%
...