landmark predictions

size of train loader is:  90
predictions are:  tensor([[-0.0380, -0.1871,  0.0729, -0.3570, -0.2153,  0.3066,  1.1273, -0.0558],
        [-0.0316, -0.1876,  0.0317, -0.3613, -0.2333,  0.3023,  1.0940, -0.0665],
        [-0.0700, -0.1882,  0.0068, -0.3201, -0.1884,  0.2953,  1.0516, -0.0567],
        [-0.0844, -0.2009,  0.0573, -0.3166, -0.2597,  0.3127,  1.0343, -0.0573],
        [-0.0486, -0.2333,  0.0535, -0.3245, -0.2310,  0.2818,  1.0590, -0.0716],
        [-0.0240, -0.1989,  0.0572, -0.3135, -0.2435,  0.2912,  1.0612, -0.0560],
        [-0.0942, -0.2439,  0.0277, -0.3147, -0.2368,  0.2978,  1.0110, -0.0874],
        [-0.0356, -0.2285,  0.0064, -0.3179, -0.2432,  0.3083,  1.0300, -0.0756]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.9200, 240.1600, 691.0000, 358.0000, 295.0000, 294.0000, 488.6482,
         279.6466],
        [495.6300, 246.0600, 692.0000, 235.0000, 286.0000, 242.0000, 464.0000,
         339.0000],
        [488.7100, 240.8900, 613.4007, 218.3425, 281.0000, 220.0000, 415.9966,
         338.4796],
        [502.5721, 245.4983, 640.0000, 131.0000, 360.0000, 143.0000, 542.9840,
         321.8463],
        [505.1393, 246.4364, 700.0000, 306.0000, 303.0000, 294.0000, 569.6925,
         351.8367],
        [501.0900, 244.0100, 724.0000, 251.0000, 302.0000, 276.0000, 504.6415,
         291.7443],
        [495.9500, 244.2800, 608.0000, 127.0000, 323.0000, 166.0000, 491.0000,
         333.0000],
        [490.2500, 241.3400, 699.0000, 304.0000, 398.6197, 313.8339, 429.1374,
         303.8483]], device='cuda:0')
loss_train_step before backward:  tensor(166475.6875, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(166475.6875, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  166475.6875
step:  1
running loss:  166475.6875
Train Steps: 1/90  Loss: 166475.6875 predictions are:  tensor([[ 0.1848, -0.1262,  0.4091, -0.2304, -0.1060,  0.4372,  1.3852,  0.0739],
        [ 0.2051, -0.0935,  0.4141, -0.2483, -0.0607,  0.4669,  1.4023,  0.1099],
        [ 0.1923, -0.1570,  0.3770, -0.2265, -0.0891,  0.4168,  1.3499,  0.0978],
        [ 0.1799, -0.0961,  0.3741, -0.2188, -0.0891,  0.4474,  1.3451,  0.1094],
        [ 0.1413, -0.0899,  0.3942, -0.2284, -0.1005,  0.4032,  1.3716,  0.0928],
        [ 0.1852, -0.1177,  0.3888, -0.2247, -0.0988,  0.4586,  1.3553,  0.0956],
        [ 0.1285, -0.1051,  0.3694, -0.2425, -0.1180,  0.3835,  1.3341,  0.1009],
        [ 0.1393, -0.1126,  0.3555, -0.2547, -0.0628,  0.4297,  1.3280,  0.1162]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[506.5656, 247.0619, 739.0000, 256.0000, 321.0000, 284.0000, 601.9836,
         326.1537],
        [507.1360, 244.8729, 674.0000, 325.0000, 308.0000, 290.0000, 586.7878,
         345.5895],
        [491.8400, 243.1800, 700.0000, 273.0000, 387.9706, 313.0692, 469.0000,
         334.0000],
        [486.7600, 240.2900, 672.0000, 259.0000, 301.0000, 285.0000, 438.0412,
         303.4578],
        [503.9984, 248.0000, 683.0000, 130.0000, 447.0000, 135.0000, 591.2198,
         324.7654],
        [490.2500, 241.3400, 699.0000, 304.0000, 398.6197, 313.8339, 429.1374,
         303.8483],
        [     nan,      nan, 682.0000, 133.0000, 433.0000, 142.0000, 589.3204,
         328.9302],
        [489.1657, 239.8694, 565.0000, 143.0000, 323.0000, 117.0000, 425.5759,
         299.5533]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  2
running loss:  nan
Train Steps: 2/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 586.7780, 154.1319, 303.0000, 160.0000, 405.3121,
         334.6727],
        [503.4279, 238.9313, 696.0000, 318.0000, 301.0000, 283.0000, 563.9941,
         317.8241],
        [493.4800, 246.5000, 545.7030, 163.3048, 306.0000, 153.0000, 444.0000,
         343.0000],
        [503.1426, 241.1203, 649.0000, 328.0000, 310.0000, 301.0000, 589.3204,
         319.9065],
        [502.8574, 238.6186, 723.0000, 284.0000, 312.0000, 249.0000, 565.8936,
         319.2123],
        [497.2200, 247.1100, 615.0000, 138.0000, 336.0000, 137.0000, 474.0000,
         319.0000],
        [495.3700, 238.8200, 566.2405, 164.9726, 340.0000, 126.0000, 436.0000,
         347.0000],
        [507.9918, 247.0619, 669.0000, 163.0000, 388.0000, 102.0000, 515.2408,
         310.1886]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  3
running loss:  nan
Train Steps: 3/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.2400, 244.3000, 711.3916, 211.3691, 302.6665, 181.0179, 471.8022,
         328.6678],
        [501.1459, 243.3093, 674.0000, 166.0000, 354.0000, 166.0000, 563.9941,
         335.1775],
        [488.6800, 242.1600, 575.0000, 105.0000, 308.0000, 153.0000, 469.0000,
         334.0000],
        [502.8574, 243.6220, 735.0000, 260.0000, 294.0000, 250.0000, 562.7277,
         331.7068],
        [502.2400, 255.1600, 710.0000, 301.0000, 329.0000, 165.0000, 433.0551,
         371.7868],
        [490.0000, 239.9400, 700.0000, 293.0000, 380.0000, 282.0000, 442.6711,
         337.0366],
        [502.2869, 242.9966, 642.0000, 132.0000, 345.0000, 164.0000, 545.6324,
         319.2123],
        [495.9200, 243.9100, 607.8350, 143.0867, 345.3565, 118.8599, 474.6164,
         313.2611]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  4
running loss:  nan
Train Steps: 4/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.8200, 244.5800, 635.6002, 147.2001, 358.0301, 112.2785, 471.7639,
         320.9747],
        [490.0000, 239.9400, 700.0000, 293.0000, 380.0000, 282.0000, 442.6711,
         337.0366],
        [508.2770, 247.6873, 731.0000, 212.0000, 375.0000, 195.0000, 571.5920,
         359.4722],
        [495.8100, 239.8400, 686.5782, 321.6804, 329.3477, 300.9463, 475.3770,
         308.0492],
        [501.8300, 248.5600, 700.0000, 342.0000, 319.0000, 283.0000, 481.0000,
         328.0000],
        [490.2000, 245.0600, 699.0000, 281.0000, 289.0000, 222.0000, 396.7645,
         323.8376],
        [487.6300, 240.1400, 682.6197, 310.0718, 402.5010, 305.6570, 410.0000,
         326.0000],
        [496.8000, 249.8500, 576.1289, 175.8134, 322.0000, 149.0000, 455.0000,
         334.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  5
running loss:  nan

Train Steps: 5/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[499.2800, 248.5500, 715.0000, 279.0000, 326.0000, 321.0000, 500.0000,
         333.0000],
        [501.0600, 243.8700, 723.0000, 259.0000, 287.0000, 273.0000, 506.0000,
         315.0000],
        [482.6800, 240.6500, 588.0000, 152.0000, 275.0000, 202.0000, 441.2465,
         305.0196],
        [     nan,      nan, 617.9645, 156.6336, 294.0000, 164.0000, 433.0000,
         310.0000],
        [498.3700, 249.1100, 607.0000, 137.0000, 321.0000, 173.0000, 496.0000,
         346.0000],
        [501.9300, 256.1800, 715.0000, 298.0000, 284.0000, 257.0000, 456.0000,
         344.0000],
        [495.6600, 245.6500, 605.0000, 169.0000, 315.0000, 191.0000, 481.0000,
         371.0000],
        [493.5900, 246.1400, 597.4271, 221.6781, 277.0000, 226.0000, 419.0314,
         349.3644]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  6
running loss:  nan
Train Steps: 6/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.2902, 239.5567, 719.0000, 286.0000, 319.0000, 331.0000, 556.3961,
         317.1299],
        [502.0400, 245.7100, 659.0000, 135.0000, 373.0000, 107.0000, 493.7134,
         292.1411],
        [498.8640, 237.9932, 694.0000, 324.0000, 309.0000, 271.0000, 466.0000,
         312.0000],
        [495.8700, 247.7900, 701.0000, 247.0000, 292.0000, 294.0000, 456.5611,
         306.1910],
        [502.2869, 242.9966, 642.0000, 132.0000, 345.0000, 164.0000, 545.6324,
         319.2123],
        [489.9400, 241.8100, 692.0000, 292.0000, 399.9338, 306.3606, 410.9215,
         346.3862],
        [     nan,      nan, 567.7618, 140.7894, 340.0000, 111.0000, 414.0000,
         335.0000],
        [491.4477, 242.0584, 704.0000, 290.0000, 361.0000, 322.0000, 423.0828,
         305.8005]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  7
running loss:  nan
Train Steps: 7/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.0500, 238.2000, 673.0000, 297.0000, 353.0000, 311.0000, 487.0000,
         324.0000],
        [484.2800, 242.0800, 551.7881, 114.9384, 320.0000, 127.0000, 435.1920,
         310.0955],
        [492.5886, 237.3677, 665.8701, 248.2718, 278.2819, 265.8849, 473.0849,
         307.8573],
        [491.8400, 243.1800, 700.0000, 273.0000, 387.9706, 313.0692, 469.0000,
         334.0000],
        [508.8475, 246.1237, 692.0000, 179.0000, 391.0000, 120.0000, 536.1351,
         327.5420],
        [491.3300, 247.6000, 606.0000, 184.0000, 275.0000, 263.0000, 462.2595,
         312.4382],
        [489.1657, 239.8694, 565.0000, 143.0000, 323.0000, 117.0000, 425.5759,
         299.5533],
        [496.3100, 240.7500, 646.0000, 144.0000, 345.0000, 123.0000, 464.0000,
         309.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  8
running loss:  nan
Train Steps: 8/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.0300, 247.8700, 695.0000, 179.0000, 342.0000, 142.0000, 493.0000,
         322.0000],
        [495.8700, 247.7900, 701.0000, 247.0000, 292.0000, 294.0000, 456.5611,
         306.1910],
        [507.1360, 246.1237, 727.0000, 286.0000, 314.0000, 317.0000, 600.7172,
         323.3772],
        [491.6200, 238.9700, 696.0000, 301.0000, 352.0000, 288.0000, 430.0000,
         345.0000],
        [492.9800, 236.9300, 707.0000, 271.0000, 340.0000, 311.0000, 467.0000,
         330.0000],
        [485.8600, 235.9000, 669.0000, 349.0000, 354.0000, 307.0000, 416.3159,
         289.0111],
        [493.1500, 247.1400, 633.0000, 159.0000, 283.0000, 210.0000, 449.0819,
         302.2865],
        [503.1426, 241.4330, 727.0000, 274.0000, 315.0000, 338.0000, 564.6272,
         336.5657]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  9
running loss:  nan
Train Steps: 9/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[499.7197, 240.4949, 700.5271, 305.2639, 328.0690, 323.5423, 531.4897,
         308.0097],
        [488.1700, 239.9200, 700.0000, 308.0000, 306.0000, 285.0000, 451.0000,
         305.0000],
        [502.4100, 246.0400, 724.0000, 272.0000, 302.0000, 193.0000, 507.0098,
         294.9176],
        [496.1400, 238.9700, 684.3768, 325.7215, 307.3357, 262.1889, 469.2918,
         323.8934],
        [488.7100, 240.8900, 613.4007, 218.3425, 281.0000, 220.0000, 415.9966,
         338.4796],
        [507.7065, 245.1856, 635.0000, 330.0000, 317.0000, 292.0000, 587.4209,
         342.1188],
        [502.0016, 241.4330, 688.0000, 137.0000, 428.0000, 108.0000, 565.8936,
         324.7654],
        [496.2100, 245.7600, 709.0000, 256.0000, 283.0000, 247.0000, 482.0000,
         339.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  10
running loss:  nan
Train Steps: 10/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 700.0000, 148.0000, 411.0000, 157.0000, 590.5867,
         333.0951],
        [507.7065, 249.8763, 731.0000, 239.0000, 310.0000, 259.0000, 597.5515,
         328.2361],
        [     nan,      nan, 601.0000, 127.0000, 343.0000, 120.0000, 448.0000,
         337.0000],
        [498.3700, 249.1100, 607.0000, 137.0000, 321.0000, 173.0000, 496.0000,
         346.0000],
        [490.2700, 247.0800, 691.0000, 320.0000, 370.0000, 316.0000, 415.4624,
         328.5230],
        [497.2200, 247.1100, 615.0000, 138.0000, 336.0000, 137.0000, 474.0000,
         319.0000],
        [506.5656, 249.8763, 728.0000, 201.0000, 335.0000, 221.0000, 595.0188,
         331.7068],
        [497.7500, 237.4100, 707.0000, 301.0000, 315.0000, 276.0000, 472.0000,
         301.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  11
running loss:  nan
Train Steps: 11/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[487.5800, 238.2200, 695.0000, 286.0000, 388.7642, 292.7355, 415.2475,
         296.4297],
        [492.8739, 241.4330, 693.0000, 281.0000, 394.7994, 321.8399, 485.0000,
         334.0000],
        [489.9400, 241.8100, 692.0000, 292.0000, 399.9338, 306.3606, 410.9215,
         346.3862],
        [494.3001, 239.5567, 714.0048, 287.3219, 310.3356, 293.9974, 483.3020,
         316.7523],
        [497.5500, 246.8200, 654.0000, 169.0000, 314.0000, 167.0000, 472.0000,
         321.0000],
        [496.3700, 240.9300, 668.0000, 163.0000, 319.0000, 153.0000, 463.0000,
         308.0000],
        [489.8800, 244.1100, 665.1248, 300.0650, 299.0000, 279.0000, 413.3255,
         324.1305],
        [501.2500, 244.2100, 697.0000, 336.0000, 297.0000, 287.0000, 462.0000,
         366.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  12
running loss:  nan
Train Steps: 12/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 610.0000, 146.0000, 297.0000, 172.0000, 418.8090,
         313.2191],
        [507.1360, 244.8729, 674.0000, 325.0000, 308.0000, 290.0000, 586.7878,
         345.5895],
        [     nan,      nan, 559.3947, 167.4743, 316.0000, 143.0000, 438.6643,
         349.1448],
        [500.5700, 242.0600, 663.0000, 140.0000, 314.0000, 163.0000, 506.4223,
         294.0870],
        [497.0400, 240.0600, 617.0000, 127.0000, 347.0000, 108.0000, 468.0000,
         311.0000],
        [     nan,      nan, 638.5021, 191.6575, 290.0000, 190.0000, 403.1752,
         333.7941],
        [501.9300, 256.1800, 715.0000, 298.0000, 284.0000, 257.0000, 456.0000,
         344.0000],
        [509.1327, 248.6254, 690.0000, 185.0000, 393.0000, 120.0000, 515.8740,
         316.4358]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  13
running loss:  nan
Train Steps: 13/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.0200, 244.2800, 587.0000, 115.0000, 336.0000, 147.0000, 492.0000,
         331.0000],
        [504.5688, 242.6839, 642.0000, 350.0000, 302.0000, 292.0000, 551.3309,
         327.5420],
        [487.4300, 239.4100, 672.0000, 260.0000, 295.0000, 278.0000, 444.8080,
         339.3793],
        [     nan,      nan, 727.0000, 227.0000, 365.0000, 157.0000, 539.3008,
         334.4833],
        [507.1360, 249.5636, 672.0000, 337.0000, 306.0000, 249.0000, 587.4209,
         344.8954],
        [488.5952, 242.9966, 696.0000, 291.0000, 357.5752, 290.8813, 403.4423,
         325.8875],
        [506.6800, 242.2100, 691.0000, 344.0000, 321.0000, 283.0000, 509.5424,
         296.3059],
        [495.9600, 245.1500, 673.1207, 178.4619, 329.3477, 136.4104, 469.4820,
         323.4764]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  14
running loss:  nan
Train Steps: 14/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.5754, 243.6220, 664.0000, 140.0000, 375.0000, 155.0000, 563.9941,
         337.9540],
        [501.8700, 246.5800, 712.0000, 229.0000, 335.0000, 130.0000, 468.6673,
         290.0746],
        [497.0800, 247.8600, 675.0000, 213.0000, 281.0000, 264.0000, 457.2733,
         307.3623],
        [503.9984, 240.8076, 715.0000, 321.0000, 294.0000, 276.0000, 516.5071,
         298.3883],
        [492.8739, 244.5602, 712.0000, 280.0000, 330.0000, 355.0000, 501.0000,
         322.0000],
        [484.6700, 238.7000, 663.0000, 216.0000, 272.0000, 243.0000, 442.3150,
         327.6658],
        [496.2700, 244.6800, 704.0000, 305.0000, 312.0000, 300.0000, 488.0000,
         335.0000],
        [486.3200, 237.8300, 593.6238, 177.4812, 285.0000, 175.0000, 428.0689,
         298.7724]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  15
running loss:  nan
Train Steps: 15/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[498.8640, 244.8729, 686.0000, 180.0000, 297.0000, 182.0000, 444.0000,
         338.0000],
        [     nan,      nan, 578.0000, 130.0000, 319.0000, 137.0000, 434.1235,
         310.8764],
        [487.7700, 239.9900, 586.0000, 160.0000, 276.0000, 211.0000, 422.7267,
         302.6769],
        [489.9400, 241.8100, 692.0000, 292.0000, 399.9338, 306.3606, 410.9215,
         346.3862],
        [498.3100, 251.9000, 613.0000, 162.0000, 376.0000, 128.0000, 454.0000,
         347.0000],
        [497.2500, 245.9600, 578.0000, 122.0000, 335.0000, 133.0000, 478.0000,
         317.0000],
        [499.6200, 246.9000, 696.0000, 293.0000, 370.0000, 331.0000, 488.0000,
         313.0000],
        [489.7400, 240.3700, 708.0000, 253.0000, 327.0000, 331.0000, 485.0000,
         331.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  16
running loss:  nan
Train Steps: 16/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[494.5853, 238.9313, 603.2948, 142.7309, 316.7463, 167.4912, 486.3070,
         323.3411],
        [494.1100, 234.6700, 699.0000, 253.0000, 279.0000, 242.0000, 482.0000,
         289.0000],
        [500.7300, 247.9500, 656.0000, 139.0000, 402.0000,  92.0000, 500.0116,
         296.8201],
        [492.8739, 242.3712, 602.0000, 128.0000, 330.0000, 124.0000, 463.0000,
         307.0000],
        [494.2300, 243.5200, 602.0000, 135.0000, 345.0000, 107.0000, 432.3427,
         314.3904],
        [496.0500, 246.9500, 698.0000, 284.0000, 296.0000, 193.0000, 430.9181,
         346.0170],
        [492.0181, 236.1169, 695.7136, 309.4855, 371.7718, 319.7672, 483.3020,
         309.1750],
        [502.0016, 240.8076, 708.0000, 170.0000, 398.0000, 134.0000, 564.6272,
         320.6006]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  17
running loss:  nan
Train Steps: 17/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.9600, 234.7900, 703.0000, 313.0000, 326.0000, 306.0000, 484.8128,
         294.7599],
        [497.0900, 250.5100, 584.0000, 173.0000, 347.0000, 130.0000, 455.8488,
         346.4075],
        [494.7200, 244.7300, 668.0000, 222.0000, 294.0000, 173.0000, 425.0000,
         347.0000],
        [496.2100, 244.5800, 688.8793, 172.7032, 324.0115, 153.2296, 472.5629,
         329.7797],
        [490.0600, 244.3900, 700.0000, 308.0000, 304.0000, 260.0000, 398.9014,
         322.6663],
        [494.5853, 237.9932, 661.0566, 183.8918, 282.0930, 249.6721, 495.3221,
         317.4111],
        [497.8200, 250.2600, 700.0000, 330.0000, 324.0000, 289.0000, 454.0000,
         336.0000],
        [494.0300, 245.4600, 629.0000, 168.0000, 291.0000, 215.0000, 495.0000,
         326.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  18
running loss:  nan
Train Steps: 18/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.1200, 249.7500, 693.0000, 268.0000, 290.0000, 214.0000, 483.0000,
         332.0000],
        [501.7200, 242.6800, 683.0000, 354.0000, 300.0000, 265.0000, 479.1508,
         278.9525],
        [493.5900, 246.1400, 597.4271, 221.6781, 277.0000, 226.0000, 419.0314,
         349.3644],
        [490.3067, 235.8042, 701.4897, 306.3193, 331.7047, 338.5089, 479.9964,
         304.8923],
        [497.5100, 245.3300, 715.0000, 288.0000, 306.0000, 267.0000, 468.0000,
         312.0000],
        [496.2100, 244.5800, 688.8793, 172.7032, 324.0115, 153.2296, 472.5629,
         329.7797],
        [503.4279, 238.9313, 696.0000, 318.0000, 301.0000, 283.0000, 563.9941,
         317.8241],
        [501.9300, 247.0000, 648.0244, 348.0684, 320.0000, 275.0000, 446.5888,
         367.1014]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  19
running loss:  nan
Train Steps: 19/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[485.8600, 235.9000, 669.0000, 349.0000, 354.0000, 307.0000, 416.3159,
         289.0111],
        [494.3001, 240.4949, 600.4067, 160.6728, 349.4514, 113.4323, 466.4738,
         315.7639],
        [490.2800, 246.8100, 556.0000, 148.0000, 324.0000, 128.0000, 429.0000,
         333.0000],
        [498.8700, 237.9300, 708.0000, 298.0000, 291.0000, 241.0000, 468.0000,
         311.0000],
        [494.5853, 237.9932, 661.0566, 183.8918, 282.0930, 249.6721, 495.3221,
         317.4111],
        [501.4500, 243.6300, 668.0000, 146.0000, 366.0000, 137.0000, 508.0000,
         318.0000],
        [494.1500, 245.1300, 699.0000, 237.0000, 302.0000, 336.0000, 498.0000,
         342.0000],
        [496.1000, 242.9900, 620.5920, 134.0372, 356.6960, 107.8909, 478.0393,
         325.5612]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  20
running loss:  nan
Train Steps: 20/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.8500, 246.0500, 707.0000, 317.0000, 301.0000, 316.0000, 473.0000,
         334.0000],
        [494.8400, 247.7400, 712.0000, 274.0000, 315.0000, 325.0000, 458.6980,
         306.5814],
        [     nan,      nan, 578.0000, 130.0000, 319.0000, 137.0000, 434.1235,
         310.8764],
        [497.4600, 248.2400, 581.0000, 134.0000, 326.0000, 159.0000, 497.0000,
         347.0000],
        [502.5721, 242.0584, 626.3995, 124.7889, 362.5892, 124.7976, 512.3327,
         319.3755],
        [488.7400, 242.4700, 558.0000, 190.0000, 281.0000, 203.0000, 412.2570,
         319.1522],
        [     nan,      nan, 715.0000, 171.0000, 373.0000, 187.0000, 592.4862,
         331.7068],
        [501.0800, 241.7700, 720.0000, 286.0000, 304.0000, 310.0000, 513.1892,
         286.2780]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  21
running loss:  nan
Train Steps: 21/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[502.8574, 242.3712, 695.7136, 182.8364, 313.9077, 173.2258, 504.0367,
         322.0233],
        [501.4600, 245.6700, 723.0000, 258.0000, 296.0000, 209.0000, 501.0000,
         310.0000],
        [489.7362, 239.5567, 699.0000, 280.0000, 361.3809, 292.7355, 412.3982,
         295.6488],
        [     nan,      nan, 559.3947, 167.4743, 316.0000, 143.0000, 438.6643,
         349.1448],
        [506.5656, 249.8763, 728.0000, 201.0000, 335.0000, 221.0000, 595.0188,
         331.7068],
        [500.8607, 239.2440, 695.0000, 295.0000, 344.0000, 320.0000, 560.8282,
         318.5182],
        [     nan,      nan, 567.7618, 140.7894, 340.0000, 111.0000, 414.0000,
         335.0000],
        [490.1900, 247.0600, 692.0000, 305.0000, 327.0000, 322.0000, 424.0101,
         327.3517]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  22
running loss:  nan
Train Steps: 22/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[487.6300, 240.1400, 682.6197, 310.0718, 402.5010, 305.6570, 410.0000,
         326.0000],
        [498.4000, 246.7900, 577.0000, 119.0000, 346.0000, 142.0000, 501.0000,
         324.0000],
        [     nan,      nan, 517.5590, 116.6062, 322.0000, 120.0000, 410.0000,
         332.0000],
        [507.9918, 248.6254, 740.0000, 246.0000, 330.0000, 225.0000, 570.3256,
         356.6957],
        [     nan,      nan, 727.0000, 227.0000, 365.0000, 157.0000, 539.3008,
         334.4833],
        [502.2400, 255.1600, 710.0000, 301.0000, 329.0000, 165.0000, 433.0551,
         371.7868],
        [502.8574, 238.6186, 723.0000, 284.0000, 312.0000, 249.0000, 565.8936,
         319.2123],
        [508.8475, 249.8763, 723.0000, 301.0000, 300.0000, 227.0000, 515.8740,
         318.5182]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  23
running loss:  nan
Train Steps: 23/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[482.0700, 238.7200, 684.0000, 254.0000, 289.0000, 314.0000, 446.5888,
         297.9915],
        [481.7500, 239.6200, 642.0000, 201.0000, 268.0000, 264.0000, 445.1642,
         301.5056],
        [498.3100, 251.9000, 613.0000, 162.0000, 376.0000, 128.0000, 454.0000,
         347.0000],
        [509.7032, 245.4983, 667.0000, 351.0000, 316.0000, 307.0000, 524.7382,
         315.7417],
        [498.1100, 240.0800, 675.0000, 344.0000, 309.0000, 255.0000, 460.0000,
         317.0000],
        [489.8800, 245.0100, 556.3521, 184.1524, 292.0000, 165.0000, 413.0584,
         329.1087],
        [494.5853, 239.8694, 703.4152, 251.4380, 284.1584, 257.0997, 483.0015,
         318.7289],
        [496.0000, 245.8900, 659.0000, 175.0000, 321.0000, 178.0000, 480.0000,
         341.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  24
running loss:  nan
Train Steps: 24/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.1000, 244.9000, 706.1387, 222.8866, 306.0016, 162.7361, 467.5804,
         324.7273],
        [495.9800, 246.0800, 707.0000, 319.0000, 306.0000, 228.0000, 433.0000,
         341.0000],
        [488.2000, 240.2900, 695.0000, 306.0000, 385.0000, 324.0000, 432.3427,
         303.8483],
        [495.7000, 245.4200, 676.0000, 234.0000, 286.0000, 236.0000, 478.0000,
         335.0000],
        [490.0600, 244.3900, 700.0000, 308.0000, 304.0000, 260.0000, 398.9014,
         322.6663],
        [487.7395, 241.4330, 679.0000, 223.0000, 310.0000, 331.0000, 466.8895,
         335.4748],
        [501.3200, 243.8900, 665.0000, 148.0000, 383.0000, 104.0000, 505.0000,
         308.0000],
        [     nan,      nan, 586.7780, 154.1319, 303.0000, 160.0000, 405.3121,
         334.6727]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  25
running loss:  nan
Train Steps: 25/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[503.7131, 242.6839, 731.0000, 246.0000, 338.5284, 254.5401, 593.7525,
         317.8241],
        [494.7800, 244.0100, 707.0000, 267.0000, 323.0000, 284.0000, 417.0282,
         308.5337],
        [493.2300, 246.3500, 606.0000, 104.0000, 307.0000, 159.0000, 454.4241,
         306.9719],
        [490.3400, 244.1100, 700.0000, 304.0000, 310.0000, 254.0000, 418.8311,
         352.8785],
        [504.5688, 241.7457, 719.0000, 289.0000, 315.0000, 210.0000, 584.8883,
         322.6830],
        [486.5300, 242.5300, 558.0000, 115.0000, 328.0000, 119.0000, 440.1781,
         334.6939],
        [     nan,      nan, 548.7455, 131.6165, 332.0000, 112.0000, 412.2570,
         343.7506],
        [498.2935, 243.9347, 681.0000, 343.0000, 360.0000, 303.0000, 482.0000,
         321.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  26
running loss:  nan
Train Steps: 26/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.2200, 241.2300, 702.3867, 301.8638, 293.3280, 232.9381, 467.3902,
         324.3103],
        [495.0900, 242.9100, 711.0000, 265.0000, 337.0000, 312.0000, 479.0000,
         338.0000],
        [490.7800, 239.6200, 633.0000, 183.0000, 290.0000, 183.0000, 467.0000,
         303.0000],
        [495.6300, 246.0600, 692.0000, 235.0000, 286.0000, 242.0000, 464.0000,
         339.0000],
        [499.7197, 240.4949, 700.5271, 305.2639, 328.0690, 323.5423, 531.4897,
         308.0097],
        [490.0800, 243.9900, 691.0000, 323.0000, 335.0000, 291.0000, 401.3054,
         323.5448],
        [501.3800, 245.6600, 697.0000, 185.0000, 352.0000, 136.0000, 500.0000,
         312.0000],
        [498.2935, 246.4364, 651.0000, 173.0000, 380.0000, 103.0000, 465.0000,
         324.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  27
running loss:  nan
Train Steps: 27/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[489.3200, 241.0900, 525.0000, 118.0000, 299.0000, 153.0000, 422.3705,
         306.1910],
        [495.7400, 245.4600, 704.0000, 287.0000, 283.0000, 286.0000, 476.0000,
         333.0000],
        [501.0900, 244.0100, 724.0000, 251.0000, 302.0000, 276.0000, 504.6415,
         291.7443],
        [486.8400, 238.8300, 696.0000, 285.0000, 361.0000, 317.0000, 425.9320,
         302.2865],
        [490.9700, 242.1100, 708.0000, 265.0000, 312.0000, 257.0000, 435.9043,
         337.0366],
        [500.7400, 249.3600, 705.0000, 191.0000, 382.0000, 112.0000, 497.5185,
         297.6010],
        [500.1400, 249.4700, 719.0000, 245.0000, 303.0000, 287.0000, 498.0000,
         338.0000],
        [495.9800, 246.0800, 707.0000, 319.0000, 306.0000, 228.0000, 433.0000,
         341.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  28
running loss:  nan
Train Steps: 28/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.8673, 236.1169, 690.9001, 290.4881, 353.3458, 307.5619, 506.4407,
         316.0934],
        [496.7200, 235.1800, 692.0000, 322.0000, 352.0000, 304.0000, 482.0000,
         297.0000],
        [491.4477, 243.3093, 652.0000, 166.0000, 306.0000, 154.0000, 413.8228,
         294.0870],
        [498.2935, 246.4364, 651.0000, 173.0000, 380.0000, 103.0000, 465.0000,
         324.0000],
        [504.1500, 240.4100, 708.0000, 330.0000, 289.0000, 271.0000, 506.7784,
         300.7246],
        [498.2935, 243.9347, 681.0000, 343.0000, 360.0000, 303.0000, 482.0000,
         321.0000],
        [494.7600, 244.7600, 707.0000, 277.0000, 387.0000, 339.0000, 494.0000,
         351.0000],
        [492.8600, 245.9100, 699.0000, 263.0000, 303.0000, 329.0000, 448.3696,
         301.1151]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  29
running loss:  nan
Train Steps: 29/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[492.7800, 245.5500, 665.1248, 265.0410, 294.0000, 275.0000, 420.0331,
         348.4859],
        [492.8739, 241.4330, 693.0000, 281.0000, 394.7994, 321.8399, 485.0000,
         334.0000],
        [501.9800, 249.4200, 667.0000, 348.0000, 301.0000, 252.0000, 443.7396,
         367.4918],
        [484.5200, 240.6700, 700.0000, 256.0000, 352.0000, 348.0000, 467.6018,
         335.0844],
        [496.2700, 244.6800, 704.0000, 305.0000, 312.0000, 300.0000, 488.0000,
         335.0000],
        [504.2836, 241.7457, 673.0000, 313.0000, 330.0000, 337.0000, 567.1599,
         340.7306],
        [490.2000, 245.0600, 699.0000, 281.0000, 289.0000, 222.0000, 396.7645,
         323.8376],
        [498.9000, 245.0400, 619.0000, 128.0000, 293.0000, 194.0000, 465.0000,
         334.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  30
running loss:  nan
Train Steps: 30/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[494.0148, 240.8076, 618.6979, 167.0053, 357.9991, 107.1851, 463.1682,
         321.0350],
        [495.8500, 249.8600, 696.0000, 304.0000, 370.0000, 339.0000, 437.0986,
         311.8313],
        [502.0200, 242.8900, 679.0000, 173.0000, 357.0000, 122.0000, 505.7100,
         309.3146],
        [497.7500, 250.2900, 708.0000, 313.0000, 299.0000, 276.0000, 456.0000,
         338.0000],
        [508.5623, 245.8110, 723.0000, 233.0000, 337.0000, 177.0000, 534.8688,
         323.3772],
        [488.0700, 242.5300, 622.0000, 157.0000, 297.0000, 169.0000, 435.1920,
         338.9889],
        [487.2800, 239.8400, 665.1248, 260.0376, 303.0000, 273.0000, 417.0651,
         339.3581],
        [     nan,      nan, 643.0000, 149.0000, 318.0000, 151.0000, 446.0000,
         336.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  31
running loss:  nan
Train Steps: 31/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.8300, 246.2900, 636.0000, 196.0000, 294.0000, 226.0000, 483.0000,
         370.0000],
        [488.2000, 240.2900, 695.0000, 306.0000, 385.0000, 324.0000, 432.3427,
         303.8483],
        [499.7000, 245.3900, 557.1127, 121.6097, 314.0000, 161.0000, 487.0000,
         335.0000],
        [505.9951, 243.9347, 675.0000, 321.0000, 314.0000, 316.0000, 569.0593,
         347.6719],
        [500.8400, 246.3800, 642.0000, 155.0000, 364.0000, 112.0000, 502.5046,
         292.1347],
        [499.1492, 246.4364, 652.9544, 165.8065, 290.0000, 216.0000, 479.0000,
         342.0000],
        [494.1500, 245.1300, 699.0000, 237.0000, 302.0000, 336.0000, 498.0000,
         342.0000],
        [489.0500, 245.2700, 548.7455, 132.4504, 349.0000, 102.0000, 415.0000,
         332.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  32
running loss:  nan
Train Steps: 32/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.4600, 246.4600, 595.0000, 162.0000, 292.0000, 221.0000, 499.0000,
         343.0000],
        [495.2000, 248.0900, 640.0000, 293.0000, 285.2831, 218.8381, 449.0000,
         354.0000],
        [489.9700, 238.4500, 618.0000, 151.0000, 283.0000, 199.0000, 471.0000,
         330.0000],
        [499.5800, 246.0100, 621.0000, 155.0000, 397.0000,  91.0000, 470.0000,
         325.0000],
        [490.2500, 241.3400, 699.0000, 304.0000, 398.6197, 313.8339, 429.1374,
         303.8483],
        [497.7300, 244.3100, 573.0863, 129.9487, 299.0000, 190.0000, 488.0000,
         332.0000],
        [502.0300, 244.2400, 646.0000, 126.0000, 376.0000,  92.0000, 491.8140,
         290.0587],
        [490.8772, 241.7457, 661.0000, 201.0000, 290.0000, 184.0000, 454.0000,
         310.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  33
running loss:  nan
Train Steps: 33/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[503.6500, 239.3200, 720.0000, 249.0000, 289.0000, 232.0000, 512.0000,
         306.0000],
        [494.7600, 244.7600, 707.0000, 277.0000, 387.0000, 339.0000, 494.0000,
         351.0000],
        [489.9700, 238.4500, 618.0000, 151.0000, 283.0000, 199.0000, 471.0000,
         330.0000],
        [492.8739, 244.5602, 712.0000, 280.0000, 330.0000, 355.0000, 501.0000,
         322.0000],
        [495.9600, 234.7900, 703.0000, 313.0000, 326.0000, 306.0000, 484.8128,
         294.7599],
        [491.1624, 242.0584, 708.0000, 259.0000, 343.0000, 304.0000, 466.0000,
         332.0000],
        [495.0900, 241.7500, 670.0000, 346.0000, 379.6035, 289.7198, 444.0957,
         335.8653],
        [484.8000, 235.4200, 676.0000, 343.0000, 336.0000, 313.0000, 420.2336,
         285.1066]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  34
running loss:  nan
Train Steps: 34/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[484.6600, 239.1800, 665.8854, 277.5496, 307.0000, 299.0000, 411.7228,
         327.9374],
        [490.5919, 243.9347, 580.6928, 144.1250, 287.0000, 198.0000, 480.0000,
         336.0000],
        [495.8700, 247.7900, 701.0000, 247.0000, 292.0000, 294.0000, 456.5611,
         306.1910],
        [     nan,      nan, 617.9645, 156.6336, 294.0000, 164.0000, 433.0000,
         310.0000],
        [503.4279, 241.4330, 700.0000, 300.0000, 321.0000, 344.0000, 569.6925,
         337.9540],
        [490.5200, 243.8100, 691.0000, 312.0000, 383.0000, 287.0000, 420.6341,
         352.0000],
        [496.1200, 243.3100, 617.3571, 115.1269, 340.0202, 124.7101, 469.6721,
         302.6288],
        [505.1393, 246.4364, 700.0000, 306.0000, 303.0000, 294.0000, 569.6925,
         351.8367]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  35
running loss:  nan
Train Steps: 35/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.2100, 244.5800, 688.8793, 172.7032, 324.0115, 153.2296, 472.5629,
         329.7797],
        [488.7600, 236.5500, 682.0000, 297.0000, 347.0000, 288.0000, 435.9043,
         322.9804],
        [490.7900, 246.9100, 707.0000, 280.0000, 343.0000, 363.0000, 462.2595,
         305.8005],
        [494.3001, 239.5567, 714.0048, 287.3219, 310.3356, 293.9974, 483.3020,
         316.7523],
        [493.1591, 237.3677, 700.5271, 305.2639, 343.9919, 319.1815, 481.7994,
         312.1400],
        [501.7164, 242.3712, 731.0000, 225.0000, 370.0000, 157.0000, 578.5567,
         324.7654],
        [495.7000, 245.4200, 676.0000, 234.0000, 286.0000, 236.0000, 478.0000,
         335.0000],
        [508.2770, 247.6873, 679.0000, 156.0000, 441.9766,  96.9323, 535.5019,
         332.4009]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  36
running loss:  nan
Train Steps: 36/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[488.6800, 240.5300, 698.0000, 282.0000, 284.0000, 250.0000, 452.0000,
         307.0000],
        [     nan,      nan, 517.5590, 116.6062, 322.0000, 120.0000, 410.0000,
         332.0000],
        [487.6300, 240.1400, 682.6197, 310.0718, 402.5010, 305.6570, 410.0000,
         326.0000],
        [496.1200, 249.0500, 687.0000, 328.0000, 296.0000, 237.0000, 451.0000,
         356.0000],
        [502.0016, 242.9966, 723.0000, 226.0000, 307.0000, 212.0000, 565.8936,
         334.4833],
        [490.3900, 244.2900, 684.0000, 274.0000, 291.0000, 220.0000, 423.2385,
         353.5374],
        [504.5688, 242.6839, 642.0000, 350.0000, 302.0000, 292.0000, 551.3309,
         327.5420],
        [487.2000, 240.6200, 627.0000, 209.0000, 283.0000, 227.0000, 436.9727,
         304.6292]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  37
running loss:  nan
Train Steps: 37/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 593.0000, 132.0000, 356.0000,  91.0000, 425.0000,
         299.0000],
        [502.4100, 246.0400, 724.0000, 272.0000, 302.0000, 193.0000, 507.0098,
         294.9176],
        [491.6300, 240.4700, 700.0000, 323.0000, 318.0000, 279.0000, 445.0000,
         332.0000],
        [499.8300, 241.9100, 619.0000, 114.0000, 385.0000,  84.0000, 475.3155,
         294.2393],
        [483.3700, 239.4200, 546.4636, 172.4778, 280.0000, 188.0000, 411.4557,
         330.5729],
        [504.1500, 240.4100, 708.0000, 330.0000, 289.0000, 271.0000, 506.7784,
         300.7246],
        [489.7700, 242.9000, 600.4697, 180.8168, 278.0000, 200.0000, 438.9684,
         344.9220],
        [507.7065, 248.6254, 727.0000, 280.0000, 308.0000, 260.0000, 569.6925,
         353.9191]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  38
running loss:  nan
Train Steps: 38/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[487.6300, 240.1400, 682.6197, 310.0718, 402.5010, 305.6570, 410.0000,
         326.0000],
        [501.9800, 249.4200, 667.0000, 348.0000, 301.0000, 252.0000, 443.7396,
         367.4918],
        [506.2803, 251.7526, 739.0000, 275.0000, 341.0000, 176.0000, 587.4209,
         344.8954],
        [502.4100, 246.0400, 724.0000, 272.0000, 302.0000, 193.0000, 507.0098,
         294.9176],
        [493.1591, 244.5602, 707.0000, 247.0000, 297.0000, 333.0000, 499.0000,
         321.0000],
        [495.8300, 246.9000, 621.0000, 163.0000, 297.0000, 192.0000, 467.0000,
         341.0000],
        [497.0400, 240.0600, 617.0000, 127.0000, 347.0000, 108.0000, 468.0000,
         311.0000],
        [501.1459, 243.3093, 674.0000, 166.0000, 354.0000, 166.0000, 563.9941,
         335.1775]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  39
running loss:  nan
Train Steps: 39/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[490.5919, 247.0619, 656.0000, 218.0000, 285.0000, 324.0000, 462.9718,
         308.1432],
        [497.4400, 245.9000, 579.0000, 111.0000, 339.0000, 151.0000, 503.0000,
         321.0000],
        [507.7065, 245.4983, 617.0000, 355.0000, 323.0000, 286.0000, 587.4209,
         343.5071],
        [500.8000, 249.1900, 720.0000, 272.0000, 322.0000, 158.0000, 497.8747,
         297.9915],
        [488.0247, 244.2474, 608.0761, 206.6678, 272.0000, 247.0000, 450.0000,
         337.0000],
        [494.5853, 235.8042, 707.2659, 233.4960, 284.4970, 297.9904, 497.7261,
         316.7523],
        [490.9700, 242.1100, 708.0000, 265.0000, 312.0000, 257.0000, 435.9043,
         337.0366],
        [500.5754, 241.4330, 693.7882, 325.3166, 335.6755, 311.8676, 535.5466,
         312.2101]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  40
running loss:  nan
Train Steps: 40/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[494.5600, 245.9300, 625.0000, 180.0000, 315.0000, 142.0000, 426.0000,
         345.0000],
        [491.2700, 242.2900, 692.0000, 290.0000, 387.0979, 310.5822, 463.0000,
         336.0000],
        [498.6600, 245.4800, 648.0000, 177.0000, 285.0000, 233.0000, 481.0000,
         312.0000],
        [507.1360, 247.3746, 691.0000, 322.0000, 326.0000, 328.0000, 601.3504,
         326.1537],
        [500.0049, 240.4949, 716.0000, 251.0000, 284.0000, 263.0000, 508.9154,
         295.6488],
        [502.8574, 256.4433, 680.0000, 270.0000, 362.0000, 155.0000, 435.1920,
         372.5677],
        [500.9500, 245.1100, 675.0000, 189.0000, 322.0000, 158.0000, 507.1346,
         288.6207],
        [496.1200, 249.0500, 687.0000, 328.0000, 296.0000, 237.0000, 451.0000,
         356.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  41
running loss:  nan
Train Steps: 41/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[487.5800, 238.2200, 695.0000, 286.0000, 388.7642, 292.7355, 415.2475,
         296.4297],
        [502.0016, 240.1822, 728.0000, 227.0000, 351.0000, 188.0000, 564.6272,
         320.6006],
        [496.4300, 240.2100, 715.0000, 293.0000, 293.0000, 300.0000, 508.5592,
         296.8201],
        [502.8574, 243.3093, 720.0000, 283.0000, 301.0000, 281.0000, 561.4614,
         329.6244],
        [490.1500, 245.0200, 696.0000, 268.0000, 319.0000, 259.0000, 401.0383,
         328.2302],
        [495.7500, 245.3800, 626.0000, 150.0000, 336.0000, 149.0000, 479.0000,
         340.0000],
        [501.0800, 241.7700, 720.0000, 286.0000, 304.0000, 310.0000, 513.1892,
         286.2780],
        [486.6400, 237.4500, 691.0000, 297.0000, 349.0000, 305.0000, 427.7128,
         298.7724]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  42
running loss:  nan
Train Steps: 42/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.6500, 242.2600, 700.0000, 293.0000, 312.0000, 330.0000, 510.0000,
         313.0000],
        [498.7100, 250.7200, 626.0000, 207.0000, 305.0000, 172.0000, 454.0000,
         337.0000],
        [509.1327, 245.4983, 682.0000, 338.0000, 310.0000, 297.0000, 527.9040,
         317.1299],
        [496.8673, 236.1169, 690.9001, 290.4881, 353.3458, 307.5619, 506.4407,
         316.0934],
        [503.4279, 238.9313, 696.0000, 318.0000, 301.0000, 283.0000, 563.9941,
         317.8241],
        [489.4300, 243.1300, 677.0000, 235.0000, 283.0000, 207.0000, 404.2437,
         335.5512],
        [496.0200, 244.2800, 587.0000, 115.0000, 336.0000, 147.0000, 492.0000,
         331.0000],
        [501.1800, 245.4400, 716.0000, 212.0000, 288.0000, 238.0000, 503.5731,
         294.0870]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  43
running loss:  nan
Train Steps: 43/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[502.0500, 240.1100, 704.0000, 332.0000, 286.0000, 264.0000, 490.5476,
         280.3407],
        [503.9400, 258.1900, 637.0000, 236.0000, 388.0000, 137.0000, 438.3973,
         373.3486],
        [500.9100, 247.8700, 715.0000, 213.0000, 320.0000, 161.0000, 495.0000,
         317.0000],
        [506.5656, 247.6873, 736.0000, 211.0000, 352.0000, 230.0000, 596.9183,
         329.6244],
        [492.5886, 237.3677, 665.8701, 248.2718, 278.2819, 265.8849, 473.0849,
         307.8573],
        [497.2500, 245.9600, 578.0000, 122.0000, 335.0000, 133.0000, 478.0000,
         317.0000],
        [490.3600, 243.8000, 699.0000, 315.0000, 345.0000, 284.0000, 418.4304,
         352.4393],
        [492.0800, 243.5100, 565.4799, 160.8031, 272.0000, 245.0000, 462.0000,
         344.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  44
running loss:  nan
Train Steps: 44/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 594.0000, 127.0000, 315.0000, 146.0000, 435.0000,
         334.0000],
        [507.9918, 247.0619, 669.0000, 163.0000, 388.0000, 102.0000, 515.2408,
         310.1886],
        [488.6800, 240.5300, 698.0000, 282.0000, 284.0000, 250.0000, 452.0000,
         307.0000],
        [496.2400, 244.3600, 655.1108, 143.9094, 352.0268, 123.2475, 474.3377,
         330.0576],
        [495.9500, 244.2800, 608.0000, 127.0000, 323.0000, 166.0000, 491.0000,
         333.0000],
        [486.0900, 237.1500, 650.0000, 235.0000, 282.0000, 245.0000, 427.7128,
         297.2106],
        [484.4000, 240.8700, 594.0000, 122.0000, 329.0000, 113.0000, 417.3844,
         289.4016],
        [483.0400, 236.7800, 673.0000, 293.0000, 285.0000, 273.0000, 421.3020,
         281.5925]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  45
running loss:  nan
Train Steps: 45/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[493.8100, 246.8200, 586.0000, 150.0000, 337.0000, 115.0000, 427.0000,
         342.0000],
        [488.9500, 241.7100, 691.0000, 288.0000, 390.0000, 305.0000, 461.0000,
         334.0000],
        [487.8500, 239.4600, 691.0000, 283.0000, 341.0000, 298.0000, 417.0000,
         339.0000],
        [495.3700, 247.6800, 681.0000, 337.0000, 336.0000, 316.0000, 468.0000,
         338.0000],
        [488.1700, 239.9200, 700.0000, 308.0000, 306.0000, 285.0000, 451.0000,
         305.0000],
        [495.9100, 243.6200, 711.0000, 280.0000, 304.0000, 303.0000, 495.0000,
         326.0000],
        [497.7600, 236.2000, 668.0000, 337.0000, 331.0000, 276.0000, 464.0000,
         314.0000],
        [500.9500, 245.1100, 675.0000, 189.0000, 322.0000, 158.0000, 507.1346,
         288.6207]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  46
running loss:  nan
Train Steps: 46/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[508.2770, 247.6873, 679.0000, 156.0000, 441.9766,  96.9323, 535.5019,
         332.4009],
        [497.5100, 245.3300, 715.0000, 288.0000, 306.0000, 267.0000, 468.0000,
         312.0000],
        [497.2900, 250.0000, 687.0000, 335.0000, 318.0000, 310.0000, 462.0000,
         340.0000],
        [495.9300, 246.6900, 678.0000, 223.0000, 284.0000, 261.0000, 485.0000,
         365.0000],
        [492.9800, 236.9300, 707.0000, 271.0000, 340.0000, 311.0000, 467.0000,
         330.0000],
        [496.3600, 243.7000, 667.0000, 161.0000, 294.0000, 257.0000, 507.0000,
         315.0000],
        [491.4000, 238.9100, 692.0000, 293.0000, 313.0000, 259.0000, 425.2197,
         321.0281],
        [507.1360, 248.9381, 704.0000, 300.0000, 312.0000, 317.0000, 603.2499,
         325.4596]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  47
running loss:  nan
Train Steps: 47/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.0900, 254.8600, 715.0000, 251.0000, 310.0000, 246.0000, 432.0000,
         321.0000],
        [     nan,      nan, 617.9645, 156.6336, 294.0000, 164.0000, 433.0000,
         310.0000],
        [498.6600, 245.4800, 648.0000, 177.0000, 285.0000, 233.0000, 481.0000,
         312.0000],
        [492.5886, 237.3677, 665.8701, 248.2718, 278.2819, 265.8849, 473.0849,
         307.8573],
        [483.3700, 239.4200, 546.4636, 172.4778, 280.0000, 188.0000, 411.4557,
         330.5729],
        [494.0100, 239.8300, 539.0000, 150.0000, 345.0000, 116.0000, 441.0000,
         345.0000],
        [488.6800, 240.5300, 698.0000, 282.0000, 284.0000, 250.0000, 452.0000,
         307.0000],
        [492.4400, 247.4700, 708.0000, 290.0000, 364.0000, 349.0000, 461.1910,
         305.0196]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  48
running loss:  nan
Train Steps: 48/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.1000, 243.8800, 584.0000, 116.0000, 326.0000, 152.0000, 493.0000,
         329.0000],
        [502.5721, 245.4983, 640.0000, 131.0000, 360.0000, 143.0000, 542.9840,
         321.8463],
        [     nan,      nan, 643.0000, 149.0000, 318.0000, 151.0000, 446.0000,
         336.0000],
        [507.4213, 245.8110, 743.0000, 262.0000, 345.0000, 216.0000, 579.8230,
         350.4485],
        [501.7700, 247.2200, 723.0000, 247.0000, 298.0000, 192.0000, 494.0000,
         315.0000],
        [502.5721, 242.0584, 626.3995, 124.7889, 362.5892, 124.7976, 512.3327,
         319.3755],
        [482.4700, 239.1800, 597.0000, 170.0000, 291.0000, 163.0000, 420.2336,
         283.5448],
        [495.9400, 237.1000, 685.8777, 322.4308, 326.0126, 281.2020, 475.3770,
         322.6425]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  49
running loss:  nan
Train Steps: 49/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.4300, 243.1200, 654.0000, 135.0000, 375.0000, 115.0000, 510.0000,
         316.0000],
        [496.2000, 243.9500, 671.8087, 158.8574, 314.0060, 157.6172, 467.5804,
         307.4238],
        [489.4300, 243.1300, 677.0000, 235.0000, 283.0000, 207.0000, 404.2437,
         335.5512],
        [503.1100, 241.8900, 673.4919, 326.7499, 326.0000, 301.0000, 505.0000,
         307.0000],
        [501.0300, 253.9500, 633.9382, 277.5496, 303.0000, 173.0000, 445.8765,
         362.8064],
        [499.9400, 248.5100, 668.0000, 197.0000, 289.0000, 222.0000, 495.0000,
         324.0000],
        [495.3700, 247.6800, 681.0000, 337.0000, 336.0000, 316.0000, 468.0000,
         338.0000],
        [495.4411, 242.9966, 585.0000, 146.0000, 326.0000, 127.0000, 451.9311,
         339.3793]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  50
running loss:  nan
Train Steps: 50/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[490.5919, 243.9347, 580.6928, 144.1250, 287.0000, 198.0000, 480.0000,
         336.0000],
        [495.9600, 238.6900, 712.0000, 273.0000, 302.0000, 312.0000, 492.0000,
         322.0000],
        [496.0400, 243.3100, 640.8530, 179.2846, 307.3357, 167.8550, 475.9475,
         310.9679],
        [493.7296, 243.3093, 654.0000, 159.0000, 284.0000, 221.0000, 463.0000,
         333.0000],
        [495.9100, 243.6200, 711.0000, 280.0000, 304.0000, 303.0000, 495.0000,
         326.0000],
        [497.0000, 249.5400, 694.0000, 347.0000, 327.0000, 259.0000, 449.0000,
         355.0000],
        [496.1000, 243.8800, 584.0000, 116.0000, 326.0000, 152.0000, 493.0000,
         329.0000],
        [508.5623, 249.5636, 703.0000, 335.0000, 291.0000, 266.0000, 519.0398,
         317.8241]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  51
running loss:  nan
Train Steps: 51/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[486.9100, 241.1400, 622.5284, 256.7020, 290.0000, 261.0000, 411.9899,
         317.1024],
        [493.9800, 237.4300, 696.0000, 289.0000, 373.0000, 308.0000, 464.0000,
         331.0000],
        [491.1100, 241.1500, 571.0000, 129.0000, 350.0000,  92.0000, 423.4389,
         300.3342],
        [492.0181, 245.8110, 597.4271, 191.6575, 306.0000, 158.0000, 437.0000,
         348.0000],
        [498.1200, 244.9800, 715.0000, 288.0000, 304.0000, 177.0000, 459.0000,
         321.0000],
        [484.6600, 239.1800, 665.8854, 277.5496, 307.0000, 299.0000, 411.7228,
         327.9374],
        [490.0000, 242.0700, 626.0000, 186.0000, 277.0000, 294.0000, 466.5333,
         338.2080],
        [500.6700, 248.5800, 682.0000, 157.0000, 396.0000, 100.0000, 497.5185,
         297.9915]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  52
running loss:  nan
Train Steps: 52/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[502.0400, 245.7100, 659.0000, 135.0000, 373.0000, 107.0000, 493.7134,
         292.1411],
        [495.7300, 239.1300, 704.0000, 277.0000, 335.0000, 287.0000, 455.0000,
         333.0000],
        [504.8541, 240.4949, 634.8398, 344.7328, 312.0000, 302.0000, 556.3961,
         321.9889],
        [501.7700, 247.2200, 723.0000, 247.0000, 298.0000, 192.0000, 494.0000,
         315.0000],
        [486.9100, 239.8900, 703.0000, 267.0000, 322.0000, 279.0000, 424.5074,
         306.1910],
        [     nan,      nan, 517.5590, 116.6062, 322.0000, 120.0000, 410.0000,
         332.0000],
        [495.4411, 242.9966, 585.0000, 146.0000, 326.0000, 127.0000, 451.9311,
         339.3793],
        [502.8574, 245.1856, 672.6089, 168.0607, 333.0000, 168.0000, 538.0257,
         323.5759]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  53
running loss:  nan
Train Steps: 53/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[497.9500, 245.8000, 595.0000, 136.0000, 308.0000, 171.0000, 479.0000,
         315.0000],
        [490.9100, 237.3000, 672.0000, 196.0000, 280.0000, 252.0000, 469.0000,
         328.0000],
        [500.7800, 249.6400, 720.0000, 230.0000, 356.0000, 128.0000, 498.9431,
         299.1628],
        [491.8400, 239.7800, 679.0000, 232.0000, 279.0000, 244.0000, 469.0000,
         300.0000],
        [493.8100, 240.7600, 697.0720, 278.3835, 384.0000, 342.0000, 482.0000,
         336.0000],
        [504.5688, 241.7457, 719.0000, 289.0000, 315.0000, 210.0000, 584.8883,
         322.6830],
        [499.9700, 254.1700, 691.0000, 226.0000, 324.0000, 189.0000, 451.9311,
         347.9693],
        [     nan,      nan, 543.4210, 126.6131, 321.0000, 130.0000, 409.0000,
         335.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  54
running loss:  nan
Train Steps: 54/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[491.1624, 242.0584, 708.0000, 259.0000, 343.0000, 304.0000, 466.0000,
         332.0000],
        [491.1800, 244.2000, 696.0000, 300.0000, 369.0000, 294.0000, 420.8344,
         351.1215],
        [490.0100, 240.6100, 692.0000, 274.0000, 293.0000, 234.0000, 448.0000,
         334.0000],
        [496.2100, 244.5800, 688.8793, 172.7032, 324.0115, 153.2296, 472.5629,
         329.7797],
        [493.5900, 246.1400, 597.4271, 221.6781, 277.0000, 226.0000, 419.0314,
         349.3644],
        [490.8772, 243.6220, 642.0000, 193.0000, 292.0000, 180.0000, 404.7779,
         338.7724],
        [501.9300, 247.0000, 648.0244, 348.0684, 320.0000, 275.0000, 446.5888,
         367.1014],
        [495.8300, 246.2900, 636.0000, 196.0000, 294.0000, 226.0000, 483.0000,
         370.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  55
running loss:  nan
Train Steps: 55/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[498.8640, 238.6186, 718.8183, 288.3773, 306.7708, 312.9795, 529.0106,
         309.9863],
        [497.9500, 245.8000, 595.0000, 136.0000, 308.0000, 171.0000, 479.0000,
         315.0000],
        [501.4300, 246.1100, 715.0000, 220.0000, 322.0000, 170.0000, 502.0000,
         311.0000],
        [     nan,      nan, 724.0000, 210.0000, 411.0000, 138.0000, 588.6873,
         342.1188],
        [503.1426, 241.4330, 727.0000, 274.0000, 315.0000, 338.0000, 564.6272,
         336.5657],
        [495.0900, 241.9900, 692.0000, 316.0000, 359.0000, 309.0000, 474.0000,
         303.0000],
        [509.1327, 248.6254, 690.0000, 185.0000, 393.0000, 120.0000, 515.8740,
         316.4358],
        [493.5600, 243.1200, 699.3539, 286.7225, 343.0000, 295.0000, 461.0000,
         337.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  56
running loss:  nan
Train Steps: 56/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[504.5688, 243.6220, 716.0000, 311.0000, 300.0000, 231.0000, 507.0098,
         296.3059],
        [499.7000, 245.3900, 557.1127, 121.6097, 314.0000, 161.0000, 487.0000,
         335.0000],
        [500.8000, 249.1900, 720.0000, 272.0000, 322.0000, 158.0000, 497.8747,
         297.9915],
        [499.1492, 252.3780, 700.0000, 324.0000, 295.0000, 291.0000, 459.0000,
         342.0000],
        [504.3800, 238.9900, 716.0000, 290.0000, 295.0000, 281.0000, 510.0000,
         307.0000],
        [485.6100, 238.7500, 686.0000, 305.0000, 348.0000, 324.0000, 414.3940,
         327.9374],
        [     nan,      nan, 679.0000, 138.0000, 445.0000, 126.0000, 591.2198,
         340.7306],
        [501.7164, 242.3712, 731.0000, 225.0000, 370.0000, 157.0000, 578.5567,
         324.7654]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  57
running loss:  nan
Train Steps: 57/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[493.3600, 242.8800, 546.4636, 218.3425, 301.0000, 181.0000, 456.0000,
         353.0000],
        [495.8900, 246.1100, 716.0000, 265.0000, 321.0000, 322.0000, 489.0000,
         358.0000],
        [488.7100, 240.8900, 613.4007, 218.3425, 281.0000, 220.0000, 415.9966,
         338.4796],
        [489.9400, 241.8100, 692.0000, 292.0000, 399.9338, 306.3606, 410.9215,
         346.3862],
        [488.0247, 244.2474, 608.0761, 206.6678, 272.0000, 247.0000, 450.0000,
         337.0000],
        [495.3700, 238.8200, 566.2405, 164.9726, 340.0000, 126.0000, 436.0000,
         347.0000],
        [499.2800, 248.5500, 715.0000, 279.0000, 326.0000, 321.0000, 500.0000,
         333.0000],
        [484.2800, 242.0800, 551.7881, 114.9384, 320.0000, 127.0000, 435.1920,
         310.0955]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  58
running loss:  nan
Train Steps: 58/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.8300, 246.9000, 621.0000, 163.0000, 297.0000, 192.0000, 467.0000,
         341.0000],
        [497.2500, 245.9600, 578.0000, 122.0000, 335.0000, 133.0000, 478.0000,
         317.0000],
        [485.9900, 240.3900, 662.0000, 295.0000, 324.0000, 306.0000, 413.3255,
         316.8095],
        [495.7400, 243.0700, 625.0000, 159.0000, 281.0000, 243.0000, 489.0000,
         330.0000],
        [502.0016, 240.1822, 728.0000, 227.0000, 351.0000, 188.0000, 564.6272,
         320.6006],
        [486.9100, 239.8900, 703.0000, 267.0000, 322.0000, 279.0000, 424.5074,
         306.1910],
        [498.2500, 240.2200, 700.0000, 315.0000, 306.0000, 314.0000, 509.0000,
         300.0000],
        [508.8475, 244.2474, 728.0000, 287.0000, 299.0000, 238.0000, 533.6024,
         319.9065]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  59
running loss:  nan
Train Steps: 59/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.4312, 241.7457, 680.0000, 161.0000, 315.0000, 210.0000, 548.7982,
         317.8241],
        [494.1500, 245.1300, 699.0000, 237.0000, 302.0000, 336.0000, 498.0000,
         342.0000],
        [494.6500, 244.5700, 707.0000, 271.0000, 305.0000, 269.0000, 462.0000,
         338.0000],
        [497.5500, 246.8200, 654.0000, 169.0000, 314.0000, 167.0000, 472.0000,
         321.0000],
        [502.0016, 241.4330, 617.7352, 124.7889, 351.3434, 134.0229, 514.8118,
         317.3988],
        [502.6900, 241.7500, 707.0000, 227.0000, 318.0000, 171.0000, 506.7784,
         305.4101],
        [500.7600, 247.1900, 641.0000, 141.0000, 391.0000,  92.0000, 502.5046,
         293.6965],
        [501.8700, 246.5800, 712.0000, 229.0000, 335.0000, 130.0000, 468.6673,
         290.0746]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  60
running loss:  nan
Train Steps: 60/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.6700, 245.2700, 711.0000, 275.0000, 360.0000, 341.0000, 491.0000,
         353.0000],
        [496.3500, 242.9600, 638.0000, 162.0000, 315.0000, 154.0000, 456.0000,
         311.0000],
        [496.1100, 241.6200, 642.3539, 163.6537, 323.3445, 138.6042, 478.4196,
         323.4764],
        [501.7164, 244.8729, 726.5198, 293.6544, 296.0000, 257.0000, 532.8420,
         316.4105],
        [503.7131, 242.6839, 731.0000, 246.0000, 338.5284, 254.5401, 593.7525,
         317.8241],
        [490.7800, 239.6200, 633.0000, 183.0000, 290.0000, 183.0000, 467.0000,
         303.0000],
        [503.7131, 243.6220, 728.0000, 196.0000, 378.0822, 202.0042, 595.6520,
         321.2947],
        [501.7164, 242.3712, 731.0000, 225.0000, 370.0000, 157.0000, 578.5567,
         324.7654]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  61
running loss:  nan
Train Steps: 61/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[500.7400, 249.3600, 705.0000, 191.0000, 382.0000, 112.0000, 497.5185,
         297.6010],
        [490.0800, 243.9900, 691.0000, 323.0000, 335.0000, 291.0000, 401.3054,
         323.5448],
        [501.6600, 240.3000, 676.0000, 364.0000, 308.0000, 299.0000, 485.4824,
         278.9525],
        [499.1300, 250.4500, 674.0000, 344.0000, 386.0000, 270.0000, 450.0000,
         356.0000],
        [487.8500, 239.4600, 691.0000, 283.0000, 341.0000, 298.0000, 417.0000,
         339.0000],
        [497.4400, 245.9000, 579.0000, 111.0000, 339.0000, 151.0000, 503.0000,
         321.0000],
        [501.0700, 243.4400, 704.0000, 230.0000, 292.0000, 223.0000, 509.9838,
         288.2302],
        [496.3500, 242.9600, 638.0000, 162.0000, 315.0000, 154.0000, 456.0000,
         311.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  62
running loss:  nan
Train Steps: 62/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[490.9200, 242.2600, 685.0000, 243.0000, 305.0000, 153.0000, 408.4806,
         297.2106],
        [     nan,      nan, 548.7455, 131.6165, 332.0000, 112.0000, 412.2570,
         343.7506],
        [     nan,      nan, 682.0000, 133.0000, 433.0000, 142.0000, 589.3204,
         328.9302],
        [498.0082, 251.4398, 680.0000, 250.0000, 295.0000, 194.0000, 452.0000,
         339.0000],
        [494.8000, 245.8500, 707.0000, 294.0000, 363.0000, 348.0000, 503.0000,
         324.0000],
        [486.4500, 236.9900, 683.0000, 280.0000, 308.0000, 295.0000, 427.3566,
         297.2106],
        [497.9000, 243.6700, 719.0000, 258.0000, 307.0000, 285.0000, 489.0000,
         329.0000],
        [496.1000, 243.8400, 695.0000, 303.0000, 338.0000, 306.0000, 491.0000,
         330.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  63
running loss:  nan
Train Steps: 63/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[491.6300, 240.4200, 702.0000, 272.0000, 365.0000, 332.0000, 487.0000,
         332.0000],
        [488.5952, 242.9966, 696.0000, 291.0000, 357.5752, 290.8813, 403.4423,
         325.8875],
        [492.5886, 246.1237, 681.0000, 229.0000, 289.0000, 220.0000, 407.7161,
         353.4143],
        [489.6200, 240.8100, 549.0000, 169.0000, 296.0000, 167.0000, 441.0000,
         340.0000],
        [492.3300, 242.9000, 568.0000, 124.0000, 347.0000, 100.0000, 433.0551,
         313.2191],
        [498.8640, 244.8729, 686.0000, 180.0000, 297.0000, 182.0000, 444.0000,
         338.0000],
        [502.0200, 242.8900, 679.0000, 173.0000, 357.0000, 122.0000, 505.7100,
         309.3146],
        [490.7200, 245.4200, 554.0701, 169.1422, 283.0000, 194.0000, 445.0000,
         340.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  64
running loss:  nan
Train Steps: 64/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[497.1300, 238.9300, 715.0000, 271.0000, 293.0000, 245.0000, 469.0000,
         303.0000],
        [497.5400, 245.8000, 699.0000, 204.0000, 285.0000, 247.0000, 478.0000,
         341.0000],
        [491.7329, 244.8729, 683.0000, 204.0000, 293.0000, 189.0000, 411.3298,
         292.5252],
        [490.0100, 240.6100, 692.0000, 274.0000, 293.0000, 234.0000, 448.0000,
         334.0000],
        [496.6100, 244.9400, 683.0000, 184.0000, 287.0000, 223.0000, 489.0000,
         331.0000],
        [496.5300, 244.8400, 613.0000, 124.0000, 317.0000, 192.0000, 505.0000,
         318.0000],
        [494.0900, 241.0100, 703.0000, 306.0000, 326.0000, 315.0000, 473.0000,
         302.0000],
        [494.0100, 245.5700, 704.0000, 266.0000, 326.0000, 262.0000, 410.2613,
         294.0870]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  65
running loss:  nan
Train Steps: 65/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[504.1500, 240.4100, 708.0000, 330.0000, 289.0000, 271.0000, 506.7784,
         300.7246],
        [492.8600, 245.9100, 699.0000, 263.0000, 303.0000, 329.0000, 448.3696,
         301.1151],
        [495.4411, 249.8763, 707.0000, 282.0000, 332.0000, 292.0000, 434.1604,
         315.6382],
        [495.4411, 242.0584, 620.5229, 140.8099, 298.6643, 175.1677, 474.4262,
         295.5407],
        [498.4000, 246.7900, 577.0000, 119.0000, 346.0000, 142.0000, 501.0000,
         324.0000],
        [501.9300, 256.1800, 715.0000, 298.0000, 284.0000, 257.0000, 456.0000,
         344.0000],
        [     nan,      nan, 601.2303, 162.4709, 319.0000, 136.0000, 413.0000,
         334.0000],
        [491.5200, 241.9000, 685.0000, 197.0000, 282.0000, 252.0000, 462.0000,
         335.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  66
running loss:  nan
Train Steps: 66/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[488.8600, 241.9700, 664.0000, 196.0000, 287.0000, 200.0000, 435.5481,
         338.2080],
        [496.2200, 243.3300, 715.3384, 245.1700, 291.4701, 217.0026, 473.3853,
         328.9417],
        [492.3034, 246.7491, 563.0000, 139.0000, 339.0000, 110.0000, 428.0000,
         336.0000],
        [501.0800, 242.3100, 720.0000, 264.0000, 290.0000, 280.0000, 513.9015,
         288.2302],
        [492.2300, 247.1400, 677.0000, 230.0000, 288.0000, 192.0000, 408.5175,
         333.7941],
        [489.7400, 240.3700, 708.0000, 253.0000, 327.0000, 331.0000, 485.0000,
         331.0000],
        [500.0100, 246.6100, 579.0000, 124.0000, 341.0000, 113.0000, 450.0000,
         338.0000],
        [495.0900, 241.9900, 692.0000, 316.0000, 359.0000, 309.0000, 474.0000,
         303.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  67
running loss:  nan
Train Steps: 67/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[492.3300, 242.9000, 568.0000, 124.0000, 347.0000, 100.0000, 433.0551,
         313.2191],
        [483.0400, 236.7800, 673.0000, 293.0000, 285.0000, 273.0000, 421.3020,
         281.5925],
        [501.7164, 244.8729, 726.5198, 293.6544, 296.0000, 257.0000, 532.8420,
         316.4105],
        [496.7200, 235.1800, 692.0000, 322.0000, 352.0000, 304.0000, 482.0000,
         297.0000],
        [486.3200, 237.8300, 593.6238, 177.4812, 285.0000, 175.0000, 428.0689,
         298.7724],
        [498.6900, 241.4000, 711.0000, 278.0000, 318.0000, 346.0000, 512.0000,
         311.0000],
        [492.9800, 236.9300, 707.0000, 271.0000, 340.0000, 311.0000, 467.0000,
         330.0000],
        [494.3001, 240.4949, 688.0120, 240.8839, 314.5486, 150.9156, 456.8577,
         326.3061]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  68
running loss:  nan
Train Steps: 68/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[488.1900, 240.0300, 619.0000, 215.0000, 277.0000, 228.0000, 441.9588,
         341.3316],
        [501.1200, 242.0800, 711.0000, 293.0000, 324.0000, 313.0000, 508.9154,
         287.4493],
        [492.8600, 245.9100, 699.0000, 263.0000, 303.0000, 329.0000, 448.3696,
         301.1151],
        [489.3200, 241.1600, 683.0000, 244.0000, 281.0000, 215.0000, 453.0000,
         308.0000],
        [498.0082, 251.7526, 703.0000, 208.0000, 300.0000, 204.0000, 433.0000,
         326.0000],
        [507.9918, 247.0619, 669.0000, 163.0000, 388.0000, 102.0000, 515.2408,
         310.1886],
        [489.7400, 240.3700, 708.0000, 253.0000, 327.0000, 331.0000, 485.0000,
         331.0000],
        [486.6400, 237.4500, 691.0000, 297.0000, 349.0000, 305.0000, 427.7128,
         298.7724]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  69
running loss:  nan
Train Steps: 69/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 677.0000, 153.0000, 468.0000, 128.0000, 570.3256,
         364.3312],
        [491.1100, 241.1500, 571.0000, 129.0000, 350.0000,  92.0000, 423.4389,
         300.3342],
        [501.0800, 241.7300, 712.0000, 296.0000, 326.0000, 311.0000, 512.4769,
         285.4970],
        [503.9984, 240.8076, 715.0000, 321.0000, 294.0000, 276.0000, 516.5071,
         298.3883],
        [496.1000, 242.9900, 620.5920, 134.0372, 356.6960, 107.8909, 478.0393,
         325.5612],
        [501.7164, 244.8729, 726.5198, 293.6544, 296.0000, 257.0000, 532.8420,
         316.4105],
        [489.3200, 241.0900, 525.0000, 118.0000, 299.0000, 153.0000, 422.3705,
         306.1910],
        [496.8600, 244.1200, 700.0000, 307.0000, 332.0000, 294.0000, 470.0000,
         310.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  70
running loss:  nan
Train Steps: 70/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 617.9645, 156.6336, 294.0000, 164.0000, 433.0000,
         310.0000],
        [498.8640, 238.6186, 718.8183, 288.3773, 306.7708, 312.9795, 529.0106,
         309.9863],
        [496.8600, 244.1200, 700.0000, 307.0000, 332.0000, 294.0000, 470.0000,
         310.0000],
        [497.0900, 250.5100, 584.0000, 173.0000, 347.0000, 130.0000, 455.8488,
         346.4075],
        [496.0800, 242.1700, 687.7038, 230.9800, 279.3204, 227.0880, 478.2295,
         307.8407],
        [495.4600, 246.4600, 595.0000, 162.0000, 292.0000, 221.0000, 499.0000,
         343.0000],
        [502.0016, 240.1822, 728.0000, 227.0000, 351.0000, 188.0000, 564.6272,
         320.6006],
        [492.9600, 240.8300, 704.0000, 320.0000, 300.0000, 289.0000, 479.0000,
         317.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  71
running loss:  nan
Train Steps: 71/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[504.8541, 239.8694, 638.0000, 346.0000, 307.0000, 291.0000, 586.1546,
         320.6006],
        [497.8700, 247.7900, 648.0000, 179.0000, 282.0000, 234.0000, 455.4926,
         306.1910],
        [501.0800, 241.7700, 720.0000, 286.0000, 304.0000, 310.0000, 513.1892,
         286.2780],
        [484.2800, 242.0800, 551.7881, 114.9384, 320.0000, 127.0000, 435.1920,
         310.0955],
        [499.1492, 246.4364, 652.9544, 165.8065, 290.0000, 216.0000, 479.0000,
         342.0000],
        [491.4477, 242.3712, 659.0000, 200.0000, 326.0000, 127.0000, 410.9736,
         298.3820],
        [487.7395, 241.4330, 679.0000, 223.0000, 310.0000, 331.0000, 466.8895,
         335.4748],
        [507.1360, 248.9381, 704.0000, 300.0000, 312.0000, 317.0000, 603.2499,
         325.4596]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  72
running loss:  nan
Train Steps: 72/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.8900, 245.2000, 670.0000, 342.0000, 322.0000, 288.0000, 456.0000,
         367.0000],
        [498.7100, 250.7200, 626.0000, 207.0000, 305.0000, 172.0000, 454.0000,
         337.0000],
        [507.7065, 249.8763, 731.0000, 239.0000, 310.0000, 259.0000, 597.5515,
         328.2361],
        [497.9900, 246.9700, 693.0000, 211.0000, 293.0000, 194.0000, 467.0000,
         319.0000],
        [504.8541, 240.4949, 634.8398, 344.7328, 312.0000, 302.0000, 556.3961,
         321.9889],
        [482.4700, 239.1800, 597.0000, 170.0000, 291.0000, 163.0000, 420.2336,
         283.5448],
        [493.1591, 237.3677, 700.5271, 305.2639, 343.9919, 319.1815, 481.7994,
         312.1400],
        [494.7600, 244.7600, 707.0000, 277.0000, 387.0000, 339.0000, 494.0000,
         351.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  73
running loss:  nan
Train Steps: 73/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[493.2300, 246.3500, 606.0000, 104.0000, 307.0000, 159.0000, 454.4241,
         306.9719],
        [496.3600, 244.8300, 716.0000, 241.0000, 303.0000, 282.0000, 477.0000,
         340.0000],
        [     nan,      nan, 601.0000, 127.0000, 343.0000, 120.0000, 448.0000,
         337.0000],
        [493.4200, 246.6600, 521.3622, 172.4778, 295.0000, 169.0000, 418.2301,
         350.2430],
        [     nan,      nan, 669.0000, 199.0000, 285.0000, 202.0000, 426.2881,
         308.5337],
        [490.3400, 244.1100, 700.0000, 304.0000, 310.0000, 254.0000, 418.8311,
         352.8785],
        [491.6200, 238.9700, 696.0000, 301.0000, 352.0000, 288.0000, 430.0000,
         345.0000],
        [494.0900, 241.0100, 703.0000, 306.0000, 326.0000, 315.0000, 473.0000,
         302.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  74
running loss:  nan
Train Steps: 74/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[495.9500, 244.2800, 608.0000, 127.0000, 323.0000, 166.0000, 491.0000,
         333.0000],
        [501.3800, 245.6600, 697.0000, 185.0000, 352.0000, 136.0000, 500.0000,
         312.0000],
        [507.1360, 246.1237, 687.0000, 188.0000, 354.0000, 127.0000, 513.3414,
         305.3296],
        [495.8900, 246.1100, 716.0000, 265.0000, 321.0000, 322.0000, 489.0000,
         358.0000],
        [496.4300, 240.2100, 715.0000, 293.0000, 293.0000, 300.0000, 508.5592,
         296.8201],
        [494.3001, 240.4949, 688.0120, 240.8839, 314.5486, 150.9156, 456.8577,
         326.3061],
        [485.1400, 241.1400, 692.0000, 271.0000, 323.0000, 322.0000, 456.2567,
         336.5189],
        [491.8400, 239.7800, 679.0000, 232.0000, 279.0000, 244.0000, 469.0000,
         300.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  75
running loss:  nan
Train Steps: 75/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.8400, 245.9700, 571.0000, 128.0000, 320.0000, 159.0000, 486.0000,
         338.0000],
        [503.7131, 244.5602, 672.0000, 335.0000, 296.0000, 262.0000, 550.0646,
         329.6244],
        [492.0700, 247.4900, 699.0000, 265.0000, 286.0000, 227.0000, 411.0000,
         329.0000],
        [500.8000, 252.8600, 683.0000, 330.0000, 293.0000, 226.0000, 447.0000,
         359.0000],
        [502.4100, 243.2900, 688.0000, 319.0000, 304.0000, 282.0000, 502.0000,
         308.0000],
        [506.8508, 245.1856, 712.0000, 237.0000, 312.0000, 177.0000, 520.3061,
         303.9413],
        [495.8300, 246.2900, 636.0000, 196.0000, 294.0000, 226.0000, 483.0000,
         370.0000],
        [502.0016, 242.9966, 723.0000, 226.0000, 307.0000, 212.0000, 565.8936,
         334.4833]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  76
running loss:  nan
Train Steps: 76/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 593.0000, 132.0000, 356.0000,  91.0000, 425.0000,
         299.0000],
        [496.1400, 243.1500, 691.0000, 317.0000, 363.6628, 306.4949, 472.0000,
         308.0000],
        [     nan,      nan, 567.7618, 140.7894, 340.0000, 111.0000, 414.0000,
         335.0000],
        [498.7100, 250.7200, 626.0000, 207.0000, 305.0000, 172.0000, 454.0000,
         337.0000],
        [494.2245, 240.7296, 712.0364, 269.7266, 311.2985, 337.0000, 477.7910,
         292.7526],
        [492.8600, 245.9100, 699.0000, 263.0000, 303.0000, 329.0000, 448.3696,
         301.1151],
        [503.9400, 258.1900, 637.0000, 236.0000, 388.0000, 137.0000, 438.3973,
         373.3486],
        [504.3800, 238.9900, 716.0000, 290.0000, 295.0000, 281.0000, 510.0000,
         307.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  77
running loss:  nan
Train Steps: 77/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[488.8600, 241.9700, 664.0000, 196.0000, 287.0000, 200.0000, 435.5481,
         338.2080],
        [490.7800, 239.6200, 633.0000, 183.0000, 290.0000, 183.0000, 467.0000,
         303.0000],
        [500.5754, 241.4330, 693.7882, 325.3166, 335.6755, 311.8676, 535.5466,
         312.2101],
        [500.0049, 237.6805, 693.7882, 295.7652, 335.9166, 298.3375, 504.9382,
         318.0700],
        [499.1500, 243.6600, 708.0000, 276.0000, 338.0000, 312.0000, 491.0000,
         327.0000],
        [488.7100, 240.8900, 613.4007, 218.3425, 281.0000, 220.0000, 415.9966,
         338.4796],
        [502.8574, 243.3093, 720.0000, 283.0000, 301.0000, 281.0000, 561.4614,
         329.6244],
        [493.0100, 246.8500, 612.0000, 121.0000, 301.0000, 172.0000, 450.5065,
         304.2387]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  78
running loss:  nan
Train Steps: 78/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[498.0700, 246.1700, 686.0000, 207.0000, 351.0000, 124.0000, 463.0000,
         323.0000],
        [494.0148, 240.8076, 618.6979, 167.0053, 357.9991, 107.1851, 463.1682,
         321.0350],
        [491.4477, 242.0584, 704.0000, 290.0000, 361.0000, 322.0000, 423.0828,
         305.8005],
        [495.0900, 242.9100, 711.0000, 265.0000, 337.0000, 312.0000, 479.0000,
         338.0000],
        [496.0300, 237.6400, 676.8727, 329.8349, 331.3488, 274.6205, 471.3836,
         324.1019],
        [494.5853, 238.3059, 684.1613, 354.8681, 294.6041, 250.8712, 455.0547,
         322.6822],
        [494.5853, 237.9932, 661.0566, 183.8918, 282.0930, 249.6721, 495.3221,
         317.4111],
        [490.3600, 243.8000, 699.0000, 315.0000, 345.0000, 284.0000, 418.4304,
         352.4393]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  79
running loss:  nan
Train Steps: 79/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[496.3600, 244.8300, 716.0000, 241.0000, 303.0000, 282.0000, 477.0000,
         340.0000],
        [494.3001, 237.6805, 667.7954, 361.2005, 310.9871, 277.4219, 457.1582,
         322.3528],
        [487.5800, 238.2200, 695.0000, 286.0000, 388.7642, 292.7355, 415.2475,
         296.4297],
        [501.7164, 244.8729, 726.5198, 293.6544, 296.0000, 257.0000, 532.8420,
         316.4105],
        [493.4444, 243.3093, 606.0000, 177.0000, 324.0000, 163.0000, 475.0000,
         370.0000],
        [494.7800, 244.0100, 707.0000, 267.0000, 323.0000, 284.0000, 417.0282,
         308.5337],
        [500.0100, 246.6100, 579.0000, 124.0000, 341.0000, 113.0000, 450.0000,
         338.0000],
        [     nan,      nan, 677.0000, 153.0000, 468.0000, 128.0000, 570.3256,
         364.3312]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  80
running loss:  nan
Train Steps: 80/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[     nan,      nan, 513.0000, 114.0000, 339.0000, 113.0000, 439.0000,
         342.0000],
        [490.1500, 245.0200, 696.0000, 268.0000, 319.0000, 259.0000, 401.0383,
         328.2302],
        [486.6900, 238.8800, 687.0000, 314.0000, 368.0000, 322.0000, 454.4241,
         300.3342],
        [492.8739, 241.4330, 707.0000, 275.0000, 295.0000, 224.0000, 424.8636,
         320.6377],
        [496.9300, 241.9800, 715.0000, 250.0000, 305.0000, 256.0000, 449.0000,
         335.0000],
        [496.1400, 243.1500, 691.0000, 317.0000, 363.6628, 306.4949, 472.0000,
         308.0000],
        [501.8300, 248.5600, 700.0000, 342.0000, 319.0000, 283.0000, 481.0000,
         328.0000],
        [489.7400, 240.3700, 708.0000, 253.0000, 327.0000, 331.0000, 485.0000,
         331.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  81
running loss:  nan
Train Steps: 81/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[501.2500, 244.2100, 697.0000, 336.0000, 297.0000, 287.0000, 462.0000,
         366.0000],
        [496.1500, 243.9800, 699.6677, 202.5880, 297.3302, 185.4055, 467.3902,
         309.9255],
        [502.0016, 241.4330, 617.7352, 124.7889, 351.3434, 134.0229, 514.8118,
         317.3988],
        [501.6600, 240.3000, 676.0000, 364.0000, 308.0000, 299.0000, 485.4824,
         278.9525],
        [499.7000, 245.3900, 557.1127, 121.6097, 314.0000, 161.0000, 487.0000,
         335.0000],
        [500.0400, 246.9800, 696.0000, 291.0000, 372.0000, 334.0000, 487.0000,
         311.0000],
        [501.4300, 246.1100, 715.0000, 220.0000, 322.0000, 170.0000, 502.0000,
         311.0000],
        [502.6300, 256.9900, 598.1877, 212.5051, 410.0000, 115.0000, 440.0000,
         370.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  82
running loss:  nan
Train Steps: 82/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[490.8700, 247.0400, 696.0000, 310.0000, 335.0000, 305.0000, 411.7228,
         329.6944],
        [490.0100, 240.6100, 692.0000, 274.0000, 293.0000, 234.0000, 448.0000,
         334.0000],
        [496.2100, 244.5800, 688.8793, 172.7032, 324.0115, 153.2296, 472.5629,
         329.7797],
        [     nan,      nan, 727.0000, 227.0000, 365.0000, 157.0000, 539.3008,
         334.4833],
        [493.1591, 237.3677, 700.5271, 305.2639, 343.9919, 319.1815, 481.7994,
         312.1400],
        [     nan,      nan, 601.0000, 127.0000, 343.0000, 120.0000, 448.0000,
         337.0000],
        [490.9100, 237.3000, 672.0000, 196.0000, 280.0000, 252.0000, 469.0000,
         328.0000],
        [503.1100, 241.8900, 673.4919, 326.7499, 326.0000, 301.0000, 505.0000,
         307.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  83
running loss:  nan
Train Steps: 83/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[490.0100, 240.6100, 692.0000, 274.0000, 293.0000, 234.0000, 448.0000,
         334.0000],
        [501.0800, 241.7300, 712.0000, 296.0000, 326.0000, 311.0000, 512.4769,
         285.4970],
        [490.1500, 245.0200, 696.0000, 268.0000, 319.0000, 259.0000, 401.0383,
         328.2302],
        [490.1700, 246.8700, 573.0000, 173.0000, 290.0000, 177.0000, 426.1470,
         329.6944],
        [501.7164, 242.3712, 720.0000, 195.0000, 395.0000, 138.0000, 575.3909,
         324.7654],
        [495.8100, 239.8400, 686.5782, 321.6804, 329.3477, 300.9463, 475.3770,
         308.0492],
        [502.8574, 242.3712, 695.7136, 182.8364, 313.9077, 173.2258, 504.0367,
         322.0233],
        [490.1900, 243.9500, 684.0000, 334.0000, 372.9783, 308.4714, 405.5792,
         324.7162]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  84
running loss:  nan
Train Steps: 84/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[494.0148, 240.8076, 618.6979, 167.0053, 357.9991, 107.1851, 463.1682,
         321.0350],
        [492.0181, 236.1169, 695.7136, 309.4855, 371.7718, 319.7672, 483.3020,
         309.1750],
        [501.0600, 243.8700, 723.0000, 259.0000, 287.0000, 273.0000, 506.0000,
         315.0000],
        [494.0148, 240.8076, 712.0000, 270.0000, 350.0000, 351.0000, 494.0000,
         323.0000],
        [493.0700, 240.3800, 703.0000, 281.0000, 293.0000, 293.0000, 471.0000,
         301.0000],
        [496.0800, 240.2600, 702.8997, 302.5531, 306.6687, 308.2590, 479.7508,
         305.5475],
        [495.6700, 245.2700, 711.0000, 275.0000, 360.0000, 341.0000, 491.0000,
         353.0000],
        [501.6600, 241.1700, 670.0000, 365.0000, 314.0000, 292.0000, 482.9497,
         277.5642]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  85
running loss:  nan
Train Steps: 85/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[483.8400, 239.2300, 609.5974, 231.6849, 278.0000, 250.0000, 410.9215,
         327.9374],
        [501.7700, 247.2200, 723.0000, 247.0000, 298.0000, 192.0000, 494.0000,
         315.0000],
        [488.0600, 238.6400, 684.0000, 340.0000, 309.0000, 265.0000, 410.2613,
         292.1347],
        [501.0800, 241.7700, 720.0000, 286.0000, 304.0000, 310.0000, 513.1892,
         286.2780],
        [492.2300, 247.1400, 677.0000, 230.0000, 288.0000, 192.0000, 408.5175,
         333.7941],
        [502.6300, 256.9900, 598.1877, 212.5051, 410.0000, 115.0000, 440.0000,
         370.0000],
        [491.7329, 244.8729, 683.0000, 204.0000, 293.0000, 189.0000, 411.3298,
         292.5252],
        [502.1600, 246.1500, 647.0000, 343.0000, 335.0000, 285.0000, 453.0000,
         365.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  86
running loss:  nan
Train Steps: 86/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[507.1360, 249.5636, 672.0000, 337.0000, 306.0000, 249.0000, 587.4209,
         344.8954],
        [488.6600, 240.6300, 643.0000, 204.0000, 296.0000, 176.0000, 452.6434,
         337.0366],
        [491.8600, 244.5800, 693.2687, 289.2242, 331.0000, 304.0000, 420.0000,
         346.0000],
        [502.8574, 256.4433, 680.0000, 270.0000, 362.0000, 155.0000, 435.1920,
         372.5677],
        [     nan,      nan, 593.0000, 132.0000, 356.0000,  91.0000, 425.0000,
         299.0000],
        [503.4279, 245.8110, 704.0000, 151.0000, 421.0000, 156.0000, 594.3857,
         322.6830],
        [495.7300, 239.1300, 704.0000, 277.0000, 335.0000, 287.0000, 455.0000,
         333.0000],
        [508.8475, 246.1237, 692.0000, 179.0000, 391.0000, 120.0000, 536.1351,
         327.5420]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  87
running loss:  nan
Train Steps: 87/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[486.9100, 241.1400, 622.5284, 256.7020, 290.0000, 261.0000, 411.9899,
         317.1024],
        [     nan,      nan, 712.0000, 193.0000, 403.0000, 134.0000, 535.5019,
         336.5657],
        [493.1591, 244.5602, 707.0000, 247.0000, 297.0000, 333.0000, 499.0000,
         321.0000],
        [504.5688, 241.7457, 719.0000, 289.0000, 315.0000, 210.0000, 584.8883,
         322.6830],
        [502.0600, 247.2100, 699.0000, 188.0000, 338.0000, 133.0000, 496.2461,
         293.5293],
        [503.7131, 244.5602, 672.0000, 335.0000, 296.0000, 262.0000, 550.0646,
         329.6244],
        [490.2700, 247.0800, 691.0000, 320.0000, 370.0000, 316.0000, 415.4624,
         328.5230],
        [495.9800, 239.5800, 691.1306, 221.2412, 292.6610, 188.3306, 480.1311,
         322.4341]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  88
running loss:  nan
Train Steps: 88/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[491.1800, 244.2000, 696.0000, 300.0000, 369.0000, 294.0000, 420.8344,
         351.1215],
        [491.6300, 240.4700, 700.0000, 323.0000, 318.0000, 279.0000, 445.0000,
         332.0000],
        [488.0700, 242.5300, 622.0000, 157.0000, 297.0000, 169.0000, 435.1920,
         338.9889],
        [488.5952, 240.8076, 696.0000, 279.0000, 403.9442, 310.5674, 468.0000,
         333.0000],
        [506.5656, 247.0619, 739.0000, 256.0000, 321.0000, 284.0000, 601.9836,
         326.1537],
        [489.3200, 241.1600, 683.0000, 244.0000, 281.0000, 215.0000, 453.0000,
         308.0000],
        [504.7900, 241.0400, 685.0000, 348.0000, 295.0000, 285.0000, 506.0662,
         300.3342],
        [499.9900, 243.2300, 701.6359, 283.3869, 373.0000, 322.0000, 493.0000,
         326.0000]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  89
running loss:  nan
Train Steps: 89/90  Loss: nan predictions are:  tensor([[nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan],
        [nan, nan, nan, nan, nan, nan, nan, nan]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[486.4500, 236.9900, 683.0000, 280.0000, 308.0000, 295.0000, 427.3566,
         297.2106],
        [505.9951, 249.8763, 720.0000, 277.0000, 305.0000, 294.0000, 598.8177,
         326.8478],
        [497.4600, 248.2400, 581.0000, 134.0000, 326.0000, 159.0000, 497.0000,
         347.0000],
        [500.0400, 246.9800, 696.0000, 291.0000, 372.0000, 334.0000, 487.0000,
         311.0000],
        [500.5700, 242.0600, 663.0000, 140.0000, 314.0000, 163.0000, 506.4223,
         294.0870],
        [494.3001, 239.5567, 714.0048, 287.3219, 310.3356, 293.9974, 483.3020,
         316.7523],
        [     nan,      nan, 682.0000, 133.0000, 433.0000, 142.0000, 589.3204,
         328.9302],
        [495.9400, 237.1000, 685.8777, 322.4308, 326.0126, 281.2020, 475.3770,
         322.6425]], device='cuda:0')
loss_train_step before backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(nan, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  nan
step:  90
running loss:  nan
Valid Steps: 10/10  Loss: nan
--------------------------------------------------
Epoch: 1  Train Loss: nan Valid Loss: nan
--------------------------------------------------
Training Complete
Total Elapsed Time : 95.45278215408325 s