nan loss

1

network = Network()

2

network.cuda()

3


4

criterion = nn.MSELoss()

5

optimizer = optim.Adam(network.parameters(), lr=0.0001)

6


7

loss_min = np.inf

8

num_epochs = 10

9


10

start_time = time.time()

11

for epoch in range(1,num_epochs+1):

12


13

    loss_train = 0

14

    loss_test = 0

15

    running_loss = 0

16


17


18

    network.train()

19

    print('size of train loader is: ', len(train_loader))

20


21

    for step in range(1, len(train_loader)+1):

22


23


24

        batch = next(iter(train_loader))

25

        images, landmarks = batch['image'], batch['landmarks']

26

        print(images.shape)

27


28

        images = images.unsqueeze_(1)

29


30

        images = torch.cat((images,images,images),1)

31

        images = images.cuda()

32


33

        landmarks = landmarks.view(landmarks.size(0),-1).cuda()

34

        norm_image = transforms.Normalize(0.3812, 0.1123)

35

        for image in images:

36

            image = image.float()

37

            ##image = to_tensor(image) #TypeError: pic should be PIL Image or ndarray. Got <class 'torch.Tensor'>

38

            image = norm_image(image)

39


40

        ###removing landmarks normalize because of the following error

41

        ###ValueError: Expected tensor to be a tensor image of size (C, H, W). Got tensor.size() = torch.Size([8, 8])

42


43


44

        for i in range(8):

45

            if(i%2==0):

46

                landmarks[:,i] = landmarks[:,i]/800

47

            else:

48

                landmarks[:,i] = landmarks[:,i]/600

49


50

        print(landmarks.shape)

51

        print(landmarks)

52


53


54


55


56

        ##norm_landmarks = transforms.Normalize(0.4949, 0.2165)

57

        landmarks [landmarks != landmarks] = 0

58

        landmarks = landmarks.unsqueeze_(0)

59

        landmarks = norm_landmarks(landmarks)

60


61

        predictions = network(images)

62


63

        # clear all the gradients before calculating them

64

        optimizer.zero_grad()

65


66

        print('predictions are: ', predictions.float())

67

        print('landmarks are: ', landmarks.float())

68

        # find the loss for the current step

69

        loss_train_step = criterion(predictions.float(), landmarks.float())

70


71


72

        loss_train_step = loss_train_step.to(torch.float32)

73

        print("loss_train_step before backward: ", loss_train_step)

74


75

        # calculate the gradients

76

        loss_train_step.backward()

77


78

        # update the parameters

79

        optimizer.step()

80


81

        print("loss_train_step after backward: ", loss_train_step)

82


83


84

        loss_train += loss_train_step.item()

85


86

        print("loss_train: ", loss_train)

87

        running_loss = loss_train/step

88

        print('step: ', step)

89

        print('running loss: ', running_loss)

90


91

        print_overwrite(step, len(train_loader), running_loss, 'train')

92


93

    network.eval()

94

    with torch.no_grad():

95


96

        for step in range(1,len(test_loader)+1):

97


98

            batch = next(iter(train_loader))

99

            images, landmarks = batch['image'], batch['landmarks']

100

            images = images.cuda()

101

            landmarks = landmarks.view(landmarks.size(0),-1).cuda()

102

            ##[8, 600, 800] --> [8,3,600,800]

103

            images = images.unsqueeze(1)

104

            images = torch.cat((images, images, images), 1)

105

            predictions = network(images)

106


107

            # find the loss for the current step

108

            loss_test_step = criterion(predictions, landmarks)

109


110

            loss_test += loss_test_step.item()

111

            running_loss = loss_test/step

112


113

            print_overwrite(step, len(test_loader), running_loss, 'Validation')

114


115

    loss_train /= len(train_loader)

116

    loss_test /= len(test_loader)

117


118

    print('\n--------------------------------------------------')

119

    print('Epoch: {}  Train Loss: {:.4f} Valid Loss: {:.4f}'.format(epoch, loss_train, loss_test))

120

    print('--------------------------------------------------')

121


122

    if loss_test < loss_min:

123

        loss_min = loss_test

124

        torch.save(network.state_dict(), '../moth_landmarks.pth')

125

        print("\nMinimum Valid Loss of {:.4f} at epoch {}/{}".format(loss_min, epoch, num_epochs))

126

        print('Model Saved\n')

127


128

print('Training Complete')

129

print("Total Elapsed Time : {} s".format(time.time()-start_time))

size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1423, -0.1056, -0.3138,  0.4684, -0.1054, -0.5563, -0.0186,  0.1072],
        [-0.1047, -0.1028, -0.2962,  0.4469, -0.1573, -0.5332, -0.0197,  0.1038],
        [-0.1244, -0.0833, -0.2863,  0.4311, -0.1496, -0.4844, -0.0656,  0.0925],
        [-0.1570, -0.1024, -0.2959,  0.4236, -0.1198, -0.4870, -0.0458,  0.1049],
        [-0.1260, -0.1189, -0.3429,  0.4834, -0.1040, -0.5703,  0.0156,  0.0999],
        [-0.1380, -0.0681, -0.3151,  0.4013, -0.1561, -0.5097, -0.0721,  0.0928],
        [-0.1592, -0.1133, -0.2992,  0.4642, -0.1194, -0.5710, -0.0054,  0.0882],
        [-0.1140, -0.0634, -0.3053,  0.4357, -0.1321, -0.5395, -0.0382,  0.0839]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [-2.2859, -2.2859,  0.7222, -1.4930, -0.3921, -1.3698,  0.1404,
           0.1343],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000]]], device='cuda:0')
loss_train_step before backward:  tensor(1.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(1.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0104049444198608
step:  1
running loss:  1.0104049444198608
Train Steps: 1/90  Loss: 1.0104 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0659, -0.2580,  0.0962,  0.1213, -0.2025, -0.6994,  0.0772,  0.1072],
        [-0.0033, -0.2372,  0.0826,  0.1461, -0.1880, -0.6930,  0.0741,  0.1244],
        [-0.0202, -0.2130,  0.0678,  0.1583, -0.1568, -0.6912,  0.0771,  0.1296],
        [ 0.0287, -0.2443,  0.0870,  0.1132, -0.1829, -0.6959,  0.0773,  0.1000],
        [-0.0197, -0.2014,  0.0873,  0.1103, -0.1730, -0.6639,  0.0322,  0.1340],
        [-0.0283, -0.2539,  0.0533,  0.1278, -0.1841, -0.6857,  0.0922,  0.1333],
        [ 0.0008, -0.2950,  0.0865,  0.1903, -0.2152, -0.7125,  0.1525,  0.1757],
        [ 0.0252, -0.2935,  0.0619,  0.1467, -0.1725, -0.6754,  0.0774,  0.1400]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.5432, -0.4224,  1.3284, -0.8540, -0.6866, -0.0226,  0.4077,
           0.3177],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.5292, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.5292, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.539566159248352
step:  2
running loss:  0.769783079624176
Train Steps: 2/90  Loss: 0.7698 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1696, -0.3065,  0.4627, -0.0944, -0.2657, -0.7406,  0.1930,  0.1774],
        [ 0.1604, -0.3258,  0.4616, -0.0499, -0.2615, -0.7130,  0.2208,  0.1799],
        [ 0.1484, -0.3291,  0.4707, -0.0997, -0.2455, -0.7404,  0.1867,  0.1688],
        [ 0.1728, -0.3067,  0.4303, -0.0530, -0.2103, -0.7886,  0.2801,  0.1768],
        [ 0.1909, -0.2937,  0.4370, -0.1293, -0.2625, -0.7441,  0.1705,  0.1318],
        [ 0.1561, -0.3214,  0.4482, -0.0593, -0.2596, -0.7309,  0.2042,  0.2013],
        [ 0.1806, -0.3209,  0.4534, -0.0854, -0.2666, -0.7370,  0.2352,  0.1802],
        [ 0.1912, -0.2630,  0.4746, -0.0326, -0.2686, -0.7027,  0.2144,  0.1895]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936]]], device='cuda:0')
loss_train_step before backward:  tensor(0.3366, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.3366, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8762048482894897
step:  3
running loss:  0.6254016160964966
Train Steps: 3/90  Loss: 0.6254 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3182, -0.3804,  0.7228, -0.2070, -0.2713, -0.7219,  0.3276,  0.2051],
        [ 0.3052, -0.3400,  0.7528, -0.3017, -0.3315, -0.7304,  0.2778,  0.2039],
        [ 0.3572, -0.3411,  0.7817, -0.2362, -0.2603, -0.7317,  0.3130,  0.1719],
        [ 0.3135, -0.3787,  0.8097, -0.2249, -0.3170, -0.6919,  0.3421,  0.2800],
        [ 0.3222, -0.3184,  0.7258, -0.2893, -0.2752, -0.7587,  0.2927,  0.1911],
        [ 0.3452, -0.3446,  0.7560, -0.2866, -0.3250, -0.7399,  0.3119,  0.1912],
        [ 0.3920, -0.3923,  0.8089, -0.1643, -0.3038, -0.6605,  0.3647,  0.2397],
        [ 0.2950, -0.3404,  0.7301, -0.2619, -0.2894, -0.7364,  0.2727,  0.1653]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1705, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1705, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.046713799238205
step:  4
running loss:  0.5116784498095512

Train Steps: 4/90  Loss: 0.5117 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4885, -0.4018,  1.0979, -0.3366, -0.3702, -0.6909,  0.3982,  0.2501],
        [ 0.4422, -0.3510,  1.0551, -0.4015, -0.3460, -0.7835,  0.3912,  0.2216],
        [ 0.4735, -0.3952,  1.0856, -0.3061, -0.3689, -0.6766,  0.3673,  0.2366],
        [ 0.4811, -0.3667,  1.0538, -0.3488, -0.3313, -0.6762,  0.3805,  0.2586],
        [ 0.4752, -0.3900,  1.0767, -0.3471, -0.3499, -0.7226,  0.3713,  0.2491],
        [ 0.4760, -0.4058,  1.0386, -0.4084, -0.3484, -0.8394,  0.4057,  0.2369],
        [ 0.4448, -0.3698,  1.0587, -0.4265, -0.3316, -0.8082,  0.3901,  0.2314],
        [ 0.4433, -0.3462,  1.0494, -0.4267, -0.3098, -0.7908,  0.3494,  0.1983]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.3554e-01, -4.0805e-01,  1.6113e+00,  1.8522e-01, -4.7298e-01,
           1.4673e-01,  9.9965e-01,  3.9055e-01],
         [-2.2859e+00, -2.2859e+00,  1.8423e+00, -9.6952e-01, -1.3233e-01,
          -8.4634e-01,  1.1349e+00,  2.6764e-01],
         [ 6.1184e-01, -3.9831e-01,  1.5824e+00,  3.4688e-01, -4.2679e-01,
          -6.8822e-02,  3.4688e-01,  5.3934e-01],
         [ 5.7079e-01, -4.0747e-01,  1.7961e+00, -2.3048e-01, -4.2102e-01,
          -9.9615e-02,  1.2187e-01,  8.9251e-02],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 6.1264e-01, -4.0570e-01,  1.4439e+00, -1.3159e+00, -1.1501e-01,
          -1.5777e+00,  5.5366e-01, -5.2974e-02],
         [ 6.2072e-01, -3.9360e-01,  1.7788e+00, -1.1235e+00,  1.4480e-01,
          -1.0850e+00,  1.1459e+00,  1.9818e-01],
         [-2.2859e+00, -2.2859e+00,  1.8249e+00, -8.0015e-01,  4.0878e-02,
          -1.2543e+00,  8.0590e-01,  3.0505e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.5289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.5289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5755676329135895
step:  5
running loss:  0.5151135265827179
Train Steps: 5/90  Loss: 0.5151 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5403, -0.4755,  1.3845, -0.3674, -0.3488, -0.6346,  0.4944,  0.2667],
        [ 0.4828, -0.5086,  1.3642, -0.3836, -0.3648, -0.6673,  0.4748,  0.2593],
        [ 0.4669, -0.4383,  1.3275, -0.4923, -0.3288, -0.8227,  0.5028,  0.2269],
        [ 0.4408, -0.4837,  1.3020, -0.5519, -0.3340, -0.8562,  0.4644,  0.2288],
        [ 0.4844, -0.4597,  1.3352, -0.3919, -0.3426, -0.6659,  0.4823,  0.2951],
        [ 0.5130, -0.4774,  1.3368, -0.4231, -0.3680, -0.7182,  0.4799,  0.2842],
        [ 0.4028, -0.4552,  1.2646, -0.5310, -0.3368, -0.8135,  0.4102,  0.2107],
        [ 0.4311, -0.4643,  1.2980, -0.5692, -0.2955, -0.8370,  0.4452,  0.2128]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2597, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2597, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.8352708220481873
step:  6
running loss:  0.4725451370080312
Train Steps: 6/90  Loss: 0.4725 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4695, -0.5488,  1.5943, -0.4788, -0.3550, -0.6922,  0.5460,  0.2842],
        [ 0.4509, -0.5320,  1.5898, -0.3879, -0.3391, -0.6629,  0.5457,  0.2746],
        [ 0.4613, -0.5351,  1.5649, -0.4374, -0.3564, -0.6521,  0.5522,  0.2870],
        [ 0.3650, -0.5891,  1.4587, -0.6514, -0.3122, -0.8934,  0.5336,  0.2440],
        [ 0.4334, -0.5463,  1.5269, -0.4893, -0.3581, -0.7008,  0.5142,  0.2635],
        [ 0.3762, -0.5329,  1.4488, -0.6472, -0.3316, -0.8446,  0.5024,  0.2438],
        [ 0.4500, -0.5802,  1.5537, -0.4733, -0.2985, -0.6812,  0.5522,  0.2756],
        [ 0.3715, -0.5650,  1.4511, -0.6158, -0.3295, -0.7749,  0.4584,  0.2101]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.5911, -0.4080,  1.6460,  0.3546, -0.2074,  0.0467,  0.4970,
           0.1852],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.950811892747879
step:  7
running loss:  0.4215445561068399
Train Steps: 7/90  Loss: 0.4215 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3134, -0.6794,  1.6194, -0.7281, -0.3209, -0.8706,  0.5486,  0.2226],
        [ 0.3383, -0.6451,  1.6516, -0.6063, -0.3142, -0.8186,  0.5737,  0.2116],
        [ 0.2937, -0.6742,  1.6026, -0.7307, -0.3141, -0.8592,  0.5482,  0.2223],
        [ 0.4637, -0.6103,  1.7207, -0.4602, -0.3870, -0.5815,  0.5783,  0.2602],
        [ 0.4362, -0.6387,  1.6842, -0.5264, -0.3400, -0.6412,  0.5542,  0.2823],
        [ 0.5325, -0.5639,  1.7223, -0.4289, -0.3985, -0.5341,  0.5724,  0.2672],
        [ 0.4656, -0.5311,  1.6839, -0.4444, -0.3957, -0.5205,  0.5554,  0.2717],
        [ 0.4447, -0.5605,  1.6902, -0.5166, -0.4024, -0.6472,  0.5584,  0.2629]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7997e-01, -4.3118e-01,  1.5709e+00, -1.0311e+00, -4.4411e-01,
          -1.1081e+00,  3.8730e-01,  8.5142e-02],
         [-2.2859e+00, -2.2859e+00,  1.8192e+00, -8.5404e-01,  1.4480e-01,
          -9.8491e-01,  1.0143e+00,  4.8673e-01],
         [ 6.1742e-01, -3.9842e-01,  1.5975e+00, -9.9214e-01, -3.6328e-01,
          -9.9261e-01,  8.2047e-01,  2.0505e-01],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04],
         [ 6.1083e-01, -4.0082e-01,  1.9088e+00, -2.5294e-02, -5.7691e-01,
          -3.0747e-01,  7.9054e-01,  1.4989e-01],
         [ 6.5201e-01, -4.0564e-01,  1.9173e+00, -7.6520e-02, -5.5958e-01,
          -4.5373e-01,  7.9493e-01,  1.7680e-01],
         [ 5.6143e-01, -4.0323e-01,  1.7961e+00, -3.8445e-01, -5.7113e-01,
           2.7760e-01,  5.9515e-01,  1.8522e-01],
         [ 6.5036e-01, -3.9360e-01,  1.8885e+00, -4.9222e-01, -3.4018e-01,
          -9.2333e-01,  8.0224e-01,  2.0352e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.1650566458702087
step:  8
running loss:  0.3956320807337761

Train Steps: 8/90  Loss: 0.3956 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3986, -0.6094,  1.7731, -0.5675, -0.4028, -0.6541,  0.6191,  0.1876],
        [ 0.5058, -0.5929,  1.8639, -0.3546, -0.4482, -0.4050,  0.6035,  0.2369],
        [ 0.3617, -0.6422,  1.7939, -0.5044, -0.3761, -0.5660,  0.5857,  0.2077],
        [ 0.2151, -0.7175,  1.6810, -0.7442, -0.3176, -0.7890,  0.5508,  0.1978],
        [ 0.4400, -0.6495,  1.8597, -0.4622, -0.3749, -0.5228,  0.6240,  0.2258],
        [ 0.2712, -0.7017,  1.7019, -0.7678, -0.3379, -0.8403,  0.5856,  0.1985],
        [ 0.3907, -0.6001,  1.8238, -0.4108, -0.4309, -0.5027,  0.5874,  0.2351],
        [ 0.3679, -0.6428,  1.7431, -0.5741, -0.3706, -0.6884,  0.6126,  0.1843]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.5999, -0.4236,  1.2880, -1.4083, -0.0630, -1.6393,  0.4584,
          -0.0208],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1039, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1039, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.268991008400917
step:  9
running loss:  0.36322122315565747
Train Steps: 9/90  Loss: 0.3632 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4023, -0.5970,  1.8370, -0.4402, -0.3702, -0.4494,  0.5963,  0.2152],
        [ 0.2735, -0.7746,  1.8249, -0.7597, -0.3093, -0.8099,  0.6603,  0.1850],
        [ 0.3854, -0.6540,  1.8492, -0.5377, -0.3915, -0.5254,  0.5822,  0.1906],
        [ 0.3886, -0.5986,  1.8082, -0.5924, -0.3838, -0.5982,  0.6233,  0.1837],
        [ 0.3802, -0.6962,  1.8287, -0.5726, -0.3557, -0.6003,  0.5991,  0.2111],
        [ 0.4066, -0.6400,  1.8792, -0.4734, -0.3624, -0.4860,  0.6284,  0.1999],
        [ 0.4266, -0.5321,  1.8191, -0.5020, -0.4016, -0.4485,  0.5741,  0.2038],
        [ 0.3916, -0.6078,  1.8294, -0.5132, -0.4115, -0.4810,  0.5802,  0.2019]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0941, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0941, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.3630512952804565
step:  10
running loss:  0.33630512952804564
Train Steps: 10/90  Loss: 0.3363 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4281, -0.6018,  1.9033, -0.4220, -0.3854, -0.3424,  0.6084,  0.1981],
        [ 0.4875, -0.5669,  1.9027, -0.3804, -0.4182, -0.3505,  0.6296,  0.1911],
        [ 0.3455, -0.6332,  1.7253, -0.7356, -0.3643, -0.6066,  0.5329,  0.1503],
        [ 0.3817, -0.6205,  1.8508, -0.5359, -0.3424, -0.4687,  0.5927,  0.1690],
        [ 0.4571, -0.5370,  1.8616, -0.5107, -0.3985, -0.4145,  0.6011,  0.1742],
        [ 0.5165, -0.5026,  1.9352, -0.3225, -0.4410, -0.2379,  0.6228,  0.1941],
        [ 0.2141, -0.7852,  1.7427, -0.8960, -0.2852, -0.8919,  0.6142,  0.1452],
        [ 0.5665, -0.5681,  1.9401, -0.3287, -0.4210, -0.2708,  0.6404,  0.1673]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0903, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0903, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.453396238386631
step:  11
running loss:  0.3139451125806028
Train Steps: 11/90  Loss: 0.3139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3583, -0.6343,  1.7170, -0.7579, -0.3092, -0.6544,  0.5731,  0.1568],
        [ 0.3602, -0.6007,  1.7199, -0.7404, -0.3476, -0.6163,  0.5342,  0.1324],
        [ 0.5714, -0.4951,  1.9335, -0.2031, -0.4453, -0.1089,  0.6063,  0.1638],
        [ 0.6233, -0.4319,  1.9334, -0.2226, -0.4486, -0.0354,  0.5995,  0.1807],
        [ 0.4814, -0.5525,  1.8654, -0.3785, -0.4045, -0.2285,  0.5742,  0.1675],
        [ 0.4247, -0.6203,  1.7907, -0.5895, -0.3542, -0.4821,  0.5728,  0.1632],
        [ 0.4121, -0.5504,  1.7687, -0.6334, -0.3926, -0.4873,  0.5501,  0.1550],
        [ 0.5594, -0.5201,  1.9404, -0.2369, -0.3908, -0.1411,  0.6089,  0.1694]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5465, -0.4214,  0.9300, -1.2620, -0.3921, -1.3852,  0.2062,
           0.1043],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.5676762238144875
step:  12
running loss:  0.29730635198454064

Train Steps: 12/90  Loss: 0.2973 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5343, -0.4726,  1.7997, -0.3158, -0.3930, -0.2037,  0.5199,  0.1621],
        [ 0.5070, -0.4471,  1.7056, -0.5312, -0.4011, -0.3798,  0.4930,  0.1416],
        [ 0.5230, -0.4723,  1.8404, -0.3098, -0.4120, -0.1843,  0.5487,  0.1675],
        [ 0.5441, -0.4712,  1.8092, -0.4498, -0.4106, -0.3381,  0.5668,  0.1592],
        [ 0.5783, -0.4525,  1.8416, -0.2854, -0.3991, -0.1710,  0.5524,  0.1664],
        [ 0.4761, -0.5077,  1.7601, -0.4455, -0.3867, -0.3223,  0.5207,  0.1484],
        [ 0.4512, -0.5921,  1.7266, -0.6192, -0.3187, -0.5162,  0.4994,  0.1540],
        [ 0.5362, -0.4790,  1.8213, -0.3137, -0.4172, -0.1955,  0.5498,  0.1414]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0588, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0588, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.626456379890442
step:  13
running loss:  0.2789581830684955
Train Steps: 13/90  Loss: 0.2790 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3386, -0.5945,  1.4882, -0.8442, -0.2679, -0.8243,  0.4488,  0.1746],
        [ 0.6488, -0.4722,  1.7840, -0.1984, -0.4139, -0.1456,  0.5088,  0.2118],
        [ 0.6712, -0.3812,  1.7589, -0.1449, -0.4616, -0.0147,  0.4819,  0.1966],
        [ 0.5852, -0.3525,  1.7167, -0.2342, -0.4497, -0.0917,  0.4490,  0.1965],
        [ 0.6722, -0.3628,  1.7972, -0.1442, -0.4551, -0.0454,  0.5214,  0.2173],
        [ 0.6903, -0.3728,  1.7680, -0.1855, -0.4479, -0.0402,  0.4770,  0.2045],
        [ 0.4033, -0.5384,  1.5374, -0.7993, -0.3055, -0.7459,  0.4317,  0.1558],
        [ 0.5944, -0.3282,  1.7185, -0.2286, -0.4429, -0.0724,  0.4695,  0.1935]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5798, -0.4156,  1.3977, -1.0388, -0.4672, -1.1004,  0.3469,
           0.1082],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0389, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0389, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.6653256751596928
step:  14
running loss:  0.2618089767971209
Train Steps: 14/90  Loss: 0.2618 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6552, -0.3837,  1.7376, -0.1305, -0.4385, -0.1260,  0.4828,  0.2422],
        [ 0.5077, -0.4758,  1.5026, -0.5479, -0.3470, -0.5731,  0.4024,  0.2062],
        [ 0.6341, -0.3702,  1.6776, -0.1107, -0.4211, -0.0452,  0.4231,  0.2498],
        [ 0.6070, -0.3405,  1.5338, -0.4015, -0.4672, -0.2579,  0.4081,  0.2168],
        [ 0.8312, -0.2328,  1.8114,  0.1777, -0.5426,  0.2986,  0.4698,  0.2533],
        [ 0.7075, -0.2959,  1.7456,  0.0659, -0.5056,  0.1518,  0.4310,  0.2443],
        [ 0.4628, -0.4883,  1.4341, -0.7040, -0.3237, -0.7027,  0.4005,  0.2153],
        [ 0.4701, -0.4907,  1.4618, -0.6527, -0.3600, -0.6216,  0.3729,  0.2062]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.729193616658449
step:  15
running loss:  0.24861290777722994
Train Steps: 15/90  Loss: 0.2486 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6277, 0.4083, 0.8350, 0.2717, 0.4562, 0.1800, 0.5918, 0.4878],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8263, -0.1902,  1.7374,  0.2545, -0.5898,  0.3922,  0.4587,  0.2920],
        [ 0.8305, -0.2324,  1.7869,  0.3114, -0.5759,  0.3759,  0.4640,  0.2764],
        [ 0.5266, -0.4159,  1.3851, -0.5850, -0.3763, -0.5650,  0.3748,  0.2421],
        [ 0.4363, -0.4686,  1.3255, -0.7476, -0.3138, -0.7884,  0.3587,  0.2176],
        [ 0.7096, -0.3306,  1.6011, -0.1989, -0.4514, -0.1596,  0.4091,  0.2694],
        [ 0.5078, -0.4304,  1.3690, -0.6331, -0.3530, -0.6531,  0.3775,  0.2460],
        [ 0.5176, -0.3927,  1.3475, -0.6248, -0.3892, -0.6089,  0.3561,  0.2448],
        [ 0.6879, -0.3213,  1.6219, -0.0797, -0.4829, -0.0799,  0.4250,  0.2820]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.6132, -0.4002,  1.5709, -1.0311, -0.1785, -1.4545,  0.4474,
          -0.0328],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2667, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2667, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9958606250584126
step:  16
running loss:  0.24974128906615078

Train Steps: 16/90  Loss: 0.2497 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6161, 0.4099, 0.8738, 0.4383, 0.3788, 0.5483, 0.5605, 0.5019],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5092, -0.4276,  1.2993, -0.6912, -0.3900, -0.7287,  0.3428,  0.2390],
        [ 0.4638, -0.5024,  1.3391, -0.7674, -0.3217, -0.9413,  0.3813,  0.2378],
        [ 0.7581, -0.2839,  1.6582,  0.2064, -0.5467,  0.2310,  0.4485,  0.2857],
        [ 0.6093, -0.3809,  1.5054, -0.2810, -0.4603, -0.3393,  0.3837,  0.2761],
        [ 0.7945, -0.2427,  1.6784,  0.1989, -0.5599,  0.2828,  0.4505,  0.2914],
        [ 0.6689, -0.2769,  1.5637,  0.0263, -0.5515,  0.1618,  0.3862,  0.2881],
        [ 0.5313, -0.4060,  1.3328, -0.6785, -0.4032, -0.7108,  0.3818,  0.2442],
        [ 0.5118, -0.4049,  1.3256, -0.6318, -0.4154, -0.6396,  0.3457,  0.2628]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5597, -0.3928,  1.7499, -0.2613, -0.5365,  0.2468,  0.3028,
           0.0321],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0752, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0752, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.071053955703974
step:  17
running loss:  0.23947376210023374
Train Steps: 17/90  Loss: 0.2395 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6578, -0.3683,  1.5521, -0.1059, -0.4751, -0.2149,  0.4410,  0.2723],
        [ 0.5114, -0.4456,  1.2885, -0.7996, -0.3856, -0.9587,  0.4281,  0.2349],
        [ 0.5884, -0.3397,  1.3325, -0.5015, -0.4970, -0.4707,  0.4000,  0.2406],
        [ 0.6309, -0.3858,  1.5195, -0.1167, -0.5022, -0.1658,  0.3629,  0.2780],
        [ 0.5000, -0.4365,  1.3342, -0.7227, -0.3862, -0.8498,  0.3772,  0.2283],
        [ 0.5706, -0.3431,  1.3098, -0.5633, -0.5075, -0.5184,  0.3733,  0.2563],
        [ 0.5632, -0.3163,  1.3676, -0.3814, -0.5250, -0.3097,  0.3615,  0.2432],
        [ 0.5914, -0.3618,  1.5231, -0.0976, -0.4550, -0.1584,  0.4225,  0.2744]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5477, -0.4413,  1.3688, -0.8771, -0.6115, -0.8771,  0.4104,
           0.0467],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0491, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0491, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.120140295475721
step:  18
running loss:  0.22889668308198452
Train Steps: 18/90  Loss: 0.2289 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6256, -0.3496,  1.5313, -0.1727, -0.4812, -0.2339,  0.4121,  0.2335],
        [ 0.5802, -0.3599,  1.4961, -0.1003, -0.4505, -0.1714,  0.3991,  0.2416],
        [ 0.6846, -0.3257,  1.6299,  0.1926, -0.5661,  0.1919,  0.4176,  0.2676],
        [ 0.4458, -0.4585,  1.2494, -0.8908, -0.3609, -1.0730,  0.3473,  0.1982],
        [ 0.4966, -0.3877,  1.1893, -0.8811, -0.4293, -0.9376,  0.3631,  0.2087],
        [ 0.6634, -0.3550,  1.5272, -0.1704, -0.4972, -0.2177,  0.3968,  0.2328],
        [ 0.4826, -0.3862,  1.2012, -0.8707, -0.4220, -0.9600,  0.3600,  0.1954],
        [ 0.4057, -0.4449,  1.1502, -0.9486, -0.3773, -1.0787,  0.3214,  0.1925]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.160642504692078
step:  19
running loss:  0.21898118445747777
Train Steps: 19/90  Loss: 0.2190 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4995, -0.4501,  1.2798, -0.9045, -0.3884, -1.1201,  0.3507,  0.1686],
        [ 0.5374, -0.3718,  1.3481, -0.4737, -0.4760, -0.4540,  0.3643,  0.2129],
        [ 0.5177, -0.4185,  1.3734, -0.5420, -0.4201, -0.6426,  0.3885,  0.1762],
        [ 0.5296, -0.4432,  1.3546, -0.6588, -0.4503, -0.7486,  0.3094,  0.1954],
        [ 0.5990, -0.3650,  1.4727, -0.2500, -0.4999, -0.2574,  0.3996,  0.2076],
        [ 0.5845, -0.3787,  1.4616, -0.2690, -0.4853, -0.3027,  0.3903,  0.1992],
        [ 0.5524, -0.3988,  1.3570, -0.6329, -0.4578, -0.6935,  0.3651,  0.1924],
        [ 0.4944, -0.4201,  1.3606, -0.5418, -0.4362, -0.6470,  0.3477,  0.1965]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.2355e-01, -4.2731e-01,  1.7499e+00, -4.3064e-01, -5.8268e-01,
          -4.6143e-01,  1.6505e-01,  8.6245e-02],
         [ 5.5456e-01, -4.6205e-01,  1.7788e+00, -4.2294e-01, -5.1917e-01,
          -2.2633e-02,  4.2771e-01,  2.4681e-01],
         [ 5.9988e-01, -3.5304e-01,  1.6402e+00,  3.7768e-01, -2.2471e-01,
          -1.8430e-01,  3.0647e-01,  4.4696e-01],
         [ 5.5525e-01, -3.9923e-01,  1.7557e+00, -2.6898e-01, -4.9030e-01,
          -2.6898e-01,  5.4227e-02,  4.1446e-01],
         [ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.9082e-01, -4.3664e-01,  1.7557e+00,  1.3903e-01, -5.1917e-01,
           1.3133e-01,  6.5289e-01,  2.3557e-02],
         [ 5.3839e-01, -4.3610e-01,  1.7961e+00, -4.9992e-01, -5.4804e-01,
          -1.1501e-01,  3.9307e-01,  2.7760e-01],
         [ 5.6637e-01, -4.3212e-01,  1.8249e+00, -2.0739e-01, -2.6513e-01,
           4.1617e-01,  5.6628e-01,  2.0062e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0984, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0984, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.259060598909855
step:  20
running loss:  0.21295302994549276

Train Steps: 20/90  Loss: 0.2130 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6339, 0.4102, 0.8588, 0.3133, 0.4425, 0.2117, 0.6417, 0.5089],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6289, 0.4024, 0.9088, 0.4567, 0.3937, 0.5633, 0.7058, 0.5609],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4723, -0.4247,  1.1850, -0.9063, -0.4518, -0.8865,  0.2939,  0.1639],
        [ 0.5025, -0.3635,  1.3192, -0.5956, -0.5070, -0.4938,  0.3355,  0.1808],
        [ 0.4405, -0.4470,  1.2356, -1.0312, -0.3698, -1.2157,  0.3035,  0.1463],
        [ 0.3921, -0.5284,  1.1823, -1.2778, -0.2926, -1.5964,  0.2982,  0.1206],
        [ 0.5190, -0.3989,  1.3849, -0.7171, -0.4370, -0.7962,  0.4063,  0.1556],
        [ 0.6043, -0.3868,  1.5303, -0.0823, -0.4990, -0.1121,  0.3608,  0.1888],
        [ 0.6078, -0.3671,  1.6489,  0.1029, -0.5688,  0.1931,  0.3999,  0.2117],
        [ 0.5852, -0.4089,  1.5890, -0.1718, -0.4224, -0.2408,  0.3769,  0.1869]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3591e-01, -4.1932e-01,  9.3580e-01, -8.2325e-01, -6.6351e-01,
          -7.2317e-01,  9.4325e-02,  1.7099e-01],
         [ 5.7633e-01, -4.1470e-01,  1.3226e+00, -1.0619e+00, -6.6351e-01,
          -4.1524e-01,  5.3741e-01,  2.5450e-01],
         [ 5.9151e-01, -3.6821e-01,  1.2187e+00, -1.2313e+00, -4.3256e-01,
          -9.5412e-01,  5.7783e-01,  3.7768e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 6.4212e-01, -3.9120e-01,  1.6806e+00, -8.3865e-01, -2.4203e-01,
          -1.3082e+00,  6.7795e-01,  6.4585e-02],
         [ 6.2361e-01, -4.3441e-01,  1.6171e+00,  1.8522e-01, -3.4018e-01,
           2.3557e-02,  6.4711e-01,  6.9746e-02],
         [ 6.1907e-01, -4.2731e-01,  1.9115e+00, -1.7660e-01, -4.6721e-01,
           3.1609e-01,  9.7406e-01,  3.0505e-01],
         [ 5.3585e-01, -4.3703e-01,  1.7095e+00, -3.0331e-02, -8.0370e-02,
          -3.8029e-02,  1.0439e-01,  3.3918e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0438, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0438, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.30288702994585
step:  21
running loss:  0.20489938237837382
Train Steps: 21/90  Loss: 0.2049 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4667, -0.4029,  1.2225, -0.9475, -0.4710, -0.9117,  0.3017,  0.1536],
        [ 0.4264, -0.4826,  1.3187, -1.0577, -0.3452, -1.2749,  0.3562,  0.1209],
        [ 0.5903, -0.3429,  1.5855, -0.0366, -0.5336,  0.1025,  0.4147,  0.1930],
        [ 0.5301, -0.4158,  1.5460, -0.2706, -0.4314, -0.2919,  0.3681,  0.1735],
        [ 0.5612, -0.3537,  1.6040,  0.0042, -0.5038,  0.1165,  0.3997,  0.1812],
        [ 0.5596, -0.3945,  1.5997, -0.1237, -0.4685, -0.0593,  0.3873,  0.1867],
        [ 0.4114, -0.4599,  1.1883, -1.2378, -0.3738, -1.3679,  0.2803,  0.1201],
        [ 0.4364, -0.4916,  1.2448, -1.2068, -0.3356, -1.4575,  0.3233,  0.1142]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5707, -0.4189,  1.2707, -1.2467, -0.4095, -1.3082,  0.3758,
           0.0928],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0400, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0400, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.342839952558279
step:  22
running loss:  0.19740181602537632
Train Steps: 22/90  Loss: 0.1974 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5874, -0.3813,  1.6545, -0.0507, -0.4417,  0.0812,  0.4304,  0.1834],
        [ 0.3994, -0.4998,  1.2229, -1.3992, -0.2548, -1.6338,  0.2909,  0.1109],
        [ 0.4773, -0.3984,  1.3342, -0.7806, -0.4434, -0.6878,  0.3460,  0.1358],
        [ 0.5034, -0.4020,  1.5718, -0.4009, -0.3795, -0.3917,  0.4109,  0.1579],
        [ 0.4831, -0.4854,  1.3986, -1.1440, -0.2725, -1.4507,  0.3654,  0.1005],
        [ 0.6052, -0.4153,  1.6555, -0.1839, -0.4558, -0.1716,  0.4230,  0.1649],
        [ 0.6080, -0.3871,  1.6687, -0.1327, -0.4663, -0.0808,  0.4349,  0.1612],
        [ 0.5008, -0.3815,  1.3538, -0.8037, -0.4405, -0.6999,  0.3763,  0.1449]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0464, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0464, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.389246199280024
step:  23
running loss:  0.1908367912730445
Train Steps: 23/90  Loss: 0.1908 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6133, -0.3910,  1.8013,  0.1958, -0.3964,  0.3140,  0.4751,  0.2048],
        [ 0.4495, -0.4382,  1.2529, -1.0922, -0.3345, -1.1163,  0.2963,  0.1465],
        [ 0.4924, -0.4259,  1.3304, -1.0964, -0.2980, -1.2180,  0.3399,  0.1222],
        [ 0.5933, -0.4085,  1.6925, -0.3447, -0.3869, -0.4754,  0.4793,  0.1284],
        [ 0.5779, -0.3745,  1.5604, -0.4256, -0.4401, -0.2684,  0.4439,  0.1614],
        [ 0.4712, -0.4171,  1.3140, -0.8936, -0.4123, -0.7876,  0.3292,  0.1524],
        [ 0.4787, -0.4535,  1.4525, -0.9943, -0.2762, -1.1924,  0.3752,  0.1188],
        [ 0.5423, -0.4336,  1.6983, -0.3355, -0.3292, -0.3300,  0.4789,  0.1588]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.6273, -0.4249,  1.7095,  0.1159, -0.5480, -0.4306,  1.0910,
           0.1928],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0366, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0366, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.425804238766432
step:  24
running loss:  0.18440850994860133

Train Steps: 24/90  Loss: 0.1844 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5954, -0.4218,  1.5997, -0.6919, -0.3504, -0.7712,  0.4362,  0.1723],
        [ 0.5064, -0.3984,  1.6899, -0.0856, -0.4166,  0.1454,  0.4647,  0.2048],
        [ 0.5156, -0.4074,  1.3041, -1.1373, -0.3325, -1.1563,  0.3512,  0.1370],
        [ 0.5488, -0.4500,  1.6568, -0.8152, -0.2328, -1.0531,  0.4730,  0.1296],
        [ 0.5115, -0.4477,  1.4305, -1.0701, -0.2929, -1.2223,  0.3507,  0.1469],
        [ 0.5264, -0.4210,  1.3500, -1.0950, -0.3389, -1.1687,  0.3748,  0.1390],
        [ 0.5776, -0.4009,  1.8139,  0.1687, -0.4191,  0.2928,  0.5090,  0.2054],
        [ 0.5844, -0.3730,  1.7113, -0.0934, -0.4380,  0.1155,  0.4841,  0.1837]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.456804607063532
step:  25
running loss:  0.17827218428254127
Train Steps: 25/90  Loss: 0.1783 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5044, -0.4351,  1.3826, -1.0189, -0.3350, -1.0562,  0.3842,  0.1582],
        [ 0.5649, -0.4414,  1.5426, -0.8654, -0.3159, -0.9570,  0.4214,  0.1911],
        [ 0.5411, -0.4083,  1.3608, -1.0084, -0.3764, -1.0115,  0.3643,  0.1792],
        [ 0.5614, -0.4106,  1.7066, -0.1109, -0.4423,  0.2117,  0.5177,  0.2240],
        [ 0.6142, -0.4105,  1.7577, -0.4887, -0.3124, -0.6148,  0.5242,  0.1637],
        [ 0.5997, -0.4014,  1.5340, -0.7335, -0.3835, -0.6683,  0.4661,  0.1797],
        [ 0.4949, -0.4439,  1.4315, -1.0887, -0.2691, -1.1977,  0.3793,  0.1786],
        [ 0.6371, -0.4062,  1.9366,  0.3314, -0.4247,  0.4813,  0.5960,  0.2351]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.6116, -0.3898,  1.8654, -0.1997, -0.4788, -1.1081,  0.4367,
          -0.0637],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.679033596068621
step:  26
running loss:  0.17996283061802387
Train Steps: 26/90  Loss: 0.1800 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6199, 0.4065, 0.7598, 0.2385, 0.4317, 0.1981, 0.5933, 0.5221],
        [0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5752, -0.4557,  1.7538, -0.0873, -0.4162,  0.0275,  0.5230,  0.2209],
        [ 0.5054, -0.4485,  1.6481, -0.3998, -0.3812, -0.2287,  0.4958,  0.1973],
        [ 0.5210, -0.4305,  1.3226, -1.2333, -0.3546, -1.2685,  0.3925,  0.1713],
        [ 0.4906, -0.4524,  1.2683, -1.1478, -0.3965, -1.0973,  0.3616,  0.2053],
        [ 0.5731, -0.4653,  1.7510, -0.3070, -0.4253, -0.3510,  0.5229,  0.1982],
        [ 0.5210, -0.4544,  1.4968, -0.9434, -0.3615, -1.0090,  0.4108,  0.1978],
        [ 0.5749, -0.4515,  1.7346, -0.6102, -0.3249, -0.7786,  0.5225,  0.1889],
        [ 0.5185, -0.4411,  1.7667, -0.0767, -0.4038,  0.1146,  0.5136,  0.2516]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5774, -0.4082,  1.2235, -1.1844, -0.2919, -1.3709,  0.4544,
           0.1256],
         [ 0.5049, -0.4428,  0.8692, -0.9581, -0.6693, -0.8386,  0.0897,
           0.2589],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0442, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0442, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.7232260555028915
step:  27
running loss:  0.17493429835195895
Train Steps: 27/90  Loss: 0.1749 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6163, 0.4006, 0.8788, 0.4683, 0.3663, 0.4883, 0.5887, 0.5017],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5405, -0.4394,  1.4507, -0.9549, -0.4286, -0.9721,  0.4815,  0.1903],
        [ 0.4607, -0.4560,  1.2716, -0.9976, -0.4577, -0.8585,  0.3750,  0.2287],
        [ 0.4619, -0.4713,  1.5905, -0.4083, -0.3709, -0.4039,  0.4716,  0.2178],
        [ 0.4783, -0.4746,  1.6230, -0.4580, -0.3821, -0.4283,  0.4770,  0.2247],
        [ 0.5517, -0.4558,  1.6601, -0.6311, -0.3759, -0.8260,  0.4948,  0.2009],
        [ 0.4894, -0.4661,  1.5988, -0.3804, -0.4628, -0.1826,  0.4667,  0.2203],
        [ 0.5504, -0.4706,  1.7239, -0.2985, -0.4422, -0.2883,  0.5128,  0.1965],
        [ 0.5535, -0.4622,  1.7266, -0.4120, -0.4370, -0.4260,  0.4954,  0.2181]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.5609, -0.4354,  1.7730, -0.1227, -0.5942, -0.0303,  0.4335,
           0.0313],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0562, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0562, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.779460072517395
step:  28
running loss:  0.17069500258990697

Train Steps: 28/90  Loss: 0.1707 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4621, -0.4910,  1.5000, -0.4019, -0.4888, -0.2934,  0.4030,  0.2112],
        [ 0.4917, -0.4781,  1.5036, -0.9912, -0.3765, -1.2404,  0.4376,  0.1793],
        [ 0.4635, -0.4929,  1.6376, -0.2115, -0.4377, -0.1783,  0.4493,  0.2203],
        [ 0.4968, -0.4848,  1.6916, -0.1059, -0.5143,  0.0720,  0.5134,  0.2184],
        [ 0.5540, -0.4735,  1.7266, -0.2006, -0.5030, -0.1378,  0.4941,  0.2128],
        [ 0.5009, -0.4610,  1.3333, -1.0000, -0.4870, -1.0072,  0.4258,  0.1925],
        [ 0.5170, -0.4835,  1.7170, -0.1887, -0.4760, -0.2195,  0.4769,  0.1899],
        [ 0.4410, -0.5048,  1.4669, -1.0029, -0.3608, -1.2285,  0.4652,  0.1677]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6289, -0.4393,  1.3977,  0.3777, -0.5134, -0.0457,  1.0984,
           0.1821],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.998158469796181
step:  29
running loss:  0.17235029206193728
Train Steps: 29/90  Loss: 0.1724 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4439, -0.4882,  1.6552, -0.1041, -0.5164, -0.0036,  0.4752,  0.1893],
        [ 0.4620, -0.4752,  1.6635, -0.2930, -0.4908, -0.3561,  0.4884,  0.1639],
        [ 0.4005, -0.5161,  1.5989, -0.2423, -0.4633, -0.2455,  0.4451,  0.1616],
        [ 0.4913, -0.5129,  1.6991, -0.2184, -0.4814, -0.2698,  0.4712,  0.1792],
        [ 0.4668, -0.4844,  1.6592, -0.1376, -0.4977, -0.1037,  0.4597,  0.1926],
        [ 0.3816, -0.5161,  1.4410, -0.9878, -0.3631, -1.2132,  0.4439,  0.1703],
        [ 0.4210, -0.4985,  1.4144, -1.0300, -0.4295, -1.1849,  0.4380,  0.1659],
        [ 0.4693, -0.5386,  1.6060, -0.4653, -0.4800, -0.5654,  0.4283,  0.1936]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0521, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0521, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.050214387476444
step:  30
running loss:  0.16834047958254814
Train Steps: 30/90  Loss: 0.1683 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4256, -0.5307,  1.4230, -0.6611, -0.4992, -0.7421,  0.4294,  0.1491],
        [ 0.4814, -0.4975,  1.7566, -0.1036, -0.4995, -0.1922,  0.5431,  0.1585],
        [ 0.4664, -0.5085,  1.9594,  0.3104, -0.4150,  0.1499,  0.5579,  0.1315],
        [ 0.4296, -0.5129,  1.9311,  0.3247, -0.4423,  0.3089,  0.5455,  0.1614],
        [ 0.3443, -0.5417,  1.3398, -0.8960, -0.4093, -1.0721,  0.3534,  0.1745],
        [ 0.4356, -0.5197,  1.4351, -0.7563, -0.4948, -0.8742,  0.4220,  0.1475],
        [ 0.3822, -0.5374,  1.4107, -0.7609, -0.4680, -0.9120,  0.3871,  0.1718],
        [ 0.4443, -0.4906,  1.4567, -0.7145, -0.4900, -0.8297,  0.4329,  0.1366]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7296e-01, -4.5619e-01,  1.2195e+00, -1.2440e+00, -5.4966e-01,
          -7.7109e-01,  5.7045e-01,  1.7788e-01],
         [ 6.0710e-01, -4.1186e-01,  1.7788e+00, -5.1532e-01, -6.0000e-01,
          -5.6921e-01,  6.5857e-01, -6.7050e-02],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 5.6637e-01, -4.3212e-01,  1.8249e+00, -2.0739e-01, -2.6513e-01,
           4.1617e-01,  5.6628e-01,  2.0062e-01],
         [ 5.8620e-01, -3.5296e-01,  1.1032e+00, -1.0619e+00, -1.4965e-01,
          -1.3852e+00,  3.4111e-01,  3.9307e-01],
         [ 5.2194e-01, -4.5504e-01,  1.1415e+00, -9.1962e-01, -6.4042e-01,
          -9.3872e-01,  1.8562e-01,  1.4106e-02],
         [ 5.6028e-01, -3.7637e-01,  8.0878e-01, -1.1466e+00, -4.5566e-01,
          -1.1158e+00,  3.6420e-01,  2.3911e-01],
         [ 4.9971e-01, -4.4465e-01,  1.1610e+00, -9.7721e-01, -6.0577e-01,
          -1.0311e+00,  1.4038e-01, -1.0312e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0491, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0491, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.099356964230537
step:  31
running loss:  0.16449538594292057
Train Steps: 31/90  Loss: 0.1645 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4981, -0.5002,  1.8641,  0.2520, -0.4876,  0.1037,  0.5152,  0.1010],
        [ 0.4992, -0.4909,  1.9148,  0.4428, -0.4518,  0.3332,  0.5102,  0.1114],
        [ 0.5246, -0.4915,  1.7953, -0.2241, -0.4603, -0.4731,  0.5106,  0.1482],
        [ 0.3892, -0.4989,  1.4743, -0.3986, -0.5017, -0.3789,  0.4380,  0.1431],
        [ 0.3725, -0.5422,  1.3167, -0.9795, -0.4368, -1.2552,  0.3796,  0.1484],
        [ 0.3573, -0.5144,  1.2350, -0.8814, -0.4860, -0.9428,  0.3407,  0.1568],
        [ 0.3831, -0.4949,  1.4455, -0.4288, -0.5095, -0.3071,  0.3988,  0.1604],
        [ 0.2896, -0.5915,  1.6280, -0.6673, -0.2973, -1.0396,  0.5594,  0.1253]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [ 5.7829e-01, -4.3634e-01,  1.7724e+00,  4.3211e-02, -5.1531e-01,
           8.7136e-02,  4.8401e-01,  6.6263e-02],
         [ 5.7685e-01, -3.8568e-01,  1.5305e+00, -7.6936e-01, -6.4619e-01,
          -6.3079e-01,  3.9885e-01,  3.3149e-01],
         [ 5.4440e-01, -3.8522e-01,  1.3786e+00, -5.4087e-01, -6.9238e-01,
          -4.2294e-01,  1.7915e-01,  2.3412e-01],
         [ 5.1085e-01, -4.3164e-01,  1.1436e+00, -1.3467e+00, -3.8637e-01,
          -1.4160e+00,  1.2393e-01, -5.8033e-02],
         [ 5.4099e-01, -4.3210e-01,  8.8383e-01, -9.8491e-01, -5.7691e-01,
          -1.0003e+00,  2.6028e-01,  3.3149e-01],
         [ 5.4319e-01, -4.2240e-01,  1.3284e+00, -8.5404e-01, -6.8661e-01,
          -2.2633e-02,  4.0770e-01,  3.1769e-01],
         [-2.2859e+00, -2.2859e+00,  1.6517e+00, -1.2620e+00,  2.1409e-01,
          -1.1928e+00,  1.1166e+00,  2.4627e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1953, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1953, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.294639840722084
step:  32
running loss:  0.16545749502256513

Train Steps: 32/90  Loss: 0.1655 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3085, -0.5768,  1.4610, -0.7784, -0.3601, -1.1018,  0.4599,  0.1369],
        [ 0.4371, -0.5274,  1.7047, -0.0446, -0.4892, -0.1888,  0.5027,  0.0903],
        [ 0.4908, -0.4720,  1.7375, -0.0467, -0.5059, -0.2004,  0.4971,  0.1306],
        [ 0.3127, -0.5506,  1.1132, -1.1260, -0.4676, -1.1954,  0.3508,  0.1386],
        [ 0.4899, -0.4851,  1.8631,  0.2737, -0.4897,  0.2595,  0.5035,  0.1027],
        [ 0.2675, -0.5867,  1.1643, -1.0927, -0.4417, -1.2381,  0.3678,  0.1496],
        [ 0.3908, -0.5745,  1.7423, -0.0200, -0.3634, -0.2191,  0.4888,  0.1441],
        [ 0.3999, -0.5149,  1.7153,  0.0344, -0.4431,  0.0088,  0.4822,  0.1426]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.6072, -0.4247,  1.8711, -0.0842, -0.5307,  0.1005,  0.6771,
          -0.0821],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1797, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1797, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.4743141531944275
step:  33
running loss:  0.1658883076725584
Train Steps: 33/90  Loss: 0.1659 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4013, 0.8888, 0.4767, 0.3600, 0.3567, 0.6148, 0.4672],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6300, 0.4102, 0.9088, 0.4433, 0.4088, 0.3067, 0.6820, 0.5540]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4537, -0.5209,  1.6994, -0.1240, -0.4797, -0.3147,  0.4962,  0.1137],
        [ 0.2515, -0.5921,  1.1194, -1.0232, -0.4625, -1.1073,  0.3233,  0.1711],
        [ 0.4298, -0.5692,  1.8640,  0.1525, -0.3792, -0.1307,  0.4597,  0.1279],
        [ 0.3892, -0.5137,  1.5070, -0.3672, -0.4984, -0.3483,  0.4242,  0.1417],
        [ 0.3929, -0.5408,  1.5922, -0.0295, -0.4774, -0.1083,  0.4134,  0.1505],
        [ 0.3016, -0.5772,  1.1988, -0.8329, -0.4858, -0.8551,  0.3505,  0.1630],
        [ 0.4089, -0.5140,  1.5588, -0.3554, -0.5156, -0.3883,  0.4443,  0.1207],
        [ 0.2977, -0.6028,  1.8114, -0.2007, -0.3145, -0.6246,  0.5291,  0.1498]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4324,  1.8192, -0.0842, -0.6231, -0.6385,  0.5537,
          -0.1278],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.6240, -0.3912,  1.9115, -0.2382, -0.3979, -0.8694,  0.8644,
           0.2730]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0368, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0368, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.511073064059019
step:  34
running loss:  0.16209038423702998
Train Steps: 34/90  Loss: 0.1621 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3724, -0.5650,  1.5811, -0.3080, -0.4808, -0.4925,  0.4385,  0.1313],
        [ 0.2653, -0.6318,  1.3712, -0.6937, -0.3957, -0.8542,  0.4976,  0.1337],
        [ 0.1592, -0.6391,  1.2529, -0.8141, -0.3916, -0.9404,  0.3738,  0.2095],
        [ 0.1828, -0.6339,  1.3143, -0.7811, -0.3769, -1.0112,  0.4253,  0.1762],
        [ 0.4055, -0.5633,  1.4417, -0.5345, -0.5245, -0.6789,  0.4411,  0.1603],
        [ 0.2255, -0.6256,  1.2832, -0.7301, -0.4409, -0.8754,  0.3790,  0.1613],
        [ 0.5063, -0.4833,  1.8031,  0.4133, -0.4401,  0.4369,  0.4695,  0.1416],
        [ 0.5404, -0.4651,  1.7917,  0.4030, -0.4918,  0.3713,  0.4484,  0.1168]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2046, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2046, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.71563608571887
step:  35
running loss:  0.16330388816339628
Train Steps: 35/90  Loss: 0.1633 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6314, 0.4107, 0.8750, 0.5100, 0.3788, 0.4900, 0.7121, 0.5864],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1656, -0.6813,  1.2116, -0.9808, -0.3851, -1.2191,  0.4084,  0.2121],
        [ 0.5132, -0.4670,  1.8552,  0.3621, -0.4981,  0.4013,  0.4923,  0.1279],
        [ 0.2068, -0.6265,  1.0946, -0.9656, -0.4810, -1.0109,  0.3559,  0.1965],
        [ 0.4097, -0.5306,  1.4900, -0.4212, -0.4880, -0.4898,  0.4622,  0.1524],
        [ 0.1992, -0.6792,  1.3864, -0.7662, -0.3886, -1.0255,  0.4300,  0.2195],
        [ 0.5568, -0.4758,  1.8857,  0.3602, -0.4827,  0.2015,  0.5142,  0.1116],
        [ 0.2005, -0.6281,  1.0860, -1.0023, -0.4493, -1.0749,  0.3525,  0.2077],
        [ 0.5050, -0.4917,  1.7101,  0.1303, -0.4779,  0.0353,  0.4208,  0.1442]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.6306, -0.3888,  1.7557,  0.0697, -0.5365, -0.0226,  1.0033,
           0.4226],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0442, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0442, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.759868372231722
step:  36
running loss:  0.1599963436731034

Train Steps: 36/90  Loss: 0.1600 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6203, 0.4078, 0.8800, 0.5083, 0.3900, 0.5000, 0.6100, 0.5583],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0306, -0.7482,  1.1684, -1.1746, -0.3463, -1.4168,  0.4507,  0.2861],
        [ 0.4355, -0.4647,  1.4831, -0.1241, -0.5088, -0.0437,  0.4310,  0.1761],
        [ 0.5143, -0.4910,  1.6547, -0.1234, -0.5125, -0.2014,  0.4634,  0.1301],
        [ 0.2105, -0.5922,  1.0609, -0.9738, -0.4900, -0.8628,  0.3837,  0.2377],
        [ 0.5715, -0.4519,  1.6900,  0.0187, -0.5369, -0.0197,  0.4772,  0.1420],
        [ 0.4221, -0.5485,  1.5904, -0.2299, -0.4761, -0.3609,  0.4290,  0.1838],
        [ 0.0825, -0.7490,  1.3565, -1.0026, -0.3237, -1.2647,  0.5705,  0.2463],
        [ 0.5655, -0.4344,  1.5807,  0.0510, -0.5576,  0.0759,  0.3991,  0.1501]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.5794, -0.4023,  1.7788,  0.0620, -0.4845,  0.0236,  0.5316,
           0.2930],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0460, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0460, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.805826131254435
step:  37
running loss:  0.15691421976363337
Train Steps: 37/90  Loss: 0.1569 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6131, 0.4037, 0.6907, 0.2819, 0.3688, 0.2700, 0.5217, 0.5680],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6262, 0.4085, 0.8438, 0.3150, 0.4025, 0.2633, 0.6339, 0.4810],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3484, -0.5611,  1.1903, -0.8528, -0.5253, -0.8242,  0.4086,  0.2321],
        [ 0.5839, -0.4033,  1.4489, -0.3269, -0.5890, -0.0762,  0.4293,  0.1951],
        [ 0.6881, -0.3780,  1.8892,  0.4334, -0.4735,  0.3656,  0.5026,  0.1625],
        [ 0.3486, -0.5398,  1.1285, -0.8707, -0.5217, -0.8116,  0.3905,  0.2235],
        [ 0.1830, -0.6934,  1.5746, -0.6413, -0.2942, -0.8391,  0.6271,  0.2453],
        [ 0.4457, -0.5310,  1.4380, -0.6530, -0.4888, -0.6945,  0.5348,  0.1828],
        [ 0.3547, -0.5630,  1.3450, -0.6403, -0.4638, -0.7016,  0.4201,  0.2484],
        [ 0.1226, -0.6902,  1.2788, -0.9352, -0.3668, -1.0977,  0.4852,  0.2776]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.5432, -0.4224,  1.3284, -0.8540, -0.6866, -0.0226,  0.4077,
           0.3177],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5459, -0.4215,  0.9043, -0.9838, -0.5827, -1.0388,  0.1236,
           0.3378],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.6064, -0.3990,  1.6113, -0.8309, -0.4268, -1.0696,  0.6421,
          -0.0640],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0582, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0582, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.863999526947737
step:  38
running loss:  0.15431577702494045
Train Steps: 38/90  Loss: 0.1543 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6287, -0.4028,  1.6203, -0.1966, -0.4968, -0.2871,  0.5465,  0.1927],
        [ 0.5755, -0.4245,  1.5422, -0.3178, -0.4948, -0.3611,  0.5096,  0.1966],
        [ 0.5557, -0.4868,  1.7148, -0.1531, -0.4118, -0.2448,  0.5633,  0.2358],
        [ 0.2434, -0.6120,  1.1403, -1.0868, -0.4222, -1.0653,  0.4561,  0.3103],
        [ 0.2002, -0.6206,  0.9828, -1.2643, -0.4166, -1.2470,  0.4367,  0.3031],
        [ 0.0895, -0.6730,  1.1629, -1.1852, -0.3008, -1.2543,  0.5230,  0.3339],
        [ 0.6912, -0.3737,  1.6513, -0.1489, -0.5177, -0.0689,  0.4943,  0.1897],
        [ 0.5583, -0.4039,  1.4031, -0.2909, -0.5239, -0.1276,  0.4636,  0.2189]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5379, -0.4358,  1.7326,  0.1852, -0.6058, -0.5461,  0.0684,
          -0.0310],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0508, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0508, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.914830353111029
step:  39
running loss:  0.15166231674643663
Train Steps: 39/90  Loss: 0.1517 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6486, -0.3410,  1.5774, -0.2222, -0.4965, -0.0596,  0.5604,  0.2172],
        [ 0.6847, -0.3742,  1.5988, -0.2892, -0.5014, -0.3354,  0.5350,  0.2231],
        [ 0.6656, -0.3219,  1.4963, -0.2681, -0.5249, -0.1370,  0.4741,  0.2231],
        [ 0.5834, -0.4588,  1.4839, -0.5551, -0.5066, -0.6224,  0.4980,  0.2645],
        [ 0.6183, -0.3602,  1.5010, -0.4473, -0.4864, -0.3845,  0.5184,  0.2457],
        [ 0.1681, -0.6630,  1.1836, -1.3643, -0.2738, -1.4343,  0.6444,  0.3350],
        [ 0.5656, -0.3962,  1.4756, -0.3737, -0.4396, -0.3481,  0.4812,  0.2817],
        [ 0.1295, -0.6485,  1.0784, -1.3811, -0.3357, -1.4434,  0.5232,  0.3749]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0610, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0610, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.975822579115629
step:  40
running loss:  0.14939556447789074

Train Steps: 40/90  Loss: 0.1494 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4081, 0.8950, 0.4017, 0.3788, 0.4700, 0.5963, 0.5667],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7940, -0.2830,  1.7891, -0.1529, -0.4726, -0.1025,  0.5921,  0.2275],
        [ 0.7956, -0.3095,  1.8062,  0.0619, -0.4303,  0.0046,  0.5869,  0.1973],
        [ 0.4080, -0.4914,  1.0629, -1.2522, -0.4499, -1.1842,  0.4631,  0.3219],
        [ 0.8304, -0.2782,  1.7126, -0.1263, -0.4942, -0.1525,  0.5709,  0.2095],
        [ 0.6740, -0.3268,  1.7111, -0.1091, -0.3630, -0.1135,  0.5836,  0.2540],
        [ 0.2240, -0.6083,  1.1813, -1.3228, -0.2818, -1.4002,  0.5638,  0.3649],
        [ 0.2937, -0.5621,  1.0164, -1.4729, -0.3887, -1.4923,  0.4779,  0.3411],
        [ 0.5184, -0.4149,  1.1081, -1.0105, -0.5213, -0.8176,  0.4427,  0.3183]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5799, -0.4012,  1.8480, -0.4306, -0.5365, -0.1150,  0.4681,
           0.3315],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0260, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0260, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.001800514757633
step:  41
running loss:  0.14638537840872276
Train Steps: 41/90  Loss: 0.1464 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4199, -0.4943,  1.0790, -1.4109, -0.3797, -1.4113,  0.5004,  0.3263],
        [ 0.7100, -0.3301,  1.7054, -0.2859, -0.3876, -0.3165,  0.5298,  0.2141],
        [ 0.6441, -0.3112,  1.6181, -0.4765, -0.3953, -0.5129,  0.5334,  0.2616],
        [ 0.4550, -0.4527,  1.3070, -1.0951, -0.3657, -1.0771,  0.5272,  0.3358],
        [ 0.7904, -0.2419,  1.7333, -0.0269, -0.4500, -0.0779,  0.5352,  0.2389],
        [ 0.7278, -0.3011,  1.6891, -0.2632, -0.4183, -0.2551,  0.5382,  0.2533],
        [ 0.3967, -0.4765,  0.9523, -1.4774, -0.4310, -1.3825,  0.4442,  0.3253],
        [ 0.7859, -0.2656,  1.7115, -0.2033, -0.4576, -0.1586,  0.5810,  0.1942]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0263, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0263, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.028124667704105
step:  42
running loss:  0.1435267778024787
Train Steps: 42/90  Loss: 0.1435 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6704, -0.3256,  1.6446, -0.3800, -0.3220, -0.4287,  0.5034,  0.2098],
        [ 0.7600, -0.2821,  1.6958, -0.3735, -0.4332, -0.5067,  0.5104,  0.2388],
        [ 0.4023, -0.5221,  1.4291, -1.2232, -0.2208, -1.2984,  0.6148,  0.2990],
        [ 0.4486, -0.4718,  1.0584, -1.5126, -0.3953, -1.4553,  0.4707,  0.3244],
        [ 0.7212, -0.2695,  1.4876, -0.3751, -0.4994, -0.2967,  0.4663,  0.2486],
        [ 0.7195, -0.2523,  1.4674, -0.6101, -0.5033, -0.4567,  0.4606,  0.2342],
        [ 0.7293, -0.2780,  1.6936, -0.2997, -0.3912, -0.3453,  0.5069,  0.1911],
        [ 0.7337, -0.2971,  1.6755, -0.2719, -0.3963, -0.3425,  0.4923,  0.2010]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3279e-01, -4.3610e-01,  1.7268e+00,  6.9746e-02, -6.3048e-02,
           2.0831e-01,  2.1029e-01,  5.3181e-02],
         [ 6.0964e-01, -4.0462e-01,  1.8249e+00, -7.2363e-03, -6.1155e-01,
          -3.5366e-01,  6.1824e-01,  9.2841e-02],
         [-2.2859e+00, -2.2859e+00,  1.8249e+00, -8.0015e-01,  4.0878e-02,
          -1.2543e+00,  8.0590e-01,  3.0505e-01],
         [ 5.8614e-01, -3.9292e-01,  1.0570e+00, -1.4314e+00, -3.2864e-01,
          -1.1235e+00,  6.1824e-01,  1.8522e-01],
         [ 6.4542e-01, -3.9842e-01,  1.3804e+00,  2.5450e-01, -4.5566e-01,
          -3.8029e-02,  1.1057e+00,  3.4780e-01],
         [ 5.2748e-01, -4.3957e-01,  1.5543e+00, -2.8408e-01, -5.3649e-01,
          -1.8430e-01,  1.2208e-01,  3.2654e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2217, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2217, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.249815843999386
step:  43
running loss:  0.14534455451161363
Train Steps: 43/90  Loss: 0.1453 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7581, -0.3525,  1.8243, -0.3983, -0.3701, -0.6395,  0.5296,  0.1889],
        [ 0.8480, -0.2333,  1.9051, -0.0124, -0.4633, -0.0062,  0.5412,  0.1463],
        [ 0.8636, -0.2277,  1.8561, -0.0840, -0.4672, -0.1841,  0.4694,  0.1467],
        [ 0.4291, -0.4614,  1.0137, -1.4131, -0.4086, -1.3380,  0.3718,  0.2872],
        [ 0.6720, -0.2897,  1.6456, -0.1900, -0.3317, -0.2876,  0.4857,  0.1960],
        [ 0.3500, -0.5126,  0.9928, -1.5114, -0.3518, -1.4417,  0.4003,  0.3029],
        [ 0.3663, -0.4884,  1.2399, -1.2750, -0.2920, -1.2833,  0.4599,  0.3037],
        [ 0.7835, -0.2698,  1.8654,  0.0564, -0.3705,  0.0656,  0.5092,  0.1624]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701]]], device='cuda:0')
loss_train_step before backward:  tensor(0.5159, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.5159, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train:  6.765694998204708
step:  44
running loss:  0.15376579541374336
Train Steps: 44/90  Loss: 0.1538 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5681, -0.3922,  1.6770, -0.3190, -0.3526, -0.5051,  0.4730,  0.1606],
        [ 0.6769, -0.3203,  1.6853, -0.1504, -0.4270, -0.2334,  0.4160,  0.1653],
        [ 0.4975, -0.4291,  1.5476, -0.6745, -0.3673, -0.7478,  0.4353,  0.2326],
        [ 0.7256, -0.3172,  1.7803, -0.0423, -0.4017, -0.0852,  0.4411,  0.1329],
        [ 0.7370, -0.3005,  1.8452, -0.0926, -0.4353, -0.1475,  0.4734,  0.1246],
        [ 0.3213, -0.5524,  1.2729, -1.2532, -0.2965, -1.3091,  0.4605,  0.2714],
        [ 0.2930, -0.5338,  1.3079, -1.0069, -0.2362, -0.9552,  0.4142,  0.2860],
        [ 0.5536, -0.4193,  1.4912, -0.7955, -0.4314, -0.8450,  0.4179,  0.2130]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0398, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0398, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.80553362518549
step:  45
running loss:  0.15123408055967755
Train Steps: 45/90  Loss: 0.1512 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3271, -0.5318,  1.5833, -0.6055, -0.2818, -0.7147,  0.4776,  0.2189],
        [ 0.6006, -0.3905,  1.7411, -0.1581, -0.3956, -0.1973,  0.4302,  0.1447],
        [ 0.3604, -0.5165,  1.4272, -0.8646, -0.3821, -0.9327,  0.3752,  0.2403],
        [ 0.1835, -0.6378,  1.4985, -1.1170, -0.1787, -1.2397,  0.5342,  0.2482],
        [ 0.6568, -0.3744,  1.8330, -0.0872, -0.4559, -0.2435,  0.4343,  0.1183],
        [ 0.5622, -0.3841,  1.6823, -0.1538, -0.3768, -0.2230,  0.3884,  0.1781],
        [ 0.6354, -0.3549,  1.7240, -0.0143, -0.4266, -0.0859,  0.4077,  0.1498],
        [ 0.3661, -0.5067,  1.3478, -0.9482, -0.4265, -0.9791,  0.3621,  0.2470]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0359, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0359, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.841406472027302
step:  46
running loss:  0.14872622765276744
Train Steps: 46/90  Loss: 0.1487 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3840, -0.5315,  1.8182, -0.2895, -0.2842, -0.6059,  0.4778,  0.1746],
        [ 0.5873, -0.3852,  1.7610,  0.0130, -0.4095, -0.0445,  0.3412,  0.1994],
        [ 0.4079, -0.5127,  1.5575, -0.6584, -0.4286, -0.7907,  0.3493,  0.2210],
        [ 0.1248, -0.6520,  1.2992, -1.0770, -0.2927, -1.1115,  0.3463,  0.2811],
        [ 0.5570, -0.4181,  1.8028, -0.0158, -0.3737, -0.1759,  0.3713,  0.1611],
        [ 0.3128, -0.5459,  1.2268, -0.9812, -0.4740, -0.9341,  0.2947,  0.2475],
        [ 0.6236, -0.3824,  1.7676,  0.0590, -0.4433, -0.0679,  0.3503,  0.1704],
        [ 0.3081, -0.5636,  1.7776, -0.4745, -0.2314, -0.7536,  0.5243,  0.2039]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.6010, -0.4321,  1.6517,  0.2160, -0.4210,  0.0774,  0.6356,
           0.0313],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1665, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1665, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.0079174265265465
step:  47
running loss:  0.1491046260963095
Train Steps: 47/90  Loss: 0.1491 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0535, -0.7069,  1.2344, -0.9993, -0.3315, -1.0784,  0.2902,  0.2823],
        [ 0.2657, -0.5997,  1.6602, -0.5471, -0.2962, -0.7206,  0.4205,  0.2333],
        [ 0.3856, -0.5336,  1.8462, -0.1078, -0.3412, -0.3655,  0.4130,  0.2259],
        [ 0.3312, -0.5656,  1.4524, -0.7236, -0.4373, -0.8358,  0.3779,  0.2153],
        [-0.0348, -0.7601,  1.2570, -1.0044, -0.2545, -1.0930,  0.3087,  0.3088],
        [ 0.5419, -0.4685,  2.0130,  0.1167, -0.3741, -0.3086,  0.4475,  0.1471],
        [ 0.8008, -0.2977,  1.9959,  0.6074, -0.5156,  0.4412,  0.3769,  0.1513],
        [ 0.2861, -0.5947,  1.3415, -0.6672, -0.4133, -0.7388,  0.2971,  0.2424]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.6116, -0.3898,  1.8654, -0.1997, -0.4788, -1.1081,  0.4367,
          -0.0637],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855]]], device='cuda:0')
loss_train_step before backward:  tensor(0.3112, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.3112, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.319082103669643
step:  48
running loss:  0.15248087715978423
Train Steps: 48/90  Loss: 0.1525 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2065, -0.6275,  1.5711, -0.3425, -0.3605, -0.5036,  0.3276,  0.2431],
        [ 0.3137, -0.5515,  1.6447, -0.2573, -0.4272, -0.3420,  0.3673,  0.2457],
        [ 0.3199, -0.6279,  1.8709, -0.2268, -0.3714, -0.7510,  0.4436,  0.2008],
        [ 0.3236, -0.5680,  1.6676, -0.1668, -0.4192, -0.4400,  0.3268,  0.2124],
        [ 0.1441, -0.6837,  1.2961, -0.8674, -0.4645, -0.9738,  0.2507,  0.2833],
        [ 0.4580, -0.5463,  1.8016, -0.0027, -0.4537, -0.3965,  0.3903,  0.1912],
        [ 0.2008, -0.6386,  1.6768, -0.3726, -0.3226, -0.5094,  0.3750,  0.2283],
        [ 0.3267, -0.5803,  1.8235, -0.1224, -0.3388, -0.3754,  0.4049,  0.2350]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0701, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0701, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.389189012348652
step:  49
running loss:  0.1507997757622174
Train Steps: 49/90  Loss: 0.1508 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5294, -0.4750,  1.7715,  0.1190, -0.5351, -0.1170,  0.4085,  0.2083],
        [-0.0845, -0.8747,  1.6868, -0.7018, -0.2010, -1.1213,  0.4768,  0.2605],
        [ 0.0189, -0.7988,  1.2685, -0.9018, -0.4537, -1.1003,  0.2813,  0.2620],
        [ 0.4374, -0.4821,  1.6311, -0.0043, -0.5430, -0.1109,  0.3076,  0.2101],
        [ 0.3483, -0.5449,  1.8120,  0.2408, -0.3022,  0.0264,  0.3682,  0.2554],
        [ 0.4092, -0.5825,  1.6334, -0.1759, -0.5376, -0.3951,  0.3223,  0.2299],
        [ 0.3080, -0.5890,  1.4904, -0.3696, -0.5447, -0.5251,  0.2846,  0.2454],
        [-0.0895, -0.8739,  1.7312, -0.6509, -0.1901, -1.0867,  0.4873,  0.2669]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5783, -0.4216,  1.6847, -0.5078, -0.6732, -0.5377,  0.4752,
           0.0839],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0571, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0571, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.446262441575527
step:  50
running loss:  0.14892524883151054
Train Steps: 50/90  Loss: 0.1489 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1917, -0.8912,  1.1326, -1.0317, -0.4090, -1.2113,  0.2342,  0.2647],
        [ 0.1447, -0.7247,  1.6322, -0.4428, -0.4324, -0.7945,  0.3599,  0.2245],
        [ 0.3594, -0.6005,  1.9348, -0.0460, -0.4138, -0.4227,  0.5189,  0.1961],
        [ 0.1087, -0.7685,  1.8399, -0.3096, -0.2694, -0.7375,  0.5243,  0.2236],
        [-0.2596, -0.9368,  1.3766, -0.8925, -0.2801, -1.1774,  0.3548,  0.2806],
        [ 0.7107, -0.3776,  1.8623,  0.5153, -0.5687,  0.2528,  0.3826,  0.1827],
        [ 0.5197, -0.4508,  1.6900,  0.1712, -0.5216,  0.0608,  0.3766,  0.1881],
        [ 0.3376, -0.5243,  1.4465, -0.2484, -0.5582, -0.1278,  0.3285,  0.2552]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0788, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0788, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.525062687695026
step:  51
running loss:  0.14755024877833386
Train Steps: 51/90  Loss: 0.1476 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3924, -0.5213,  1.6944,  0.0514, -0.4727, -0.0790,  0.4196,  0.1729],
        [ 0.0863, -0.7315,  1.6527, -0.4401, -0.4479, -0.7708,  0.4044,  0.2342],
        [ 0.5413, -0.4434,  1.6979,  0.2409, -0.5767,  0.0799,  0.3926,  0.2002],
        [ 0.1163, -0.7415,  1.5643, -0.5669, -0.5108, -0.8526,  0.3755,  0.2119],
        [ 0.3633, -0.6097,  1.8357, -0.0659, -0.4941, -0.4124,  0.4238,  0.1571],
        [-0.2876, -0.9784,  1.4261, -0.9724, -0.2718, -1.3018,  0.4072,  0.2629],
        [ 0.2977, -0.5920,  1.6902, -0.0351, -0.3639, -0.1044,  0.4685,  0.2399],
        [ 0.3709, -0.5620,  1.5785, -0.3152, -0.6058, -0.4485,  0.4069,  0.1557]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0449, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0449, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.569976683706045
step:  52
running loss:  0.14557647468665472
Train Steps: 52/90  Loss: 0.1456 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0673, -0.7542,  1.7669, -0.3813, -0.2630, -0.6866,  0.5843,  0.1976],
        [ 0.8705, -0.3015,  2.0107,  0.5344, -0.6006,  0.4336,  0.6015,  0.1237],
        [-0.2974, -0.9372,  1.2530, -0.8868, -0.3178, -1.0227,  0.3237,  0.2703],
        [ 0.3326, -0.5938,  1.5830, -0.2542, -0.5651, -0.4246,  0.3844,  0.1999],
        [ 0.6440, -0.4098,  1.8351,  0.1432, -0.6327, -0.0068,  0.4699,  0.1745],
        [ 0.0210, -0.7968,  1.5529, -0.6347, -0.3618, -0.9225,  0.4992,  0.1978],
        [ 0.2055, -0.6765,  1.3400, -0.6754, -0.5636, -0.7407,  0.3770,  0.1858],
        [ 0.1917, -0.6800,  1.3017, -0.6446, -0.5512, -0.7384,  0.3369,  0.1998]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1982, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1982, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.7682068310678005
step:  53
running loss:  0.14656994020882644
Train Steps: 53/90  Loss: 0.1466 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.2143, -0.9404,  1.4668, -1.0647, -0.3230, -1.3438,  0.4597,  0.2239],
        [-0.2777, -0.9847,  1.5412, -1.0364, -0.2318, -1.3185,  0.5605,  0.2012],
        [ 0.6630, -0.3745,  1.6541,  0.1284, -0.6696,  0.0945,  0.4320,  0.1933],
        [ 0.3220, -0.5820,  1.6807, -0.1678, -0.4297, -0.2776,  0.4604,  0.1703],
        [ 0.7033, -0.3861,  1.6634,  0.0126, -0.7016, -0.1221,  0.5019,  0.1436],
        [ 0.5057, -0.4786,  1.6570, -0.0877, -0.5653, -0.0970,  0.4212,  0.2048],
        [ 0.2947, -0.5987,  1.6497, -0.2465, -0.4861, -0.4751,  0.4378,  0.1929],
        [ 0.5106, -0.4723,  1.6720, -0.1766, -0.6225, -0.1774,  0.5021,  0.1598]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1455, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1455, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  7.913748513907194
step:  54
running loss:  0.14655089840568877
Train Steps: 54/90  Loss: 0.1466 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5348, -0.4461,  1.6849, -0.0344, -0.5152,  0.0100,  0.5367,  0.1942],
        [-0.2356, -0.9501,  1.0968, -1.2913, -0.4973, -1.4036,  0.2616,  0.2211],
        [ 0.3467, -0.5774,  1.6509, -0.2637, -0.4446, -0.3173,  0.4580,  0.2147],
        [ 0.2504, -0.6009,  1.6104, -0.3901, -0.4216, -0.3745,  0.5047,  0.1924],
        [ 0.2240, -0.6485,  1.7115, -0.4295, -0.3777, -0.5357,  0.5990,  0.1783],
        [ 0.5265, -0.4631,  1.7272, -0.2212, -0.6034, -0.4052,  0.5230,  0.1763],
        [ 0.4698, -0.5562,  1.8330, -0.1877, -0.5408, -0.6042,  0.5758,  0.1269],
        [ 0.5352, -0.5074,  1.7070, -0.1354, -0.5545, -0.2338,  0.4854,  0.1544]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1391, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1391, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.052847858518362
step:  55
running loss:  0.14641541560942475
Train Steps: 55/90  Loss: 0.1464 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6087, 0.3951, 0.8387, 0.5833, 0.4188, 0.4933, 0.5146, 0.4830],
        [0.6182, 0.3930, 0.8841, 0.3892, 0.3556, 0.4967, 0.6222, 0.5279],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6260, 0.4120, 0.8013, 0.2350, 0.4888, 0.1533, 0.6281, 0.4895],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5108, -0.4988,  1.8392, -0.1524, -0.4782, -0.4393,  0.6054,  0.1707],
        [-0.1989, -0.8882,  1.1078, -1.1526, -0.4256, -1.1660,  0.2669,  0.2613],
        [ 0.6571, -0.3982,  1.7409,  0.0728, -0.5547, -0.0445,  0.5122,  0.1667],
        [ 0.5398, -0.4333,  1.5151, -0.3352, -0.6108, -0.1219,  0.4888,  0.1776],
        [ 0.8204, -0.2803,  1.7220,  0.1719, -0.6168,  0.2006,  0.5326,  0.1883],
        [-0.0578, -0.8517,  1.5819, -0.9280, -0.2828, -1.1182,  0.6220,  0.1895],
        [-0.1826, -0.9124,  1.3633, -1.1262, -0.3392, -1.3109,  0.4546,  0.1922],
        [ 0.6652, -0.3629,  1.7669,  0.1831, -0.4866,  0.0789,  0.5693,  0.1919]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5258, -0.4610,  1.5882,  0.4085, -0.3517, -0.0072,  0.0910,
          -0.0550],
         [ 0.5697, -0.4706,  1.7976, -0.4884, -0.6433,  0.0081,  0.5878,
           0.1525],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6053, -0.3830,  1.4150, -1.2005, -0.0284, -1.5777,  0.6154,
          -0.0250],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0662, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0662, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.11908669397235
step:  56
running loss:  0.14498369096379196

Train Steps: 56/90  Loss: 0.1450 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4652, -0.4927,  1.4310, -0.5926, -0.5860, -0.4583,  0.4855,  0.1917],
        [ 0.0168, -0.8016,  1.7405, -0.7322, -0.1639, -0.9592,  0.7691,  0.1852],
        [ 0.9244, -0.2048,  1.9678,  0.4568, -0.4284,  0.4085,  0.6313,  0.1853],
        [ 0.0860, -0.7330,  1.3060, -0.8993, -0.4453, -0.9782,  0.3544,  0.1966],
        [ 0.0321, -0.7831,  1.3198, -0.9540, -0.4452, -1.0702,  0.3742,  0.1955],
        [-0.0107, -0.7694,  1.3218, -0.8850, -0.4071, -0.9168,  0.3962,  0.2506],
        [ 1.1011, -0.1720,  2.0850,  0.4680, -0.5672,  0.4022,  0.6618,  0.1479],
        [ 0.2294, -0.6558,  1.3344, -0.7895, -0.5082, -0.8425,  0.4000,  0.1940]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0934, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0934, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.212458346039057
step:  57
running loss:  0.14407821659717643
Train Steps: 57/90  Loss: 0.1441 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [   nan,    nan, 0.8850, 0.2817, 0.5112, 0.2183, 0.7184, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1649, -0.7242,  1.5017, -0.9635, -0.3496, -1.1003,  0.5266,  0.1752],
        [ 0.5651, -0.4185,  1.4566, -0.3872, -0.5721, -0.2852,  0.4112,  0.2345],
        [ 0.9952, -0.1645,  1.9069,  0.4831, -0.4560,  0.3968,  0.5863,  0.1960],
        [ 0.6640, -0.3472,  1.5984, -0.2779, -0.5041, -0.0886,  0.5670,  0.2048],
        [ 0.1283, -0.7124,  1.3394, -0.9232, -0.3711, -1.0119,  0.4405,  0.2160],
        [ 0.1406, -0.7053,  1.3067, -0.9091, -0.4227, -0.9925,  0.3371,  0.2296],
        [ 0.6080, -0.4196,  1.5368, -0.4087, -0.5550, -0.3284,  0.4938,  0.1815],
        [ 0.0596, -0.7789,  1.7898, -0.7913, -0.1113, -1.0448,  0.7324,  0.1776]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [-2.2859, -2.2859,  1.8018, -0.9849,  0.0755, -1.2774,  1.0326,
           0.2249]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1737, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1737, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.38615109398961
step:  58
running loss:  0.14458881196533813
Train Steps: 58/90  Loss: 0.1446 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7843, -0.2825,  1.5981, -0.0211, -0.4891, -0.0875,  0.5092,  0.2230],
        [ 0.2781, -0.6108,  1.5591, -0.6938, -0.3728, -0.8706,  0.4629,  0.2388],
        [ 0.5331, -0.3995,  1.5068, -0.4493, -0.4661, -0.2366,  0.5199,  0.2029],
        [ 0.6395, -0.3974,  1.7493, -0.2473, -0.3899, -0.2536,  0.5395,  0.1864],
        [ 0.3610, -0.5704,  1.4294, -0.7834, -0.4042, -0.8035,  0.5313,  0.1834],
        [ 0.3174, -0.6453,  1.6677, -0.7387, -0.2951, -0.9430,  0.5775,  0.1927],
        [ 0.4922, -0.4571,  1.6685, -0.2111, -0.2608, -0.2328,  0.5452,  0.2422],
        [ 0.2434, -0.6341,  1.4036, -0.9700, -0.3803, -1.0104,  0.5442,  0.1745]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0448, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0448, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.43092280998826
step:  59
running loss:  0.14289699677946205
Train Steps: 59/90  Loss: 0.1429 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2818, -0.5519,  1.1398, -0.9494, -0.4569, -0.8034,  0.3754,  0.2358],
        [ 0.2219, -0.6087,  1.2525, -1.0545, -0.3426, -0.9762,  0.4758,  0.1897],
        [ 0.3792, -0.5581,  1.6016, -0.6791, -0.3140, -0.8254,  0.5364,  0.1975],
        [ 0.9969, -0.1383,  1.8140,  0.2493, -0.3933,  0.2813,  0.6364,  0.1949],
        [ 0.0079, -0.7529,  1.2589, -1.0732, -0.2950, -1.1134,  0.4069,  0.2175],
        [ 0.4674, -0.4826,  1.6665, -0.6039, -0.3580, -0.7430,  0.5824,  0.1887],
        [-0.0475, -0.7370,  1.3782, -0.9749, -0.1228, -1.0500,  0.4923,  0.2548],
        [ 1.1495, -0.1309,  1.9559,  0.3334, -0.4791,  0.2528,  0.6781,  0.1574]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1616, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1616, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.592534977942705
step:  60
running loss:  0.14320891629904509

Train Steps: 60/90  Loss: 0.1432 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2086, -0.6300,  1.3176, -1.0979, -0.3326, -1.1253,  0.5210,  0.1824],
        [ 0.1186, -0.6808,  1.6586, -0.8910, -0.1042, -1.1124,  0.6969,  0.1947],
        [ 0.0176, -0.7576,  1.3594, -1.1991, -0.1722, -1.2693,  0.6071,  0.1854],
        [-0.0947, -0.7664,  1.0023, -1.2901, -0.3211, -1.2261,  0.3050,  0.2503],
        [ 0.9525, -0.1494,  1.7418,  0.1433, -0.4784,  0.0591,  0.4824,  0.2212],
        [ 0.8451, -0.1980,  1.6479,  0.0220, -0.4704,  0.0241,  0.4932,  0.2086],
        [ 0.8089, -0.3003,  1.8164, -0.1682, -0.4304, -0.2600,  0.5217,  0.2167],
        [ 0.7858, -0.2762,  1.6638, -0.1935, -0.4581, -0.1493,  0.5384,  0.1817]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1915, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1915, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.784059438854456
step:  61
running loss:  0.1440009744074501
Train Steps: 61/90  Loss: 0.1440 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6239, 0.4206, 0.8750, 0.5400, 0.3688, 0.4850, 0.5737, 0.5700],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4254, -0.5102,  1.6345, -0.7446, -0.3703, -0.9065,  0.4836,  0.1739],
        [ 0.3287, -0.5379,  1.2386, -0.9834, -0.4621, -0.9095,  0.4226,  0.2145],
        [-0.0653, -0.8610,  1.5051, -1.2168, -0.0975, -1.5968,  0.5487,  0.2045],
        [ 0.6743, -0.3409,  1.6672, -0.1588, -0.3592, -0.2565,  0.5132,  0.1833],
        [ 0.8930, -0.2093,  1.7921,  0.0180, -0.4376, -0.1262,  0.5343,  0.2037],
        [ 0.2680, -0.5955,  1.4384, -0.9249, -0.3006, -1.0350,  0.5602,  0.1513],
        [ 0.6325, -0.3450,  1.5545, -0.3512, -0.4066, -0.2343,  0.5168,  0.2220],
        [ 0.6448, -0.3246,  1.5906, -0.2330, -0.3459, -0.0971,  0.5405,  0.2321]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5960, -0.3430,  1.7557,  0.2083, -0.5827, -0.0457,  0.3642,
           0.3469],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0645, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0645, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.848596323281527
step:  62
running loss:  0.14271929553679882
Train Steps: 62/90  Loss: 0.1427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.0193e-01, -3.5355e-01,  1.4660e+00, -3.8460e-01, -4.2701e-01,
         -3.7003e-01,  4.9220e-01,  2.1553e-01],
        [ 6.1210e-01, -3.9221e-01,  1.6649e+00, -4.7105e-01, -4.3883e-01,
         -6.3568e-01,  4.8713e-01,  1.8266e-01],
        [-1.6378e-01, -8.3230e-01,  1.1472e+00, -1.3570e+00, -2.2156e-01,
         -1.4473e+00,  4.2822e-01,  2.1547e-01],
        [ 7.4028e-01, -3.1413e-01,  1.8390e+00, -2.3177e-01, -4.3150e-01,
         -3.5873e-01,  6.1900e-01,  1.3988e-01],
        [ 3.8143e-01, -5.2839e-01,  1.5582e+00, -8.0401e-01, -3.4977e-01,
         -9.7758e-01,  5.2392e-01,  1.7169e-01],
        [ 7.3339e-01, -3.0600e-01,  1.7870e+00, -5.2512e-02, -3.5248e-01,
         -1.5096e-01,  5.9570e-01,  1.4974e-01],
        [ 1.3114e-03, -7.5873e-01,  1.0977e+00, -1.2836e+00, -3.4830e-01,
         -1.3368e+00,  3.7091e-01,  2.0337e-01],
        [ 4.9602e-01, -4.2798e-01,  1.7384e+00, -2.2984e-01, -1.6082e-01,
         -3.1048e-01,  6.1138e-01,  1.8955e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0488, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0488, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  8.897438570857048
step:  63
running loss:  0.1412291836643976
Train Steps: 63/90  Loss: 0.1412 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6887, -0.2958,  1.7633, -0.0927, -0.3535, -0.0904,  0.5729,  0.1684],
        [-0.0433, -0.7717,  1.3271, -1.0488, -0.1998, -1.1762,  0.4160,  0.2186],
        [ 0.9128, -0.2367,  1.9098,  0.0604, -0.4814, -0.3571,  0.5593,  0.1122],
        [ 0.2893, -0.6126,  1.7348, -0.7418, -0.1768, -1.0713,  0.6419,  0.1588],
        [ 0.4247, -0.5085,  1.3427, -0.8894, -0.4398, -0.8603,  0.4474,  0.1686],
        [ 0.3004, -0.5806,  1.2293, -0.9643, -0.3975, -1.0585,  0.3702,  0.1898],
        [ 0.3562, -0.5280,  1.3323, -0.9654, -0.3721, -1.0282,  0.4855,  0.1664],
        [ 0.7345, -0.2874,  1.6705, -0.2287, -0.4608, -0.1024,  0.5201,  0.1640]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5477, -0.4413,  1.3688, -0.8771, -0.6115, -0.8771,  0.4104,
           0.0467],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1364, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1364, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.033822163939476
step:  64
running loss:  0.1411534713115543

Train Steps: 64/90  Loss: 0.1412 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6446, -0.3956,  1.6840, -0.4547, -0.5014, -0.7255,  0.4978,  0.1312],
        [ 0.0775, -0.7255,  1.5045, -1.0049, -0.1928, -1.3421,  0.4969,  0.1804],
        [ 0.5250, -0.3771,  1.4217, -0.5524, -0.4841, -0.3258,  0.4748,  0.1695],
        [ 0.2667, -0.6293,  1.7410, -0.6791, -0.1763, -1.1061,  0.6038,  0.1466],
        [ 0.8183, -0.2901,  1.7640, -0.0631, -0.5073, -0.2813,  0.4108,  0.1293],
        [-0.0212, -0.7648,  1.1398, -1.1932, -0.3444, -1.3294,  0.3225,  0.1775],
        [ 0.6146, -0.3061,  1.4930, -0.4160, -0.4981, -0.2606,  0.4851,  0.1693],
        [ 0.5536, -0.3818,  1.6883, -0.1470, -0.2797, -0.1758,  0.5672,  0.1822]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.6010, -0.3896,  1.7326, -0.5692, -0.6289,  0.0082,  0.5028,
           0.1005],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1453, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1453, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.179143756628036
step:  65
running loss:  0.14121759625581595
Train Steps: 65/90  Loss: 0.1412 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6267, -0.3419,  1.6333, -0.1439, -0.4652, -0.1813,  0.4128,  0.1475],
        [ 0.4693, -0.4492,  1.6629, -0.2391, -0.3128, -0.3149,  0.4396,  0.1641],
        [ 0.0783, -0.7178,  1.6822, -0.9112, -0.1434, -1.2153,  0.5995,  0.1530],
        [ 0.6831, -0.3662,  1.6256, -0.3334, -0.5366, -0.4167,  0.4806,  0.1187],
        [ 0.7415, -0.2970,  1.6891, -0.0164, -0.5241, -0.1477,  0.4616,  0.1052],
        [ 0.2370, -0.6096,  1.6264, -0.7659, -0.3008, -1.0667,  0.4651,  0.1323],
        [ 0.0431, -0.7028,  1.2359, -1.1322, -0.4204, -1.2392,  0.3013,  0.1724],
        [ 0.4519, -0.4859,  1.5367, -0.7710, -0.4870, -0.8818,  0.4508,  0.1412]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1668, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1668, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.345949053764343
step:  66
running loss:  0.14160528869339914
Train Steps: 66/90  Loss: 0.1416 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7712, -0.2923,  1.8211, -0.0302, -0.6109, -0.2295,  0.3809,  0.1126],
        [ 0.7003, -0.3199,  1.8258, -0.0810, -0.5108, -0.0843,  0.5129,  0.1062],
        [ 0.1465, -0.6928,  1.1311, -1.1692, -0.4661, -1.2716,  0.2790,  0.1480],
        [ 0.6411, -0.3872,  1.7449, -0.0299, -0.4848, -0.1530,  0.3797,  0.1211],
        [-0.1579, -0.8550,  1.6510, -1.0446, -0.0177, -1.3773,  0.6750,  0.1100],
        [ 0.3622, -0.5523,  1.4921, -0.6718, -0.5310, -0.9092,  0.2859,  0.1646],
        [ 0.6469, -0.3301,  1.7399, -0.1981, -0.4915, -0.0087,  0.5131,  0.1263],
        [ 0.0991, -0.7330,  1.4066, -1.1085, -0.3121, -1.4014,  0.4390,  0.1324]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5767, -0.4396,  1.6782,  0.1905, -0.3844,  0.0308,  0.4588,
           0.0855],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.6158, -0.4225,  1.3307, -1.3253, -0.1924, -1.3252,  0.6721,
           0.1727]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.476928368210793
step:  67
running loss:  0.14144669206284766
Train Steps: 67/90  Loss: 0.1414 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7303, -0.2955,  1.7954,  0.1157, -0.5662,  0.0109,  0.4479,  0.1301],
        [ 0.6625, -0.3700,  1.7461, -0.0592, -0.5969, -0.2779,  0.3915,  0.0902],
        [ 0.3183, -0.5735,  1.6481, -0.6196, -0.5000, -0.7327,  0.3463,  0.1323],
        [-0.0706, -0.8395,  1.4050, -1.1966, -0.2504, -1.4328,  0.4267,  0.1387],
        [ 0.3940, -0.4962,  1.7431, -0.1674, -0.3207, -0.1481,  0.4893,  0.1618],
        [ 0.3869, -0.5238,  1.6733, -0.3139, -0.4044, -0.6556,  0.4237,  0.1367],
        [ 0.5155, -0.4132,  1.5255, -0.5827, -0.6067, -0.5232,  0.4523,  0.1157],
        [-0.1190, -0.8626,  1.4404, -1.1726, -0.2574, -1.4463,  0.4442,  0.1302]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0537, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0537, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.530608255416155
step:  68
running loss:  0.14015600375611992
Train Steps: 68/90  Loss: 0.1402 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6266, 0.4101, 0.8350, 0.2333, 0.3950, 0.2950, 0.6264, 0.4921],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4384, -0.5000,  1.7996, -0.2838, -0.5043, -0.3255,  0.3941,  0.1576],
        [ 0.7036, -0.3673,  1.8411,  0.1240, -0.5864, -0.0798,  0.4007,  0.1136],
        [ 0.4413, -0.5175,  1.5479, -0.5979, -0.5562, -0.5699,  0.4458,  0.1313],
        [-0.0993, -0.8470,  1.5847, -1.0225, -0.2267, -1.3204,  0.4917,  0.1482],
        [ 0.3940, -0.5685,  1.9010, -0.2202, -0.3972, -0.7088,  0.4700,  0.1093],
        [ 0.0720, -0.7794,  1.3627, -0.9925, -0.3594, -1.2348,  0.3514,  0.1815],
        [ 0.4026, -0.5244,  1.4602, -0.7272, -0.5536, -0.7108,  0.4587,  0.1436],
        [ 0.4534, -0.4552,  1.6432, -0.2746, -0.5154, -0.1603,  0.4155,  0.1531]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.6081, -0.3918,  1.5709, -1.2082, -0.4614, -0.9233,  0.6072,
          -0.0129],
         [ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0482, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0482, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.57880049943924
step:  69
running loss:  0.13882319564404694
Train Steps: 69/90  Loss: 0.1388 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5717, -0.4289,  1.9086,  0.0682, -0.4359,  0.2100,  0.5311,  0.1928],
        [ 0.1212, -0.7306,  1.5996, -0.9908, -0.2890, -1.1521,  0.6839,  0.1284],
        [-0.2105, -0.8776,  1.3527, -1.0402, -0.3279, -1.1361,  0.3717,  0.2074],
        [ 0.6163, -0.3671,  1.7900, -0.0668, -0.6327, -0.2917,  0.4187,  0.1631],
        [-0.0168, -0.8197,  1.1640, -1.2255, -0.4815, -1.3067,  0.3112,  0.1773],
        [ 0.3989, -0.5297,  1.7450, -0.3858, -0.5510, -0.6769,  0.3761,  0.1441],
        [ 0.6817, -0.3759,  1.8699, -0.0261, -0.6450, -0.3888,  0.4625,  0.0988],
        [ 0.3942, -0.5177,  1.7776, -0.0976, -0.3729, -0.1446,  0.4075,  0.1746]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.707480400800705
step:  70
running loss:  0.13867829144001007
Train Steps: 70/90  Loss: 0.1387 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1662, -0.6768,  1.4210, -0.7968, -0.5248, -0.9291,  0.3372,  0.1923],
        [ 0.4368, -0.4664,  1.9125,  0.0626, -0.3291,  0.1259,  0.5564,  0.1895],
        [ 0.7224, -0.3700,  1.8125, -0.1950, -0.6755, -0.3210,  0.5398,  0.1174],
        [-0.0464, -0.7945,  1.4098, -0.9435, -0.4752, -1.0650,  0.3346,  0.1966],
        [ 0.1214, -0.7137,  1.4418, -0.9443, -0.4571, -1.1249,  0.4019,  0.1869],
        [ 0.6116, -0.4209,  1.9821,  0.2965, -0.4020,  0.2547,  0.5225,  0.2192],
        [ 0.4644, -0.5158,  1.5609, -0.7510, -0.5658, -0.8439,  0.5432,  0.1503],
        [ 0.0048, -0.7716,  1.5697, -0.8414, -0.3493, -1.0282,  0.4463,  0.1949]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1591, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1591, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  9.866620302200317
step:  71
running loss:  0.13896648312958193
Train Steps: 71/90  Loss: 0.1390 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6272, 0.4045, 0.8538, 0.5900, 0.3750, 0.4417, 0.5989, 0.4649],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4457, -0.4978,  1.7293, -0.5260, -0.5322, -0.3158,  0.6324,  0.1981],
        [ 0.6052, -0.4613,  1.9613,  0.0222, -0.5985, -0.3985,  0.4678,  0.1336],
        [ 0.5346, -0.4371,  1.9981,  0.1041, -0.4223,  0.2140,  0.6126,  0.2160],
        [-0.1207, -0.8934,  1.2949, -1.2738, -0.4610, -1.4685,  0.3517,  0.1985],
        [ 0.1044, -0.7318,  1.3309, -1.0767, -0.4852, -1.1226,  0.3573,  0.2500],
        [ 0.3721, -0.5522,  1.9450,  0.0344, -0.3227, -0.1119,  0.4806,  0.2193],
        [ 0.1638, -0.7299,  1.3604, -1.0877, -0.5575, -1.2349,  0.3445,  0.1811],
        [ 0.5890, -0.4262,  1.8733,  0.0180, -0.5640, -0.0120,  0.4816,  0.2140]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.6109, -0.4177,  1.6575,  0.4393, -0.5538, -0.2459,  0.4805,
          -0.1385],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1390, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.1390, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.005621805787086
step:  72
running loss:  0.13896696952482065
Train Steps: 72/90  Loss: 0.1390 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0624, -0.7368,  1.4473, -0.9337, -0.3668, -1.0164,  0.4630,  0.2204],
        [ 0.5218, -0.4831,  1.9114, -0.0674, -0.5392, -0.3152,  0.4470,  0.1608],
        [-0.0386, -0.7876,  1.6309, -0.7558, -0.2925, -0.8943,  0.5597,  0.2360],
        [ 0.2419, -0.6400,  1.4512, -0.9229, -0.4733, -0.8848,  0.5008,  0.2013],
        [ 0.2882, -0.6012,  1.3015, -0.7879, -0.6360, -0.6736,  0.3322,  0.2447],
        [ 0.7135, -0.3395,  1.9640,  0.4515, -0.5205,  0.2684,  0.5442,  0.2294],
        [-0.0281, -0.8188,  1.2931, -1.1416, -0.4590, -1.2413,  0.3957,  0.2089],
        [ 0.6038, -0.4154,  1.8860,  0.0039, -0.5550,  0.0999,  0.5708,  0.1776]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5227, -0.4615,  1.6575, -0.1304, -0.5076, -0.0149,  0.1815,
           0.0021]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0649, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0649, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.070557050406933
step:  73
running loss:  0.1379528363069443
Train Steps: 73/90  Loss: 0.1380 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3564, -0.5746,  1.4583, -0.8204, -0.5787, -0.8137,  0.4769,  0.2382],
        [ 0.7135, -0.3818,  1.8126,  0.1473, -0.6671, -0.2749,  0.4425,  0.1993],
        [ 0.2154, -0.6045,  1.7846, -0.2033, -0.2362, -0.1025,  0.5369,  0.2716],
        [ 0.5455, -0.4859,  1.8217, -0.0442, -0.5644, -0.1549,  0.3641,  0.2224],
        [ 0.5563, -0.4529,  1.7759, -0.2288, -0.5570, -0.2708,  0.5477,  0.1839],
        [-0.3794, -1.0313,  1.6012, -1.1200, -0.0692, -1.3016,  0.7081,  0.2265],
        [ 0.2850, -0.6013,  1.3278, -0.8779, -0.5838, -0.7285,  0.4025,  0.2657],
        [ 0.3451, -0.5976,  1.4313, -0.8132, -0.6137, -0.7096,  0.3903,  0.2457]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5270, -0.4336,  1.3342, -0.6770, -0.6520, -0.5384,  0.2370,
           0.0592]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1023, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1023, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.172822825610638
step:  74
running loss:  0.13747057872446808
Train Steps: 74/90  Loss: 0.1375 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4214, -0.5060,  1.3804, -0.6720, -0.6546, -0.6298,  0.3875,  0.2875],
        [ 0.4671, -0.4624,  1.8166,  0.0909, -0.3127,  0.1770,  0.5518,  0.2869],
        [ 0.2761, -0.6391,  1.3203, -1.0693, -0.5863, -1.1693,  0.4733,  0.1975],
        [ 0.5017, -0.4808,  1.8436, -0.1449, -0.5294, -0.1855,  0.4829,  0.2564],
        [ 0.7856, -0.3420,  1.7747, -0.2400, -0.6585, -0.3377,  0.6026,  0.1817],
        [-0.2893, -0.9720,  1.1546, -1.2933, -0.3962, -1.4782,  0.3583,  0.2215],
        [-0.2827, -0.9134,  1.4449, -0.9290, -0.2064, -1.0815,  0.4354,  0.2955],
        [ 0.6116, -0.4134,  1.9124,  0.2665, -0.3739,  0.3431,  0.5887,  0.2829]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.29955194145441
step:  75
running loss:  0.13732735921939215
Train Steps: 75/90  Loss: 0.1373 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6200, 0.4070, 0.8938, 0.4183, 0.3538, 0.4567, 0.6175, 0.5400],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3176, -0.5450,  1.4536, -0.6316, -0.4627, -0.1740,  0.5203,  0.3189],
        [ 0.2611, -0.6328,  1.6570, -0.4461, -0.4967, -0.8020,  0.4033,  0.2421],
        [-0.3042, -0.9527,  1.2764, -1.1099, -0.2248, -1.2061,  0.4493,  0.3028],
        [ 0.6198, -0.4280,  1.7268, -0.3493, -0.5287, -0.2621,  0.6554,  0.2258],
        [ 0.6195, -0.3894,  1.6452,  0.0312, -0.5016, -0.0553,  0.5120,  0.2784],
        [-0.1235, -0.8596,  1.2788, -0.9454, -0.4956, -1.0478,  0.2828,  0.2828],
        [ 0.5220, -0.4900,  1.7215, -0.1318, -0.5259, -0.2601,  0.3993,  0.2380],
        [ 0.5877, -0.4383,  1.7150, -0.3114, -0.5164, -0.3794,  0.6195,  0.1953]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5778, -0.4061,  1.8423, -0.3537, -0.6520, -0.1766,  0.5663,
           0.2083],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1469, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1469, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.446426160633564
step:  76
running loss:  0.13745297579781005

Train Steps: 76/90  Loss: 0.1375 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1982, -0.6836,  1.6525, -0.2713, -0.2641, -0.4663,  0.4898,  0.2545],
        [-0.2407, -0.9340,  1.4422, -1.1110, -0.3239, -1.3324,  0.5128,  0.2232],
        [ 0.3009, -0.5716,  1.6889, -0.2674, -0.4470, -0.1971,  0.4458,  0.2760],
        [ 0.6223, -0.3788,  1.5415, -0.1216, -0.5765, -0.2211,  0.5047,  0.2707],
        [-0.1364, -0.8355,  1.0600, -1.1444, -0.5423, -1.2415,  0.2674,  0.2796],
        [ 0.4898, -0.4481,  1.5487, -0.4247, -0.4844, -0.1815,  0.5657,  0.2896],
        [ 0.5429, -0.4586,  1.7326, -0.2233, -0.4238,  0.0051,  0.6718,  0.2817],
        [ 0.5129, -0.4504,  1.5689, -0.1454, -0.5120, -0.1783,  0.4519,  0.2615]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5711, -0.3788,  1.8249, -0.1766, -0.4672,  0.2160,  0.3625,
           0.0742],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0694, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0694, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.51586477458477
step:  77
running loss:  0.1365696723972048
Train Steps: 77/90  Loss: 0.1366 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4612, -0.5073,  1.4651, -0.8233, -0.5214, -0.6658,  0.6923,  0.2148],
        [ 0.5246, -0.4641,  1.5652, -0.0813, -0.4644, -0.0231,  0.4570,  0.2592],
        [ 0.3270, -0.5956,  1.6400, -0.3893, -0.4486, -0.6250,  0.4818,  0.2420],
        [ 0.6205, -0.3809,  1.6541, -0.1866, -0.4975, -0.0112,  0.6581,  0.2468],
        [ 0.2243, -0.6179,  1.4108, -0.6065, -0.5477, -0.5506,  0.3383,  0.3082],
        [ 0.5293, -0.4360,  1.5617, -0.0832, -0.4276,  0.0412,  0.4615,  0.2706],
        [-0.2347, -0.8771,  1.2084, -1.0134, -0.3904, -1.1015,  0.3591,  0.2437],
        [-0.0426, -0.7577,  1.6079, -0.4859, -0.2439, -0.7029,  0.5177,  0.2462]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.5767, -0.4396,  1.6782,  0.1905, -0.3844,  0.0308,  0.4588,
           0.0855],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5784, -0.4088,  1.7268,  0.0467, -0.3344,  0.0697,  0.5490,
           0.2545],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0475, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0475, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.563358839601278
step:  78
running loss:  0.13542767743078563
Train Steps: 78/90  Loss: 0.1354 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471],
        [   nan,    nan, 0.7412, 0.2200, 0.4450, 0.1517, 0.5312, 0.4983],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6535, -0.3603,  1.6467,  0.0109, -0.3417,  0.1054,  0.5565,  0.2526],
        [-0.1297, -0.7888,  1.1310, -0.9446, -0.5002, -0.8548,  0.2892,  0.2735],
        [ 0.7948, -0.2646,  1.6848,  0.0678, -0.6741, -0.2577,  0.5078,  0.1569],
        [ 0.2547, -0.5520,  1.5519, -0.3196, -0.3354, -0.4262,  0.5298,  0.2917],
        [ 0.6743, -0.3393,  1.6766,  0.0688, -0.3600,  0.1798,  0.5958,  0.2401],
        [ 0.3992, -0.5258,  1.8062, -0.2436, -0.3569, -0.1706,  0.6703,  0.2025],
        [-0.3108, -0.9624,  1.0015, -1.3031, -0.3757, -1.3097,  0.3483,  0.2303],
        [ 0.0091, -0.7416,  1.2802, -0.9353, -0.3341, -0.8951,  0.4326,  0.2514]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.6454, -0.3623,  1.9346, -0.4460, -0.4961, -0.2921,  1.1642,
           0.2409],
         [-2.2859, -2.2859,  1.1379, -1.2697, -0.2305, -1.5854,  0.1679,
           0.0159],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2474, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2474, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.810774769634008
step:  79
running loss:  0.13684525024853175
Train Steps: 79/90  Loss: 0.1368 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5802, -0.3822,  1.6703, -0.0592, -0.3859,  0.1253,  0.4767,  0.2593],
        [-0.0557, -0.7866,  1.2931, -0.9026, -0.4576, -1.0742,  0.3170,  0.2135],
        [ 0.4856, -0.4461,  1.7900, -0.0398, -0.3855, -0.2339,  0.5998,  0.1871],
        [ 0.5420, -0.3848,  1.5297, -0.1514, -0.4714, -0.0996,  0.5090,  0.2390],
        [-0.4367, -1.0202,  1.1679, -1.1038, -0.3655, -1.1330,  0.2830,  0.2454],
        [ 0.5202, -0.4176,  1.7353, -0.0741, -0.3475,  0.0032,  0.5747,  0.1865],
        [ 0.5335, -0.4008,  1.6311,  0.0209, -0.3461,  0.0446,  0.4941,  0.2434],
        [ 0.3662, -0.5787,  1.3590, -1.0290, -0.4626, -1.0988,  0.6388,  0.1773]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6374e-01, -4.1432e-01,  1.7519e+00, -7.8656e-02, -3.0554e-01,
          -1.4935e-02,  3.7575e-01,  3.0839e-01],
         [ 5.7985e-01, -4.1555e-01,  1.3977e+00, -1.0388e+00, -4.6721e-01,
          -1.1004e+00,  3.4688e-01,  1.0824e-01],
         [ 6.4542e-01, -3.7194e-01,  1.9115e+00, -1.3041e-01, -5.0762e-01,
          -2.8437e-01,  1.0033e+00,  4.3864e-01],
         [ 6.2895e-01, -4.3453e-01,  1.3794e+00,  3.6792e-01, -4.8453e-01,
           3.8953e-02,  9.2654e-01,  1.9283e-01],
         [-2.2859e+00, -2.2859e+00,  1.2820e+00, -1.0801e+00, -5.8845e-01,
          -1.0234e+00,  2.1409e-01,  1.0054e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 5.7864e-01, -4.1409e-01,  1.7037e+00,  1.5443e-01, -1.8624e-01,
           7.3556e-02,  4.3926e-01,  8.5142e-02],
         [ 5.7846e-01, -4.2587e-01,  1.4228e+00, -1.0261e+00, -4.1903e-01,
          -1.2189e+00,  4.7633e-01,  2.0428e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.91929730400443
step:  80
running loss:  0.1364912163000554

Train Steps: 80/90  Loss: 0.1365 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6595, -0.3411,  1.7133, -0.1565, -0.4309,  0.0339,  0.6960,  0.1918],
        [-0.1699, -0.8419,  1.3545, -0.8984, -0.3419, -1.0833,  0.3931,  0.2011],
        [ 0.3309, -0.5462,  1.7022, -0.0703, -0.1565, -0.1186,  0.5422,  0.2256],
        [ 0.6394, -0.3299,  1.6054, -0.1054, -0.4234,  0.0326,  0.5868,  0.2038],
        [-0.1806, -0.9008,  1.0618, -1.1263, -0.4600, -1.2427,  0.2815,  0.1938],
        [ 0.5022, -0.4241,  1.6264,  0.0332, -0.2760, -0.0482,  0.5249,  0.2056],
        [ 0.4720, -0.4786,  1.7559, -0.1731, -0.4580, -0.1977,  0.5077,  0.1997],
        [ 0.3408, -0.5362,  1.4742, -0.6118, -0.5730, -0.7129,  0.3912,  0.1708]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0473, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0473, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  10.966615419834852
step:  81
running loss:  0.13539031382512162
Train Steps: 81/90  Loss: 0.1354 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6577, -0.3297,  1.6868,  0.0782, -0.3042,  0.1605,  0.5671,  0.2163],
        [ 0.6820, -0.3201,  1.8332,  0.0495, -0.4130, -0.1604,  0.6454,  0.1406],
        [ 0.6271, -0.3454,  1.7065,  0.1052, -0.2852,  0.2045,  0.5946,  0.2010],
        [ 0.4953, -0.4632,  1.7364,  0.0277, -0.2168, -0.0399,  0.5300,  0.1936],
        [ 0.1193, -0.6399,  1.4553, -0.7747, -0.3613, -0.8269,  0.5000,  0.1925],
        [ 0.4106, -0.5026,  1.6519, -0.4772, -0.4520, -0.6562,  0.5282,  0.1420],
        [-0.2983, -0.9217,  1.1456, -0.9940, -0.4474, -1.0575,  0.2386,  0.2039],
        [-0.3803, -0.9827,  1.1318, -1.0392, -0.4033, -1.1177,  0.2494,  0.1996]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1947, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1947, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.161314766854048
step:  82
running loss:  0.1361135947177323
Train Steps: 82/90  Loss: 0.1361 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0737, -0.0740,  1.8738,  0.5913, -0.4413,  0.5408,  0.5651,  0.1580],
        [-0.5130, -1.0604,  1.2191, -0.9690, -0.2829, -1.0806,  0.2641,  0.2092],
        [-0.1248, -0.8598,  1.8897, -0.6127,  0.0917, -0.7495,  0.8417,  0.1448],
        [ 0.8726, -0.2283,  1.9341,  0.3120, -0.4677,  0.1949,  0.5191,  0.1281],
        [ 0.4474, -0.4906,  1.3738, -0.7276, -0.4931, -0.7259,  0.4807,  0.1319],
        [ 0.5036, -0.4894,  1.3357, -0.5319, -0.4911, -0.5718,  0.4147,  0.2147],
        [ 0.4899, -0.4758,  1.3907, -0.6307, -0.4970, -0.6554,  0.4247,  0.1343],
        [-0.4548, -1.0278,  1.3212, -0.8165, -0.3190, -0.8877,  0.2281,  0.1962]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2300, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2300, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.391309630125761
step:  83
running loss:  0.1372446943388646
Train Steps: 83/90  Loss: 0.1372 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0929, -0.8711,  1.2389, -1.0993, -0.3887, -1.2384,  0.4037,  0.1447],
        [ 0.3426, -0.5333,  1.5412, -0.1081, -0.3541, -0.0805,  0.4267,  0.2252],
        [ 0.4016, -0.5626,  1.8441, -0.3404, -0.4835, -0.6410,  0.5482,  0.0721],
        [-0.2117, -0.9704,  1.2032, -1.0936, -0.4017, -1.2933,  0.2922,  0.1594],
        [ 0.5968, -0.3992,  1.6112, -0.5510, -0.5232, -0.4294,  0.6442,  0.1186],
        [ 0.2000, -0.6920,  1.8410, -0.2265, -0.3198, -0.3455,  0.4740,  0.1843],
        [ 0.3778, -0.5193,  1.7693,  0.1073, -0.1769,  0.0373,  0.4870,  0.1666],
        [ 0.5991, -0.3642,  1.7881,  0.2127, -0.2926,  0.1899,  0.5110,  0.1492]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0595, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0595, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.450813557952642
step:  84
running loss:  0.13631920902324574

Train Steps: 84/90  Loss: 0.1363 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0472, -0.1337,  1.8173,  0.4242, -0.5189,  0.1716,  0.5610,  0.1083],
        [ 0.8067, -0.3118,  1.8637,  0.3343, -0.3867,  0.3309,  0.5161,  0.1508],
        [ 0.3921, -0.5289,  1.6973, -0.0309, -0.4470, -0.0295,  0.2790,  0.2103],
        [ 0.4866, -0.4627,  1.3325, -0.6769, -0.5362, -0.4760,  0.4466,  0.1793],
        [ 0.3842, -0.5916,  1.5074, -0.8420, -0.4493, -0.9451,  0.6339,  0.0836],
        [-0.4744, -1.0623,  1.4592, -0.7937, -0.2200, -0.9876,  0.3152,  0.1966],
        [-0.6824, -1.2032,  1.6402, -0.9928,  0.0528, -1.1821,  0.6461,  0.1668],
        [-0.1324, -0.9212,  1.2158, -0.9944, -0.4907, -1.1888,  0.2543,  0.1415]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.58513193950057
step:  85
running loss:  0.1362956698764773
Train Steps: 85/90  Loss: 0.1363 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [0.6300, 0.4102, 0.9088, 0.4433, 0.4088, 0.3067, 0.6820, 0.5540],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-6.5229e-02, -8.8510e-01,  1.2439e+00, -9.6002e-01, -4.1075e-01,
         -1.1328e+00,  2.9228e-01,  1.5930e-01],
        [ 5.0083e-01, -4.7344e-01,  1.8331e+00,  1.2776e-01, -1.5367e-01,
          1.6144e-01,  5.3884e-01,  1.9881e-01],
        [-5.0049e-01, -1.1383e+00,  1.0559e+00, -1.1379e+00, -4.0530e-01,
         -1.2439e+00,  2.0949e-01,  1.9963e-01],
        [ 8.3195e-01, -2.8182e-01,  1.5013e+00, -5.1990e-01, -6.1314e-01,
         -2.9477e-01,  6.0160e-01,  1.3491e-01],
        [ 3.4898e-01, -5.4086e-01,  1.8459e+00, -2.4536e-02, -3.6836e-01,
         -4.6690e-01,  5.0389e-01,  1.1189e-01],
        [-2.3398e-01, -9.3486e-01,  1.8301e+00, -6.1287e-01, -1.3023e-01,
         -8.4830e-01,  6.8406e-01,  1.4688e-01],
        [-2.9074e-01, -9.9740e-01,  1.3294e+00, -8.7116e-01, -3.7710e-01,
         -1.1082e+00,  3.2404e-01,  1.8692e-01],
        [ 9.3682e-01, -1.8088e-01,  1.6402e+00,  1.7329e-03, -5.3351e-01,
          1.7422e-01,  5.1208e-01,  1.9848e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576],
         [ 0.6240, -0.3912,  1.9115, -0.2382, -0.3979, -0.8694,  0.8644,
           0.2730],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1866, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1866, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.77172925695777
step:  86
running loss:  0.1368805727553229
Train Steps: 86/90  Loss: 0.1369 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.4188e-01, -5.1116e-01,  1.7300e+00, -2.0806e-01, -3.4683e-01,
         -4.7736e-02,  4.7247e-01,  2.4311e-01],
        [ 7.5987e-01, -3.2086e-01,  1.5680e+00, -9.0686e-04, -4.7657e-01,
         -1.4873e-01,  4.9563e-01,  2.3884e-01],
        [-9.0501e-01, -1.4015e+00,  1.0909e+00, -1.4329e+00, -3.3467e-01,
         -1.6594e+00,  2.6124e-01,  1.6862e-01],
        [ 6.2424e-01, -4.0011e-01,  1.6721e+00, -4.6716e-02, -2.9070e-01,
          3.5843e-02,  5.2984e-01,  2.0643e-01],
        [ 2.5168e-01, -6.7213e-01,  1.5804e+00, -4.8583e-01, -5.6401e-01,
         -7.9968e-01,  3.3252e-01,  1.5927e-01],
        [ 7.6404e-01, -3.3559e-01,  1.7661e+00, -1.6401e-01, -4.4549e-01,
         -1.6386e-01,  6.5402e-01,  1.4741e-01],
        [ 3.2009e-01, -6.1624e-01,  1.7472e+00, -2.7111e-01, -2.9466e-01,
         -3.7289e-01,  5.0791e-01,  1.5344e-01],
        [-7.9375e-01, -1.3188e+00,  1.3903e+00, -1.2725e+00, -2.4440e-01,
         -1.5361e+00,  3.7710e-01,  1.7771e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [-2.2859, -2.2859,  0.9922, -1.2021, -0.3229, -1.4314,  0.1044,
           0.2930],
         [ 0.5450, -0.4706,  1.7643,  0.0722, -0.3708,  0.3200,  0.4854,
           0.0612],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1162, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1162, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.88794718310237
step:  87
running loss:  0.13664307107014217
Train Steps: 87/90  Loss: 0.1366 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6296, 0.4045, 0.9138, 0.4100, 0.4232, 0.4242, 0.7422, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.4403, -1.1100,  1.3071, -1.0556, -0.4015, -1.3357,  0.2999,  0.1572],
        [-0.4792, -1.1614,  1.2105, -1.1959, -0.3678, -1.4565,  0.3273,  0.1607],
        [ 0.5990, -0.3910,  1.5966, -0.3210, -0.4170,  0.0495,  0.5252,  0.2310],
        [-0.2928, -1.0263,  1.6465, -0.8846, -0.2008, -1.1616,  0.5395,  0.1867],
        [ 0.7680, -0.3232,  1.6906,  0.2699, -0.4037,  0.1270,  0.4906,  0.2611],
        [ 0.1373, -0.7692,  1.2821, -0.8456, -0.4277, -0.9613,  0.3662,  0.2293],
        [ 0.2150, -0.6974,  1.6454, -0.4520, -0.5265, -0.5073,  0.3394,  0.2385],
        [ 0.9976, -0.1960,  1.7188, -0.2152, -0.4970, -0.1576,  0.6804,  0.1570]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5707, -0.4189,  1.2707, -1.2467, -0.4095, -1.3082,  0.3758,
           0.0928],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.6088, -0.4015,  1.6113, -1.0696, -0.0861, -1.4545,  0.6051,
           0.1343],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.6224, -0.4177,  1.9346, -0.3921, -0.3314, -0.3264,  1.1422,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1034, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1034, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  11.991319220513105
step:  88
running loss:  0.13626499114219437

Train Steps: 88/90  Loss: 0.1363 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6182, 0.3930, 0.8841, 0.3892, 0.3556, 0.4967, 0.6222, 0.5279],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4388, -0.5066,  1.5570, -0.0962, -0.3215, -0.0344,  0.4251,  0.2929],
        [ 0.4409, -0.5333,  1.5423, -0.5185, -0.5618, -0.4258,  0.3752,  0.2538],
        [ 0.4461, -0.5290,  1.4972, -0.4042, -0.4689, -0.3502,  0.4340,  0.2296],
        [ 0.1839, -0.7194,  1.4752, -0.6965, -0.6311, -0.9276,  0.2914,  0.2059],
        [ 0.3816, -0.5760,  1.4603, -0.5821, -0.4492, -0.2598,  0.5169,  0.2633],
        [ 0.4607, -0.5290,  1.5899, -0.0559, -0.5009, -0.4150,  0.3185,  0.2172],
        [-0.2723, -1.0297,  1.5811, -0.9711, -0.3396, -1.3682,  0.4855,  0.1946],
        [-0.1325, -0.9935,  1.5606, -1.2217, -0.1039, -1.4336,  0.7863,  0.1774]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852],
         [ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5227, -0.4615,  1.6575, -0.1304, -0.5076, -0.0149,  0.1815,
           0.0021],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.5697, -0.4706,  1.7976, -0.4884, -0.6433,  0.0081,  0.5878,
           0.1525],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0703, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0703, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  12.061648171395063
step:  89
running loss:  0.1355241367572479
Train Steps: 89/90  Loss: 0.1355 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6735, -0.3933,  1.4704, -0.5424, -0.5828, -0.4557,  0.4849,  0.2398],
        [ 0.2983, -0.6639,  1.7263, -0.3416, -0.2465, -0.5271,  0.5216,  0.2376],
        [-0.2158, -0.9857,  1.3755, -1.1546, -0.3586, -1.3447,  0.3959,  0.2534],
        [ 0.5483, -0.4424,  1.4602, -0.5501, -0.4750, -0.1833,  0.5094,  0.3046],
        [ 0.3909, -0.5643,  1.7396, -0.2520, -0.2310, -0.3395,  0.5488,  0.2893],
        [-0.4585, -1.1134,  1.1996, -1.0510, -0.5404, -1.2248,  0.1798,  0.2508],
        [ 0.7076, -0.4017,  1.5375, -0.7291, -0.5402, -0.9808,  0.5706,  0.1742],
        [ 0.3275, -0.6220,  1.6696, -0.2631, -0.3304, -0.3368,  0.3925,  0.2430]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  12.186646927148104
step:  90
running loss:  0.13540718807942337
Valid Steps: 10/10  Loss: nan 7.3225
--------------------------------------------------
Epoch: 1  Train Loss: 0.1354 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.1007e-01, -3.5610e-01,  1.6399e+00,  6.3848e-02, -5.3525e-01,
         -1.6645e-01,  3.9725e-01,  2.2814e-01],
        [ 5.5852e-02, -7.9860e-01,  1.1793e+00, -1.0058e+00, -5.5704e-01,
         -1.0473e+00,  2.7695e-01,  2.8426e-01],
        [ 3.4867e-01, -5.3798e-01,  1.6127e+00, -2.1721e-01, -3.6062e-01,
         -9.5872e-02,  3.0168e-01,  2.9245e-01],
        [ 1.2011e-01, -7.8341e-01,  1.5370e+00, -1.1360e+00, -2.5911e-01,
         -1.2756e+00,  6.6877e-01,  1.9165e-01],
        [ 2.9767e-01, -6.7336e-01,  1.2427e+00, -1.1123e+00, -5.4911e-01,
         -1.2077e+00,  3.5533e-01,  1.8474e-01],
        [ 2.9968e-01, -6.2822e-01,  1.5641e+00, -6.2807e-01, -5.8927e-01,
         -5.5374e-01,  3.0163e-01,  2.9457e-01],
        [ 5.1429e-01, -4.5790e-01,  1.7073e+00,  6.4440e-03, -3.9337e-01,
          4.3100e-04,  3.4778e-01,  2.6891e-01],
        [ 2.0770e-01, -7.3136e-01,  1.6545e+00, -9.7071e-01, -1.7980e-01,
         -1.0599e+00,  7.4962e-01,  2.0022e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4562,  1.5697,  0.4947, -0.4904, -0.1503,  0.3536,
           0.1956],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0426, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0426, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.04259268939495087
step:  1
running loss:  0.04259268939495087
Train Steps: 1/90  Loss: 0.0426 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4878, -0.4826,  1.4859, -0.7712, -0.6467, -0.7535,  0.3544,  0.2405],
        [ 0.6440, -0.4132,  1.7307, -0.1418, -0.2576, -0.2243,  0.4596,  0.2307],
        [ 0.8317, -0.2595,  1.6605, -0.2190, -0.5446, -0.2266,  0.4281,  0.2645],
        [-0.1442, -0.9106,  1.3206, -1.2534, -0.4152, -1.3048,  0.3776,  0.2055],
        [ 0.4407, -0.5200,  1.7622, -0.3675, -0.3601, -0.1808,  0.4552,  0.2645],
        [ 0.8585, -0.2477,  1.6806, -0.0893, -0.4960, -0.5336,  0.4715,  0.2489],
        [ 0.4703, -0.4759,  1.6254, -0.3660, -0.3193, -0.2449,  0.3914,  0.2745],
        [-0.6149, -1.2198,  1.1038, -1.5154, -0.3264, -1.5851,  0.3474,  0.1998]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5711, -0.3788,  1.8249, -0.1766, -0.4672,  0.2160,  0.3625,
           0.0742],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1098, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1098, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.15242556482553482
step:  2
running loss:  0.07621278241276741

Train Steps: 2/90  Loss: 0.0762 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2055, -0.6563,  1.3950, -0.9640, -0.4633, -0.9175,  0.3805,  0.2383],
        [ 0.4255, -0.4887,  1.5916, -0.6542, -0.4395, -0.7613,  0.4005,  0.2200],
        [ 0.5741, -0.4211,  1.5171, -0.2034, -0.3918, -0.0850,  0.3576,  0.2748],
        [ 0.2696, -0.5973,  1.3929, -0.9257, -0.4207, -0.9935,  0.3744,  0.2466],
        [ 0.5596, -0.4324,  1.7364, -0.3859, -0.4203, -0.5341,  0.4266,  0.2516],
        [ 0.6552, -0.3283,  1.7068, -0.2231, -0.4293, -0.4643,  0.4657,  0.2142],
        [ 0.3758, -0.5187,  1.6616, -0.1487, -0.2192,  0.0357,  0.3985,  0.2725],
        [ 0.1727, -0.7338,  1.0763, -1.1915, -0.5032, -1.1693,  0.2439,  0.2383]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6966e-01, -4.4416e-01,  1.3529e+00, -9.5152e-01, -5.7742e-01,
          -7.8011e-01,  5.2533e-01,  1.9310e-01],
         [ 5.7841e-01, -4.0062e-01,  1.7911e+00, -5.7008e-01, -5.1916e-01,
          -1.0331e+00,  4.1374e-01,  2.1391e-01],
         [ 6.2895e-01, -4.3934e-01,  1.3977e+00,  3.7768e-01, -5.1339e-01,
          -4.5727e-02,  1.0984e+00,  1.8214e-01],
         [ 5.7131e-01, -4.3212e-01,  1.4975e+00, -8.1340e-01, -3.0942e-01,
          -1.3345e+00,  3.7786e-01,  2.1339e-01],
         [ 6.0935e-01, -3.9469e-01,  1.8885e+00, -2.9977e-01, -5.7691e-01,
          -6.7698e-01,  6.0670e-01,  1.0054e-01],
         [ 6.5201e-01, -3.6231e-01,  1.8885e+00,  3.1255e-02, -5.5381e-01,
          -5.3841e-01,  6.9257e-01,  1.6611e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.3837e-01, -4.3934e-01,  9.7621e-01, -1.1851e+00, -4.2102e-01,
          -1.3852e+00,  1.7122e-01,  2.0118e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0365, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0365, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1889284811913967
step:  3
running loss:  0.06297616039713223
Train Steps: 3/90  Loss: 0.0630 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378],
        [0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9354, -0.1689,  1.7982, -0.0957, -0.5106, -0.0445,  0.4831,  0.2091],
        [ 0.2110, -0.6863,  1.2094, -1.0299, -0.4531, -1.1977,  0.2558,  0.2339],
        [ 0.4777, -0.5063,  1.2934, -0.9708, -0.5087, -0.9821,  0.3245,  0.2426],
        [ 0.2455, -0.6200,  1.3273, -0.9011, -0.4809, -0.9806,  0.2810,  0.2534],
        [ 0.4969, -0.4011,  1.6330, -0.3698, -0.3892, -0.0085,  0.3747,  0.2756],
        [ 0.8093, -0.2633,  1.9032,  0.2491, -0.2979,  0.3559,  0.4084,  0.2968],
        [ 0.1955, -0.6490,  1.4015, -0.7826, -0.4914, -0.8720,  0.2076,  0.2256],
        [ 0.4164, -0.5204,  1.6887, -0.7912, -0.2706, -1.0754,  0.5404,  0.1997]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982],
         [ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.23190448060631752
step:  4
running loss:  0.05797612015157938
Train Steps: 4/90  Loss: 0.0580 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7001, -0.2766,  1.6908, -0.1484, -0.3457, -0.0808,  0.4303,  0.2640],
        [ 0.4341, -0.5333,  1.4638, -0.8986, -0.4397, -1.1506,  0.3810,  0.2546],
        [ 0.4200, -0.4447,  1.4699, -0.5509, -0.4799, -0.3041,  0.3056,  0.2709],
        [ 0.5279, -0.4039,  1.6207, -0.2760, -0.3859, -0.1375,  0.2687,  0.2574],
        [ 0.6383, -0.3270,  1.5034, -0.3866, -0.5343, -0.3790,  0.2957,  0.2652],
        [ 0.2794, -0.6039,  1.6532, -1.1591, -0.1907, -1.4350,  0.7113,  0.1612],
        [ 0.4900, -0.4513,  1.6026, -0.0751, -0.3859, -0.1690,  0.2521,  0.2527],
        [ 0.6725, -0.3149,  1.4706, -0.6186, -0.5776, -0.5253,  0.3481,  0.2127]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0299, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0299, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.26177416928112507
step:  5
running loss:  0.05235483385622501
Train Steps: 5/90  Loss: 0.0524 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6092, 0.4001, 0.8638, 0.4867, 0.4288, 0.5367, 0.5484, 0.5064],
        [0.6152, 0.4131, 0.6863, 0.2567, 0.3625, 0.3300, 0.5765, 0.5305]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5591, -0.3862,  1.8141, -0.1409, -0.3558, -0.0230,  0.4684,  0.1989],
        [ 0.7180, -0.3285,  1.7612,  0.0262, -0.4315, -0.1326,  0.3433,  0.2333],
        [ 0.6214, -0.3498,  1.5698, -0.8629, -0.4971, -1.0170,  0.4340,  0.2186],
        [ 0.7594, -0.2548,  1.7353,  0.0515, -0.2798, -0.1146,  0.3592,  0.2564],
        [ 0.7539, -0.2979,  1.6140, -0.6767, -0.5285, -0.6289,  0.5362,  0.1763],
        [-0.0267, -0.8053,  1.0535, -1.2585, -0.4485, -1.2836,  0.2414,  0.2479],
        [ 0.6017, -0.3277,  1.7198, -0.1452, -0.3064, -0.0624,  0.3880,  0.2317],
        [ 0.4863, -0.4454,  1.1515, -1.0345, -0.5895, -0.9306,  0.2529,  0.2732]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4247,  1.8711, -0.0842, -0.5307,  0.1005,  0.6771,
          -0.0821],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.5278, -0.4377,  1.7037, -0.0380, -0.3055,  0.1929,  0.2473,
           0.0532],
         [ 0.5557, -0.3779,  0.8838, -1.1004, -0.6115, -0.7617,  0.3769,
           0.1644]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1336, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1336, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.39533588476479053
step:  6
running loss:  0.06588931412746508

Train Steps: 6/90  Loss: 0.0659 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6289, 0.4081, 0.8720, 0.3487, 0.3900, 0.3183, 0.6703, 0.5376],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5827, -0.4379,  1.4441, -1.1022, -0.3418, -1.2180,  0.5851,  0.1748],
        [ 0.6353, -0.2988,  1.7405,  0.2265, -0.2744,  0.2779,  0.4264,  0.2445],
        [ 0.6568, -0.3217,  1.5801, -0.5005, -0.5412, -0.4082,  0.3244,  0.2201],
        [ 0.4810, -0.4567,  1.2555, -0.9256, -0.5145, -0.7963,  0.3975,  0.2130],
        [ 0.6530, -0.3305,  1.5795, -0.3256, -0.5694, -0.2815,  0.2549,  0.2598],
        [ 0.6139, -0.3530,  1.6029, -0.5732, -0.3805, -0.8116,  0.4547,  0.2125],
        [ 0.3853, -0.4860,  1.6758, -0.1242, -0.3653, -0.0897,  0.4411,  0.2086],
        [ 0.5693, -0.3776,  1.4477, -0.5859, -0.5408, -0.5223,  0.3565,  0.1967]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.6191, -0.4008,  1.7420, -0.6753, -0.4845, -0.8156,  0.8101,
           0.1974],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4160845186561346
step:  7
running loss:  0.05944064552230494
Train Steps: 7/90  Loss: 0.0594 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6239, 0.4206, 0.8750, 0.5400, 0.3688, 0.4850, 0.5737, 0.5700],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7021, -0.3496,  1.2926, -1.1388, -0.4333, -1.1794,  0.4480,  0.1941],
        [ 0.9963, -0.1069,  1.7337,  0.1366, -0.6265, -0.0216,  0.4571,  0.1893],
        [ 0.4696, -0.4188,  1.6972, -0.1467, -0.3254,  0.0139,  0.5288,  0.1844],
        [ 0.4513, -0.4183,  1.4989, -0.2108, -0.4803, -0.1647,  0.3797,  0.1903],
        [ 0.6194, -0.3489,  1.4720, -0.8228, -0.5840, -0.7738,  0.4798,  0.2157],
        [ 0.3232, -0.5147,  1.6214, -0.3481, -0.2429, -0.1752,  0.4896,  0.2023],
        [ 0.4407, -0.4461,  1.6146, -0.1038, -0.3282, -0.0575,  0.4005,  0.1977],
        [ 0.4908, -0.4550,  1.4114, -0.8419, -0.5530, -0.9475,  0.3662,  0.1874]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5960, -0.3430,  1.7557,  0.2083, -0.5827, -0.0457,  0.3642,
           0.3469],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0386, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0386, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4546631034463644
step:  8
running loss:  0.05683288793079555
Train Steps: 8/90  Loss: 0.0568 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2553, -0.5819,  1.1939, -0.8524, -0.5313, -0.6417,  0.3589,  0.1984],
        [ 0.7735, -0.2880,  1.4316, -0.4455, -0.6361, -0.5807,  0.2920,  0.2505],
        [ 0.8888, -0.1807,  1.8123,  0.0572, -0.5599,  0.0372,  0.5111,  0.1406],
        [ 0.5415, -0.4451,  1.6313, -0.9964, -0.1940, -1.0505,  0.8056,  0.1340],
        [ 0.7210, -0.2990,  1.6302, -0.2831, -0.5936, -0.3882,  0.4315,  0.1563],
        [ 0.4772, -0.4362,  1.7029,  0.0759, -0.3797,  0.1898,  0.4535,  0.1590],
        [ 0.4588, -0.4792,  1.2327, -0.9956, -0.4738, -0.8281,  0.4887,  0.1862],
        [ 0.5360, -0.3870,  1.7055, -0.0526, -0.3721,  0.0659,  0.5101,  0.1510]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4777647405862808
step:  9
running loss:  0.05308497117625342
Train Steps: 9/90  Loss: 0.0531 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3739, -0.5290,  1.7073, -0.4004, -0.4418, -0.0480,  0.6693,  0.1278],
        [ 0.5947, -0.3743,  1.6106, -0.0960, -0.4672, -0.2712,  0.5061,  0.1534],
        [ 0.6945, -0.3319,  1.6409,  0.2558, -0.4384,  0.1308,  0.4694,  0.1777],
        [ 0.9772, -0.1057,  1.5562, -0.1561, -0.7040, -0.3083,  0.3698,  0.1888],
        [ 0.6909, -0.3311,  1.8099, -0.0290, -0.5085,  0.1348,  0.5433,  0.1238],
        [ 0.5375, -0.4298,  1.6000, -1.0680, -0.1836, -0.9936,  0.8623,  0.1370],
        [ 0.7472, -0.2899,  1.4580, -0.5038, -0.6770, -0.3817,  0.3422,  0.2079],
        [-0.0050, -0.7495,  1.0129, -1.3194, -0.4006, -1.1948,  0.3865,  0.2216]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1472, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1472, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6249740868806839
step:  10
running loss:  0.06249740868806839

Train Steps: 10/90  Loss: 0.0625 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5993, -0.4172,  1.2918, -0.8599, -0.4895, -0.8689,  0.4674,  0.2569],
        [ 0.6262, -0.3522,  1.7937,  0.2198, -0.4215,  0.3747,  0.6560,  0.1763],
        [ 0.8618, -0.2339,  1.5645, -0.7135, -0.6392, -0.8297,  0.5180,  0.1674],
        [ 0.5942, -0.3806,  1.8856,  0.2418, -0.3690,  0.4265,  0.7306,  0.1557],
        [-0.1523, -0.8777,  1.0009, -1.3971, -0.3676, -1.3578,  0.4247,  0.2480],
        [ 0.6371, -0.3410,  1.8052,  0.0200, -0.3949,  0.2762,  0.6559,  0.1790],
        [ 0.6024, -0.4038,  1.3672, -1.0748, -0.5515, -1.0605,  0.6216,  0.1504],
        [ 0.6503, -0.3460,  1.6743,  0.2830, -0.5657,  0.1409,  0.4786,  0.1767]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1232, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1232, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7481739446520805
step:  11
running loss:  0.06801581315018913
Train Steps: 11/90  Loss: 0.0680 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6272, 0.4045, 0.8538, 0.5900, 0.3750, 0.4417, 0.5989, 0.4649],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6062, -0.3971,  1.4841, -0.8442, -0.4335, -0.7972,  0.6544,  0.2369],
        [ 0.7315, -0.3394,  1.7088,  0.1553, -0.5659, -0.1784,  0.6413,  0.1370],
        [ 0.6299, -0.3791,  1.5284, -0.3892, -0.6555, -0.3467,  0.4660,  0.2540],
        [ 0.4641, -0.4911,  1.8043, -0.0249, -0.2395, -0.0491,  0.7281,  0.1559],
        [ 0.4449, -0.4664,  1.5657, -0.5493, -0.5251, -0.2868,  0.7594,  0.1848],
        [ 0.3801, -0.5408,  1.7443,  0.1158, -0.3322,  0.1869,  0.5623,  0.2204],
        [ 0.4160, -0.5228,  1.1209, -1.0819, -0.5001, -1.0193,  0.5185,  0.2376],
        [ 0.4419, -0.5029,  1.3971, -0.7442, -0.5796, -0.5155,  0.5558,  0.1858]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.6109, -0.4177,  1.6575,  0.4393, -0.5538, -0.2459,  0.4805,
          -0.1385],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.5270, -0.4336,  1.3342, -0.6770, -0.6520, -0.5384,  0.2370,
           0.0592]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0295, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0295, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7777050696313381
step:  12
running loss:  0.06480875580261151
Train Steps: 12/90  Loss: 0.0648 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6184, 0.4079, 0.8350, 0.3700, 0.3675, 0.2883, 0.5312, 0.5783],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4202, -0.5173,  1.3836, -0.6753, -0.5700, -0.7469,  0.4485,  0.2560],
        [ 0.4411, -0.5239,  1.6127, -0.2479, -0.5575, -0.2546,  0.5313,  0.2155],
        [ 0.3881, -0.5298,  1.6339, -0.9055, -0.2468, -0.8263,  0.8806,  0.2196],
        [ 0.4624, -0.4736,  1.6928, -0.2386, -0.2085, -0.0825,  0.7356,  0.2267],
        [ 0.3695, -0.5581,  1.3107, -0.6324, -0.6252, -0.6646,  0.4025,  0.3258],
        [ 0.6355, -0.4044,  1.6213, -0.0035, -0.5570, -0.2023,  0.6437,  0.1830],
        [ 0.4304, -0.5043,  1.4906, -0.5608, -0.6256, -0.4607,  0.4872,  0.2247],
        [ 0.6903, -0.3622,  1.7952,  0.1668, -0.4360,  0.3059,  0.8035,  0.2034]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5704, -0.4019,  1.5709, -0.5769, -0.5885, -0.9541,  0.1679,
           0.3854],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0215, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0215, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7992481663823128
step:  13
running loss:  0.06148062818325483
Train Steps: 13/90  Loss: 0.0615 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0145, -0.7906,  1.1196, -1.0009, -0.4156, -0.9101,  0.4786,  0.3279],
        [-0.1917, -0.9380,  1.0036, -1.1857, -0.4182, -1.1089,  0.4359,  0.3034],
        [ 0.9721, -0.1997,  1.9877,  0.5234, -0.4360,  0.5324,  0.7571,  0.1728],
        [ 0.9694, -0.2090,  2.0023,  0.2408, -0.5046,  0.1142,  0.8536,  0.1759],
        [ 0.9472, -0.1856,  1.9436, -0.1935, -0.5401, -0.2110,  0.8041,  0.1836],
        [ 0.3610, -0.5303,  1.3561, -0.7856, -0.5148, -0.7644,  0.4557,  0.2544],
        [ 0.7199, -0.3162,  1.7110, -0.1089, -0.3733, -0.3602,  0.6635,  0.2948],
        [-0.4062, -1.0408,  1.1087, -1.0144, -0.4563, -0.8119,  0.3634,  0.2917]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1652, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.1652, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.964469201862812
step:  14
running loss:  0.06889065727591515
Train Steps: 14/90  Loss: 0.0689 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6239, 0.4206, 0.8750, 0.5400, 0.3688, 0.4850, 0.5737, 0.5700],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7869, -0.3033,  1.7974, -0.1969, -0.6868, -0.0957,  0.6042,  0.2605],
        [ 0.8107, -0.2904,  1.8674,  0.4519, -0.6166,  0.1297,  0.6507,  0.2021],
        [-0.2218, -0.9150,  1.0375, -1.0969, -0.4347, -1.0455,  0.3649,  0.3677],
        [ 0.2698, -0.6191,  1.7095, -1.0067, -0.0719, -0.8716,  0.9475,  0.2549],
        [-0.1655, -0.9113,  1.0007, -1.1529, -0.5338, -1.2172,  0.2648,  0.3071],
        [ 0.0616, -0.7328,  1.1565, -1.1089, -0.3360, -1.1049,  0.4130,  0.3369],
        [ 1.0715, -0.1211,  1.9333,  0.5056, -0.6645,  0.2440,  0.6736,  0.2401],
        [ 0.6491, -0.3910,  1.8553,  0.1901, -0.3428,  0.2149,  0.6684,  0.2235]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7742e-01, -3.8684e-01,  1.6286e+00, -5.6921e-01, -6.4619e-01,
          -2.7667e-01,  5.1432e-01,  5.2394e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [ 5.7131e-01, -3.6712e-01,  8.6651e-01, -1.0696e+00, -3.6905e-01,
          -1.2236e+00,  3.5266e-01,  2.6220e-01],
         [ 6.2401e-01, -3.7675e-01,  1.6575e+00, -1.2851e+00,  2.9492e-01,
          -1.2467e+00,  1.1276e+00,  2.1421e-01],
         [ 5.1085e-01, -4.3164e-01,  1.1436e+00, -1.3467e+00, -3.8637e-01,
          -1.4160e+00,  1.2393e-01, -5.8033e-02],
         [ 5.9850e-01, -3.9207e-01,  1.2995e+00, -1.0927e+00,  6.2356e-03,
          -1.5854e+00,  4.2771e-01,  2.1601e-01],
         [ 5.9601e-01, -3.4305e-01,  1.7557e+00,  2.0831e-01, -5.8268e-01,
          -4.5727e-02,  3.6420e-01,  3.4688e-01],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0739, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0739, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.038370206952095
step:  15
running loss:  0.069224680463473
Train Steps: 15/90  Loss: 0.0692 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6272, 0.4045, 0.8538, 0.5900, 0.3750, 0.4417, 0.5989, 0.4649],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7944, -0.3463,  1.9906,  0.2476, -0.5201,  0.2336,  0.7704,  0.1918],
        [ 0.0689, -0.7012,  1.3575, -0.7715, -0.3078, -0.7171,  0.4185,  0.3937],
        [ 0.3230, -0.5789,  1.3084, -0.9413, -0.4369, -1.0296,  0.4259,  0.3471],
        [ 0.5474, -0.4719,  1.2206, -0.8174, -0.4809, -0.9417,  0.4338,  0.3615],
        [ 0.1219, -0.7330,  1.1250, -0.9224, -0.6118, -0.8752,  0.3285,  0.3161],
        [ 0.5981, -0.4339,  1.8751,  0.1986, -0.4184,  0.1858,  0.5192,  0.2195],
        [ 0.8358, -0.2984,  1.8211,  0.3606, -0.6419, -0.1551,  0.5716,  0.2108],
        [-0.1780, -0.8768,  1.5876, -1.0652, -0.0232, -0.9913,  0.8239,  0.2795]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.9636e-01, -3.3795e-01,  1.4785e+00, -8.3865e-01, -2.4203e-01,
          -1.0619e+00,  3.2379e-01,  4.0077e-01],
         [ 5.7962e-01, -4.3256e-01,  1.4439e+00, -1.1774e+00, -2.9400e-01,
          -1.3390e+00,  3.9307e-01,  9.2841e-02],
         [ 5.6871e-01, -4.0878e-01,  1.0397e+00, -1.1466e+00, -3.1132e-01,
          -1.1928e+00,  4.6813e-01,  5.8553e-01],
         [ 5.0491e-01, -4.4280e-01,  8.6919e-01, -9.5814e-01, -6.6928e-01,
          -8.3865e-01,  8.9698e-02,  2.5891e-01],
         [ 5.2494e-01, -4.4734e-01,  1.7326e+00, -9.1917e-02, -2.0162e-01,
           1.5443e-01,  1.7328e-01,  4.1158e-02],
         [ 6.1085e-01, -4.1771e-01,  1.6575e+00,  4.3926e-01, -5.5381e-01,
          -2.4588e-01,  4.8055e-01, -1.3847e-01],
         [-2.2859e+00, -2.2859e+00,  1.7557e+00, -1.1466e+00,  8.7067e-02,
          -1.0773e+00,  1.1239e+00,  2.7833e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1780213713645935
step:  16
running loss:  0.0736263357102871
Train Steps: 16/90  Loss: 0.0736 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6184, 0.4079, 0.8350, 0.3700, 0.3675, 0.2883, 0.5312, 0.5783],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3631, -0.5394,  1.4618, -0.3937, -0.5298, -0.5855,  0.3389,  0.2794],
        [ 0.4413, -0.5507,  1.2269, -0.7110, -0.4430, -0.9009,  0.4244,  0.2799],
        [-0.3335, -0.9625,  1.3309, -0.7680, -0.2863, -0.7579,  0.4095,  0.3167],
        [ 0.4255, -0.4960,  1.6453, -0.6700, -0.1697, -0.6607,  0.6740,  0.2752],
        [-0.3251, -0.9842,  1.0067, -0.9940, -0.3619, -1.0681,  0.3570,  0.3390],
        [ 0.5777, -0.4170,  1.6715, -0.5359, -0.3518, -0.6406,  0.6042,  0.2708],
        [ 0.6887, -0.3486,  1.7259, -0.0297, -0.5322, -0.4222,  0.4260,  0.2669],
        [ 0.8123, -0.2894,  1.7652, -0.2682, -0.5185, -0.1183,  0.7801,  0.2465]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5704, -0.4019,  1.5709, -0.5769, -0.5885, -0.9541,  0.1679,
           0.3854],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2478, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2478, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.425776869058609
step:  17
running loss:  0.08386922759168289
Train Steps: 17/90  Loss: 0.0839 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7392, -0.3159,  1.9126,  0.2965, -0.2309,  0.2665,  0.6292,  0.2335],
        [ 0.6183, -0.4341,  1.8354, -0.2402, -0.4850, -0.2214,  0.6888,  0.2186],
        [ 0.7088, -0.3281,  1.7322, -0.1589, -0.4614, -0.2889,  0.5233,  0.2228],
        [ 0.3687, -0.5831,  1.6318, -0.3442, -0.5248, -0.8639,  0.3086,  0.3081],
        [ 0.6640, -0.3452,  1.5032, -0.5834, -0.5535, -0.6198,  0.4556,  0.2848],
        [-0.3263, -0.9667,  1.2706, -1.0857, -0.2673, -1.1992,  0.3529,  0.3348],
        [ 0.3817, -0.5648,  1.2980, -0.9832, -0.4549, -1.1130,  0.4572,  0.2740],
        [-0.7312, -1.2464,  1.0082, -1.2988, -0.2090, -1.4575,  0.2481,  0.3142]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5444, -0.3852,  1.3786, -0.5409, -0.6924, -0.4229,  0.1791,
           0.2341],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [-2.2859, -2.2859,  0.9922, -1.2021, -0.3229, -1.4314,  0.1044,
           0.2930]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1672, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1672, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5929645597934723
step:  18
running loss:  0.08849803109963734

Train Steps: 18/90  Loss: 0.0885 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7018, -0.3557,  1.7540, -0.1224, -0.4276, -0.0423,  0.5841,  0.2146],
        [ 0.2970, -0.6503,  1.6967, -0.1300, -0.4445, -0.3633,  0.4110,  0.2402],
        [ 0.0251, -0.7716,  1.1079, -1.0232, -0.4226, -1.2824,  0.2213,  0.3022],
        [ 0.3834, -0.5366,  1.4415, -0.5750, -0.4902, -0.5628,  0.3763,  0.2302],
        [-0.1063, -0.8539,  1.1570, -1.0314, -0.4734, -1.0130,  0.2999,  0.2568],
        [ 0.0538, -0.7577,  1.6569, -0.3731, -0.4748, -0.4974,  0.3697,  0.2801],
        [ 0.3470, -0.5624,  1.7853, -0.5192, -0.2951, -0.8880,  0.6386,  0.2389],
        [ 0.1852, -0.6856,  1.3280, -1.0545, -0.2309, -1.3210,  0.3448,  0.3081]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6457261517643929
step:  19
running loss:  0.08661716588233646
Train Steps: 19/90  Loss: 0.0866 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6317, 0.4038, 0.8287, 0.5900, 0.3800, 0.4717, 0.6295, 0.4986],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7591, -0.3409,  1.7338, -0.0023, -0.5642, -0.2221,  0.4435,  0.2436],
        [ 0.3795, -0.5712,  1.7574, -0.1573, -0.3790, -0.1880,  0.3507,  0.2420],
        [-0.8353, -1.2972,  1.2454, -1.2587, -0.2312, -1.3055,  0.2796,  0.2779],
        [-0.5438, -1.1473,  1.0012, -1.3929, -0.3499, -1.5850,  0.1994,  0.2789],
        [ 0.5224, -0.4489,  1.7406, -0.0551, -0.3338, -0.1273,  0.4229,  0.1991],
        [-0.5449, -1.1069,  1.2491, -1.3066, -0.2089, -1.4304,  0.3174,  0.2808],
        [ 0.9422, -0.2005,  1.7710,  0.0972, -0.6246, -0.3440,  0.4153,  0.1871],
        [ 0.5999, -0.4022,  1.3268, -1.1283, -0.6029, -0.9938,  0.4009,  0.2491]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6320, -0.4206,  1.5420,  0.4393, -0.5307, -0.1073,  0.6216,
           0.0171],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1236, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1236, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7693058922886848
step:  20
running loss:  0.08846529461443424
Train Steps: 20/90  Loss: 0.0885 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1886, -0.6836,  1.5729, -0.2674, -0.2233, -0.4119,  0.3165,  0.2492],
        [ 0.4372, -0.5134,  1.6379, -0.3847, -0.5800, -0.9076,  0.2784,  0.1690],
        [-0.0067, -0.8098,  1.6752, -0.9982, -0.3071, -1.3077,  0.4903,  0.2232],
        [ 0.3528, -0.5931,  1.6171, -0.1919, -0.5364, -0.4231,  0.2934,  0.1907],
        [ 0.3657, -0.5674,  1.6048, -0.6359, -0.4923, -0.3539,  0.4614,  0.1826],
        [ 0.1345, -0.6927,  1.1944, -1.0451, -0.4435, -0.9648,  0.2830,  0.3123],
        [ 0.3865, -0.5515,  1.5863, -0.5621, -0.4879, -0.5619,  0.4382,  0.1526],
        [-0.4958, -1.1116,  0.9192, -1.2360, -0.4738, -1.2510,  0.0091,  0.3017]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0934, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0934, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8627125546336174
step:  21
running loss:  0.08870059783969607
Train Steps: 21/90  Loss: 0.0887 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8606, -0.2453,  1.3886, -0.9505, -0.4922, -1.0851,  0.4113,  0.2025],
        [-0.9464, -1.3543,  1.1559, -1.1529, -0.4029, -1.2134,  0.1268,  0.2243],
        [ 0.1395, -0.6876,  1.0224, -0.8792, -0.6390, -0.9361, -0.0147,  0.2747],
        [ 0.2228, -0.6074,  1.3296, -0.9617, -0.5155, -1.1569,  0.2396,  0.2520],
        [ 0.0331, -0.7152,  1.2906, -0.9207, -0.5002, -1.0947,  0.1238,  0.2317],
        [ 0.5004, -0.4776,  1.7450,  0.0990, -0.4102,  0.1276,  0.3315,  0.1553],
        [-0.5480, -1.0970,  1.6360, -1.0426,  0.0103, -1.0901,  0.6953,  0.2123],
        [ 0.7488, -0.3436,  1.7506,  0.0133, -0.5513,  0.1343,  0.4193,  0.1387]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1413e-01, -4.1527e-01,  1.4208e+00, -1.2697e+00, -2.9400e-01,
          -1.0234e+00,  8.6439e-01,  1.7146e-01],
         [-2.2859e+00, -2.2859e+00,  1.2360e+00, -1.1620e+00, -5.7113e-01,
          -9.6182e-01,  1.3215e-01,  1.2532e-01],
         [ 5.6293e-01, -3.8707e-01,  7.2426e-01, -9.5814e-01, -5.8268e-01,
          -9.8491e-01,  1.2881e-01,  4.1034e-01],
         [ 5.6966e-01, -4.4656e-01,  1.1973e+00, -1.1871e+00, -4.5712e-01,
          -9.9653e-01,  5.2186e-01,  2.0324e-01],
         [ 5.6951e-01, -3.9269e-01,  1.3226e+00, -9.0023e-01, -4.6721e-01,
          -1.1928e+00,  1.7367e-01,  3.6998e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [-2.2859e+00, -2.2859e+00,  1.8018e+00, -9.0023e-01,  1.9099e-01,
          -1.2467e+00,  1.1057e+00,  3.7986e-01],
         [ 6.2566e-01, -4.2731e-01,  1.8365e+00, -6.8822e-02, -4.6721e-01,
          -6.1124e-02,  1.1715e+00,  1.6077e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1541, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.1541, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.016780845820904
step:  22
running loss:  0.0916718566282229
Train Steps: 22/90  Loss: 0.0917 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6200, 0.4070, 0.8938, 0.4183, 0.3538, 0.4567, 0.6175, 0.5400],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0417, -0.8324,  1.5706, -0.6496, -0.5061, -0.7902,  0.3200,  0.1959],
        [ 0.6402, -0.3714,  1.5161, -0.6605, -0.4793, -0.3589,  0.4657,  0.1758],
        [ 0.0140, -0.7716,  1.4618, -0.3929, -0.4085, -0.4324,  0.2697,  0.1847],
        [-0.0728, -0.8222,  1.4052, -0.7861, -0.5726, -1.2827,  0.1695,  0.2282],
        [ 0.6133, -0.3940,  1.4564, -0.7158, -0.5758, -0.6346,  0.4125,  0.1667],
        [-0.1707, -0.8710,  1.3833, -0.9728, -0.5769, -1.0311,  0.2213,  0.2043],
        [ 0.1520, -0.6904,  1.5596, -0.5260, -0.2024, -0.6276,  0.3844,  0.1957],
        [ 0.0610, -0.7315,  1.5109, -0.3846, -0.2611, -0.3896,  0.2713,  0.2347]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5778, -0.4061,  1.8423, -0.3537, -0.6520, -0.1766,  0.5663,
           0.2083],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1489, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1489, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1656840667128563
step:  23
running loss:  0.09416017681360245
Train Steps: 23/90  Loss: 0.0942 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0037, -0.7422,  1.3922, -1.1547, -0.4432, -1.1044,  0.3581,  0.2139],
        [ 0.3885, -0.5133,  1.5515, -0.7567, -0.6069, -0.8293,  0.3334,  0.1393],
        [ 0.2714, -0.6226,  1.5515, -0.2874, -0.5171, -0.2793,  0.2606,  0.1226],
        [-0.1505, -0.8803,  1.5943, -0.8312, -0.3734, -1.0537,  0.4488,  0.1856],
        [ 0.5403, -0.4329,  1.4621, -0.1111, -0.4986, -0.3244,  0.2106,  0.2074],
        [ 0.0936, -0.6823,  1.5448, -0.2891, -0.5000, -0.3389,  0.3101,  0.2221],
        [ 0.5081, -0.4559,  1.6541, -0.3323, -0.2829,  0.0522,  0.4847,  0.1648],
        [-0.2603, -0.9413,  0.9716, -1.3636, -0.4094, -1.4996,  0.1687,  0.2274]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0659, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0659, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2315543591976166
step:  24
running loss:  0.09298143163323402
Train Steps: 24/90  Loss: 0.0930 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2694, -0.6120,  1.6079, -0.1341, -0.3535, -0.1856,  0.2777,  0.1239],
        [-0.1129, -0.8312,  1.4104, -1.0356, -0.4240, -1.0812,  0.3827,  0.2333],
        [ 0.3946, -0.4807,  1.1978, -0.9625, -0.5292, -0.8474,  0.3154,  0.2285],
        [ 0.2245, -0.6238,  1.6883, -0.4121, -0.5650, -0.2460,  0.3334,  0.1264],
        [-0.0742, -0.8103,  1.6389, -0.7168, -0.5823, -0.6310,  0.3868,  0.1623],
        [ 0.3275, -0.5708,  1.5419, -0.0796, -0.3344, -0.2834,  0.2763,  0.1428],
        [ 0.3363, -0.5500,  1.5343, -0.2309, -0.3338, -0.3383,  0.3287,  0.1582],
        [ 0.4521, -0.4659,  1.3048, -1.2154, -0.4436, -1.2450,  0.4739,  0.1569]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.6141, -0.4153,  1.4208, -1.2697, -0.2940, -1.0234,  0.8644,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0605, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0605, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2920665852725506
step:  25
running loss:  0.09168266341090202
Train Steps: 25/90  Loss: 0.0917 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6182, 0.3998, 0.8793, 0.4191, 0.3552, 0.4285, 0.6038, 0.5312],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5360, -0.4152,  1.2727, -0.8990, -0.4217, -0.8114,  0.3388,  0.2447],
        [ 0.7213, -0.2711,  1.7282, -0.4758, -0.5359, -0.0893,  0.5664,  0.0697],
        [ 0.5419, -0.4243,  1.8018, -0.3781, -0.5639, -0.1564,  0.3643,  0.1712],
        [-0.1072, -0.8073,  1.2532, -1.0415, -0.3916, -1.0363,  0.3168,  0.2298],
        [ 0.1826, -0.6807,  1.8562, -0.0210, -0.1675, -0.0548,  0.4331,  0.1280],
        [-0.2581, -0.9261,  1.1611, -1.1396, -0.3878, -1.1883,  0.2695,  0.2118],
        [-0.1382, -0.8743,  1.2336, -1.0734, -0.4734, -1.1985,  0.2244,  0.1587],
        [ 0.9495, -0.1562,  1.7437,  0.2298, -0.6145, -0.1484,  0.3448,  0.1113]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.5697, -0.4393,  1.7754, -0.3503, -0.6453, -0.3067,  0.5028,
           0.1677],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1472, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.1472, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.439281862229109
step:  26
running loss:  0.09381853316265804
Train Steps: 26/90  Loss: 0.0938 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7377, -0.2847,  1.2891, -0.9831, -0.6037, -0.6774,  0.3743,  0.1758],
        [ 0.7532, -0.3084,  1.7839, -0.0081, -0.2489,  0.1553,  0.4885,  0.1983],
        [ 0.0920, -0.6706,  1.3227, -0.8929, -0.4635, -0.9294,  0.2370,  0.2070],
        [ 0.4035, -0.5192,  1.7010,  0.0193, -0.2705,  0.0588,  0.4027,  0.1585],
        [ 0.3594, -0.5149,  1.6956,  0.1053, -0.4258, -0.2073,  0.3934,  0.1345],
        [ 0.7228, -0.2703,  1.5759, -0.6418, -0.6070, -0.4731,  0.3995,  0.1768],
        [ 0.1192, -0.6348,  1.3703, -0.8587, -0.4873, -0.9933,  0.2480,  0.1672],
        [-0.3907, -0.9933,  1.3532, -1.0529, -0.2807, -1.1499,  0.4252,  0.2074]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0591, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0591, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.498351190239191
step:  27
running loss:  0.09253152556441448
Train Steps: 27/90  Loss: 0.0925 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7374, -0.2478,  1.5541, -0.5682, -0.4088, -0.1455,  0.5582,  0.1738],
        [ 0.8026, -0.1954,  1.4651, -0.5861, -0.5108, -0.2191,  0.4381,  0.1958],
        [-0.3435, -0.9865,  1.1572, -0.7504, -0.3741, -0.8815,  0.1974,  0.2048],
        [ 0.4001, -0.5106,  1.9784, -0.5306, -0.1866, -0.6455,  0.7068,  0.1653],
        [ 0.8539, -0.2140,  1.7453, -0.1278, -0.4997, -0.1058,  0.3985,  0.1125],
        [ 0.6154, -0.3897,  1.2614, -0.7802, -0.4414, -0.8929,  0.3122,  0.2156],
        [ 0.7323, -0.2899,  1.3559, -0.6403, -0.4691, -0.8427,  0.2395,  0.2310],
        [-0.4492, -1.0322,  1.4731, -0.4906, -0.4800, -0.5407,  0.1952,  0.1919]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2237, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2237, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.722070474177599
step:  28
running loss:  0.09721680264919996
Train Steps: 28/90  Loss: 0.0972 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7305, -0.3132,  1.8139,  0.0944, -0.3673,  0.3312,  0.4564,  0.1943],
        [ 0.4552, -0.4721,  1.6356, -0.4081, -0.5364, -0.3788,  0.2233,  0.1668],
        [ 0.5072, -0.4483,  1.6649,  0.2623, -0.4183,  0.0033,  0.3367,  0.1549],
        [-0.0679, -0.8478,  1.5491, -1.2164, -0.0420, -1.1702,  0.8427,  0.1657],
        [ 0.4734, -0.4277,  1.4086, -0.7942, -0.5250, -0.4327,  0.4632,  0.2055],
        [ 0.7182, -0.3058,  1.7048, -0.6412, -0.4689, -0.8560,  0.4083,  0.2025],
        [ 0.4958, -0.4098,  1.5977, -0.2361, -0.4395, -0.1448,  0.4607,  0.1308],
        [ 0.3944, -0.5354,  1.0374, -1.0903, -0.5026, -1.1602,  0.1620,  0.2851]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0290, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0290, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.751073746010661
step:  29
running loss:  0.09486461193140211
Train Steps: 29/90  Loss: 0.0949 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6250, -0.4144,  1.6957,  0.1613, -0.4815,  0.1147,  0.3846,  0.1633],
        [ 1.0344, -0.0511,  1.5689,  0.0435, -0.5933, -0.2652,  0.2690,  0.2165],
        [ 0.4900, -0.4944,  1.4873, -1.2496, -0.2852, -1.3362,  0.6333,  0.2112],
        [ 0.2213, -0.5748,  1.6522, -0.3171, -0.2605,  0.1559,  0.4833,  0.1932],
        [ 0.6316, -0.3629,  1.5085, -0.9237, -0.4612, -1.0227,  0.4347,  0.2365],
        [ 0.4009, -0.5173,  1.6601,  0.0104, -0.4300,  0.1274,  0.4248,  0.1939],
        [ 0.6442, -0.3294,  1.5468, -0.6170, -0.3791, -0.6776,  0.6063,  0.1621],
        [-0.3326, -0.9680,  1.2587, -1.1487, -0.3353, -1.1027,  0.3654,  0.2544]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0458, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0458, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.796903731301427
step:  30
running loss:  0.09323012437671423

Train Steps: 30/90  Loss: 0.0932 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2950, -0.5529,  1.5650, -0.1983, -0.3732, -0.0056,  0.4572,  0.2051],
        [ 0.6665, -0.3533,  1.6722,  0.3198, -0.4098,  0.0561,  0.4334,  0.2532],
        [ 0.3297, -0.5676,  1.8212, -0.9010, -0.2561, -1.0195,  0.8730,  0.1724],
        [ 0.9322, -0.1943,  1.7126, -0.6697, -0.4805, -0.9836,  0.5364,  0.2048],
        [ 0.6783, -0.3507,  1.2963, -1.0498, -0.5918, -0.8010,  0.4516,  0.2145],
        [ 0.4780, -0.4556,  1.7030, -0.1402, -0.4341, -0.1432,  0.4271,  0.2051],
        [ 0.1772, -0.6843,  1.0516, -1.1705, -0.5276, -1.2873,  0.2467,  0.2395],
        [ 0.4062, -0.5089,  1.7335, -0.1380, -0.1525, -0.0088,  0.4933,  0.1989]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.8161120787262917
step:  31
running loss:  0.09084232512020296
Train Steps: 31/90  Loss: 0.0908 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3344, -0.5869,  1.6304, -0.2963, -0.3374, -0.3541,  0.4984,  0.2313],
        [ 0.6908, -0.3503,  1.6515, -0.0700, -0.4126, -0.3634,  0.4649,  0.2478],
        [ 0.7039, -0.3515,  1.7289, -0.5859, -0.5596, -1.0050,  0.6109,  0.1697],
        [ 0.4358, -0.5206,  1.6912, -0.1203, -0.3773, -0.2881,  0.4537,  0.1943],
        [ 0.6527, -0.3829,  1.6514, -0.3966, -0.3452, -0.1804,  0.4861,  0.2402],
        [ 0.2703, -0.5918,  1.6975, -0.4348, -0.2091, -0.3389,  0.6179,  0.2223],
        [ 0.6149, -0.3941,  1.2463, -1.3619, -0.5945, -1.1821,  0.4503,  0.2203],
        [ 0.6631, -0.3669,  1.7404, -0.3028, -0.3693, -0.3110,  0.5155,  0.2463]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0467, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0467, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.8628441616892815
step:  32
running loss:  0.08946388005279005
Train Steps: 32/90  Loss: 0.0895 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3982, -0.5270,  1.6897,  0.0661, -0.4512, -0.1298,  0.4194,  0.2139],
        [ 0.4820, -0.4519,  1.0651, -1.1793, -0.3780, -1.2608,  0.3199,  0.3024],
        [ 0.7377, -0.2993,  1.5560,  0.0784, -0.4592, -0.0693,  0.3546,  0.2839],
        [ 0.3434, -0.5464,  1.7874, -0.2388, -0.3171, -0.1256,  0.5441,  0.1799],
        [ 0.4071, -0.4964,  1.8216, -0.1906, -0.4884,  0.0066,  0.5674,  0.1910],
        [ 0.8802, -0.2046,  1.6890,  0.0257, -0.5662, -0.2507,  0.3828,  0.1599],
        [ 0.1629, -0.7121,  1.8712, -0.8241, -0.1683, -0.9695,  0.9181,  0.1917],
        [ 0.9275, -0.1944,  1.2945, -1.3044, -0.3726, -1.3874,  0.5662,  0.2288]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0337, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0337, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.8965813778340816
step:  33
running loss:  0.08777519326769945
Train Steps: 33/90  Loss: 0.0878 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.4253e-01, -3.1317e-01,  1.4131e+00, -8.4927e-01, -4.4791e-01,
         -8.2762e-01,  5.7978e-01,  2.1282e-01],
        [ 4.5485e-01, -4.8451e-01,  1.7093e+00,  3.4834e-01, -4.3732e-01,
         -1.3684e-02,  3.7540e-01,  2.9459e-01],
        [ 3.7311e-01, -5.3037e-01,  1.1646e+00, -8.6670e-01, -5.0887e-01,
         -7.3844e-01,  2.4022e-01,  2.4823e-01],
        [ 7.2810e-01, -3.0743e-01,  1.7642e+00, -2.3315e-01, -4.7777e-01,
         -3.8799e-01,  5.0412e-01,  2.1321e-01],
        [ 2.1975e-01, -6.6211e-01,  1.9491e+00, -2.8295e-01, -1.4412e-01,
         -5.3107e-01,  8.4005e-01,  2.2348e-01],
        [ 3.7371e-01, -5.1912e-01,  1.7898e+00, -9.8038e-04, -4.0995e-01,
          1.5966e-01,  5.4400e-01,  1.4020e-01],
        [ 8.9009e-01, -2.2979e-01,  1.2286e+00, -9.8838e-01, -5.1678e-01,
         -9.6966e-01,  4.1535e-01,  2.4532e-01],
        [ 8.0319e-01, -2.6611e-01,  1.7041e+00, -7.1392e-01, -3.1660e-01,
         -9.2966e-01,  6.5947e-01,  2.2535e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.92330539226532
step:  34
running loss:  0.0859795703607447

Train Steps: 34/90  Loss: 0.0860 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8903, -0.2314,  1.6684, -0.4563, -0.6001, -0.5134,  0.4911,  0.2531],
        [ 0.6476, -0.3743,  1.3517, -1.0156, -0.4161, -1.1527,  0.6536,  0.2023],
        [ 0.3698, -0.5161,  1.6889,  0.1680, -0.3293,  0.1163,  0.4273,  0.2552],
        [ 0.4036, -0.4773,  1.3534, -0.6551, -0.5117, -0.5085,  0.4268,  0.2266],
        [ 0.5026, -0.4508,  1.7764,  0.0095, -0.2172,  0.1691,  0.5443,  0.2641],
        [ 0.8662, -0.2546,  1.6973, -0.5305, -0.3797, -1.0850,  0.5950,  0.2191],
        [ 0.7662, -0.2932,  1.5427, -0.9673, -0.3746, -1.1312,  0.6072,  0.1884],
        [ 0.2559, -0.5938,  1.7963,  0.2113, -0.3554,  0.0888,  0.5212,  0.1696]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.944044752046466
step:  35
running loss:  0.08411556434418474
Train Steps: 35/90  Loss: 0.0841 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1132, -0.7020,  1.3995, -0.7614, -0.5315, -0.8818,  0.3390,  0.2145],
        [ 0.6932, -0.3358,  1.7980, -0.1423, -0.4874, -0.1082,  0.4483,  0.2249],
        [ 1.0330, -0.1652,  1.8622,  0.3639, -0.4635,  0.0057,  0.5467,  0.1839],
        [-0.3976, -1.0464,  1.0914, -1.1965, -0.3316, -1.3292,  0.3589,  0.2467],
        [ 0.4669, -0.4691,  1.8673,  0.1160, -0.2885,  0.2232,  0.6384,  0.2342],
        [ 0.8902, -0.2152,  1.3809, -1.1008, -0.2806, -1.3165,  0.6639,  0.2483],
        [ 1.1518, -0.0532,  1.6962, -0.6029, -0.5221, -0.6022,  0.6503,  0.2845],
        [ 0.8269, -0.2339,  1.7614,  0.1012, -0.4519, -0.0218,  0.5402,  0.1910]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2440, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2440, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.1880801748484373
step:  36
running loss:  0.08855778263467881
Train Steps: 36/90  Loss: 0.0886 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6275, 0.4157, 0.8337, 0.5800, 0.3763, 0.4200, 0.5547, 0.6125],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6768, -0.3240,  1.6868, -1.0501, -0.2776, -1.1492,  0.7312,  0.1656],
        [ 0.6052, -0.3957,  1.7534, -0.1127, -0.5399, -0.3517,  0.5323,  0.1732],
        [ 0.3163, -0.5653,  1.7590, -0.0033, -0.3279,  0.0508,  0.4693,  0.2262],
        [ 0.7730, -0.3122,  1.8314, -0.1909, -0.5424, -0.1122,  0.4518,  0.2226],
        [ 0.7522, -0.3238,  1.3224, -1.1095, -0.3794, -1.1402,  0.5556,  0.2368],
        [ 0.8689, -0.2526,  1.6390,  0.1715, -0.4881, -0.2192,  0.3752,  0.2783],
        [ 0.3152, -0.6392,  1.7184,  0.0382, -0.4561, -0.1316,  0.4029,  0.2143],
        [ 0.4995, -0.4912,  1.5503, -0.8207, -0.5154, -0.7694,  0.6317,  0.1574]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6124, -0.3658,  1.5651,  0.3931, -0.5480, -0.3460,  0.2761,
           0.5431],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0140, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0140, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2020612247288227
step:  37
running loss:  0.08654219526294116
Train Steps: 37/90  Loss: 0.0865 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6216, 0.4100, 0.7350, 0.2067, 0.4325, 0.2050, 0.5950, 0.5333],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5374, -0.4509,  1.7941,  0.2094, -0.3937,  0.1123,  0.4918,  0.2022],
        [ 0.6597, -0.3745,  1.7606,  0.0741, -0.4634,  0.1028,  0.4925,  0.2353],
        [ 0.3929, -0.5305,  1.1526, -1.1111, -0.3497, -1.3115,  0.4014,  0.2133],
        [ 0.3941, -0.5861,  1.9533,  0.0592, -0.3937, -0.2195,  0.7192,  0.2054],
        [ 0.7141, -0.3497,  1.5147, -0.8251, -0.4656, -0.9256,  0.4631,  0.2019],
        [ 0.7035, -0.3585,  1.7677, -0.3576, -0.5942, -0.2835,  0.4756,  0.1937],
        [ 0.6302, -0.3811,  1.2863, -0.9902, -0.5425, -0.8486,  0.4420,  0.1782],
        [ 0.4674, -0.5172,  1.7270, -0.2313, -0.5116, -0.5873,  0.4607,  0.1997]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5763, -0.3963,  1.7788, -0.0765, -0.6520, -0.0842,  0.4624,
           0.2776],
         [ 0.5853, -0.3920,  1.1090, -1.3313, -0.2882, -1.3390,  0.4624,
           0.1775],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0173, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0173, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2193711400032043
step:  38
running loss:  0.08472029315797906

Train Steps: 38/90  Loss: 0.0847 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3966, -0.5936,  1.8039,  0.2802, -0.5525, -0.2142,  0.4026,  0.1941],
        [ 0.7885, -0.2987,  1.7053, -0.3514, -0.5758, -0.1134,  0.5165,  0.1591],
        [ 0.6118, -0.3937,  1.6096, -0.7545, -0.3470, -1.0085,  0.4864,  0.1848],
        [ 0.2276, -0.6336,  1.0980, -0.9782, -0.5359, -0.9213,  0.2522,  0.2356],
        [ 0.6053, -0.4369,  1.8010,  0.2543, -0.5330,  0.1212,  0.4244,  0.2200],
        [ 0.6160, -0.4273,  1.6637, -0.5837, -0.6304, -0.6150,  0.4379,  0.2124],
        [ 0.6644, -0.3704,  1.7846, -0.1783, -0.4724,  0.0512,  0.6495,  0.2111],
        [ 0.3931, -0.5582,  1.4735, -1.0682, -0.2781, -1.2448,  0.7007,  0.1874]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5767, -0.4396,  1.6782,  0.1905, -0.3844,  0.0308,  0.4588,
           0.0855],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0228, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0228, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.242176616564393
step:  39
running loss:  0.08313273375806136
Train Steps: 39/90  Loss: 0.0831 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.5106e-01, -6.2456e-01,  1.8187e+00, -1.4204e-01, -7.0050e-01,
         -4.5938e-01,  4.0855e-01,  1.4211e-01],
        [ 3.8717e-01, -5.6815e-01,  1.1987e+00, -1.1633e+00, -4.1027e-01,
         -1.3726e+00,  3.9880e-01,  2.0288e-01],
        [ 5.8238e-01, -4.1615e-01,  1.8140e+00, -5.7646e-02, -3.4776e-01,
         -5.9229e-03,  4.6542e-01,  2.3383e-01],
        [ 1.1506e-01, -7.4752e-01,  1.2902e+00, -1.1127e+00, -3.6575e-01,
         -1.3568e+00,  4.9368e-01,  2.0120e-01],
        [ 9.3898e-01, -1.8494e-01,  1.8908e+00,  1.1370e-03, -5.2647e-01,
          2.3662e-01,  5.5223e-01,  1.8537e-01],
        [ 7.6586e-01, -3.0031e-01,  1.8964e+00,  9.3340e-02, -4.1862e-01,
          3.0666e-01,  5.2751e-01,  2.0029e-01],
        [ 6.4795e-01, -4.0853e-01,  1.7987e+00, -6.2643e-03, -6.3486e-01,
         -1.4099e-01,  4.4951e-01,  1.5382e-01],
        [ 4.4453e-01, -5.2647e-01,  1.3447e+00, -1.0519e+00, -6.0382e-01,
         -9.8575e-01,  5.0882e-01,  1.7739e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2675318624824286
step:  40
running loss:  0.08168829656206071
Train Steps: 40/90  Loss: 0.0817 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4367, -0.5225,  1.2960, -1.1648, -0.3793, -1.1430,  0.5874,  0.1746],
        [ 0.1962, -0.6501,  1.1282, -1.0401, -0.5617, -0.9396,  0.2712,  0.2072],
        [ 0.6875, -0.3992,  1.8857,  0.2476, -0.6058, -0.0681,  0.4812,  0.1275],
        [ 0.7143, -0.3665,  1.8605,  0.0773, -0.5132,  0.1704,  0.4499,  0.2356],
        [ 0.6062, -0.4491,  1.9378,  0.2578, -0.6167, -0.0194,  0.5542,  0.1477],
        [ 0.5631, -0.4239,  1.6553, -0.6901, -0.5287, -0.7452,  0.4552,  0.1585],
        [ 0.6069, -0.3986,  1.7356, -0.1607, -0.5416,  0.0315,  0.4627,  0.1705],
        [ 0.2619, -0.6570,  1.2979, -1.1250, -0.3744, -1.2685,  0.4204,  0.1447]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8614e-01, -3.9292e-01,  1.0570e+00, -1.4314e+00, -3.2864e-01,
          -1.1235e+00,  6.1824e-01,  1.8522e-01],
         [ 5.4099e-01, -4.3210e-01,  8.8383e-01, -9.8491e-01, -5.7691e-01,
          -1.0003e+00,  2.6028e-01,  3.3149e-01],
         [ 6.3949e-01, -4.2132e-01,  1.7037e+00,  3.6228e-01, -4.3256e-01,
          -1.0731e-01,  6.5602e-01, -4.8817e-03],
         [ 5.5393e-01, -4.0308e-01,  1.7168e+00, -5.9398e-02, -3.7483e-01,
           5.4350e-02,  1.3903e-01,  3.7768e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [ 5.8932e-01, -3.8468e-01,  1.7152e+00, -6.6159e-01, -5.9423e-01,
          -7.9246e-01,  4.1039e-01,  1.6982e-01],
         [ 5.4440e-01, -3.8460e-01,  1.6171e+00, -1.6890e-01, -5.8845e-01,
          -3.8029e-02,  1.7915e-01,  2.2961e-01],
         [ 5.6637e-01, -4.3212e-01,  1.2862e+00, -1.0003e+00, -2.1894e-01,
          -1.4608e+00,  3.8827e-01,  1.8549e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0188, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0188, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2863815408200026
step:  41
running loss:  0.08015564733707323
Train Steps: 41/90  Loss: 0.0802 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6545, -0.3618,  1.5680, -0.6445, -0.5170, -0.7510,  0.4842,  0.1577],
        [ 0.4752, -0.4913,  1.6541, -0.3822, -0.6434, -0.4164,  0.4551,  0.2095],
        [ 0.3454, -0.5692,  1.5968, -0.1963, -0.6108, -0.2757,  0.2590,  0.1625],
        [-0.3859, -1.0327,  1.4048, -1.1683, -0.1083, -1.1432,  0.6973,  0.1848],
        [ 0.7585, -0.2932,  1.6858, -0.1326, -0.3363,  0.0059,  0.4644,  0.1856],
        [ 0.8664, -0.2708,  1.8608, -0.0368, -0.6589, -0.0560,  0.5618,  0.1448],
        [ 0.7278, -0.3654,  1.6793,  0.0226, -0.5101, -0.1967,  0.3999,  0.1454],
        [ 0.5154, -0.4584,  1.2732, -1.0080, -0.6305, -0.8144,  0.3943,  0.1073]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1001, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1001, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.386511316522956
step:  42
running loss:  0.08063122182197514

Train Steps: 42/90  Loss: 0.0806 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3529, -0.5591,  1.5007, -0.3760, -0.6113, -0.3282,  0.2479,  0.2410],
        [ 0.8080, -0.2771,  1.6025, -0.3582, -0.6192, -0.1207,  0.3971,  0.0940],
        [ 0.5119, -0.4641,  1.4563, -0.7292, -0.5492, -0.8653,  0.3301,  0.0829],
        [ 0.2396, -0.6196,  1.5460, -0.4810, -0.4276, -0.7962,  0.3526,  0.1782],
        [ 0.9781, -0.1953,  1.7784,  0.0812, -0.5292,  0.1354,  0.6026,  0.1393],
        [ 0.7572, -0.3118,  1.6693, -0.2089, -0.5883, -0.2834,  0.4285,  0.1437],
        [-0.4364, -1.0733,  1.4616, -1.2481, -0.0045, -1.1192,  0.8184,  0.1947],
        [ 0.5306, -0.4469,  1.6497, -0.4279, -0.6176, -0.3333,  0.4536,  0.1986]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1016, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1016, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.488085037097335
step:  43
running loss:  0.08111825667668221
Train Steps: 43/90  Loss: 0.0811 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5349, -0.4455,  1.7570, -0.2074, -0.5198, -0.4080,  0.4787,  0.1820],
        [ 0.8963, -0.2477,  1.9448, -0.1026, -0.4083,  0.2798,  0.6832,  0.1334],
        [ 0.3211, -0.5580,  1.6122, -0.2500, -0.5693, -0.4049,  0.2903,  0.1702],
        [ 0.3067, -0.5936,  1.0340, -1.2498, -0.3961, -1.2777,  0.3361,  0.1416],
        [ 0.9243, -0.1990,  1.6087, -0.5908, -0.5360, -0.4200,  0.5517,  0.1284],
        [ 0.6387, -0.3762,  1.7011,  0.0358, -0.4203,  0.0398,  0.3977,  0.1838],
        [-0.7036, -1.2559,  1.3289, -0.8699, -0.4771, -0.9723,  0.2688,  0.1476],
        [ 0.5620, -0.4357,  1.7383, -0.5753, -0.5294, -0.5052,  0.5535,  0.1751]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.5784, -0.4088,  1.7268,  0.0467, -0.3344,  0.0697,  0.5490,
           0.2545],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0732, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0732, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.561272194609046
step:  44
running loss:  0.08093800442293286
Train Steps: 44/90  Loss: 0.0809 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5818, -0.3966,  1.3973, -0.8580, -0.6440, -0.5126,  0.4475,  0.1186],
        [ 0.4153, -0.4874,  1.2256, -0.7259, -0.5466, -0.6686,  0.3026,  0.2101],
        [ 0.7514, -0.3059,  1.7006,  0.0987, -0.3783,  0.1060,  0.2963,  0.1680],
        [-0.2648, -0.9652,  1.7160, -0.6842, -0.1627, -0.8070,  0.7399,  0.2166],
        [ 0.5834, -0.4091,  1.7065, -0.0113, -0.5106,  0.1586,  0.4210,  0.1692],
        [ 0.2055, -0.6349,  1.4568, -0.9875, -0.3721, -1.0002,  0.5307,  0.1490],
        [ 0.5841, -0.4346,  1.6850, -0.2511, -0.6876, -0.1978,  0.3221,  0.1884],
        [ 0.0765, -0.7286,  1.7289, -0.5439, -0.2815, -0.7442,  0.6015,  0.1698]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.8017283137887716
step:  45
running loss:  0.08448285141752826
Train Steps: 45/90  Loss: 0.0845 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2672, -0.5984,  1.5340, -0.0941, -0.3328, -0.1551,  0.3480,  0.2435],
        [ 0.4768, -0.4793,  1.7141, -0.1435, -0.5566, -0.1459,  0.5068,  0.1785],
        [ 0.1151, -0.7118,  1.6953, -0.8581, -0.3410, -0.9446,  0.6515,  0.1427],
        [ 0.2253, -0.6507,  1.7210, -0.3347, -0.5786, -0.4340,  0.3847,  0.1178],
        [ 0.5995, -0.4095,  1.6505, -0.4597, -0.5058, -0.2441,  0.3787,  0.1836],
        [ 0.4865, -0.4288,  1.3854, -0.7569, -0.5593, -0.5213,  0.3683,  0.1623],
        [ 0.2983, -0.6022,  1.6223,  0.0036, -0.2758, -0.0715,  0.3743,  0.2261],
        [-0.1031, -0.8570,  1.6374, -0.9917, -0.2689, -1.0909,  0.6932,  0.1572]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0429, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0429, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.8446308206766844
step:  46
running loss:  0.08357893088427575

Train Steps: 46/90  Loss: 0.0836 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [   nan,    nan, 0.7412, 0.2200, 0.4450, 0.1517, 0.5312, 0.4983],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.1204e-01, -4.0808e-01,  2.0241e+00, -6.4815e-04, -3.0531e-01,
         -2.6063e-01,  6.0652e-01,  2.0491e-01],
        [ 7.8274e-01, -2.8036e-01,  1.8523e+00, -4.5895e-01, -4.4856e-01,
          9.5163e-03,  7.9724e-01,  1.7100e-01],
        [ 1.6438e-02, -7.3354e-01,  1.6209e+00, -8.2435e-01, -2.8295e-01,
         -8.0990e-01,  6.1467e-01,  1.8458e-01],
        [ 1.1100e+00, -7.7610e-02,  1.8684e+00, -1.1496e-01, -5.9891e-01,
          1.6606e-01,  4.7673e-01,  1.2712e-01],
        [ 7.8423e-01, -2.5731e-01,  1.6101e+00, -3.6818e-01, -6.1474e-01,
         -1.4655e-01,  3.7293e-01,  1.9924e-01],
        [-1.0913e+00, -1.4849e+00,  1.1627e+00, -9.4262e-01, -2.5918e-01,
         -1.1330e+00,  3.0192e-01,  2.3340e-01],
        [-3.3309e-01, -9.9671e-01,  1.1426e+00, -8.3217e-01, -3.9860e-01,
         -1.0915e+00,  2.8002e-01,  2.2096e-01],
        [-2.7431e-01, -9.2364e-01,  1.1610e+00, -8.5328e-01, -3.1564e-01,
         -1.1378e+00,  2.8685e-01,  2.2268e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.5365e-01, -3.6231e-01,  1.9115e+00, -2.6898e-01, -4.0370e-01,
          -8.3095e-01,  6.9257e-01,  1.6077e-01],
         [ 6.1577e-01, -4.2490e-01,  1.8654e+00, -9.0023e-01, -3.2286e-01,
          -3.5366e-01,  9.6675e-01,  2.8902e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 5.5813e-01, -4.5860e-01,  1.5586e+00, -3.7466e-01, -6.7920e-01,
          -2.3907e-01,  4.4552e-01,  8.4044e-02],
         [ 5.3274e-01, -4.3811e-01,  1.2880e+00, -6.3079e-01, -6.8661e-01,
          -5.3072e-01,  2.6581e-01,  3.4174e-01],
         [-2.2859e+00, -2.2859e+00,  1.1379e+00, -1.2697e+00, -2.3048e-01,
          -1.5854e+00,  1.6790e-01,  1.5858e-02],
         [ 5.5912e-01, -3.9900e-01,  9.0115e-01, -1.2313e+00, -3.9792e-01,
          -1.3852e+00,  8.0445e-02,  2.0706e-01],
         [ 5.5664e-01, -4.1601e-01,  9.9353e-01, -1.3313e+00, -2.8245e-01,
          -1.5161e+00,  2.1441e-01,  1.2532e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9766319822520018
step:  47
running loss:  0.08460919111174472
Train Steps: 47/90  Loss: 0.0846 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6122, -0.3670,  1.3447, -0.9112, -0.3654, -1.0974,  0.4136,  0.1788],
        [-0.8619, -1.2983,  1.1162, -0.8752, -0.3778, -1.0457,  0.2680,  0.2437],
        [ 0.9006, -0.2098,  2.0488,  0.0939, -0.2921,  0.4136,  0.6445,  0.1981],
        [ 0.8501, -0.2358,  1.9843,  0.0972, -0.2533,  0.0895,  0.5619,  0.2259],
        [-1.4110, -1.6712,  1.2796, -0.7929, -0.3579, -0.9350,  0.3379,  0.2312],
        [ 0.4885, -0.4263,  1.3314, -1.0387, -0.2906, -1.1694,  0.4948,  0.2056],
        [ 0.9188, -0.1726,  2.0675, -0.0769, -0.5989,  0.1320,  0.6938,  0.0644],
        [-0.4029, -0.9729,  1.3120, -0.6700, -0.4773, -0.8498,  0.2555,  0.2297]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1134, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1134, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.090075312182307
step:  48
running loss:  0.0852099023371314
Train Steps: 48/90  Loss: 0.0852 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0881, -0.8622,  1.7180, -0.3380, -0.1900, -0.3595,  0.5118,  0.1946],
        [ 0.3039, -0.5632,  1.6433, -0.7080, -0.5210, -0.6785,  0.4957,  0.2307],
        [ 0.1802, -0.7043,  1.6741, -0.2930, -0.1235, -0.5044,  0.3889,  0.2316],
        [-0.6809, -1.1939,  1.2687, -1.0639, -0.3153, -1.4568,  0.3238,  0.1441],
        [ 0.3311, -0.5428,  1.7258, -0.2202, -0.2688, -0.0183,  0.4605,  0.2348],
        [ 0.1304, -0.6649,  1.6293, -0.6603, -0.5442, -0.5658,  0.5650,  0.1014],
        [ 0.3655, -0.5611,  1.7344, -0.1714, -0.4312, -0.2769,  0.4720,  0.1755],
        [ 0.4916, -0.4244,  1.5928, -0.1345, -0.4315, -0.3216,  0.4903,  0.2304]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0986, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0986, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.188635913655162
step:  49
running loss:  0.08548236558479923
Train Steps: 49/90  Loss: 0.0855 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3454, -0.4971,  1.4509, -0.5696, -0.5079, -0.5487,  0.3331,  0.1901],
        [ 0.3420, -0.5645,  1.7734,  0.0995, -0.4219, -0.2674,  0.3567,  0.2133],
        [ 0.2438, -0.6110,  1.4486, -0.8155, -0.3154, -1.0944,  0.4986,  0.2272],
        [-0.4310, -1.0179,  1.4841, -0.7465, -0.4986, -0.4605,  0.4811,  0.1436],
        [ 0.0408, -0.7762,  1.8346, -0.0525, -0.3941, -0.1446,  0.5553,  0.1564],
        [-0.1729, -0.8700,  1.3802, -0.9201, -0.1231, -1.1452,  0.4031,  0.2139],
        [ 0.3208, -0.5864,  1.8330, -0.0026, -0.1255,  0.0109,  0.5079,  0.2647],
        [ 0.1492, -0.6696,  1.2125, -1.0467, -0.4508, -1.1560,  0.3488,  0.1378]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.5435, -0.4045,  1.7557,  0.0851, -0.5307, -0.2844,  0.0172,
           0.1980],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0689, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0689, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.257585039362311
step:  50
running loss:  0.08515170078724622
Train Steps: 50/90  Loss: 0.0852 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.4041, -1.6769,  1.1390, -0.9196, -0.2693, -1.1782,  0.2023,  0.2169],
        [ 0.6574, -0.3363,  1.7427,  0.2147, -0.4140,  0.0338,  0.3964,  0.2300],
        [ 0.1212, -0.6699,  1.4240, -1.0007, -0.3117, -1.0039,  0.5159,  0.1357],
        [ 0.3221, -0.5317,  1.4546, -0.9382, -0.4403, -0.4426,  0.5357,  0.1844],
        [ 0.6383, -0.3453,  1.7350, -0.3782, -0.4291, -0.7050,  0.3973,  0.1939],
        [ 0.6196, -0.4027,  1.9948, -0.1199, -0.3932,  0.0846,  0.6095,  0.1669],
        [ 0.4998, -0.4693,  1.7146,  0.2622, -0.3820, -0.1580,  0.3382,  0.1745],
        [-0.3319, -0.9927,  1.0219, -1.1324, -0.3122, -1.3981,  0.2109,  0.1964]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.5680, -0.4562,  1.5697,  0.4947, -0.4904, -0.1503,  0.3536,
           0.1956],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0524, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0524, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.309938298538327
step:  51
running loss:  0.08450859408898681
Train Steps: 51/90  Loss: 0.0845 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1343, -0.6719,  1.1848, -0.9330, -0.2622, -1.1929,  0.2911,  0.1972],
        [ 0.1454, -0.6445,  1.3932, -0.7919, -0.4341, -0.7242,  0.3274,  0.2350],
        [ 0.6946, -0.3061,  1.8101,  0.3960, -0.4587,  0.0493,  0.4624,  0.1293],
        [ 0.3389, -0.5140,  1.4280, -0.7080, -0.5626, -0.5696,  0.3538,  0.1557],
        [ 0.1701, -0.6353,  1.6288, -0.7426, -0.2407, -0.7913,  0.5828,  0.1906],
        [ 0.6218, -0.3358,  1.3809, -0.8998, -0.4000, -0.9331,  0.4869,  0.1414],
        [-1.3165, -1.6054,  1.0127, -1.0492, -0.3465, -1.1461,  0.2269,  0.2403],
        [ 0.4412, -0.4863,  1.7145,  0.4136, -0.2517,  0.1877,  0.3192,  0.2372]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0551, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0551, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.365078965201974
step:  52
running loss:  0.08394382625388411
Train Steps: 52/90  Loss: 0.0839 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6152, 0.4131, 0.6863, 0.2567, 0.3625, 0.3300, 0.5765, 0.5305],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7222, -0.2672,  0.9825, -1.1078, -0.5705, -0.9164,  0.1739,  0.2092],
        [ 0.0665, -0.7308,  1.5910, -0.8096, -0.2316, -1.0253,  0.5274,  0.2099],
        [ 0.3037, -0.5983,  1.5746, -0.1910, -0.2327, -0.1118,  0.2617,  0.2293],
        [-1.2385, -1.5823,  0.9541, -1.2474, -0.2575, -1.4829,  0.2528,  0.2454],
        [ 0.3653, -0.5106,  1.7113, -0.0647, -0.3102,  0.2423,  0.4094,  0.1881],
        [ 0.4853, -0.4565,  1.5947,  0.0082, -0.4378, -0.0843,  0.3777,  0.1922],
        [ 0.8494, -0.2006,  1.7019, -0.1805, -0.6135, -0.5201,  0.4251,  0.0953],
        [ 0.1864, -0.6458,  1.7229, -0.2324, -0.4180, -0.7384,  0.4583,  0.1592]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5557, -0.3779,  0.8838, -1.1004, -0.6115, -0.7617,  0.3769,
           0.1644],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0608, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0608, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.425908403471112
step:  53
running loss:  0.08350770572587005
Train Steps: 53/90  Loss: 0.0835 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5744, -0.4358,  1.1659, -1.2056, -0.2736, -1.3638,  0.3496,  0.1837],
        [ 0.7267, -0.3071,  1.6715,  0.2827, -0.4446, -0.0200,  0.4095,  0.1985],
        [ 0.3578, -0.5564,  1.3084, -1.0304, -0.2044, -1.2064,  0.3487,  0.2020],
        [ 0.2623, -0.5900,  1.6264,  0.0475, -0.5414, -0.3029,  0.2797,  0.1594],
        [ 0.3787, -0.5423,  1.8219, -0.1248, -0.5105, -0.0737,  0.4833,  0.1497],
        [ 0.3219, -0.5242,  1.3093, -0.7075, -0.5767, -0.5406,  0.2827,  0.1780],
        [-0.7890, -1.2903,  0.9590, -1.2208, -0.3849, -1.4650,  0.2070,  0.1993],
        [ 0.2771, -0.6158,  1.7014, -0.1671, -0.3850,  0.1569,  0.4584,  0.2011]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0666, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0666, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.492464052513242
step:  54
running loss:  0.08319377875024522

Train Steps: 54/90  Loss: 0.0832 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378],
        [   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9089, -0.1808,  1.2733, -1.0337, -0.5515, -1.1081,  0.3434,  0.1587],
        [ 0.8128, -0.2403,  1.4522, -0.6860, -0.6329, -0.7484,  0.2570,  0.1964],
        [ 1.2244,  0.0209,  1.4750,  0.2158, -0.4895, -0.2091,  0.2452,  0.2366],
        [ 0.7003, -0.3044,  1.5976, -0.0632, -0.4107,  0.0459,  0.3074,  0.2059],
        [ 0.8016, -0.2368,  1.7200, -0.0157, -0.4262,  0.1961,  0.5880,  0.1784],
        [-2.0187, -2.1144,  1.5037, -1.0512, -0.0099, -1.3094,  0.7017,  0.2278],
        [ 0.6363, -0.3475,  1.5620, -0.2526, -0.5205, -0.2222,  0.1970,  0.1762],
        [-0.8353, -1.2941,  0.8914, -1.2110, -0.3824, -1.3947,  0.1707,  0.2402]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982],
         [-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0768, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0768, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.569240244105458
step:  55
running loss:  0.08307709534737197
Train Steps: 55/90  Loss: 0.0831 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6262, 0.4085, 0.8438, 0.3150, 0.4025, 0.2633, 0.6339, 0.4810],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4381, -0.5051,  1.6501, -0.5635, -0.4440, -0.7391,  0.4992,  0.2375],
        [ 0.8613, -0.2273,  1.4765, -0.8301, -0.5814, -0.6689,  0.3431,  0.1861],
        [ 0.5253, -0.4384,  1.5418, -0.5003, -0.5351, -0.5880,  0.3159,  0.2336],
        [-1.3941, -1.6921,  0.9840, -1.2563, -0.2956, -1.3670,  0.2403,  0.2752],
        [ 0.2707, -0.6181,  1.3609, -1.0859, -0.4104, -1.0531,  0.4897,  0.1458],
        [ 0.4641, -0.4778,  1.4754,  0.0333, -0.1887, -0.2335,  0.3023,  0.2703],
        [ 0.3964, -0.5099,  1.5877,  0.1125, -0.4331, -0.1267,  0.4035,  0.1513],
        [ 1.0365, -0.1044,  1.5411, -0.0426, -0.5323, -0.1892,  0.3891,  0.1199]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.6064, -0.3990,  1.6113, -0.8309, -0.4268, -1.0696,  0.6421,
          -0.0640],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0489, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0489, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.618122825399041
step:  56
running loss:  0.08246647902498287
Train Steps: 56/90  Loss: 0.0825 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1561, -0.7037,  1.4751, -0.8651, -0.4711, -1.0469,  0.5206,  0.1341],
        [ 0.5377, -0.4234,  1.5176, -0.2102, -0.5475, -0.2934,  0.2895,  0.1455],
        [ 0.2270, -0.6552,  1.1592, -1.1152, -0.4722, -1.0442,  0.3479,  0.2583],
        [ 0.4311, -0.5644,  1.5158, -1.1601, -0.2336, -1.4870,  0.4191,  0.1780],
        [ 0.3855, -0.5671,  1.5510, -0.7643, -0.5894, -0.6581,  0.5060,  0.1097],
        [ 0.1805, -0.6948,  1.5721,  0.1061, -0.2787, -0.1696,  0.3229,  0.2565],
        [ 0.5569, -0.4505,  1.4991,  0.0849, -0.4491, -0.2875,  0.2419,  0.2883],
        [ 0.1861, -0.6641,  1.6742, -0.1751, -0.4272,  0.1524,  0.5527,  0.2295]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0432, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0432, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.661323884502053
step:  57
running loss:  0.08177761200880795
Train Steps: 57/90  Loss: 0.0818 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0544, -0.7835,  1.6998, -0.2782, -0.1604, -0.2922,  0.4850,  0.1874],
        [ 0.4879, -0.4952,  1.6149, -0.6312, -0.3887, -1.1637,  0.4164,  0.2082],
        [ 0.2649, -0.6053,  1.6451, -0.2102, -0.5783, -0.1651,  0.4630,  0.1315],
        [ 0.2480, -0.6386,  1.6026,  0.0719, -0.2249, -0.1325,  0.3098,  0.2759],
        [ 0.1634, -0.7327,  1.2079, -1.2229, -0.4614, -1.3717,  0.3322,  0.2116],
        [ 1.0088, -0.1769,  1.6499, -0.2045, -0.4546, -0.9317,  0.4750,  0.1453],
        [ 0.2639, -0.6029,  1.6201, -0.3808, -0.5056, -0.0960,  0.6122,  0.1866],
        [ 0.3316, -0.5745,  1.2158, -1.0627, -0.6265, -0.7776,  0.3601,  0.1813]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0437, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0437, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.704992236569524
step:  58
running loss:  0.08112055580292282

Train Steps: 58/90  Loss: 0.0811 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6725, -0.3250,  1.3117, -0.8996, -0.4375, -0.9283,  0.3662,  0.2144],
        [ 0.8203, -0.2586,  1.2539, -0.8671, -0.4885, -0.8802,  0.2916,  0.2076],
        [-0.6151, -1.1069,  1.2332, -0.7149, -0.5765, -0.8060,  0.1702,  0.2368],
        [ 1.7519,  0.3353,  1.6793,  0.2937, -0.6515, -0.0736,  0.3457,  0.1722],
        [ 0.9992, -0.1174,  1.3909, -0.8545, -0.3347, -0.9903,  0.4672,  0.1633],
        [-0.7490, -1.2308,  1.8226, -0.4618, -0.1372, -0.7754,  0.7525,  0.2115],
        [-1.7876, -1.9232,  1.5286, -0.8708, -0.1098, -0.9816,  0.6602,  0.2375],
        [ 1.5744,  0.1914,  1.7823,  0.1854, -0.5948,  0.1148,  0.5642,  0.1143]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.925117092207074
step:  59
running loss:  0.08347656088486566
Train Steps: 59/90  Loss: 0.0835 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4033, -0.5310,  1.8569, -0.6054, -0.5117, -0.6812,  0.6229,  0.1313],
        [ 0.4407, -0.5129,  1.8577,  0.1828, -0.4270,  0.1355,  0.5361,  0.1932],
        [-0.1968, -0.9619,  1.9427, -0.6664, -0.1138, -1.0862,  0.8384,  0.1491],
        [-0.0191, -0.8111,  1.3862, -1.2234, -0.2565, -1.2246,  0.4617,  0.2555],
        [ 0.8325, -0.2923,  1.7349,  0.3951, -0.4775, -0.0507,  0.5048,  0.1812],
        [ 0.3294, -0.5901,  1.8064,  0.0931, -0.5397, -0.2080,  0.5408,  0.1618],
        [ 0.2896, -0.6054,  1.0851, -0.9982, -0.5647, -0.8826,  0.1846,  0.2427],
        [ 0.8394, -0.2579,  1.1610, -0.9770, -0.4822, -1.0040,  0.3513,  0.2346]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6077, -0.3965,  1.8480, -0.6539, -0.6231, -0.4537,  0.6216,
          -0.0220],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0440, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0440, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.969099497422576
step:  60
running loss:  0.08281832495704293
Train Steps: 60/90  Loss: 0.0828 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1576, -0.9122,  1.2972, -1.2263, -0.1811, -1.4133,  0.4684,  0.2480],
        [ 0.2890, -0.6472,  1.9153,  0.1004, -0.1274, -0.1649,  0.6380,  0.1997],
        [-0.0181, -0.8165,  1.4741, -1.3042, -0.2795, -1.3269,  0.5811,  0.2282],
        [ 0.4858, -0.4523,  1.6892, -0.2371, -0.5700, -0.3723,  0.6010,  0.1366],
        [ 0.8972, -0.2306,  1.8460,  0.3335, -0.4067,  0.0752,  0.6305,  0.1847],
        [ 0.3262, -0.6062,  1.8215, -0.3808, -0.6322, -0.4538,  0.5082,  0.1785],
        [ 0.2143, -0.6786,  1.8186,  0.2153, -0.5068, -0.2337,  0.4954,  0.1994],
        [ 0.7243, -0.3422,  1.3246, -1.1767, -0.5365, -1.1800,  0.4903,  0.1229]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.5452, -0.4067,  1.7557,  0.0543, -0.4961, -0.3306,  0.1323,
           0.4306],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0569, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0569, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.025980396196246
step:  61
running loss:  0.0823931212491188
Train Steps: 61/90  Loss: 0.0824 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6747, -0.3336,  1.7131, -0.3043, -0.6373, -0.1198,  0.5301,  0.1279],
        [ 0.3088, -0.5878,  1.4396, -1.0615, -0.3396, -1.2393,  0.4457,  0.2140],
        [ 0.5520, -0.4229,  1.8363,  0.2268, -0.5093, -0.0411,  0.6594,  0.1800],
        [ 0.2341, -0.6258,  1.8258,  0.1728, -0.3747, -0.0613,  0.4904,  0.1651],
        [ 0.6160, -0.3853,  1.7532,  0.3894, -0.3895, -0.0292,  0.4597,  0.1998],
        [-0.1318, -0.8842,  1.0308, -1.2271, -0.5247, -1.3953,  0.2541,  0.2315],
        [-0.7442, -1.3088,  1.8895, -0.8294, -0.0512, -1.0553,  1.0225,  0.2369],
        [ 0.9457, -0.1848,  1.5723, -1.0821, -0.2259, -1.0955,  0.6738,  0.1960]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.2448e-01, -4.3610e-01,  1.5940e+00, -2.9207e-01, -5.4804e-01,
          -9.1917e-02,  2.4319e-01,  5.0176e-02],
         [ 5.7962e-01, -4.3256e-01,  1.4439e+00, -1.1774e+00, -2.9400e-01,
          -1.3390e+00,  3.9307e-01,  9.2841e-02],
         [ 6.1888e-01, -4.2379e-01,  1.6026e+00,  2.2948e-01, -4.0370e-01,
           3.1255e-02,  6.2979e-01,  7.7444e-02],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.9107e-01, -4.0805e-01,  1.6460e+00,  3.5458e-01, -2.0739e-01,
           4.6651e-02,  4.9700e-01,  1.8522e-01],
         [ 5.5912e-01, -3.9900e-01,  9.0115e-01, -1.2313e+00, -3.9792e-01,
          -1.3852e+00,  8.0445e-02,  2.0706e-01],
         [-2.2859e+00, -2.2859e+00,  1.6229e+00, -1.1081e+00,  4.1617e-01,
          -1.3005e+00,  1.0070e+00,  5.1879e-01],
         [ 5.9579e-01, -3.8176e-01,  1.5536e+00, -1.1081e+00, -2.0739e-01,
          -1.3390e+00,  5.6628e-01,  2.0831e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0864, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0864, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.112371591851115
step:  62
running loss:  0.08245760632017927

Train Steps: 62/90  Loss: 0.0825 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0652, -0.0872,  1.6244,  0.1411, -0.5858, -0.4915,  0.3320,  0.1692],
        [ 0.4764, -0.4995,  1.2932, -0.9137, -0.4796, -0.9494,  0.4467,  0.2394],
        [ 0.5212, -0.4979,  1.4810, -0.8740, -0.4198, -0.9972,  0.4141,  0.2848],
        [-0.5558, -1.2075,  1.6232, -1.1434,  0.0361, -1.3837,  0.8139,  0.2174],
        [ 0.6402, -0.3467,  1.4580, -0.7266, -0.6276, -0.4378,  0.4899,  0.1890],
        [ 0.1559, -0.7151,  1.9275, -0.6109, -0.1726, -1.0339,  0.7443,  0.1235],
        [ 0.2836, -0.6025,  1.9319,  0.1667, -0.3236,  0.1527,  0.6902,  0.1907],
        [ 0.1549, -0.6862,  1.9986,  0.2127, -0.4233,  0.2488,  0.7887,  0.1478]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.176298273727298
step:  63
running loss:  0.08216346466233806
Train Steps: 63/90  Loss: 0.0822 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0356, -0.1234,  1.7094, -0.6482, -0.3317, -0.7847,  0.5696,  0.2211],
        [ 0.3286, -0.6007,  1.2848, -0.8995, -0.3070, -1.1710,  0.4285,  0.2396],
        [-0.8547, -1.3968,  1.9650, -0.7491,  0.1321, -1.1016,  1.1164,  0.2244],
        [ 0.4023, -0.5407,  1.4807, -0.8273, -0.4771, -0.7097,  0.6189,  0.1762],
        [ 0.4463, -0.5124,  1.2960, -0.9030, -0.4845, -0.9337,  0.3351,  0.2077],
        [ 0.2804, -0.6267,  1.8965,  0.6625, -0.3471,  0.0380,  0.4486,  0.2180],
        [ 0.5654, -0.3786,  1.6728, -0.4492, -0.5768, -0.1508,  0.6567,  0.1743],
        [ 0.4768, -0.4687,  1.5823, -0.5242, -0.4902, -0.6029,  0.5122,  0.1763]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0955, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0955, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.271774662658572
step:  64
running loss:  0.08237147910404019
Train Steps: 64/90  Loss: 0.0824 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950],
        [0.6277, 0.4013, 0.8888, 0.4767, 0.3600, 0.3567, 0.6148, 0.4672],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6064, 0.3953, 0.8738, 0.4417, 0.3663, 0.4683, 0.5511, 0.5416]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1920, -0.9985,  1.9063,  0.1103, -0.1318, -0.3085,  0.7094,  0.2498],
        [ 0.7767, -0.3053,  1.7186, -0.3475, -0.4719, -0.7444,  0.6525,  0.1397],
        [ 0.1857, -0.7125,  1.8274, -0.0031, -0.2454, -0.2910,  0.5246,  0.2424],
        [ 0.6512, -0.3863,  1.4643, -0.8827, -0.4335, -1.0586,  0.3989,  0.2542],
        [ 0.4884, -0.4620,  1.2575, -1.1185, -0.4550, -1.0417,  0.4923,  0.2755],
        [ 0.5038, -0.4734,  1.2670, -1.2477, -0.5148, -1.0009,  0.4584,  0.2556],
        [ 0.4376, -0.5049,  1.8492, -0.1855, -0.2348, -0.1066,  0.7327,  0.2066],
        [ 0.5826, -0.4122,  1.8609, -0.2930, -0.4397, -0.3699,  0.7610,  0.1792]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04],
         [ 6.1322e-01, -4.3241e-01,  1.8192e+00, -8.4219e-02, -6.2309e-01,
          -6.3849e-01,  5.5366e-01, -1.2778e-01],
         [ 5.4348e-01, -4.5974e-01,  1.6575e+00,  1.5858e-02, -3.2286e-01,
          -1.1501e-01,  1.8767e-01,  1.8544e-01],
         [ 5.5319e-01, -3.8879e-01,  1.4727e+00, -7.4627e-01, -5.5381e-01,
          -1.0465e+00,  2.6467e-02,  2.1383e-01],
         [ 5.1288e-01, -4.3741e-01,  1.2072e+00, -1.0080e+00, -6.5196e-01,
          -8.8483e-01,  2.6787e-01,  2.3353e-01],
         [ 5.0092e-01, -4.3333e-01,  1.1090e+00, -1.1158e+00, -6.9815e-01,
          -7.3087e-01,  2.6170e-01,  6.2199e-02],
         [ 5.6039e-01, -4.6197e-01,  1.7961e+00, -1.9969e-01, -3.2286e-01,
           1.0824e-01,  4.1039e-01,  2.5450e-01],
         [ 5.1490e-01, -4.6028e-01,  1.7499e+00, -2.4588e-01, -5.9423e-01,
          -1.2271e-01,  2.5964e-01,  2.1549e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0448, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0448, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.316538447514176
step:  65
running loss:  0.08179289919252579
Train Steps: 65/90  Loss: 0.0818 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1470, -0.7047,  1.6310, -0.2381, -0.2549, -0.3992,  0.4727,  0.2435],
        [ 0.4058, -0.5714,  1.8483, -0.1800, -0.3816, -0.1532,  0.7788,  0.2107],
        [ 0.4472, -0.5076,  1.6044, -0.1745, -0.2147, -0.2088,  0.4506,  0.2606],
        [ 0.2987, -0.5943,  1.5517, -0.6556, -0.5261, -0.4434,  0.5252,  0.2261],
        [ 0.4258, -0.5116,  1.7422, -0.3681, -0.1858, -0.1330,  0.6773,  0.2530],
        [ 0.9321, -0.1669,  1.5974, -0.3834, -0.4631, -0.9787,  0.4675,  0.2501],
        [ 0.9310, -0.1953,  1.3346, -1.2929, -0.2924, -1.4419,  0.5972,  0.2600],
        [ 0.1639, -0.7135,  1.7702, -0.3880, -0.5578, -0.8406,  0.6680,  0.1920]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 6.0468e-01, -4.2094e-01,  1.7557e+00, -3.0331e-02, -4.8453e-01,
           2.5450e-01,  6.5866e-01,  1.2363e-01],
         [ 5.5484e-01, -4.6823e-01,  1.7309e+00,  9.6578e-02, -1.3942e-01,
           1.7573e-01,  5.0451e-01,  9.4188e-02],
         [ 5.2448e-01, -4.3610e-01,  1.5940e+00, -2.9207e-01, -5.4804e-01,
          -9.1917e-02,  2.4319e-01,  5.0176e-02],
         [ 5.7067e-01, -4.0169e-01,  1.7961e+00, -1.5350e-01, -5.1501e-02,
           3.2379e-01,  5.6628e-01,  4.1617e-01],
         [ 5.9007e-01, -4.0000e-01,  1.8423e+00, -6.8822e-02, -5.3072e-01,
          -9.2333e-01,  3.6420e-01,  1.8522e-01],
         [ 6.1577e-01, -3.9601e-01,  1.4092e+00, -1.2774e+00, -2.0739e-01,
          -1.1851e+00,  8.4910e-01,  1.9173e-01],
         [ 6.1640e-01, -3.9561e-01,  1.8249e+00, -1.1501e-01, -6.0000e-01,
          -5.0762e-01,  5.8360e-01,  1.0054e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0462, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0462, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.362761614844203
step:  66
running loss:  0.0812539638612758

Train Steps: 66/90  Loss: 0.0813 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.1903,  0.0091,  1.5244, -0.6896, -0.3186, -0.7837,  0.4619,  0.2637],
        [-1.1955, -1.5569,  1.2581, -0.9294, -0.3222, -1.0647,  0.3363,  0.3174],
        [ 1.1021, -0.0334,  1.8661,  0.1296, -0.4194, -0.2605,  0.6152,  0.1854],
        [-1.0808, -1.4725,  1.1546, -1.0496, -0.2942, -1.1167,  0.2463,  0.3367],
        [ 1.2006, -0.0122,  1.3387, -0.9424, -0.2428, -0.9820,  0.4809,  0.2814],
        [ 0.8916, -0.2122,  1.2474, -0.9546, -0.4703, -0.7094,  0.5053,  0.2677],
        [ 0.9518, -0.2066,  1.7941, -0.2452, -0.5559, -0.2133,  0.7859,  0.1155],
        [ 0.6461, -0.3687,  1.8293,  0.2481, -0.3678,  0.1926,  0.6810,  0.1674]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1144, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1144, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.477159423753619
step:  67
running loss:  0.08174864811572566
Train Steps: 67/90  Loss: 0.0817 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7726, -0.2872,  1.5579, -0.6419, -0.4527, -0.1764,  0.6722,  0.1945],
        [ 0.7038, -0.3455,  1.7372, -0.0100, -0.4515, -0.4409,  0.4419,  0.2044],
        [ 0.3806, -0.5373,  1.5902, -0.6628, -0.4155, -0.2866,  0.7564,  0.1726],
        [ 0.3435, -0.5409,  1.6290, -0.5285, -0.3532, -0.7808,  0.4576,  0.3081],
        [-0.3292, -1.0527,  0.9807, -1.2696, -0.3676, -1.4329,  0.1426,  0.3147],
        [ 0.8057, -0.2529,  1.3971, -1.0243, -0.3280, -1.0554,  0.4332,  0.2968],
        [ 0.4678, -0.4743,  1.6984,  0.0821, -0.4409, -0.3279,  0.4225,  0.2544],
        [ 0.9089, -0.2301,  1.7610,  0.1076, -0.3777,  0.0481,  0.7147,  0.1679]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.3896,  1.7326, -0.5692, -0.6289,  0.0082,  0.5028,
           0.1005],
         [ 0.6096, -0.4046,  1.8249, -0.0072, -0.6115, -0.3537,  0.6182,
           0.0928],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1032, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1032, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.580386197194457
step:  68
running loss:  0.08206450289991848
Train Steps: 68/90  Loss: 0.0821 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4083, 0.8350, 0.2717, 0.4562, 0.1800, 0.5918, 0.4878],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0113, -0.7472,  1.4550, -0.8894, -0.2580, -0.9753,  0.4123,  0.2772],
        [ 0.4000, -0.5421,  1.2346, -0.7698, -0.5962, -0.8030,  0.3929,  0.2342],
        [ 0.3309, -0.5806,  1.3000, -0.6666, -0.6106, -0.3164,  0.3896,  0.2519],
        [ 0.7557, -0.3389,  1.8301,  0.0937, -0.4879,  0.2119,  0.5420,  0.1904],
        [ 0.4026, -0.5461,  1.5781, -1.0008, -0.0243, -1.1922,  0.8809,  0.2303],
        [ 0.6067, -0.4049,  1.7667,  0.0835, -0.2052, -0.0215,  0.5257,  0.1727],
        [ 0.5976, -0.4035,  1.4973, -0.7421, -0.5810, -0.9208,  0.4500,  0.2530],
        [ 0.6578, -0.3394,  1.3067, -0.5173, -0.5163, -0.6640,  0.3923,  0.2634]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4002,  1.5709, -1.0311, -0.1785, -1.4545,  0.4474,
          -0.0328],
         [ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335],
         [ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.611077474430203
step:  69
running loss:  0.08131996339753918
Train Steps: 69/90  Loss: 0.0813 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3484, -0.5802,  1.6820, -0.0106, -0.6042, -0.0191,  0.2717,  0.2010],
        [-0.0371, -0.8269,  1.0462, -1.0266, -0.5768, -1.1250,  0.1318,  0.3113],
        [ 0.2505, -0.6367,  1.7123,  0.0646, -0.3241,  0.1082,  0.4883,  0.1706],
        [ 0.7437, -0.2872,  1.5725, -0.9677, -0.3447, -1.0602,  0.6722,  0.2208],
        [ 0.6053, -0.4160,  1.2632, -0.9159, -0.6230, -0.9971,  0.3718,  0.2289],
        [ 0.5458, -0.4351,  1.2529, -0.7791, -0.5063, -0.8925,  0.3689,  0.3058],
        [ 0.9709, -0.1950,  1.7543,  0.1357, -0.3991,  0.3494,  0.5204,  0.2254],
        [ 0.2469, -0.6231,  1.6615, -1.0366, -0.0289, -1.1851,  1.0284,  0.2094]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.5544, -0.4133,  0.8145, -1.2082, -0.4268, -1.3544,  0.1221,
           0.3446],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0399, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0399, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.6510243806988
step:  70
running loss:  0.08072891972426857

Train Steps: 70/90  Loss: 0.0807 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6064, 0.3953, 0.8738, 0.4417, 0.3663, 0.4683, 0.5511, 0.5416],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6906, -0.3369,  1.5061, -0.8076, -0.6131, -0.6987,  0.4593,  0.2867],
        [ 1.1220, -0.1122,  1.6284,  0.0842, -0.5748, -0.0547,  0.4497,  0.1736],
        [-1.1066, -1.4997,  1.2091, -1.2279, -0.3574, -1.2843,  0.2825,  0.3239],
        [ 0.8739, -0.2342,  1.6656, -0.2235, -0.6230, -0.1619,  0.4995,  0.1426],
        [ 0.1316, -0.6897,  1.6279, -1.2489,  0.0040, -1.3089,  1.0166,  0.2204],
        [-0.0195, -0.7876,  1.2561, -1.1085, -0.4725, -1.0848,  0.1783,  0.2908],
        [ 1.0028, -0.1599,  1.6230, -0.1222, -0.6060, -0.2397,  0.3403,  0.1853],
        [ 1.0546, -0.1132,  1.6749, -0.0623, -0.2407,  0.1899,  0.5196,  0.2179]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5149, -0.4603,  1.7499, -0.2459, -0.5942, -0.1227,  0.2596,
           0.2155],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0682, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0682, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.719259122386575
step:  71
running loss:  0.08055294538572641
Train Steps: 71/90  Loss: 0.0806 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3293, -0.5473,  1.5970, -0.7552, -0.4687, -1.1431,  0.3605,  0.2590],
        [ 0.5273, -0.4548,  1.5444, -0.1336, -0.3016, -0.1362,  0.2556,  0.2522],
        [ 0.5754, -0.4633,  1.3858, -1.3929, -0.2541, -1.4203,  0.6970,  0.2267],
        [ 0.3987, -0.5329,  1.1977, -1.1102, -0.6819, -0.5298,  0.3855,  0.2635],
        [ 0.7827, -0.3052,  1.5950, -0.4448, -0.5119,  0.0966,  0.5064,  0.1696],
        [ 0.7617, -0.3088,  1.5791,  0.0172, -0.4719,  0.0445,  0.3501,  0.2548],
        [ 0.5747, -0.4432,  1.4921, -0.0964, -0.5980, -0.3201,  0.3020,  0.2039],
        [-0.0334, -0.8246,  1.8454, -0.9392, -0.1398, -1.1044,  0.9246,  0.2017]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5680, -0.4562,  1.5697,  0.4947, -0.4904, -0.1503,  0.3536,
           0.1956],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0389, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0389, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.758151488378644
step:  72
running loss:  0.07997432622748117
Train Steps: 72/90  Loss: 0.0800 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6152, 0.4131, 0.6863, 0.2567, 0.3625, 0.3300, 0.5765, 0.5305]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7339, -0.3342,  1.6868, -0.8073, -0.5287, -0.6222,  0.6321,  0.2477],
        [ 0.2298, -0.6195,  1.3810, -1.2579, -0.2440, -1.3400,  0.6141,  0.2401],
        [ 0.6787, -0.3341,  1.6653,  0.1779, -0.2311, -0.0670,  0.4532,  0.2377],
        [ 0.1206, -0.7352,  1.1463, -1.0930, -0.5663, -0.8224,  0.2956,  0.2897],
        [ 0.6156, -0.3924,  1.8099, -0.0031, -0.2276,  0.0718,  0.4336,  0.1735],
        [ 0.9364, -0.2195,  1.8013, -0.1140, -0.5267, -0.1311,  0.5028,  0.1453],
        [-0.1940, -0.9203,  1.4506, -1.0456, -0.4763, -1.1710,  0.3304,  0.2000],
        [ 0.4077, -0.5119,  1.1473, -1.1172, -0.5598, -0.7982,  0.3682,  0.2957]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.5049, -0.4428,  0.8692, -0.9581, -0.6693, -0.8386,  0.0897,
           0.2589],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5557, -0.3779,  0.8838, -1.1004, -0.6115, -0.7617,  0.3769,
           0.1644]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.796630242839456
step:  73
running loss:  0.0794058937375268
Train Steps: 73/90  Loss: 0.0794 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2847, -0.5792,  1.3632, -0.7519, -0.6296, -0.4213,  0.2320,  0.2479],
        [ 0.9402, -0.1907,  1.7925, -0.0052, -0.3164,  0.1891,  0.5462,  0.1902],
        [-0.1207, -0.9044,  1.0360, -1.2763, -0.4952, -1.2274,  0.1613,  0.3052],
        [ 0.5824, -0.4396,  1.6488, -1.2598, -0.1587, -1.4267,  0.8792,  0.1771],
        [-0.1792, -0.8918,  1.1804, -1.4088, -0.4414, -1.3778,  0.3201,  0.2816],
        [ 0.9521, -0.1891,  1.8129, -0.1594, -0.1669,  0.0568,  0.5431,  0.2250],
        [ 0.5457, -0.4516,  1.6558,  0.1544, -0.5624, -0.3605,  0.2724,  0.1758],
        [ 0.7240, -0.3286,  1.6456, -0.6170, -0.5346, -0.1263,  0.6180,  0.1891]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157],
         [ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0481, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0481, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.844778308644891
step:  74
running loss:  0.07898349065736339

Train Steps: 74/90  Loss: 0.0790 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6634, -0.3417,  1.6444, -0.0885, -0.5261,  0.1245,  0.4036,  0.2044],
        [ 0.0769, -0.6972,  1.6346, -1.2106,  0.0788, -1.1002,  0.9462,  0.1777],
        [ 0.7241, -0.3058,  1.3758, -0.9954, -0.4782, -0.8373,  0.4019,  0.2229],
        [-0.9479, -1.3831,  1.1639, -1.1251, -0.3941, -1.1239,  0.1696,  0.2574],
        [ 0.7407, -0.2983,  1.7178,  0.0877, -0.3567,  0.4966,  0.5218,  0.1839],
        [ 0.7174, -0.3030,  1.2691, -0.8878, -0.4343, -0.9197,  0.4034,  0.2610],
        [ 0.7942, -0.2631,  1.2833, -0.8850, -0.3832, -0.8959,  0.4042,  0.2976],
        [ 0.4527, -0.4678,  1.5730, -0.3388, -0.6123, -0.5245,  0.2143,  0.1994]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0734, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0734, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.9181370083242655
step:  75
running loss:  0.07890849344432355
Train Steps: 75/90  Loss: 0.0789 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4961, -0.4331,  1.5760, -0.2348, -0.5834, -0.4121,  0.2109,  0.2769],
        [ 0.7604, -0.2908,  1.7494, -0.1816, -0.3328,  0.1616,  0.4631,  0.2463],
        [ 0.6928, -0.3400,  1.6568, -0.1040, -0.4998, -0.2940,  0.4876,  0.1865],
        [ 0.5090, -0.4994,  1.2263, -1.5922, -0.1983, -1.5729,  0.5735,  0.2009],
        [ 0.4650, -0.4823,  1.6588, -0.0199, -0.2635, -0.0374,  0.3917,  0.1881],
        [ 0.7070, -0.3193,  1.6073, -0.4942, -0.5277, -0.3145,  0.2996,  0.2586],
        [ 0.6871, -0.3422,  1.4430, -0.9179, -0.5518, -0.4318,  0.6278,  0.2200],
        [-0.7194, -1.2560,  1.0205, -1.5431, -0.1226, -1.5735,  0.3658,  0.3317]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.5711, -0.3788,  1.8249, -0.1766, -0.4672,  0.2160,  0.3625,
           0.0742],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0671, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0671, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.985258931294084
step:  76
running loss:  0.07875340699071162
Train Steps: 76/90  Loss: 0.0788 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2429, -0.6192,  1.5609,  0.0381, -0.3987,  0.1600,  0.2758,  0.2319],
        [ 0.6422, -0.3465,  1.4123, -0.8676, -0.6071, -0.7099,  0.3021,  0.2425],
        [ 0.4155, -0.4701,  1.5756, -1.0316, -0.1855, -0.9949,  0.7275,  0.2318],
        [ 0.2456, -0.6119,  1.5407, -0.1703, -0.4710,  0.0538,  0.3149,  0.2587],
        [ 0.4306, -0.5004,  1.4961, -0.8191, -0.3195, -1.1378,  0.4181,  0.2407],
        [ 0.6043, -0.4138,  1.4270, -1.2980, -0.1460, -1.2675,  0.8263,  0.2275],
        [ 0.3764, -0.5286,  1.5590,  0.0285, -0.3335,  0.1087,  0.2864,  0.2451],
        [ 0.3725, -0.5430,  1.1990, -0.9545, -0.6115, -0.5813,  0.2128,  0.2504]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.5270, -0.4336,  1.3342, -0.6770, -0.6520, -0.5384,  0.2370,
           0.0592]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0258, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0258, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.011011159047484
step:  77
running loss:  0.07806507998762967
Train Steps: 77/90  Loss: 0.0781 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4532, -0.4790,  1.3550, -0.6564, -0.5215, -0.4282,  0.2318,  0.2345],
        [ 0.3515, -0.5440,  1.4068, -1.3205, -0.1814, -1.4695,  0.5088,  0.2038],
        [ 0.1470, -0.6419,  1.4864, -0.0764, -0.4137, -0.0734,  0.2511,  0.2779],
        [ 0.4911, -0.4676,  1.3029, -1.1856, -0.4020, -1.2807,  0.5175,  0.2134],
        [ 0.4871, -0.4626,  1.7018,  0.0512, -0.3980,  0.0687,  0.4746,  0.2630],
        [ 0.3120, -0.5893,  1.3329, -0.9873, -0.5125, -0.4713,  0.4975,  0.2488],
        [ 0.5257, -0.4181,  1.4685, -0.6656, -0.6150, -0.5175,  0.4017,  0.2125],
        [ 0.6028, -0.3793,  1.7381, -0.1580, -0.0723, -0.1443,  0.4997,  0.2906]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.053500270470977
step:  78
running loss:  0.07760897782655099

Train Steps: 78/90  Loss: 0.0776 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6216, 0.4100, 0.7350, 0.2067, 0.4325, 0.2050, 0.5950, 0.5333],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4413, -0.4662,  1.6231, -0.0098, -0.5385, -0.2463,  0.3870,  0.2384],
        [-0.1857, -0.8836,  1.1719, -1.4335, -0.3002, -1.3386,  0.4504,  0.2599],
        [ 0.3408, -0.5526,  1.1232, -1.1451, -0.6713, -0.8068,  0.2262,  0.2412],
        [ 0.4423, -0.5052,  1.7007,  0.0671, -0.4582, -0.0958,  0.4439,  0.1918],
        [ 0.5977, -0.3991,  1.6609, -0.2335, -0.4152, -0.0203,  0.4947,  0.2128],
        [ 0.4420, -0.4872,  1.0551, -1.5288, -0.4055, -1.4832,  0.4326,  0.2587],
        [ 0.4850, -0.4208,  1.7230, -0.2698, -0.1252, -0.2177,  0.5447,  0.2066],
        [ 0.7261, -0.3160,  1.7007, -0.2241, -0.2409, -0.1268,  0.4922,  0.2211]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1149e-01, -3.7244e-01,  1.7557e+00,  3.4688e-01, -4.4411e-01,
          -1.0731e-01,  4.9122e-01,  2.3911e-01],
         [ 5.8487e-01, -3.8360e-01,  1.2649e+00, -1.2236e+00, -3.4596e-01,
          -1.2313e+00,  4.5081e-01,  1.6982e-01],
         [ 5.3591e-01, -4.1932e-01,  9.3580e-01, -8.2325e-01, -6.6351e-01,
          -7.2317e-01,  9.4325e-02,  1.7099e-01],
         [ 5.7748e-01, -4.6066e-01,  1.6741e+00,  1.9623e-01, -4.0362e-01,
          -1.2115e-01,  4.5876e-01,  1.9786e-01],
         [ 5.6039e-01, -4.6197e-01,  1.7961e+00, -1.9969e-01, -3.2286e-01,
           1.0824e-01,  4.1039e-01,  2.5450e-01],
         [ 5.8528e-01, -3.9199e-01,  1.1090e+00, -1.3313e+00, -2.8822e-01,
          -1.3390e+00,  4.6236e-01,  1.7752e-01],
         [ 5.3508e-01, -4.3212e-01,  1.7326e+00, -1.3811e-01,  4.6329e-02,
           1.0491e-01,  4.1617e-01,  2.7760e-01],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0302, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0302, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.083718063309789
step:  79
running loss:  0.07700908940898467
Train Steps: 79/90  Loss: 0.0770 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6296, 0.4045, 0.9138, 0.4100, 0.4232, 0.4242, 0.7422, 0.5297],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1627, -0.6941,  0.9786, -1.1865, -0.5091, -0.9566,  0.1641,  0.3193],
        [ 0.4703, -0.4958,  1.7074,  0.0998, -0.4157, -0.0632,  0.4524,  0.1856],
        [ 0.6864, -0.3392,  1.5980, -0.5553, -0.4134, -0.3026,  0.6323,  0.1914],
        [ 0.4189, -0.4609,  1.6604, -0.2478, -0.3532, -0.0982,  0.3636,  0.2113],
        [ 0.6215, -0.3834,  1.6149, -0.8199, -0.2564, -1.1783,  0.5599,  0.1797],
        [ 0.3355, -0.5244,  1.5251, -0.3258, -0.3835, -0.0800,  0.3727,  0.2703],
        [ 0.4983, -0.4797,  1.2142, -1.1775, -0.5485, -0.8428,  0.4820,  0.2132],
        [ 0.3679, -0.5232,  1.6810, -0.1140, -0.4568, -0.6179,  0.4762,  0.1681]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.6224, -0.4177,  1.9346, -0.3921, -0.3314, -0.3264,  1.1422,
           0.1608],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0294, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0294, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.113160545006394
step:  80
running loss:  0.07641450681257993
Train Steps: 80/90  Loss: 0.0764 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6616, -0.3725,  1.5009, -1.1986, -0.1821, -1.1744,  0.8349,  0.1502],
        [ 0.5140, -0.4440,  1.6731,  0.1572, -0.5335, -0.1048,  0.4126,  0.1451],
        [ 0.2424, -0.6267,  1.0445, -1.1448, -0.6994, -0.8297,  0.1809,  0.2472],
        [ 0.5195, -0.4319,  1.5449, -1.2729, -0.2066, -1.1167,  0.6421,  0.1443],
        [ 0.6524, -0.3687,  1.5164, -0.6111, -0.6951, -0.3538,  0.4975,  0.2012],
        [ 0.4303, -0.4790,  1.5850,  0.0598, -0.2176, -0.2040,  0.3833,  0.2430],
        [ 0.2529, -0.5771,  1.5279,  0.0467, -0.2950, -0.1728,  0.3096,  0.2634],
        [ 0.3993, -0.4989,  1.6358,  0.0904, -0.4416, -0.0155,  0.3070,  0.2172]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0210, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0210, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.13416051492095
step:  81
running loss:  0.07573037672741914
Train Steps: 81/90  Loss: 0.0757 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7412, 0.2200, 0.4450, 0.1517, 0.5312, 0.4983],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.8470, -1.3406,  0.9710, -1.2401, -0.3874, -1.3271,  0.1391,  0.1894],
        [ 0.9333, -0.1303,  1.5740, -0.8103, -0.3536, -0.8830,  0.5989,  0.1798],
        [ 0.9719, -0.1713,  1.7116,  0.3834, -0.6196, -0.0734,  0.4194,  0.1456],
        [ 0.8045, -0.2672,  1.7701, -0.0866, -0.4186,  0.3582,  0.5741,  0.2192],
        [ 0.7323, -0.2955,  1.8138,  0.0565, -0.1777,  0.2783,  0.5645,  0.2337],
        [-0.4810, -1.0622,  1.0033, -1.1718, -0.4243, -1.2152,  0.1338,  0.2037],
        [ 0.8303, -0.2347,  1.4033, -0.9560, -0.4656, -0.8805,  0.6346,  0.1497],
        [ 0.6676, -0.2687,  1.7781,  0.0762, -0.3945, -0.3554,  0.4669,  0.1738]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1379, -1.2697, -0.2305, -1.5854,  0.1679,
           0.0159],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0915, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0915, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.2256993018090725
step:  82
running loss:  0.07592316221718381

Train Steps: 82/90  Loss: 0.0759 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.4372, -1.0773,  0.9684, -1.1526, -0.4889, -1.4327,  0.1665,  0.1314],
        [ 0.8245, -0.2356,  1.2412, -1.2070, -0.3522, -1.4770,  0.4970,  0.1102],
        [ 0.6625, -0.3387,  1.8488,  0.0791, -0.2400,  0.1239,  0.5469,  0.1703],
        [ 0.6149, -0.3869,  1.8176,  0.0247, -0.3495, -0.1160,  0.5422,  0.1320],
        [ 0.5138, -0.4426,  1.1079, -0.9809, -0.7097, -0.8575,  0.2407,  0.2462],
        [ 0.6288, -0.3711,  1.8621,  0.0934, -0.3120,  0.1545,  0.6857,  0.1629],
        [ 0.4593, -0.4756,  1.8160,  0.1128, -0.2644,  0.2836,  0.5064,  0.1714],
        [ 0.5796, -0.3572,  1.7196,  0.0223, -0.5261, -0.5082,  0.3354,  0.1745]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0369, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0369, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.262647982686758
step:  83
running loss:  0.07545359015285251
Train Steps: 83/90  Loss: 0.0755 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5588, -0.4253,  1.3032, -0.8714, -0.5930, -0.6349,  0.4121,  0.1612],
        [ 0.5840, -0.3910,  1.6718, -0.5996, -0.2422, -0.9303,  0.5476,  0.1022],
        [ 0.5503, -0.4172,  1.4038, -0.4003, -0.5918, -0.4394,  0.2558,  0.1828],
        [ 0.0503, -0.7139,  1.2194, -0.9917, -0.2453, -1.0379,  0.3115,  0.1644],
        [ 0.6324, -0.3348,  1.6029, -0.8426, -0.1930, -0.8667,  0.6539,  0.1151],
        [ 0.6758, -0.3652,  1.8777,  0.4324, -0.4339,  0.3469,  0.6145,  0.1447],
        [ 0.5173, -0.4611,  1.6718,  0.3990, -0.4012,  0.1117,  0.4887,  0.2058],
        [ 0.4877, -0.4613,  1.7446, -0.1365, -0.5940, -0.5164,  0.3340,  0.0479]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0327, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0327, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.2953284196555614
step:  84
running loss:  0.0749443859482805
Train Steps: 84/90  Loss: 0.0749 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5941, -0.4105,  1.7887,  0.0018, -0.3170,  0.2443,  0.5468,  0.1424],
        [ 0.8466, -0.2356,  1.7616, -0.3460, -0.4721, -0.6073,  0.5775,  0.1030],
        [ 0.6348, -0.4047,  1.4215, -1.2086, -0.3035, -1.2415,  0.7195,  0.0656],
        [ 0.6285, -0.3556,  1.6495,  0.1077, -0.5253, -0.5284,  0.3942,  0.1090],
        [ 0.5837, -0.3673,  1.7452, -0.1876, -0.4923, -0.7255,  0.4623,  0.0394],
        [ 0.6060, -0.3984,  1.7194, -0.0774, -0.5157, -0.1249,  0.5227,  0.1249],
        [ 0.3936, -0.5132,  1.6742,  0.0635, -0.1754,  0.0217,  0.4127,  0.1566],
        [-0.0444, -0.7899,  1.1317, -0.8592, -0.4773, -0.8693,  0.1572,  0.2092]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.6148, -0.3918,  1.8942, -0.1920, -0.5423, -0.8002,  0.6414,
          -0.0156],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.315675836056471
step:  85
running loss:  0.0743020686594879
Train Steps: 85/90  Loss: 0.0743 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0889, -0.0847,  1.4050, -1.0740, -0.3015, -1.3084,  0.4984,  0.0900],
        [ 0.7538, -0.3029,  1.8606,  0.0660, -0.4251,  0.0576,  0.5933,  0.1187],
        [ 0.3395, -0.5567,  1.6117, -0.3520, -0.5353, -0.2820,  0.4529,  0.1650],
        [ 0.7772, -0.2671,  1.8426,  0.1250, -0.5436, -0.4465,  0.5795,  0.0673],
        [ 0.4460, -0.5134,  1.7618, -0.0583, -0.5205, -0.1142,  0.5861,  0.0676],
        [-0.0893, -0.8130,  1.1007, -1.2895, -0.3983, -1.5112,  0.2485,  0.0711],
        [ 0.5626, -0.4279,  1.7289,  0.1548, -0.2305, -0.0760,  0.4865,  0.1444],
        [ 0.4831, -0.4688,  1.6880,  0.0459, -0.3398, -0.0117,  0.4747,  0.1757]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7679e-01, -4.0308e-01,  1.3838e+00, -1.1527e+00, -2.1876e-01,
          -1.4216e+00,  4.3790e-01,  1.8502e-01],
         [ 5.9913e-01, -3.8029e-01,  1.8018e+00, -5.3426e-02, -3.4596e-01,
           1.8522e-01,  5.3741e-01,  1.3903e-01],
         [ 5.2835e-01, -4.4288e-01,  1.5940e+00, -2.8437e-01, -5.8268e-01,
          -1.4580e-01,  2.8226e-01,  3.2671e-01],
         [ 6.5036e-01, -3.6471e-01,  1.7730e+00,  2.9299e-01, -6.0577e-01,
          -2.3818e-01,  7.1085e-01,  1.6077e-01],
         [ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.6761e-01, -4.1124e-01,  1.1898e+00, -1.2467e+00, -2.9400e-01,
          -1.4622e+00,  2.1029e-01,  1.3434e-01],
         [ 5.4428e-01, -3.8314e-01,  1.7095e+00,  1.6212e-01, -2.0162e-01,
           1.3903e-01,  1.4368e-01,  2.3637e-01],
         [ 5.4428e-01, -3.8399e-01,  1.7095e+00,  6.2048e-02, -3.9792e-01,
           1.9292e-01,  1.6218e-01,  2.3412e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0275, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0275, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.343135943636298
step:  86
running loss:  0.07375739469344533

Train Steps: 86/90  Loss: 0.0738 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3789, -0.5709,  1.7497, -0.0941, -0.4350, -0.0917,  0.5710,  0.1533],
        [ 0.6201, -0.4236,  1.7590, -0.4153, -0.6013, -0.2876,  0.6609,  0.0435],
        [ 0.5135, -0.4883,  1.8328,  0.1927, -0.4158, -0.2144,  0.5694,  0.0815],
        [ 0.7109, -0.2940,  1.6941, -0.1075, -0.5754, -0.5636,  0.3950,  0.1171],
        [ 0.5652, -0.4250,  1.7889,  0.1220, -0.4005, -0.2076,  0.5230,  0.0870],
        [ 0.5411, -0.4651,  1.1210, -1.0702, -0.5344, -1.0046,  0.2457,  0.1836],
        [ 0.5682, -0.4166,  1.6892, -0.0446, -0.2701, -0.6571,  0.4846,  0.1540],
        [ 0.8239, -0.2596,  1.5885, -0.9988, -0.3349, -0.9175,  0.5501,  0.0685]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.368460373952985
step:  87
running loss:  0.07320069395348258
Train Steps: 87/90  Loss: 0.0732 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3796, -0.5730,  1.8118,  0.0626, -0.1858,  0.1095,  0.5429,  0.1698],
        [ 0.2873, -0.6146,  1.8132,  0.1036, -0.1824,  0.1075,  0.5311,  0.1494],
        [ 0.6287, -0.3633,  1.7577, -0.1201, -0.5401, -0.5168,  0.4512,  0.1066],
        [ 0.7294, -0.3134,  1.3254, -0.9326, -0.5984, -0.9560,  0.4578,  0.1106],
        [ 0.6293, -0.3388,  1.7535,  0.0480, -0.4836, -0.6253,  0.4843,  0.1036],
        [ 0.7504, -0.3159,  1.5468, -0.8603, -0.3524, -0.7077,  0.5296,  0.1618],
        [ 0.6767, -0.3592,  1.1190, -1.0683, -0.5741, -1.1130,  0.3685,  0.1548],
        [ 0.5433, -0.4318,  1.8166,  0.2886, -0.6087, -0.4237,  0.5091,  0.0742]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.3585e-01, -4.3703e-01,  1.7095e+00, -3.0331e-02, -8.0370e-02,
          -3.8029e-02,  1.0439e-01,  3.3918e-01],
         [ 5.7875e-01, -4.1347e-01,  1.8214e+00, -2.4075e-01, -6.0389e-01,
          -7.8543e-01,  4.1155e-01,  2.2033e-01],
         [ 4.9971e-01, -4.4465e-01,  1.1610e+00, -9.7721e-01, -6.0577e-01,
          -1.0311e+00,  1.4038e-01, -1.0312e-01],
         [ 5.9007e-01, -4.0000e-01,  1.8423e+00, -6.8822e-02, -5.3072e-01,
          -9.2333e-01,  3.6420e-01,  1.8522e-01],
         [ 5.7783e-01, -3.9299e-01,  1.5189e+00, -9.3872e-01, -4.3256e-01,
          -9.1563e-01,  4.8545e-01,  3.3918e-01],
         [ 5.0531e-01, -4.2810e-01,  8.9538e-01, -1.3698e+00, -5.4226e-01,
          -1.1389e+00,  2.4525e-01,  8.6245e-02],
         [ 5.3788e-01, -4.3580e-01,  1.7326e+00,  1.8522e-01, -6.0577e-01,
          -5.4611e-01,  6.8408e-02, -3.0981e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0248, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0248, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.393300803378224
step:  88
running loss:  0.07265114549293437
Train Steps: 88/90  Loss: 0.0727 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6289, 0.4024, 0.9088, 0.4567, 0.3937, 0.5633, 0.7058, 0.5609]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6858, -0.3454,  1.5921, -0.3030, -0.6412, -0.4857,  0.3554,  0.1860],
        [ 0.6335, -0.4234,  1.8358,  0.0389, -0.5274,  0.0525,  0.6177,  0.1727],
        [ 0.4526, -0.4640,  1.5374, -1.1822, -0.0993, -1.4783,  0.6228,  0.0749],
        [ 0.0231, -0.7600,  1.2551, -0.8862, -0.6108, -1.3019,  0.1301,  0.1329],
        [ 0.7427, -0.3045,  1.7052, -0.2803, -0.4116, -0.1438,  0.4753,  0.1974],
        [ 0.8011, -0.2826,  1.6989,  0.2847, -0.3568, -0.3909,  0.3260,  0.1932],
        [ 0.8804, -0.2614,  1.8125,  0.1778, -0.4982,  0.1325,  0.6062,  0.2211],
        [ 0.7056, -0.3785,  1.8138, -0.0180, -0.5265,  0.0883,  0.6572,  0.2042]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6191, -0.4273,  1.9115, -0.1766, -0.4672,  0.3161,  0.9741,
           0.3050]]], device='cuda:0')
loss_train_step before backward:  tensor(0.3238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.3238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.717064084485173
step:  89
running loss:  0.07547263016275475
Train Steps: 89/90  Loss: 0.0755 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6784, -0.3806,  1.9874,  0.0074, -0.5508,  0.0863,  0.5777,  0.2291],
        [ 0.4791, -0.4740,  1.2944, -0.7627, -0.4662, -0.9881,  0.2634,  0.2488],
        [ 0.7636, -0.3399,  1.8175, -0.1967, -0.4223,  0.0778,  0.7374,  0.2327],
        [ 0.6685, -0.3923,  1.8977,  0.5432, -0.4429, -0.0133,  0.5661,  0.1591],
        [ 0.6327, -0.3888,  1.1758, -0.9603, -0.4457, -1.3570,  0.2291,  0.1677],
        [ 0.5583, -0.4858,  1.8936,  0.0071, -0.5720,  0.0042,  0.5830,  0.1419],
        [-0.0687, -0.8334,  1.0642, -1.0043, -0.3935, -1.2683,  0.1451,  0.2017],
        [ 0.8477, -0.2481,  1.7314, -0.2783, -0.5498, -0.6370,  0.5573,  0.1633]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5465, -0.4214,  0.9300, -1.2620, -0.3921, -1.3852,  0.2062,
           0.1043],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1345, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1345, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  6.85155183263123
step:  90
running loss:  0.07612835369590255

Valid Steps: 10/10  Loss: nan 61
--------------------------------------------------
Epoch: 2  Train Loss: 0.0761 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4644, -0.4431,  1.6816, -0.0788, -0.5316, -0.8118,  0.3678,  0.1957],
        [ 0.3627, -0.5644,  1.7695, -0.1866, -0.3259, -0.4964,  0.6251,  0.2581],
        [ 0.7497, -0.3301,  1.4605, -0.7863, -0.7153, -0.5758,  0.6303,  0.2166],
        [ 0.5202, -0.4933,  1.6469, -0.0964, -0.5065,  0.0323,  0.4776,  0.2630],
        [ 0.3867, -0.5193,  1.5639, -0.8843, -0.0533, -0.8858,  0.7233,  0.2240],
        [ 0.3793, -0.5255,  1.4437, -0.7890, -0.4778, -0.8875,  0.3171,  0.1730],
        [ 0.6539, -0.3837,  1.6159,  0.2937, -0.4373, -0.0220,  0.4100,  0.2954],
        [ 0.3520, -0.5612,  1.6328, -0.0203, -0.6282, -0.1089,  0.2260,  0.2060]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0298, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0298, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.02976425550878048
step:  1
running loss:  0.02976425550878048
Train Steps: 1/90  Loss: 0.0298 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2171, -0.6386,  1.4917, -0.9178, -0.3628, -0.8859,  0.3591,  0.1758],
        [ 0.4784, -0.4798,  1.6804,  0.0476, -0.5666, -0.5235,  0.3980,  0.2267],
        [ 0.2964, -0.6088,  1.7696, -0.4092, -0.2328, -0.7607,  0.5548,  0.2144],
        [ 0.5832, -0.4517,  1.6893, -0.2107, -0.5384, -0.1259,  0.5803,  0.2860],
        [ 0.6926, -0.3706,  1.8076,  0.1113, -0.5554, -0.0664,  0.6463,  0.2072],
        [ 0.3910, -0.5487,  1.6927, -0.3536, -0.6326, -0.4973,  0.4058,  0.2500],
        [ 0.3494, -0.5530,  1.1658, -0.9490, -0.4045, -0.9441,  0.3029,  0.3491],
        [ 0.7162, -0.3370,  1.7149,  0.1530, -0.5052, -0.0180,  0.5345,  0.3138]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7997e-01, -4.3118e-01,  1.5709e+00, -1.0311e+00, -4.4411e-01,
          -1.1081e+00,  3.8730e-01,  8.5142e-02],
         [ 5.9013e-01, -4.1570e-01,  1.7557e+00,  1.9292e-01, -5.4226e-01,
          -5.9230e-01,  3.5843e-01,  1.6982e-01],
         [ 6.2236e-01, -4.3453e-01,  1.9404e+00, -2.9207e-01, -3.1709e-01,
          -8.7714e-01,  1.0655e+00,  2.1421e-01],
         [ 5.7131e-01, -4.1045e-01,  1.7557e+00,  4.6651e-02, -6.5196e-01,
          -2.6898e-01,  3.9885e-01,  5.2394e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [ 5.8799e-01, -3.8868e-01,  1.8423e+00, -3.3056e-01, -6.2309e-01,
          -5.2302e-01,  4.0462e-01,  1.5443e-01],
         [ 5.7460e-01, -4.0208e-01,  1.0801e+00, -1.1312e+00, -3.2286e-01,
          -1.1081e+00,  4.8034e-01,  6.0842e-01],
         [ 5.8909e-01, -3.5574e-01,  1.7326e+00,  3.3918e-01, -4.2102e-01,
          -1.2271e-01,  3.2379e-01,  3.0069e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.053598225116729736
step:  2
running loss:  0.026799112558364868
Train Steps: 2/90  Loss: 0.0268 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4246, -0.5008,  1.2521, -0.9797, -0.3414, -1.0541,  0.5136,  0.3221],
        [-0.0271, -0.7760,  1.0477, -0.9932, -0.3399, -1.3101,  0.2273,  0.2716],
        [ 0.7331, -0.3530,  1.8778,  0.4137, -0.4636,  0.0050,  0.6195,  0.2694],
        [ 0.5305, -0.4416,  1.7704, -0.2950, -0.6993, -0.4477,  0.4500,  0.2283],
        [ 0.0741, -0.7198,  1.4817, -0.8829, -0.1518, -1.0529,  0.5162,  0.2382],
        [-0.0500, -0.7776,  1.3050, -0.7022, -0.4658, -0.7708,  0.1221,  0.3052],
        [ 0.6535, -0.3872,  2.0202, -0.0684, -0.6126,  0.1059,  0.6727,  0.2721],
        [ 0.8910, -0.2266,  1.7665,  0.1437, -0.5468,  0.1158,  0.6713,  0.2996]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0572, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0572, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.11081135272979736
step:  3
running loss:  0.03693711757659912
Train Steps: 3/90  Loss: 0.0369 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3962, -0.5233,  1.6373, -0.6012, -0.6109, -0.6016,  0.4131,  0.2866],
        [ 0.8978, -0.2230,  1.7190, -0.6673, -0.4464,  0.1228,  0.8288,  0.3088],
        [ 0.8697, -0.2394,  1.7297,  0.0657, -0.4729, -0.1425,  0.5340,  0.2836],
        [ 0.4009, -0.5431,  1.8679, -0.2984, -0.4186, -0.5946,  0.6249,  0.2787],
        [ 0.3967, -0.5239,  1.7884, -0.1002, -0.5768, -0.4514,  0.3042,  0.2203],
        [ 0.2635, -0.5390,  1.5640, -0.2989, -0.2955, -0.9008,  0.3495,  0.3293],
        [-0.8458, -1.3516,  0.9245, -1.1352, -0.3281, -1.4677,  0.0543,  0.2653],
        [ 0.8833, -0.2316,  1.8017, -0.0581, -0.4491, -0.0319,  0.8155,  0.3043]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5671, -0.3988,  1.7499, -0.4614, -0.5423,  0.3007,  0.5894,
           0.3469],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0703, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0703, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18106389790773392
step:  4
running loss:  0.04526597447693348

Train Steps: 4/90  Loss: 0.0453 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4974, -0.4397,  1.3189, -0.9185, -0.3947, -0.9882,  0.4938,  0.2704],
        [-1.2384, -1.5859,  1.0754, -0.9062, -0.3067, -1.0850,  0.0830,  0.2715],
        [ 0.8753, -0.2470,  1.9504,  0.1446, -0.6124,  0.1460,  0.6680,  0.2374],
        [ 0.4194, -0.4939,  1.1516, -0.8221, -0.5055, -0.9677,  0.3401,  0.3332],
        [ 0.2939, -0.5620,  1.6364, -0.6533, -0.2373, -0.7871,  0.6217,  0.2830],
        [ 0.6833, -0.3461,  1.5232, -0.9011, -0.2480, -1.0147,  0.7707,  0.2400],
        [ 0.9637, -0.1672,  2.0570,  0.1913, -0.6407,  0.2832,  0.6602,  0.2757],
        [ 0.3353, -0.5188,  1.7350, -0.2497, -0.4663, -0.4829,  0.4751,  0.3412]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0653, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0653, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.24632898718118668
step:  5
running loss:  0.04926579743623734
Train Steps: 5/90  Loss: 0.0493 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0326, -0.7844,  1.3051, -0.8212, -0.3678, -1.0649,  0.3889,  0.3106],
        [ 0.4314, -0.4934,  1.6887, -0.4932, -0.6464, -0.7139,  0.3917,  0.2290],
        [ 0.2542, -0.5932,  1.1377, -0.9746, -0.4692, -1.0381,  0.3510,  0.3077],
        [ 0.7676, -0.3140,  1.8666,  0.5899, -0.4083,  0.2689,  0.5522,  0.3187],
        [ 0.6571, -0.3569,  1.7394, -0.4057, -0.6427,  0.3132,  0.6880,  0.2942],
        [ 0.4241, -0.5237,  1.5921, -1.0009, -0.0236, -1.0447,  0.9168,  0.2845],
        [ 0.3779, -0.5320,  1.3481, -0.8482, -0.5710, -1.0561,  0.4776,  0.2223],
        [-0.1864, -0.8626,  1.5975, -0.7790, -0.1724, -0.9359,  0.5434,  0.2635]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9169e-01, -3.8607e-01,  1.0455e+00, -1.3698e+00, -2.8822e-01,
          -1.1928e+00,  6.0670e-01,  2.0831e-01],
         [ 5.4825e-01, -4.2490e-01,  1.5305e+00, -7.3857e-01, -6.1155e-01,
          -8.6944e-01,  3.3533e-01,  1.0054e-01],
         [ 5.7460e-01, -4.1527e-01,  1.0917e+00, -1.1620e+00, -4.0370e-01,
          -1.3082e+00,  3.2339e-01,  3.2671e-01],
         [ 5.6195e-01, -4.3457e-01,  1.6691e+00,  3.3149e-01, -2.5935e-01,
          -7.2363e-03,  2.8915e-01,  2.8530e-01],
         [ 5.4660e-01, -3.8397e-01,  1.5016e+00, -6.0770e-01, -6.4042e-01,
           2.0831e-01,  3.8714e-01,  8.6245e-02],
         [ 6.2072e-01, -3.9360e-01,  1.7788e+00, -1.1235e+00,  1.4480e-01,
          -1.0850e+00,  1.1459e+00,  1.9818e-01],
         [ 5.6184e-01, -3.8945e-01,  1.2129e+00, -1.4853e+00, -5.1339e-01,
          -1.0619e+00,  3.3778e-01,  7.7228e-02],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0639, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3102681040763855
step:  6
running loss:  0.05171135067939758
Train Steps: 6/90  Loss: 0.0517 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0117, -0.1618,  1.9431,  0.1343, -0.5366, -0.3326,  0.7663,  0.1990],
        [-1.0768, -1.5103,  0.9567, -1.3619, -0.3016, -1.6007,  0.2505,  0.2646],
        [ 0.7019, -0.3086,  1.7838, -0.1395, -0.7029, -0.5296,  0.4112,  0.2605],
        [-0.0792, -0.8122,  1.4107, -0.9500, -0.5097, -1.0802,  0.2752,  0.2552],
        [ 0.5814, -0.4038,  1.4747, -1.1459, -0.5425, -0.5329,  0.7750,  0.2706],
        [ 0.6678, -0.3636,  1.8524, -0.0345, -0.2189, -0.0571,  0.5808,  0.2862],
        [ 0.3820, -0.5253,  1.6017, -1.1825, -0.3065, -1.0830,  0.6300,  0.2799],
        [ 0.6951, -0.3400,  1.8050, -0.0378, -0.3050,  0.0485,  0.5817,  0.3112]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0636, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0636, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.37389400601387024
step:  7
running loss:  0.05341342943055289
Train Steps: 7/90  Loss: 0.0534 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0096, -0.7602,  0.9648, -1.2757, -0.4615, -1.1769,  0.3001,  0.3017],
        [ 0.2265, -0.6059,  1.3263, -1.2305, -0.4143, -1.1986,  0.5272,  0.2549],
        [ 0.4254, -0.4732,  1.6860,  0.2153, -0.4557, -0.1081,  0.4277,  0.3285],
        [ 0.9220, -0.1908,  1.9226, -0.0915, -0.6569, -0.3724,  0.5336,  0.1467],
        [ 0.7344, -0.3511,  1.9044,  0.0650, -0.4269,  0.1083,  0.6133,  0.1700],
        [ 0.4440, -0.4838,  1.4899, -0.6572, -0.6243, -0.7794,  0.3746,  0.2894],
        [-0.5248, -1.0886,  1.2168, -1.2470, -0.2981, -1.0941,  0.3924,  0.3101],
        [ 0.3848, -0.5339,  1.8826, -1.0373,  0.0069, -1.0555,  1.0492,  0.1640]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0577, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0577, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.43161700665950775
step:  8
running loss:  0.05395212583243847

Train Steps: 8/90  Loss: 0.0540 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4623, -0.4913,  1.8371,  0.3857, -0.4122,  0.2493,  0.5271,  0.1908],
        [ 0.6949, -0.3453,  1.8927, -0.5485, -0.4945, -0.7875,  0.6493,  0.1366],
        [ 0.2863, -0.5883,  1.2984, -0.9925, -0.5895, -0.7914,  0.3332,  0.1886],
        [-0.0663, -0.7860,  1.2408, -1.1712, -0.1767, -1.2552,  0.4436,  0.2503],
        [ 0.0550, -0.7215,  1.0977, -1.0060, -0.5058, -1.0154,  0.3654,  0.2937],
        [ 0.2194, -0.6018,  1.1889, -0.9221, -0.3864, -0.8253,  0.3989,  0.3544],
        [ 0.7135, -0.3359,  2.0395, -0.5939, -0.1271, -0.8327,  0.9730,  0.1247],
        [ 0.1684, -0.6724,  1.2012, -1.1064, -0.4767, -0.9897,  0.3972,  0.2452]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0441, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0441, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4756833612918854
step:  9
running loss:  0.05285370681020948
Train Steps: 9/90  Loss: 0.0529 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2563, -0.6047,  1.2636, -1.1187, -0.5007, -0.8370,  0.3980,  0.2478],
        [ 0.4033, -0.5214,  1.6198, -0.9454, -0.4773, -0.9102,  0.5505,  0.2541],
        [ 0.1984, -0.6554,  1.7125,  0.0773, -0.3777, -0.4354,  0.3894,  0.1948],
        [ 0.6152, -0.3854,  1.7423, -0.4495, -0.5086, -0.2344,  0.5880,  0.1688],
        [ 0.7010, -0.3407,  1.9443, -0.7245, -0.2994, -1.1247,  0.8264,  0.1196],
        [ 0.2452, -0.5995,  1.1966, -1.1032, -0.5102, -0.7389,  0.3625,  0.2906],
        [ 0.0631, -0.7514,  1.0383, -1.2927, -0.3640, -1.4295,  0.3175,  0.2634],
        [ 0.5745, -0.3833,  1.5549, -0.1126, -0.4069, -0.2537,  0.5014,  0.2783]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0468, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0468, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5225014016032219
step:  10
running loss:  0.05225014016032219
Train Steps: 10/90  Loss: 0.0523 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.4314, -1.0916,  0.9281, -1.1852, -0.4754, -1.1881,  0.1755,  0.3128],
        [ 0.6351, -0.3751,  1.7415,  0.0037, -0.3866, -0.0694,  0.4654,  0.1710],
        [ 0.9734, -0.1112,  1.7456, -0.4610, -0.5858, -0.7201,  0.5528,  0.2130],
        [ 0.7597, -0.2628,  1.6129, -0.4537, -0.5275, -0.2665,  0.4179,  0.2051],
        [ 0.7301, -0.2926,  1.8193, -0.0412, -0.3160,  0.2844,  0.7483,  0.2097],
        [-0.0348, -0.7843,  1.0376, -1.5226, -0.3714, -1.4824,  0.4634,  0.2735],
        [ 0.3638, -0.5736,  1.8100, -0.7922, -0.3260, -1.3180,  0.7065,  0.1236],
        [ 0.1663, -0.6514,  1.0272, -1.2652, -0.3324, -1.2683,  0.3238,  0.3170]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0607, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0607, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5832267887890339
step:  11
running loss:  0.05302061716263944
Train Steps: 11/90  Loss: 0.0530 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6115, -0.3336,  1.6059, -0.4732, -0.3632,  0.0570,  0.5158,  0.2598],
        [ 0.6079, -0.3892,  1.4494, -0.0570, -0.6873, -0.5817,  0.3053,  0.2103],
        [ 0.7655, -0.2788,  1.4467, -0.8692, -0.6469, -0.6972,  0.4732,  0.1591],
        [ 0.3337, -0.5651,  1.4831, -0.1191, -0.5095, -0.3914,  0.3344,  0.2294],
        [ 0.4696, -0.4529,  1.4901,  0.0385, -0.6042, -0.0918,  0.3001,  0.2966],
        [ 0.6387, -0.3689,  1.6943, -1.0324, -0.1716, -1.3331,  0.7935,  0.1650],
        [ 0.3009, -0.5571,  1.0399, -1.4437, -0.4154, -1.3370,  0.4036,  0.2582],
        [-0.2349, -0.9462,  1.4178, -1.5820,  0.0318, -1.4545,  0.7773,  0.2556]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0612, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0612, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6444090195000172
step:  12
running loss:  0.05370075162500143

Train Steps: 12/90  Loss: 0.0537 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3441, -0.5397,  1.5219,  0.0440, -0.4011, -0.1755,  0.2975,  0.2755],
        [ 0.1604, -0.6528,  0.9091, -1.3186, -0.5518, -1.0986,  0.2071,  0.3260],
        [ 0.6327, -0.3453,  1.3894, -0.7139, -0.6229, -0.6713,  0.3165,  0.2111],
        [ 0.5513, -0.4404,  1.7052, -0.7359, -0.4866, -1.0530,  0.6075,  0.1834],
        [ 0.4135, -0.5046,  1.4512, -0.8828, -0.2866, -0.9949,  0.6271,  0.1815],
        [ 0.3910, -0.5328,  1.3725, -1.4320, -0.0645, -1.5060,  0.8007,  0.2209],
        [ 0.7513, -0.2595,  1.5456, -0.0458, -0.5058, -0.1437,  0.5182,  0.2074],
        [ 0.5279, -0.4191,  1.5979, -0.1190, -0.4333, -0.1138,  0.4706,  0.2032]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0372, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0372, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6816200353205204
step:  13
running loss:  0.0524323104092708
Train Steps: 13/90  Loss: 0.0524 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6906, -0.3250,  1.7244,  0.2441, -0.6534, -0.5400,  0.4928,  0.0983],
        [ 0.7984, -0.2507,  1.3635, -0.5323, -0.6371, -0.7391,  0.3126,  0.2900],
        [ 0.6796, -0.2984,  1.4948, -1.3600, -0.1548, -1.2440,  0.7837,  0.1997],
        [ 0.6440, -0.3274,  1.0033, -1.1558, -0.4957, -1.1206,  0.3775,  0.2980],
        [-0.6363, -1.1912,  0.9427, -1.3059, -0.3338, -1.3175,  0.2988,  0.2964],
        [ 0.5409, -0.4155,  1.6573,  0.1337, -0.2963,  0.1204,  0.4237,  0.1673],
        [ 0.4925, -0.4208,  1.6593, -0.0255, -0.3210,  0.0899,  0.5519,  0.1780],
        [ 0.5728, -0.3631,  1.1779, -1.0559, -0.3516, -1.1277,  0.5243,  0.2186]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0724, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0724, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7540136612951756
step:  14
running loss:  0.053858118663941114
Train Steps: 14/90  Loss: 0.0539 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.8594e-01, -4.9731e-01,  1.3426e+00, -7.9972e-01, -5.6520e-01,
         -5.4576e-01,  5.2629e-01,  1.8728e-01],
        [ 4.3697e-01, -4.5928e-01,  1.3931e+00, -5.5027e-01, -4.7881e-01,
         -1.3916e-01,  3.5979e-01,  2.4473e-01],
        [ 8.3286e-01, -2.0214e-01,  1.5449e+00, -3.9255e-01, -5.2480e-01,
         -7.8448e-01,  4.5361e-01,  2.3245e-01],
        [ 5.0168e-01, -4.3097e-01,  1.3078e+00, -9.1020e-01, -5.8755e-01,
         -6.2334e-01,  5.8320e-01,  1.7699e-01],
        [ 7.1887e-01, -3.1333e-01,  1.5627e+00, -1.1709e+00, -4.1819e-04,
         -1.5454e+00,  8.5491e-01,  2.0092e-01],
        [ 4.4513e-01, -4.4595e-01,  1.5378e+00, -2.1944e-01, -4.1386e-01,
         -3.5445e-01,  3.4656e-01,  1.7412e-01],
        [ 6.1162e-01, -3.6164e-01,  1.5413e+00, -1.8645e-01, -4.5866e-01,
         -7.5103e-01,  3.8984e-01,  2.1871e-01],
        [ 2.9098e-01, -5.9695e-01,  1.4410e+00,  1.1175e-01, -3.4529e-01,
         -4.0318e-01,  3.0012e-01,  1.9724e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7785959504544735
step:  15
running loss:  0.0519063966969649
Train Steps: 15/90  Loss: 0.0519 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3495, -0.5137,  1.2867, -0.7977, -0.5919, -0.4932,  0.3754,  0.2001],
        [ 0.7947, -0.2719,  1.7608, -0.7762, -0.0301, -1.4611,  0.8805,  0.1307],
        [ 0.0306, -0.7537,  1.0149, -1.0745, -0.5246, -0.9820,  0.2472,  0.2447],
        [ 0.6324, -0.3694,  1.6234,  0.0647, -0.5520, -0.8712,  0.4582,  0.1424],
        [ 0.7833, -0.2346,  1.5707, -0.3463, -0.3770,  0.0528,  0.5279,  0.2255],
        [ 0.7305, -0.2862,  1.5712,  0.0126, -0.2571,  0.0699,  0.4072,  0.2189],
        [ 0.4863, -0.4808,  1.5423,  0.0540, -0.5026, -0.2989,  0.2758,  0.1930],
        [ 0.5454, -0.4141,  1.3707, -0.7669, -0.4660, -0.6807,  0.5137,  0.2013]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5450, -0.4706,  1.7643,  0.0722, -0.3708,  0.3200,  0.4854,
           0.0612],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0321, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0321, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8107367865741253
step:  16
running loss:  0.05067104916088283

Train Steps: 16/90  Loss: 0.0507 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6087, 0.3951, 0.8387, 0.5833, 0.4188, 0.4933, 0.5146, 0.4830],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6864, -0.3161,  1.3957, -0.8741, -0.6393, -0.4115,  0.5721,  0.1944],
        [ 0.6869, -0.2809,  1.5808,  0.1829, -0.1508, -0.4284,  0.3990,  0.2674],
        [ 1.0103, -0.1350,  1.8808, -0.1997, -0.6168, -0.1198,  0.6180,  0.0456],
        [ 0.4554, -0.4768,  1.7386, -0.1356, -0.2300, -0.1834,  0.4971,  0.1328],
        [ 0.2051, -0.6472,  1.1485, -1.0484, -0.5905, -0.9150,  0.3315,  0.1749],
        [ 0.6647, -0.3565,  1.6234,  0.2364, -0.4079, -0.3115,  0.3650,  0.1571],
        [ 0.0915, -0.7536,  0.9806, -1.4417, -0.3319, -1.7779,  0.4103,  0.1761],
        [ 0.6232, -0.3394,  1.5547,  0.1898, -0.2631, -0.2693,  0.3681,  0.2310]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.5258, -0.4610,  1.5882,  0.4085, -0.3517, -0.0072,  0.0910,
          -0.0550],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0270, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0270, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8377538155764341
step:  17
running loss:  0.04927963621037848
Train Steps: 17/90  Loss: 0.0493 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4288, -0.4854,  1.6467,  0.1719, -0.4551,  0.0582,  0.4286,  0.1805],
        [ 0.5306, -0.4610,  0.9986, -1.3014, -0.4066, -1.3574,  0.3123,  0.1790],
        [ 0.7175, -0.2925,  1.6305, -0.1981, -0.5236, -0.6448,  0.4414,  0.1654],
        [ 0.5649, -0.4179,  1.0909, -1.1380, -0.4752, -1.0641,  0.3576,  0.1617],
        [ 0.4000, -0.5173,  1.6446,  0.3024, -0.3259, -0.0621,  0.4557,  0.1149],
        [ 0.5420, -0.4195,  1.7541,  0.0212, -0.4687, -0.2140,  0.5426,  0.1165],
        [ 0.5727, -0.4093,  1.5485, -0.5428, -0.4685, -0.9696,  0.3440,  0.1536],
        [ 0.6472, -0.3293,  1.6709,  0.1153, -0.1787,  0.1713,  0.4548,  0.1555]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5384, -0.4393,  0.9762, -1.1851, -0.4210, -1.3852,  0.1712,
           0.0201],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0131, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0131, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8508864175528288
step:  18
running loss:  0.04727146764182382
Train Steps: 18/90  Loss: 0.0473 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6275, 0.4157, 0.8337, 0.5800, 0.3763, 0.4200, 0.5547, 0.6125]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4882, -0.4754,  1.3462, -1.0380, -0.4194, -1.2863,  0.3462,  0.1151],
        [ 0.6720, -0.3324,  1.6458, -0.4131, -0.3798, -1.0912,  0.4214,  0.1275],
        [ 0.5824, -0.3736,  1.5879, -0.6035, -0.3317,  0.1944,  0.6438,  0.1732],
        [ 0.5314, -0.4397,  1.4854, -0.0471, -0.4339, -0.2989,  0.4611,  0.1603],
        [ 0.3135, -0.5562,  1.6645,  0.0351, -0.2306,  0.0211,  0.3456,  0.1590],
        [ 0.6142, -0.3721,  1.6466,  0.2753, -0.4500, -0.0996,  0.4397,  0.0354],
        [ 0.5489, -0.4391,  1.4079, -0.5499, -0.6380, -0.7958,  0.2248,  0.2013],
        [ 0.6976, -0.3084,  1.5207,  0.3261, -0.4993, -0.1174,  0.3380,  0.2032]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.6124, -0.3658,  1.5651,  0.3931, -0.5480, -0.3460,  0.2761,
           0.5431]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0252, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0252, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8761011473834515
step:  19
running loss:  0.046110586704392185
Train Steps: 19/90  Loss: 0.0461 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7217, -0.2845,  1.9075,  0.2389, -0.2370,  0.5157,  0.5562,  0.1797],
        [ 0.6534, -0.3390,  1.8560,  0.8615, -0.4630,  0.5337,  0.4289,  0.1413],
        [ 0.4276, -0.5171,  1.1000, -0.8050, -0.5874, -1.0325,  0.1186,  0.1669],
        [ 0.5049, -0.4677,  1.8860,  0.3048, -0.2772,  0.1354,  0.3989,  0.0883],
        [ 0.4303, -0.5046,  1.0362, -0.7526, -0.5927, -0.9086,  0.1313,  0.2303],
        [ 0.2386, -0.6472,  1.1012, -0.9978, -0.3905, -1.3685,  0.2712,  0.1517],
        [ 0.6727, -0.3058,  1.6422, -0.0121, -0.6491, -0.0651,  0.3661,  0.1395],
        [ 0.7852, -0.3123,  1.5772, -0.9977, -0.1710, -1.3506,  0.8036,  0.0506]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0413, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0413, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9173775799572468
step:  20
running loss:  0.045868878997862336
Train Steps: 20/90  Loss: 0.0459 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7893, -0.2475,  1.7366,  0.2809, -0.4846,  0.0459,  0.5071,  0.1226],
        [ 0.5180, -0.4447,  1.6718,  0.4874, -0.3442,  0.0526,  0.3643,  0.1179],
        [ 1.0198, -0.1212,  1.6432, -0.3591, -0.6406, -0.6661,  0.2950,  0.1079],
        [ 0.9893, -0.1316,  1.7666,  0.0423, -0.4163,  0.3851,  0.7108,  0.1294],
        [-0.4476, -1.0955,  1.0936, -1.0599, -0.2677, -1.2739,  0.2665,  0.2393],
        [ 1.0255, -0.0901,  1.7566, -0.0326, -0.5185, -0.2372,  0.4457,  0.1847],
        [ 0.7385, -0.2714,  1.6558,  0.0937, -0.4627,  0.0625,  0.1644,  0.1464],
        [-0.2213, -0.9596,  1.1754, -1.1070, -0.3095, -1.3147,  0.2532,  0.1814]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2049, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2049, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.122323576360941
step:  21
running loss:  0.05344397982671147
Train Steps: 21/90  Loss: 0.0534 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [   nan,    nan, 0.7412, 0.2200, 0.4450, 0.1517, 0.5312, 0.4983]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8088, -0.2508,  1.7559,  0.1688, -0.2472,  0.3217,  0.4909,  0.2069],
        [ 0.9829, -0.1435,  1.6416, -0.8073, -0.1479, -1.0794,  0.5959,  0.1515],
        [ 0.8976, -0.1853,  1.6383, -0.2905, -0.5018,  0.1907,  0.5584,  0.1761],
        [ 0.5843, -0.3556,  1.3610, -0.4377, -0.6175, -0.2176,  0.2037,  0.2051],
        [ 0.6115, -0.3894,  1.6423, -0.0639, -0.6122, -0.2054,  0.3690,  0.0912],
        [ 0.8306, -0.2088,  1.6910,  0.3271, -0.6185, -0.2251,  0.2638,  0.2357],
        [ 0.4336, -0.5279,  1.7140,  0.4916, -0.5995, -0.3352,  0.2393,  0.1133],
        [-0.9037, -1.4468,  1.1021, -1.1638, -0.2849, -1.4912,  0.2202,  0.1359]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9873e-01, -3.8522e-01,  1.7326e+00, -3.0331e-02, -1.4965e-01,
           2.6220e-01,  5.3164e-01,  1.2363e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 6.0098e-01, -3.8961e-01,  1.7326e+00, -5.6921e-01, -6.2887e-01,
           8.1601e-03,  5.0277e-01,  1.0054e-01],
         [ 5.0762e-01, -4.4426e-01,  1.2337e+00, -5.0235e-01, -6.8083e-01,
          -3.6135e-01,  8.6614e-02,  2.3862e-01],
         [ 5.6692e-01, -4.7937e-01,  1.7499e+00, -3.3826e-01, -6.7506e-01,
          -4.2294e-01,  4.9700e-01, -6.1124e-02],
         [ 5.9024e-01, -3.4927e-01,  1.7961e+00, -7.2363e-03, -5.9423e-01,
          -5.6151e-01,  3.1801e-01,  3.1609e-01],
         [ 5.3788e-01, -4.3580e-01,  1.7326e+00,  1.8522e-01, -6.0577e-01,
          -5.4611e-01,  6.8408e-02, -3.0981e-02],
         [-2.2859e+00, -2.2859e+00,  1.1379e+00, -1.2697e+00, -2.3048e-01,
          -1.5854e+00,  1.6790e-01,  1.5858e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0680, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0680, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1902863197028637
step:  22
running loss:  0.05410392362285744
Train Steps: 22/90  Loss: 0.0541 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5841, -0.4228,  1.7081, -0.6441, -0.2441, -1.1153,  0.5499,  0.0982],
        [ 0.4278, -0.5337,  1.6374, -0.0478, -0.6051, -0.2112,  0.1915,  0.1604],
        [ 0.6027, -0.4234,  1.2634, -0.8264, -0.6503, -0.8771,  0.4061,  0.1357],
        [ 0.4495, -0.5041,  1.4335,  0.1495, -0.5340, -0.1502,  0.3682,  0.2350],
        [ 0.5330, -0.4750,  1.5403, -0.4251, -0.6036, -0.9126,  0.1916,  0.1295],
        [ 0.4893, -0.4719,  1.7569,  0.1496, -0.3485,  0.2388,  0.4058,  0.1906],
        [ 0.4003, -0.5475,  1.7447, -0.0725, -0.2012, -0.1510,  0.3865,  0.1682],
        [ 0.4466, -0.5168,  1.7576,  0.0200, -0.3755,  0.2759,  0.4909,  0.1671]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2187356799840927
step:  23
running loss:  0.05298850782539533
Train Steps: 23/90  Loss: 0.0530 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6203, 0.4078, 0.8800, 0.5083, 0.3900, 0.5000, 0.6100, 0.5583],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6472, -0.3689,  1.6346, -0.8492, -0.3853, -0.9779,  0.5521,  0.1281],
        [ 0.3331, -0.6111,  1.7036,  0.2330, -0.5683,  0.1859,  0.3486,  0.1685],
        [ 0.6470, -0.3728,  1.4712, -1.0258, -0.3932, -1.1447,  0.4923,  0.0939],
        [ 0.5844, -0.4290,  1.7303, -0.4750, -0.4808, -0.8322,  0.4734,  0.1240],
        [ 0.2903, -0.6353,  1.5557,  0.3560, -0.3045,  0.0172,  0.2414,  0.2126],
        [ 0.2699, -0.6419,  1.6350,  0.2703, -0.4484,  0.1321,  0.2392,  0.1861],
        [ 0.1457, -0.7198,  1.6238, -0.0021, -0.3622,  0.0578,  0.3708,  0.1807],
        [ 0.7875, -0.2717,  1.6199, -0.5207, -0.6258, -0.5832,  0.3459,  0.1732]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0837e-01, -4.0762e-01,  1.6806e+00, -9.6182e-01, -2.9977e-01,
          -9.6952e-01,  6.3557e-01,  1.4673e-01],
         [ 5.7939e-01, -4.0231e-01,  1.7788e+00,  6.2048e-02, -4.8453e-01,
           2.3557e-02,  5.3164e-01,  2.9299e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.0918e-01, -3.9130e-01,  1.8423e+00, -5.9230e-01, -4.2679e-01,
          -9.7721e-01,  6.1247e-01,  1.0824e-01],
         [ 5.6195e-01, -4.3457e-01,  1.6691e+00,  3.3149e-01, -2.5935e-01,
          -7.2363e-03,  2.8915e-01,  2.8530e-01],
         [ 5.4821e-01, -3.8414e-01,  1.7326e+00,  1.0054e-01, -3.5173e-01,
           6.2048e-02,  9.1240e-02,  2.5215e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.7829e-01, -3.9330e-01,  1.6748e+00, -6.1540e-01, -5.7691e-01,
          -6.4619e-01,  4.7968e-01,  3.3149e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2390678264200687
step:  24
running loss:  0.051627826100836195
Train Steps: 24/90  Loss: 0.0516 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1949, -0.6706,  1.7265,  0.0499, -0.5140, -0.1403,  0.4085,  0.2467],
        [ 0.7997, -0.3032,  1.3810, -1.0131, -0.5489, -0.8264,  0.3527,  0.1973],
        [ 0.3795, -0.5790,  1.7047, -0.0913, -0.1195, -0.1106,  0.3014,  0.1788],
        [ 0.8255, -0.2797,  1.6323, -0.6465, -0.6656, -0.5635,  0.3617,  0.1430],
        [ 0.2209, -0.6711,  1.5705, -0.1209, -0.6546, -0.3792,  0.2130,  0.2171],
        [ 0.3898, -0.5788,  1.8787, -0.3252, -0.2116, -0.8951,  0.6498,  0.0578],
        [ 0.4747, -0.5116,  1.7857, -0.2169, -0.2496,  0.1502,  0.5376,  0.1775],
        [ 0.3268, -0.6048,  1.6250,  0.1335, -0.5727, -0.5164,  0.2695,  0.1240]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0248, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0248, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2638748027384281
step:  25
running loss:  0.05055499210953712
Train Steps: 25/90  Loss: 0.0506 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7765, -0.3130,  1.6100, -0.5837, -0.6955, -0.3657,  0.2162,  0.2099],
        [-1.2546, -1.6816,  1.0257, -1.0399, -0.3609, -1.2230,  0.1650,  0.1903],
        [ 0.6993, -0.4141,  1.8532,  0.5163, -0.5222,  0.1399,  0.4955,  0.1509],
        [ 0.7386, -0.3365,  1.8392,  0.0971, -0.3573,  0.2887,  0.4597,  0.2088],
        [ 0.6512, -0.3750,  1.5533, -0.6460, -0.5720, -0.5968,  0.2478,  0.2290],
        [ 0.5814, -0.4463,  1.8323,  0.1737, -0.6186, -0.1798,  0.2413,  0.1486],
        [ 0.5449, -0.4473,  1.8061, -0.7797, -0.1826, -0.8444,  0.7036,  0.1541],
        [ 0.8164, -0.3197,  1.7249, -0.7490, -0.1492, -1.0003,  0.7974,  0.0999]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0563, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0563, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3201934099197388
step:  26
running loss:  0.05077666961229765
Train Steps: 26/90  Loss: 0.0508 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4843, -0.4923,  1.8988, -0.3992, -0.2177,  0.0468,  0.5391,  0.2222],
        [ 0.4154, -0.5881,  1.2895, -1.1669, -0.4763, -1.3328,  0.2543,  0.1306],
        [ 0.4518, -0.5199,  1.7362,  0.0782, -0.4067, -0.2372,  0.3323,  0.2551],
        [ 0.5852, -0.4918,  1.9120, -0.1694, -0.4795,  0.0024,  0.5392,  0.1263],
        [ 0.6552, -0.4101,  1.8002,  0.1895, -0.3935, -0.2230,  0.4755,  0.2813],
        [ 0.5180, -0.4848,  1.8587,  0.0052, -0.4058,  0.0462,  0.3925,  0.1988],
        [ 0.1950, -0.6670,  1.2533, -1.3154, -0.4737, -1.2690,  0.4056,  0.1900],
        [ 0.2802, -0.6517,  1.8728, -0.1009, -0.4746, -0.4945,  0.5519,  0.1651]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0273, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0273, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3474591448903084
step:  27
running loss:  0.049905894255196606
Train Steps: 27/90  Loss: 0.0499 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4047, -0.5641,  1.8557, -0.3915, -0.3121,  0.0780,  0.5668,  0.2369],
        [ 0.5390, -0.4681,  1.7114, -0.0121, -0.5081, -0.2583,  0.4403,  0.2166],
        [ 0.3382, -0.6112,  1.8243, -0.2912, -0.6956, -0.5718,  0.3748,  0.1359],
        [ 0.1285, -0.7148,  1.7671, -0.9421, -0.1662, -1.1593,  0.6499,  0.1509],
        [ 0.5752, -0.4616,  1.7676, -0.2336, -0.2807, -0.1014,  0.4329,  0.2863],
        [ 0.3819, -0.5542,  1.1212, -1.1021, -0.6073, -1.2107,  0.3160,  0.2424],
        [ 0.5454, -0.4809,  1.7989, -0.1910, -0.1672, -0.2807,  0.4104,  0.2157],
        [ 0.6235, -0.4284,  1.7667,  0.0837, -0.4849, -0.0909,  0.5290,  0.3062]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5891, -0.4550,  1.5132,  0.3546, -0.3691, -0.1535,  0.3815,
           0.1467],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3758654911071062
step:  28
running loss:  0.04913805325382522

Train Steps: 28/90  Loss: 0.0491 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4980, -0.4510,  1.1881, -0.9858, -0.5650, -0.8815,  0.2687,  0.2701],
        [ 0.6081, -0.3681,  1.7448, -0.0104, -0.5931, -0.5104,  0.2804,  0.2786],
        [ 0.8465, -0.2756,  1.5485, -0.9244, -0.5099, -0.8537,  0.6211,  0.1732],
        [-1.4354, -1.7735,  1.1950, -0.9369, -0.3766, -1.0535,  0.1421,  0.2662],
        [ 0.8859, -0.2152,  1.9825,  0.0037, -0.3014,  0.4025,  0.5873,  0.2754],
        [ 0.9285, -0.2262,  1.8356, -0.0805, -0.3351,  0.0737,  0.4443,  0.3068],
        [ 0.5997, -0.4376,  1.7979,  0.2760, -0.4896, -0.1813,  0.4074,  0.2335],
        [ 0.5675, -0.4697,  1.8163, -1.0207,  0.0638, -1.0853,  1.0176,  0.1437]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0327, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0327, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4085994269698858
step:  29
running loss:  0.048572394033444335
Train Steps: 29/90  Loss: 0.0486 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8314, -0.2732,  1.7540, -0.4890, -0.5828, -0.5468,  0.6514,  0.1730],
        [ 0.6223, -0.3878,  1.9407, -0.0566, -0.0362,  0.2270,  0.7201,  0.3392],
        [-0.0648, -0.8505,  0.9972, -1.0496, -0.3593, -1.3296,  0.2686,  0.3011],
        [ 0.6182, -0.4060,  1.8672,  0.1088, -0.4125, -0.1731,  0.4656,  0.2312],
        [ 0.7090, -0.3358,  1.9056, -0.3081, -0.2719,  0.1284,  0.6481,  0.3014],
        [ 0.5278, -0.4470,  1.1147, -0.9866, -0.5895, -0.8632,  0.3399,  0.3552],
        [-0.2827, -0.9884,  1.6530, -0.4936, -0.3237, -1.1280,  0.2926,  0.1953],
        [ 0.4771, -0.4732,  1.8016, -0.2574, -0.3934, -0.2234,  0.3285,  0.2492]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5326, -0.4390,  1.7557,  0.0851, -0.5192, -0.0919,  0.3180,
           0.0620],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0391, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0391, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.447685481980443
step:  30
running loss:  0.04825618273268143
Train Steps: 30/90  Loss: 0.0483 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4710, -0.5241,  1.6559, -0.7972, -0.2771, -0.8978,  0.7490,  0.1722],
        [ 0.2822, -0.5709,  1.4792, -0.7684, -0.3218, -1.0572,  0.2195,  0.2607],
        [ 0.3433, -0.5362,  1.0719, -1.1185, -0.5896, -0.8732,  0.2522,  0.3263],
        [ 0.3159, -0.5916,  1.7861, -0.2359, -0.5078, -0.4310,  0.3561,  0.2378],
        [ 0.4398, -0.4827,  1.7726, -0.2350, -0.0829,  0.0155,  0.4125,  0.3373],
        [ 0.3263, -0.5749,  1.7963, -0.0346, -0.3689, -0.5563,  0.4905,  0.1943],
        [ 0.6169, -0.3935,  1.6085, -0.0899, -0.3845, -0.1183,  0.6086,  0.3813],
        [ 0.6808, -0.3486,  1.7518, -0.1970, -0.3165, -0.0122,  0.5884,  0.2809]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.6273, -0.4249,  1.7095,  0.1159, -0.5480, -0.4306,  1.0910,
           0.1928],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0302, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0302, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.477879423648119
step:  31
running loss:  0.04767352979510061
Train Steps: 31/90  Loss: 0.0477 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5117, -0.4196,  0.9786, -0.9416, -0.6249, -0.8022,  0.2050,  0.3726],
        [ 0.5619, -0.3987,  1.7834,  0.0175, -0.4419, -0.3582,  0.4923,  0.2641],
        [ 0.3236, -0.5390,  1.8023, -0.3149, -0.4430, -0.8161,  0.4877,  0.2087],
        [ 0.4976, -0.4769,  1.7585,  0.0139, -0.1965,  0.0074,  0.3728,  0.2565],
        [ 0.4925, -0.4334,  1.1824, -1.0599, -0.4519, -1.0876,  0.3643,  0.2796],
        [ 0.7676, -0.2882,  1.7267,  0.1517, -0.2220,  0.2903,  0.4297,  0.2950],
        [ 0.3197, -0.5553,  1.3923, -0.9086, -0.5696, -0.3927,  0.5116,  0.3125],
        [-0.0600, -0.8208,  1.8714, -0.7073,  0.0863, -0.9754,  0.9008,  0.1728]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.5450, -0.4706,  1.7643,  0.0722, -0.3708,  0.3200,  0.4854,
           0.0612],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5033203139901161
step:  32
running loss:  0.04697875981219113

Train Steps: 32/90  Loss: 0.0470 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6046, -0.4041,  1.3856, -1.1072, -0.3421, -1.0320,  0.7189,  0.1829],
        [ 0.3036, -0.5672,  1.7304, -0.7838, -0.2106, -1.1523,  0.6788,  0.1557],
        [ 0.8693, -0.1994,  1.6628,  0.1078, -0.4714, -0.5727,  0.3917,  0.2545],
        [ 0.4444, -0.4605,  1.5921, -0.3418, -0.3893, -0.0181,  0.3984,  0.3219],
        [-0.8497, -1.3179,  1.3370, -0.8653, -0.4921, -0.9819,  0.1373,  0.2156],
        [ 0.7128, -0.3160,  1.6909,  0.0323, -0.1249,  0.1409,  0.4211,  0.3112],
        [ 0.8694, -0.2089,  1.4843, -0.6585, -0.5412, -0.5137,  0.5688,  0.3325],
        [ 0.6722, -0.3150,  1.5615, -0.0606, -0.3911, -0.0069,  0.5004,  0.3152]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0719, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0719, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.575185589492321
step:  33
running loss:  0.047732896651282455
Train Steps: 33/90  Loss: 0.0477 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9045, -0.2045,  1.7665, -0.0190, -0.4189, -0.0906,  0.6821,  0.1926],
        [ 0.6531, -0.3369,  1.7089, -0.5142, -0.4372, -0.1780,  0.5593,  0.1922],
        [ 0.9902, -0.1364,  1.6734, -0.0408, -0.3670, -0.1510,  0.6068,  0.2448],
        [-1.6674, -1.8711,  1.1930, -1.0522, -0.3653, -1.3092,  0.2291,  0.2265],
        [ 0.6062, -0.3637,  1.6419, -0.6272, -0.6213, -0.5816,  0.3713,  0.2625],
        [ 1.0549, -0.0778,  1.6522,  0.2349, -0.3027, -0.0812,  0.4714,  0.3484],
        [ 0.8803, -0.1778,  1.6896, -0.1564, -0.2772, -0.2500,  0.4931,  0.2272],
        [ 0.2314, -0.5895,  0.9697, -1.2898, -0.2493, -1.2955,  0.3786,  0.3206]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9082e-01, -4.3664e-01,  1.7557e+00,  1.3903e-01, -5.1917e-01,
           1.3133e-01,  6.5289e-01,  2.3557e-02],
         [ 5.1680e-01, -4.5558e-01,  1.7095e+00, -2.9207e-01, -4.2102e-01,
           6.2048e-02,  1.4038e-01,  2.3124e-02],
         [ 6.2361e-01, -4.3441e-01,  1.6171e+00,  1.8522e-01, -3.4018e-01,
           2.3557e-02,  6.4711e-01,  6.9746e-02],
         [-2.2859e+00, -2.2859e+00,  1.2030e+00, -1.0288e+00, -4.9607e-01,
          -1.1081e+00,  8.1293e-02,  3.1609e-01],
         [ 5.7569e-01, -3.9169e-01,  1.7095e+00, -4.7683e-01, -6.3464e-01,
          -4.2294e-01,  3.9307e-01,  3.2379e-01],
         [ 5.8799e-01, -3.6051e-01,  1.7037e+00,  3.2379e-01, -2.9400e-01,
          -7.6520e-02,  3.1801e-01,  3.1609e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 6.1010e-01, -3.1524e-01,  1.0166e+00, -7.5396e-01, -2.2633e-02,
          -1.4468e+00,  2.8226e-01,  5.7018e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0464, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0464, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6215668469667435
step:  34
running loss:  0.047693142557845396
Train Steps: 34/90  Loss: 0.0477 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8166, -0.1899,  1.3306, -0.7404, -0.4580, -0.7054,  0.4630,  0.3116],
        [ 1.0022, -0.1160,  1.6696,  0.1123, -0.4108,  0.1231,  0.3683,  0.2487],
        [-1.8722, -1.9516,  1.0990, -0.9600, -0.3088, -1.2137,  0.1891,  0.1847],
        [ 1.2242,  0.0453,  1.6560,  0.5276, -0.4548,  0.1647,  0.3594,  0.2172],
        [ 0.9550, -0.1220,  0.9757, -0.8584, -0.7268, -0.6853,  0.3104,  0.3065],
        [ 0.8092, -0.2271,  1.7159, -0.2274, -0.6485, -0.1693,  0.3869,  0.2246],
        [ 0.9884, -0.1324,  1.6578, -0.7221, -0.1089, -0.8412,  0.9937,  0.1319],
        [-0.7703, -1.1830,  1.6248, -0.8926,  0.0598, -0.9897,  0.8520,  0.1865]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1038, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1038, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.725327029824257
step:  35
running loss:  0.04929505799497877
Train Steps: 35/90  Loss: 0.0493 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6182, 0.3930, 0.8841, 0.3892, 0.3556, 0.4967, 0.6222, 0.5279],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0376, -0.0549,  1.6175,  0.2950, -0.3642, -0.3018,  0.4173,  0.2902],
        [-1.3129, -1.5726,  1.0380, -1.1441, -0.2995, -1.3562,  0.2976,  0.2221],
        [ 1.0837, -0.0560,  1.7402,  0.1596, -0.3138,  0.0089,  0.4249,  0.1761],
        [ 1.2470,  0.0356,  1.7279,  0.3775, -0.3578,  0.1207,  0.5581,  0.2648],
        [ 0.7240, -0.2872,  1.7171, -0.3920, -0.4311, -0.0944,  0.5612,  0.1505],
        [ 0.7184, -0.3035,  1.6816, -0.6363, -0.5410, -0.1442,  0.8086,  0.2079],
        [-1.6307, -1.8106,  1.2022, -0.9604, -0.3940, -1.2524,  0.2497,  0.2113],
        [ 0.9433, -0.1526,  1.0979, -1.1195, -0.5620, -0.9940,  0.4218,  0.2257]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5697, -0.4706,  1.7976, -0.4884, -0.6433,  0.0081,  0.5878,
           0.1525],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1254, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8506858050823212
step:  36
running loss:  0.05140793903006448

Train Steps: 36/90  Loss: 0.0514 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3210, -0.4926,  1.6567, -0.4000, -0.3599, -1.0264,  0.4894,  0.1499],
        [ 0.6571, -0.3596,  1.0842, -1.2060, -0.6313, -1.0385,  0.5151,  0.1963],
        [ 0.5058, -0.4447,  1.5437,  0.0189, -0.4176, -0.1923,  0.2316,  0.1914],
        [ 0.1817, -0.6537,  1.4349, -0.7227, -0.4305,  0.0920,  0.4942,  0.2824],
        [-1.3286, -1.6251,  1.6110, -0.9346,  0.0318, -1.2953,  0.6881,  0.1814],
        [ 0.9706, -0.1940,  1.5802,  0.2639, -0.6015, -0.3286,  0.4616,  0.1453],
        [ 0.5066, -0.4450,  1.4328, -0.3905, -0.5788, -0.2500,  0.2859,  0.2596],
        [ 0.6623, -0.3516,  1.6435,  0.1237, -0.3628,  0.2921,  0.5939,  0.2574]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [-2.2859, -2.2859,  1.8249, -0.8002,  0.0409, -1.2543,  0.8059,
           0.3050],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0419, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0419, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8925394713878632
step:  37
running loss:  0.051149715442915224
Train Steps: 37/90  Loss: 0.0511 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1391, -0.6635,  1.4068, -1.0223, -0.4018, -1.1637,  0.4464,  0.0945],
        [ 0.4628, -0.4339,  1.3757, -0.9598, -0.3049, -1.1301,  0.4751,  0.1769],
        [ 0.4638, -0.5336,  1.4785, -0.6946, -0.6105, -0.6798,  0.6793,  0.1371],
        [ 0.3253, -0.5462,  1.5459,  0.2808, -0.2164,  0.0366,  0.2902,  0.2458],
        [ 0.2621, -0.6162,  1.4384,  0.0273, -0.4463, -0.3500,  0.6303,  0.2597],
        [ 0.2308, -0.6349,  1.5872, -0.2894, -0.2790,  0.2705,  0.4701,  0.2369],
        [ 0.0074, -0.7388,  1.5592,  0.3414, -0.4608, -0.2093,  0.3406,  0.1944],
        [ 0.0809, -0.7228,  1.3165, -0.9145, -0.6861, -0.7330,  0.3129,  0.2097]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0379, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0379, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9304494857788086
step:  38
running loss:  0.05080130225733707
Train Steps: 38/90  Loss: 0.0508 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6200, 0.4070, 0.8938, 0.4183, 0.3538, 0.4567, 0.6175, 0.5400],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6131, 0.4037, 0.6907, 0.2819, 0.3688, 0.2700, 0.5217, 0.5680],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3057, -0.5980,  1.6707,  0.3744, -0.3315, -0.2668,  0.4939,  0.1397],
        [ 0.3730, -0.5857,  1.6908, -0.3420, -0.5077, -0.1843,  0.5378,  0.1543],
        [ 0.3094, -0.5495,  1.2988, -0.7486, -0.5875, -0.4744,  0.3223,  0.2321],
        [ 0.0189, -0.7939,  1.7198, -0.3256, -0.4821, -0.3460,  0.3194,  0.2208],
        [-0.0583, -0.8413,  1.6697, -0.4644, -0.5157, -0.3376,  0.4319,  0.2579],
        [-0.0959, -0.8424,  0.9313, -1.0887, -0.5208, -1.0755,  0.2619,  0.2573],
        [ 0.4857, -0.5217,  1.4339, -1.0939, -0.3772, -1.2367,  0.7471,  0.0930],
        [ 0.5980, -0.3976,  1.7367,  0.5304, -0.3018,  0.2016,  0.4894,  0.2275]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5778, -0.4061,  1.8423, -0.3537, -0.6520, -0.1766,  0.5663,
           0.2083],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5459, -0.4215,  0.9043, -0.9838, -0.5827, -1.0388,  0.1236,
           0.3378],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0421, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0421, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9725742973387241
step:  39
running loss:  0.05057882813689036
Train Steps: 39/90  Loss: 0.0506 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.5030, -1.7617,  1.5962, -0.7638, -0.0465, -1.1517,  0.7468,  0.2570],
        [ 0.6592, -0.3707,  1.6703,  0.0753, -0.2731,  0.2695,  0.3758,  0.2453],
        [ 0.8878, -0.2623,  1.4946, -0.6248, -0.5640, -0.3283,  0.7205,  0.1871],
        [-0.2709, -0.9534,  1.8355, -0.6016, -0.2469, -1.0011,  0.8533,  0.1493],
        [ 0.1519, -0.6594,  1.1395, -0.7464, -0.7456, -0.9452, -0.0113,  0.1914],
        [ 0.5785, -0.4321,  1.6872,  0.1249, -0.4040,  0.3933,  0.3312,  0.1839],
        [ 0.5743, -0.4212,  0.8302, -1.1150, -0.6334, -1.2068,  0.3029,  0.2081],
        [ 0.6235, -0.3960,  1.6506,  0.2356, -0.4930,  0.2425,  0.3186,  0.1754]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.107771832495928
step:  40
running loss:  0.05269429581239819

Train Steps: 40/90  Loss: 0.0527 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.4297, -1.6886,  0.9586, -1.0350, -0.4966, -1.1245,  0.2422,  0.2725],
        [ 0.7484, -0.3261,  1.7147,  0.2348, -0.1303,  0.2234,  0.4167,  0.1816],
        [ 0.9006, -0.1798,  1.8771, -0.0190, -0.2798, -0.6128,  0.7785,  0.1212],
        [ 0.9955, -0.1387,  1.5056, -0.5418, -0.7577, -0.3477,  0.2791,  0.1715],
        [ 1.1263, -0.0555,  1.6218, -0.5745, -0.5147, -0.7123,  0.5116,  0.1374],
        [ 0.1350, -0.6184,  1.1729, -1.1085, -0.3779, -0.8162,  0.4339,  0.3186],
        [ 0.9295, -0.2291,  1.6967,  0.4022, -0.3601,  0.3717,  0.5515,  0.1648],
        [-2.0216, -2.0805,  1.1421, -0.9266, -0.5279, -0.9488,  0.2146,  0.2698]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0592, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0592, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1670092418789864
step:  41
running loss:  0.05285388394826796
Train Steps: 41/90  Loss: 0.0529 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.3570, -1.0477,  1.9500, -0.7166, -0.2661, -0.7335,  0.7896,  0.2005],
        [ 0.1600, -0.7055,  1.7179, -0.2601, -0.1441,  0.0563,  0.3919,  0.2460],
        [ 0.2115, -0.6359,  1.6255, -0.0376, -0.6835, -0.6661,  0.2499,  0.1468],
        [-0.0534, -0.8461,  1.5375,  0.2503, -0.5311, -0.0212,  0.3671,  0.3205],
        [ 0.3429, -0.5866,  1.6651, -0.2636, -0.2702,  0.2513,  0.4242,  0.2724],
        [ 0.3025, -0.6347,  1.5513, -0.8119, -0.4023, -0.8750,  0.6761,  0.1629],
        [ 0.1845, -0.6954,  1.6102,  0.1688, -0.5439, -0.2238,  0.3499,  0.2069],
        [ 0.6012, -0.4584,  1.0800, -1.4243, -0.6784, -1.1147,  0.3999,  0.1815]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5379, -0.4358,  1.7326,  0.1852, -0.6058, -0.5461,  0.0684,
          -0.0310],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0622, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0622, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.229224521666765
step:  42
running loss:  0.05307677432539917
Train Steps: 42/90  Loss: 0.0531 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637],
        [0.6064, 0.3953, 0.8738, 0.4417, 0.3663, 0.4683, 0.5511, 0.5416]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2737, -0.6350,  1.8644, -0.3020, -0.5419, -0.4866,  0.5516,  0.1753],
        [-0.2903, -0.9783,  1.4274, -0.8604, -0.4192, -1.0997,  0.3088,  0.1842],
        [ 0.2797, -0.6562,  1.8521,  0.2928, -0.4158,  0.0558,  0.6270,  0.1605],
        [ 0.1652, -0.7392,  1.9001, -0.0229, -0.1119,  0.4007,  0.5122,  0.2274],
        [ 0.1744, -0.7025,  0.9219, -1.1211, -0.4517, -1.2485,  0.2254,  0.2856],
        [ 0.4882, -0.4664,  1.4131, -0.6096, -0.4171, -0.6723,  0.5737,  0.3040],
        [ 0.2635, -0.6419,  1.5242, -0.7674, -0.6309, -0.7327,  0.2655,  0.2337],
        [ 0.0690, -0.8091,  1.8354, -0.1112, -0.5163,  0.0057,  0.4869,  0.1616]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177],
         [ 0.5149, -0.4603,  1.7499, -0.2459, -0.5942, -0.1227,  0.2596,
           0.2155]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0456, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0456, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2748365253210068
step:  43
running loss:  0.052903175007465275
Train Steps: 43/90  Loss: 0.0529 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5413, -0.4571,  1.9170,  0.0479, -0.6285,  0.0270,  0.2009,  0.2187],
        [-0.0423, -0.8500,  1.2509, -0.7857, -0.3819, -0.8803,  0.3350,  0.2688],
        [ 0.3422, -0.5660,  1.1678, -0.6439, -0.4835, -0.6990,  0.2194,  0.2989],
        [ 0.1666, -0.7358,  1.9808, -0.2059, -0.4849,  0.0364,  0.7351,  0.1599],
        [ 0.1013, -0.7613,  1.7859, -0.6040, -0.0864, -0.9437,  0.7968,  0.1880],
        [ 0.3649, -0.5743,  1.5560, -0.5668, -0.5240, -0.5518,  0.4174,  0.1397],
        [-0.6398, -1.2337,  1.2423, -0.8344, -0.2962, -1.1112,  0.2853,  0.2156],
        [ 0.5759, -0.4420,  1.3873, -0.7166, -0.5027, -0.4597,  0.4913,  0.2565]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4091132134199142
step:  44
running loss:  0.054752573032270775

Train Steps: 44/90  Loss: 0.0548 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4334, -0.5116,  1.3480, -0.8113, -0.3142, -1.0172,  0.4388,  0.3419],
        [ 0.4893, -0.5194,  1.3963, -1.1550, -0.5044, -1.0069,  0.5392,  0.1921],
        [ 0.0556, -0.8011,  2.0050,  0.2513, -0.3090,  0.1978,  0.3072,  0.1363],
        [ 0.0547, -0.7857,  1.8429, -0.2424, -0.5380, -0.0357,  0.3545,  0.2218],
        [ 0.0402, -0.8175,  1.9599,  0.0763, -0.3227,  0.1221,  0.5820,  0.1758],
        [ 0.4812, -0.4551,  1.8308,  0.2619, -0.5223, -0.2912,  0.3599,  0.2569],
        [-0.0621, -0.8441,  1.1563, -1.2337, -0.5207, -1.1930,  0.2766,  0.2215],
        [ 0.6473, -0.4163,  1.2970, -1.1117, -0.4648, -1.1489,  0.4737,  0.2342]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0466, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0466, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.45572542399168
step:  45
running loss:  0.054571676088704
Train Steps: 45/90  Loss: 0.0546 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4101, 0.8350, 0.2333, 0.3950, 0.2950, 0.6264, 0.4921],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0486, -0.7520,  1.5484, -1.2891, -0.3776, -1.1524,  0.5029,  0.2081],
        [ 0.1276, -0.7314,  1.7045,  0.1468, -0.5277, -0.3232,  0.3239,  0.1693],
        [ 0.1799, -0.6887,  1.7231, -0.0090, -0.3742,  0.0133,  0.1609,  0.1769],
        [ 0.4219, -0.5362,  1.5284, -0.9328, -0.6049, -0.6821,  0.3582,  0.3489],
        [ 0.5471, -0.4507,  1.6436,  0.3289, -0.4051, -0.3247,  0.3472,  0.3031],
        [ 0.4886, -0.4759,  1.6206, -1.0411, -0.2340, -1.1404,  0.6254,  0.2247],
        [ 0.5113, -0.4774,  1.1860, -1.2704, -0.5188, -1.0736,  0.4048,  0.2197],
        [ 0.2363, -0.6918,  1.8009, -0.0398, -0.4113,  0.2251,  0.6258,  0.2378]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6081, -0.3918,  1.5709, -1.2082, -0.4614, -0.9233,  0.6072,
          -0.0129],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0342, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0342, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.489884562790394
step:  46
running loss:  0.05412792527805204
Train Steps: 46/90  Loss: 0.0541 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2156, -0.7264,  1.8884,  0.1304, -0.4089,  0.0797,  0.6120,  0.1767],
        [ 0.5065, -0.4851,  1.3740, -1.1749, -0.4529, -0.8285,  0.6044,  0.2467],
        [ 0.7207, -0.3375,  1.1234, -1.1218, -0.3663, -1.1669,  0.2888,  0.2777],
        [ 0.5620, -0.4515,  1.7631, -0.4039, -0.5657, -0.5033,  0.4060,  0.2434],
        [ 0.3018, -0.6048,  1.0069, -1.1920, -0.3891, -1.2506,  0.2564,  0.3108],
        [ 0.4506, -0.5106,  1.7971, -0.1529, -0.6035, -0.4831,  0.2787,  0.1326],
        [ 0.1461, -0.7076,  1.6684, -0.1707, -0.4278,  0.0296,  0.3463,  0.2320],
        [ 0.3512, -0.5647,  1.8268, -0.5372, -0.2307, -1.0289,  0.5388,  0.2037]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5850, -0.3925,  1.0513, -1.3467, -0.3517, -1.2620,  0.4739,
           0.1544],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0191, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0191, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5090342573821545
step:  47
running loss:  0.053383707603875626
Train Steps: 47/90  Loss: 0.0534 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8475, -0.2794,  1.7623, -0.0957, -0.4256,  0.2351,  0.4581,  0.2182],
        [-0.2862, -0.9827,  1.5954, -1.0876, -0.1128, -1.1886,  0.7696,  0.2542],
        [ 0.5297, -0.4046,  1.3062, -0.6987, -0.7591, -0.5133,  0.2072,  0.2336],
        [ 0.7029, -0.3222,  0.8991, -1.0768, -0.5859, -1.2088,  0.0907,  0.2763],
        [ 0.4878, -0.4625,  1.5844, -0.8308, -0.2686, -1.0829,  0.5105,  0.2126],
        [ 0.3900, -0.5851,  1.5981, -1.0304, -0.2450, -1.2939,  0.9065,  0.1962],
        [ 0.4773, -0.5220,  1.6869, -0.1609, -0.5247,  0.0040,  0.3232,  0.2207],
        [ 0.4895, -0.4908,  1.6441,  0.0550, -0.2706, -0.1646,  0.1716,  0.2209]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0418, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0418, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.550849635154009
step:  48
running loss:  0.05314270073237518
Train Steps: 48/90  Loss: 0.0531 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6086, 0.3998, 0.8788, 0.4450, 0.4025, 0.4650, 0.5306, 0.5103],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5748, -0.4237,  1.6063, -0.8094, -0.6753, -0.6006,  0.4739,  0.1426],
        [ 0.6394, -0.3932,  1.5600, -0.2398, -0.4541, -0.4561,  0.6120,  0.2591],
        [ 0.7896, -0.2924,  1.2072, -1.4725, -0.2467, -1.6366,  0.4556,  0.2659],
        [ 0.6717, -0.3560,  1.6344, -0.4148, -0.4480, -0.3918,  0.3761,  0.2047],
        [ 0.5630, -0.4586,  1.6663, -0.2600, -0.5572, -0.5696,  0.4639,  0.1523],
        [ 0.3004, -0.6163,  1.5867, -0.7224, -0.5165, -0.5790,  0.2084,  0.2126],
        [ 0.4216, -0.5652,  1.7460, -0.4298, -0.1611, -0.1235,  0.5190,  0.2736],
        [ 0.5407, -0.4184,  1.4882, -0.1265, -0.2424, -0.5134,  0.2740,  0.2863]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5253, -0.4392,  1.7730, -0.2305, -0.4268, -0.1381,  0.1651,
           0.0712],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0571, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0571, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.607935193926096
step:  49
running loss:  0.05322316722298155
Train Steps: 49/90  Loss: 0.0532 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6184, 0.4079, 0.8350, 0.3700, 0.3675, 0.2883, 0.5312, 0.5783],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6072, -0.3902,  1.6371, -0.2984, -0.5227, -0.1801,  0.3244,  0.2093],
        [ 0.7488, -0.2995,  1.2322, -1.1851, -0.3223, -1.2072,  0.5751,  0.2034],
        [-0.4687, -1.0840,  0.9513, -1.2575, -0.3393, -1.3697,  0.1948,  0.2901],
        [ 1.0454, -0.1078,  1.6811, -0.6875, -0.4405, -0.7529,  0.4998,  0.2144],
        [ 0.6249, -0.4240,  1.7408,  0.0835, -0.1700,  0.0287,  0.4339,  0.1851],
        [ 0.5893, -0.3850,  1.3182, -1.1520, -0.3977, -0.9190,  0.5694,  0.2199],
        [ 1.0067, -0.1159,  1.5522, -0.5882, -0.5079, -0.9046,  0.2085,  0.2066],
        [ 0.7296, -0.3669,  1.8127, -0.0611, -0.4475, -0.2764,  0.6066,  0.1349]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5704, -0.4019,  1.5709, -0.5769, -0.5885, -0.9541,  0.1679,
           0.3854],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0894, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0894, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6973820067942142
step:  50
running loss:  0.05394764013588429
Train Steps: 50/90  Loss: 0.0539 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7791, -0.2850,  1.6467, -0.0968, -0.3366, -0.3221,  0.2981,  0.1525],
        [ 0.5286, -0.4658,  1.6174, -0.9831, -0.3909, -0.7397,  0.8328,  0.1719],
        [ 0.4610, -0.5079,  1.6431, -0.6665, -0.5766, -0.4751,  0.6097,  0.1839],
        [ 0.6320, -0.3769,  1.6806, -0.2920, -0.2413, -0.3868,  0.5874,  0.1817],
        [ 0.5876, -0.3599,  0.9087, -1.2984, -0.4308, -1.4225,  0.2108,  0.2846],
        [ 0.6575, -0.3667,  1.7049, -0.3855, -0.1634, -0.2377,  0.4880,  0.2273],
        [ 0.9322, -0.1638,  1.4860, -0.7307, -0.6229, -0.9279,  0.2114,  0.2237],
        [ 0.5982, -0.3987,  1.6030, -0.1148, -0.2391, -0.3081,  0.3186,  0.1958]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.7370548360049725
step:  51
running loss:  0.05366774188245044
Train Steps: 51/90  Loss: 0.0537 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6184, 0.4079, 0.8350, 0.3700, 0.3675, 0.2883, 0.5312, 0.5783],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6289, 0.4024, 0.9088, 0.4567, 0.3937, 0.5633, 0.7058, 0.5609]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8567, -0.1718,  1.3547, -0.7763, -0.4955, -0.9446,  0.0881,  0.2427],
        [ 0.5651, -0.4153,  1.5431, -0.3089, -0.4450, -0.5726,  0.3844,  0.1504],
        [ 0.6591, -0.3766,  1.6432, -0.2126, -0.3674,  0.1996,  0.5802,  0.2341],
        [ 0.4659, -0.4568,  1.6246, -1.0287, -0.2502, -1.0492,  0.6522,  0.2027],
        [ 0.4960, -0.4170,  1.1506, -1.3285, -0.1680, -1.3687,  0.4071,  0.2298],
        [ 0.8298, -0.2185,  1.5897, -0.2481, -0.4702, -0.4676,  0.2961,  0.1988],
        [ 0.5850, -0.4000,  1.5434, -0.1594, -0.4074, -0.6108,  0.4559,  0.1936],
        [ 0.7825, -0.3099,  1.6470, -0.3506, -0.3493,  0.2103,  0.7165,  0.2178]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5704, -0.4019,  1.5709, -0.5769, -0.5885, -0.9541,  0.1679,
           0.3854],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.6096, -0.4046,  1.8249, -0.0072, -0.6115, -0.3537,  0.6182,
           0.0928],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.6191, -0.4273,  1.9115, -0.1766, -0.4672,  0.3161,  0.9741,
           0.3050]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.775506906211376
step:  52
running loss:  0.05337513281175724

Train Steps: 52/90  Loss: 0.0534 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.2758, -0.0035,  1.7499, -0.0705, -0.1819,  0.2553,  0.6336,  0.2368],
        [ 1.0472, -0.1138,  1.7491, -0.2063, -0.3777,  0.2831,  0.5343,  0.2114],
        [ 1.0555, -0.0865,  1.6605, -0.5979, -0.5562, -0.4504,  0.5985,  0.0961],
        [-0.9829, -1.4003,  1.5955, -1.0695,  0.0910, -1.2272,  0.8067,  0.2447],
        [ 1.1451, -0.0027,  1.6130,  0.1069, -0.5170, -0.5456,  0.3886,  0.1717],
        [-0.4768, -1.0166,  0.8050, -1.3387, -0.3480, -1.3481,  0.2209,  0.2965],
        [ 0.7727, -0.2133,  1.0725, -1.0082, -0.5601, -0.6336,  0.1684,  0.2660],
        [ 1.1011,  0.0046,  1.6445, -0.3508, -0.3602, -0.9335,  0.4613,  0.1539]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1587, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1587, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.9342208728194237
step:  53
running loss:  0.05536265797772497
Train Steps: 53/90  Loss: 0.0554 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3557, -0.4607,  1.3432, -0.7182, -0.4009, -1.1316,  0.1919,  0.2739],
        [ 0.6425, -0.3514,  1.5266, -0.1332, -0.3826, -0.3711,  0.5698,  0.1939],
        [ 0.3685, -0.5062,  1.3575, -1.2130, -0.1406, -1.5512,  0.6332,  0.1769],
        [ 0.6780, -0.3683,  1.8085, -0.1522, -0.3207,  0.1319,  0.8006,  0.1867],
        [ 0.9286, -0.1924,  1.7689,  0.0137, -0.3892,  0.0995,  0.7076,  0.1731],
        [ 0.7650, -0.2433,  1.5615, -0.4926, -0.5390, -0.5534,  0.2164,  0.2737],
        [ 0.5087, -0.3998,  1.2703, -0.8557, -0.5282, -0.6876,  0.2457,  0.2515],
        [ 0.8064, -0.2767,  1.7967, -0.1745, -0.3430,  0.2104,  0.6670,  0.1899]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0291, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0291, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.9632861856371164
step:  54
running loss:  0.054875670104391046
Train Steps: 54/90  Loss: 0.0549 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4483, -0.4180,  1.0823, -1.1483, -0.1529, -1.1096,  0.4683,  0.3558],
        [ 0.5588, -0.3981,  1.7192, -0.2750, -0.4433, -0.2098,  0.4805,  0.2380],
        [ 0.4985, -0.4167,  1.3104, -0.8960, -0.5438, -0.5640,  0.4597,  0.2455],
        [ 0.8661, -0.2295,  1.7761,  0.4190, -0.2540,  0.1397,  0.5771,  0.2036],
        [ 0.8158, -0.2632,  1.8079,  0.3212, -0.3979,  0.0774,  0.5858,  0.1922],
        [ 0.8015, -0.2651,  1.9091, -0.0199, -0.4642, -0.2573,  0.7678,  0.1320],
        [ 0.0030, -0.7220,  1.4453, -0.7867, -0.5837, -0.7954,  0.2402,  0.1659],
        [ 0.5133, -0.4323,  1.2798, -1.3046, -0.2583, -1.3138,  0.6630,  0.1580]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853],
         [ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1432, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1432, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.106526607647538
step:  55
running loss:  0.05648230195722797
Train Steps: 55/90  Loss: 0.0565 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0553e+00, -1.5796e-01,  2.0803e+00,  3.1226e-01, -3.8757e-01,
          6.7862e-01,  8.9026e-01,  1.5629e-01],
        [ 1.4193e-01, -6.1169e-01,  1.3132e+00, -9.7362e-01, -2.6433e-01,
         -1.0044e+00,  5.2136e-01,  2.8896e-01],
        [ 9.9363e-01, -7.4630e-02,  1.8583e+00,  3.2327e-02, -3.5001e-01,
         -7.8548e-01,  6.0284e-01,  1.4803e-01],
        [ 5.2145e-01, -3.7143e-01,  1.2435e+00, -8.4906e-01, -4.3652e-01,
         -8.5257e-01,  4.4860e-01,  3.1134e-01],
        [ 1.3241e+00, -6.1965e-04,  2.0147e+00,  5.9596e-02, -4.7098e-01,
          5.4668e-01,  9.9321e-01,  1.6055e-01],
        [ 4.0170e-01, -4.5806e-01,  1.1629e+00, -9.4310e-01, -3.3796e-01,
         -9.8315e-01,  4.4373e-01,  2.4660e-01],
        [ 5.9641e-01, -3.5358e-01,  1.0719e+00, -7.0736e-01, -5.0569e-01,
         -7.0185e-01,  2.7299e-01,  3.3588e-01],
        [-1.0682e+00, -1.4444e+00,  1.2887e+00, -8.3251e-01, -4.0688e-01,
         -9.9458e-01,  2.4550e-01,  2.2370e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0860, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0860, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train:  3.1925710681825876
step:  56
running loss:  0.05701019764611764
Train Steps: 56/90  Loss: 0.0570 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6272, 0.4045, 0.8538, 0.5900, 0.3750, 0.4417, 0.5989, 0.4649],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7179, -0.3238,  1.7458,  0.3163, -0.5806, -0.1069,  0.5669,  0.1582],
        [ 0.0706, -0.6531,  0.9820, -1.0993, -0.2456, -1.0041,  0.3436,  0.3978],
        [ 0.5253, -0.4076,  1.7337,  0.1074, -0.3820,  0.2137,  0.4023,  0.2355],
        [ 0.5145, -0.4474,  2.0043, -0.2206, -0.2732, -0.6411,  0.8709,  0.1705],
        [ 0.6235, -0.4090,  1.7221,  0.4188, -0.5392,  0.1507,  0.6613,  0.1973],
        [ 0.6203, -0.3780,  1.6743, -0.5646, -0.6705, -0.1017,  0.4486,  0.2820],
        [ 0.3270, -0.5656,  1.5257, -1.1182, -0.2016, -1.1584,  0.8714,  0.2187],
        [ 0.1576, -0.6544,  1.0196, -1.1413, -0.4234, -1.1670,  0.3124,  0.2487]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1085e-01, -4.1771e-01,  1.6575e+00,  4.3926e-01, -5.5381e-01,
          -2.4588e-01,  4.8055e-01, -1.3847e-01],
         [ 6.1010e-01, -3.1524e-01,  1.0166e+00, -7.5396e-01, -2.2633e-02,
          -1.4468e+00,  2.8226e-01,  5.7018e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 6.2236e-01, -4.3453e-01,  1.9404e+00, -2.9207e-01, -3.1709e-01,
          -8.7714e-01,  1.0655e+00,  2.1421e-01],
         [ 6.1201e-01, -4.3711e-01,  1.7037e+00,  4.7005e-01, -5.8268e-01,
          -2.2633e-02,  5.3538e-01, -1.3313e-01],
         [ 5.5196e-01, -4.2371e-01,  1.6691e+00, -7.6936e-01, -6.5774e-01,
          -3.4596e-01,  3.8152e-01,  2.9299e-01],
         [ 6.0855e-01, -4.0839e-01,  1.5536e+00, -1.1466e+00, -7.4596e-02,
          -1.4853e+00,  6.2979e-01,  8.5142e-02],
         [ 5.4648e-01, -4.2140e-01,  9.3002e-01, -1.2620e+00, -3.9215e-01,
          -1.3852e+00,  2.0618e-01,  1.0428e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0330, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0330, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2255628500133753
step:  57
running loss:  0.056588821930059215
Train Steps: 57/90  Loss: 0.0566 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6005, -0.4291,  1.6331,  0.1981, -0.4927,  0.1141,  0.6502,  0.2158],
        [ 0.3800, -0.5244,  1.5364,  0.2919, -0.3730,  0.0861,  0.3863,  0.3102],
        [ 0.3911, -0.4867,  1.4536, -0.7373, -0.5116, -0.8875,  0.3204,  0.2352],
        [ 0.3081, -0.5687,  1.7045, -0.6232, -0.4642, -0.9397,  0.6238,  0.1902],
        [ 0.3725, -0.4843,  1.4808,  0.0960, -0.5485, -0.2804,  0.3564,  0.3270],
        [ 0.3914, -0.4865,  1.5987, -1.1421, -0.3147, -0.9816,  0.8374,  0.2485],
        [ 0.4910, -0.4554,  1.6362, -0.9180, -0.3677, -1.0994,  0.7497,  0.2050],
        [ 0.3051, -0.6135,  1.6622, -0.1353, -0.3918,  0.2559,  0.6588,  0.2314]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 5.8799e-01, -3.6051e-01,  1.7037e+00,  3.2379e-01, -2.9400e-01,
          -7.6520e-02,  3.1801e-01,  3.1609e-01],
         [ 5.7113e-01, -4.0146e-01,  1.6979e+00, -6.7698e-01, -5.3649e-01,
          -1.0619e+00,  1.7122e-01,  1.4937e-01],
         [ 6.1351e-01, -3.8406e-01,  1.8654e+00, -5.1532e-01, -4.6143e-01,
          -1.0619e+00,  6.1946e-01, -4.8817e-03],
         [ 5.7852e-01, -3.6867e-01,  1.6806e+00,  2.3911e-01, -5.7691e-01,
          -4.6143e-01,  3.1801e-01,  4.5466e-01],
         [ 6.0837e-01, -4.0762e-01,  1.6806e+00, -9.6182e-01, -2.9977e-01,
          -9.6952e-01,  6.3557e-01,  1.4673e-01],
         [ 6.1282e-01, -3.8283e-01,  1.7499e+00, -8.3865e-01, -3.3441e-01,
          -1.2620e+00,  5.7925e-01, -2.6256e-02],
         [ 5.7625e-01, -4.7064e-01,  1.7754e+00, -9.8417e-02, -3.6803e-01,
           2.3803e-01,  6.2770e-01,  1.3223e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2434706911444664
step:  58
running loss:  0.05592190846800804
Train Steps: 58/90  Loss: 0.0559 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6097, -0.3595,  1.6705, -0.0305, -0.4489, -0.0061,  0.5127,  0.2028],
        [ 0.6639, -0.3332,  1.6342, -0.4861, -0.7198, -0.5016,  0.3668,  0.2877],
        [ 0.5705, -0.3734,  1.9512, -0.2589, -0.3449, -1.1658,  0.9691,  0.1807],
        [ 0.6820, -0.3269,  1.5413, -0.0517, -0.5332, -0.0984,  0.6546,  0.2289],
        [ 0.2860, -0.6007,  1.7352, -0.1885, -0.3268, -0.1205,  0.5123,  0.2239],
        [ 0.6428, -0.3875,  1.7646, -0.3212, -0.3645,  0.1299,  0.7426,  0.2294],
        [-1.0394, -1.4764,  0.8833, -1.3383, -0.4541, -1.6894,  0.2561,  0.2452],
        [ 0.6094, -0.3865,  1.7440, -0.0939, -0.2608, -0.1809,  0.4635,  0.2568]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4586,  1.7587,  0.0641, -0.2998,  0.1712,  0.4958,
           0.1170],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0746, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0746, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.3181116357445717
step:  59
running loss:  0.05623918026685715
Train Steps: 59/90  Loss: 0.0562 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5722, -0.3972,  1.2615, -0.8737, -0.5309, -0.9137,  0.4895,  0.1950],
        [ 0.2688, -0.6062,  1.5072, -0.8471, -0.5606, -0.7359,  0.5700,  0.1372],
        [ 0.5582, -0.3715,  1.6745, -0.5818, -0.3719, -1.0065,  0.5898,  0.1881],
        [ 0.4482, -0.5203,  2.0914,  0.4037, -0.2245,  0.3096,  0.6900,  0.1714],
        [ 0.6675, -0.3792,  2.0147,  0.5004, -0.4290,  0.4757,  0.7432,  0.1545],
        [ 0.7220, -0.3007,  1.1824, -0.7761, -0.4194, -1.0112,  0.4273,  0.3017],
        [-1.0870, -1.5275,  1.1445, -0.9036, -0.3555, -1.3402,  0.3323,  0.2497],
        [ 0.6270, -0.3712,  1.2397, -0.6168, -0.5985, -0.6370,  0.3945,  0.3137]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.5784, -0.4088,  1.7268,  0.0467, -0.3344,  0.0697,  0.5490,
           0.2545],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0950, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0950, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.413125194609165
step:  60
running loss:  0.05688541991015275
Train Steps: 60/90  Loss: 0.0569 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4477, -0.4989,  1.0241, -1.1866, -0.4538, -1.1541,  0.3545,  0.2349],
        [ 0.5304, -0.4797,  1.9840, -0.0666, -0.5513, -0.0591,  0.9308,  0.1303],
        [ 0.3024, -0.5637,  1.5836, -0.9812, -0.3989, -1.0223,  0.4467,  0.1653],
        [ 0.1767, -0.6606,  1.9765, -0.0760, -0.2892, -0.9039,  0.8481,  0.2020],
        [ 0.3131, -0.5527,  1.3676, -0.6091, -0.6676, -0.2343,  0.2590,  0.2547],
        [ 0.3597, -0.5725,  1.6503,  0.4191, -0.3494,  0.0670,  0.4046,  0.2217],
        [ 0.6185, -0.4473,  1.8138,  0.3166, -0.5707, -0.0937,  0.6552,  0.1352],
        [ 0.1686, -0.6116,  1.1855, -1.0051, -0.2213, -1.1281,  0.3396,  0.3605]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.433107813820243
step:  61
running loss:  0.05628045596426628
Train Steps: 61/90  Loss: 0.0563 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1825, -0.7061,  1.7562, -0.5810, -0.2417, -0.6851,  0.8891,  0.1766],
        [ 0.5891, -0.4146,  1.3659, -0.8705, -0.2362, -1.3972,  0.5131,  0.2131],
        [ 0.7430, -0.3105,  1.0501, -0.8250, -0.3662, -1.2392,  0.3054,  0.2914],
        [ 0.6278, -0.3860,  1.5139, -0.6035, -0.6098, -0.5631,  0.4918,  0.1655],
        [ 0.0770, -0.7091,  1.4412, -0.5819, -0.5632, -0.9197,  0.1810,  0.1949],
        [ 0.3116, -0.6728,  1.9799,  0.2008, -0.3828,  0.4249,  0.8613,  0.1679],
        [-0.1072, -0.8606,  1.7340, -0.0695, -0.4591, -0.2890,  0.4195,  0.2378],
        [ 0.4073, -0.5107,  1.4580, -0.4866, -0.6220, -0.3523,  0.3635,  0.2498]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6224, -0.4105,  1.9173, -0.7771, -0.1030, -0.7308,  1.1532,
           0.1875],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0419, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0419, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.4750487077981234
step:  62
running loss:  0.056049172706421346
Train Steps: 62/90  Loss: 0.0560 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6203, 0.4021, 0.8780, 0.5031, 0.3667, 0.3882, 0.5842, 0.5405],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5372, -0.4427,  1.7632,  0.0029, -0.1842, -0.0286,  0.4543,  0.2477],
        [ 0.7022, -0.3753,  2.0274, -0.0909, -0.5449, -0.0211,  0.7920,  0.0436],
        [ 0.8202, -0.2692,  1.8586,  0.2130, -0.6447, -0.3823,  0.6089,  0.0845],
        [-1.2660, -1.6953,  0.9615, -1.1883, -0.3203, -1.5984,  0.1894,  0.2762],
        [ 0.4728, -0.4804,  1.6838, -0.2210, -0.3768,  0.2081,  0.5723,  0.2581],
        [ 0.0046, -0.7779,  1.0222, -0.8906, -0.4931, -1.0298,  0.2306,  0.3229],
        [ 1.1376, -0.0465,  1.2655, -0.9522, -0.3285, -1.1190,  0.5421,  0.3597],
        [ 0.4906, -0.4482,  1.6257, -0.5826, -0.4980, -1.0188,  0.3590,  0.1793]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.5791, -0.4289,  1.7694,  0.0379, -0.5923, -0.4927,  0.4126,
           0.2107],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0488, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0488, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.523830173537135
step:  63
running loss:  0.055933812278367225
Train Steps: 63/90  Loss: 0.0559 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2926, -0.6040,  1.6742, -0.2913, -0.0972, -0.4117,  0.4652,  0.2531],
        [ 0.4361, -0.5205,  1.5725,  0.0129, -0.3745, -0.1130,  0.4582,  0.2891],
        [ 0.4407, -0.5717,  1.6980, -0.5028, -0.3800,  0.0268,  0.6957,  0.2434],
        [ 0.6617, -0.4029,  1.7236, -0.1642, -0.4997, -0.3592,  0.7090,  0.1786],
        [ 0.1602, -0.6668,  1.5842, -0.4179, -0.6784, -0.8125,  0.2578,  0.2007],
        [ 0.6501, -0.3948,  0.9773, -1.4541, -0.3942, -1.6491,  0.1857,  0.2270],
        [ 0.2614, -0.6123,  1.6131, -0.0798, -0.4499, -0.5095,  0.4385,  0.2353],
        [ 0.2661, -0.6166,  1.6872, -0.4090, -0.5893, -0.7739,  0.3292,  0.1672]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [ 0.5384, -0.4393,  0.9762, -1.1851, -0.4210, -1.3852,  0.1712,
           0.0201],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0479, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0479, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.5717637445777655
step:  64
running loss:  0.055808808509027585

Train Steps: 64/90  Loss: 0.0558 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6110, 0.4047, 0.8700, 0.4483, 0.3713, 0.3967, 0.5088, 0.5517],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1179, -0.7341,  0.9864, -1.3143, -0.3100, -1.6252,  0.2862,  0.2487],
        [-0.0459, -0.8347,  1.5879, -0.2601, -0.5802, -0.5579,  0.1200,  0.2064],
        [ 0.1300, -0.7234,  1.6999, -0.2421, -0.2803, -0.0950,  0.4022,  0.2162],
        [ 0.7086, -0.3531,  1.8816, -0.3375, -0.4554, -0.5277,  0.5610,  0.2529],
        [ 0.6942, -0.3544,  1.5433, -0.5519, -0.6117, -0.6795,  0.2996,  0.1721],
        [ 0.4877, -0.4784,  1.4619, -0.0209, -0.3364, -0.2908,  0.5970,  0.2885],
        [ 0.5985, -0.3888,  1.0590, -1.0507, -0.5366, -0.9573,  0.2380,  0.2933],
        [ 0.4173, -0.5434,  1.8164, -0.0607, -0.3924, -0.0882,  0.5622,  0.1204]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5363, -0.4168,  1.7326, -0.2151, -0.5711, -0.4537,  0.0640,
           0.2622],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.6078634057193995
step:  65
running loss:  0.05550559085722153
Train Steps: 65/90  Loss: 0.0555 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6163, -0.4138,  1.7250, -0.3640, -0.5013, -0.7299,  0.5247,  0.1902],
        [ 0.5455, -0.4279,  1.6308, -0.4267, -0.2563, -0.1842,  0.3521,  0.2184],
        [ 0.4818, -0.4494,  1.5292, -0.1557, -0.1983, -0.3982,  0.2413,  0.2642],
        [ 0.6494, -0.3782,  1.5309, -0.6403, -0.3890, -0.0985,  0.4624,  0.2583],
        [ 0.2372, -0.6260,  1.3226, -0.8351, -0.6079, -0.6038,  0.2684,  0.2611],
        [-0.0703, -0.8515,  1.4496, -0.6823, -0.6232, -1.0105,  0.1126,  0.2541],
        [ 0.3390, -0.5573,  1.5586, -0.0887, -0.4338, -0.5858,  0.3697,  0.2282],
        [ 0.6466, -0.4126,  1.6265, -0.0297, -0.4755, -0.4721,  0.5771,  0.1254]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0964e-01, -4.0462e-01,  1.8249e+00, -7.2363e-03, -6.1155e-01,
          -3.5366e-01,  6.1824e-01,  9.2841e-02],
         [ 5.6449e-01, -3.7968e-01,  1.8249e+00, -6.8822e-02, -2.8822e-01,
           3.8537e-01,  3.7891e-01,  6.5205e-02],
         [ 5.4475e-01, -3.8383e-01,  1.7037e+00,  1.7752e-01, -1.4965e-01,
           1.4673e-01,  1.1283e-01,  2.4313e-01],
         [ 5.4169e-01, -4.3549e-01,  1.8018e+00, -3.3826e-01, -3.9792e-01,
           2.6220e-01,  5.1432e-01,  2.6220e-01],
         [ 5.3672e-01, -4.2941e-01,  1.5709e+00, -4.9992e-01, -6.6928e-01,
          -3.0747e-01,  2.4546e-01,  3.5585e-01],
         [ 5.6969e-01, -4.1132e-01,  1.7499e+00, -2.7667e-01, -6.4042e-01,
          -7.1547e-01,  1.5756e-01,  4.0319e-01],
         [ 6.1149e-01, -3.7244e-01,  1.7557e+00,  3.4688e-01, -4.4411e-01,
          -1.0731e-01,  4.9122e-01,  2.3911e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0605, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0605, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.6683297883719206
step:  66
running loss:  0.055580754369271526
Train Steps: 66/90  Loss: 0.0556 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3850, -0.5190,  1.6111,  0.1055, -0.3750, -0.2330,  0.2022,  0.1973],
        [ 0.3577, -0.5619,  1.4013, -1.0461, -0.6647, -0.5698,  0.4761,  0.2041],
        [ 0.6324, -0.3384,  1.5729, -0.1080, -0.1719, -0.2944,  0.2511,  0.2831],
        [ 0.1516, -0.6485,  1.5047,  0.1610, -0.4048, -0.4003,  0.2617,  0.3252],
        [ 0.3335, -0.5744,  1.6998, -0.5424, -0.5618, -0.9373,  0.3913,  0.1944],
        [ 0.6777, -0.3749,  1.0782, -1.4071, -0.6146, -1.0976,  0.3684,  0.1518],
        [ 0.3836, -0.5650,  1.5613,  0.1353, -0.2767, -0.2953,  0.2244,  0.2116],
        [ 0.7497, -0.3079,  1.7789, -0.4326, -0.5525, -0.0923,  0.4460,  0.1365]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0281, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0281, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.6964302863925695
step:  67
running loss:  0.05517060128944134
Train Steps: 67/90  Loss: 0.0552 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0962, -0.0146,  1.2800, -0.4273, -0.4927, -0.5402,  0.3793,  0.2654],
        [ 1.1303,  0.0088,  1.7883,  0.1866, -0.6208, -0.2242,  0.3961,  0.1948],
        [-0.9555, -1.3945,  0.9320, -1.0741, -0.2958, -1.0923,  0.1046,  0.3117],
        [-0.2414, -0.9752,  1.8767, -0.6888, -0.1368, -0.7230,  0.9422,  0.2153],
        [ 1.2111,  0.0026,  1.0614, -0.9498, -0.4365, -1.0711,  0.2465,  0.1665],
        [-0.9628, -1.4400,  1.3093, -0.5955, -0.5826, -0.5954, -0.0528,  0.1944],
        [ 0.7971, -0.2340,  1.3919, -0.7441, -0.5827, -0.6364,  0.2316,  0.2503],
        [ 1.2873,  0.0838,  1.7751,  0.3542, -0.3632,  0.3964,  0.1676,  0.1421]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2376, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2376, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9340319838374853
step:  68
running loss:  0.05785341152702184

Train Steps: 68/90  Loss: 0.0579 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9220, -0.1580,  1.0716, -1.1080, -0.4721, -0.9665,  0.4439,  0.2881],
        [ 0.9092, -0.1540,  1.7848,  0.5763, -0.4562,  0.3608,  0.1721,  0.1350],
        [ 1.0781, -0.0502,  1.5693, -0.8404, -0.4444, -0.5808,  0.4128,  0.2579],
        [ 0.7694, -0.1921,  1.6814,  0.1707, -0.6954, -0.4038,  0.1699,  0.1999],
        [-1.3740, -1.7090,  1.0674, -0.9417, -0.4480, -0.9951,  0.0507,  0.2347],
        [ 0.7294, -0.2306,  1.4294, -0.7451, -0.2152, -0.9191,  0.3202,  0.2228],
        [-0.9718, -1.4156,  0.8144, -1.1385, -0.3027, -1.2208,  0.0989,  0.3416],
        [ 1.0325, -0.1115,  1.8781,  0.3365, -0.4912,  0.4340,  0.5514,  0.0747]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1133, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1133, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.047340488061309
step:  69
running loss:  0.05865710852262766
Train Steps: 69/90  Loss: 0.0587 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5268, -0.4157,  1.5812, -0.0265, -0.1701, -0.2196,  0.0827,  0.2199],
        [ 0.4279, -0.4902,  1.4951,  0.0641, -0.5407, -0.0932,  0.2282,  0.2088],
        [ 0.0935, -0.7143,  1.5847, -0.2925, -0.2550, -0.1841,  0.1801,  0.1760],
        [ 0.5612, -0.4071,  1.5233, -0.3984, -0.5938, -0.1783,  0.2074,  0.2572],
        [ 0.4294, -0.4534,  1.4494, -0.5346, -0.3546,  0.1353,  0.2257,  0.2259],
        [ 0.4408, -0.4619,  1.5718, -0.1829, -0.6354, -0.6182,  0.2701,  0.2355],
        [ 0.2905, -0.6043,  1.6711, -1.0866, -0.3326, -1.1208,  0.8237,  0.2227],
        [ 0.6131, -0.3707,  1.5938,  0.0196, -0.6678, -0.7217,  0.3395,  0.1753]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0292, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0292, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.076580006629229
step:  70
running loss:  0.05823685723756041
Train Steps: 70/90  Loss: 0.0582 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6086, 0.3998, 0.8788, 0.4450, 0.4025, 0.4650, 0.5306, 0.5103],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378],
        [0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0387, -0.7622,  1.2751, -0.9462, -0.5724, -1.0365,  0.1144,  0.2447],
        [ 0.3928, -0.5237,  1.6429, -0.0807, -0.3716, -0.0862,  0.2124,  0.1810],
        [ 0.3224, -0.5755,  1.7140, -0.3758, -0.4884, -0.1473,  0.1929,  0.1669],
        [ 0.5737, -0.3796,  1.5390, -0.4548, -0.5041, -0.2859,  0.1710,  0.2812],
        [ 0.4217, -0.4986,  1.6079,  0.0801, -0.4330, -0.0176,  0.3749,  0.2277],
        [ 0.2513, -0.5825,  1.6658,  0.0256, -0.5307, -0.3036,  0.2110,  0.2185],
        [ 0.7274, -0.3245,  1.5881, -0.7377, -0.4621, -1.0521,  0.7483,  0.1522],
        [ 0.5020, -0.4279,  1.5960,  0.1977, -0.1573, -0.0532,  0.2000,  0.2492]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5253, -0.4392,  1.7730, -0.2305, -0.4268, -0.1381,  0.1651,
           0.0712],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.5435, -0.4045,  1.7557,  0.0851, -0.5307, -0.2844,  0.0172,
           0.1980],
         [ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.095911048352718
step:  71
running loss:  0.05768888800496787
Train Steps: 71/90  Loss: 0.0577 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4013, 0.8888, 0.4767, 0.3600, 0.3567, 0.6148, 0.4672],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6151, 0.4058, 0.7068, 0.2680, 0.3400, 0.4083, 0.5775, 0.5733],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5969, -0.4272,  1.8214, -0.2437, -0.6127, -0.7385,  0.4143,  0.1130],
        [ 0.2856, -0.6078,  1.3131, -1.0711, -0.6239, -0.5276,  0.3054,  0.2557],
        [ 0.5606, -0.4006,  1.7808,  0.4420, -0.3751, -0.0319,  0.2513,  0.2444],
        [ 0.3458, -0.5758,  1.1444, -1.0937, -0.6510, -0.5539,  0.1815,  0.3004],
        [ 0.5171, -0.4272,  1.7789,  0.4450, -0.2649,  0.0206,  0.1874,  0.2545],
        [ 0.3801, -0.5404,  1.8297, -0.2141, -0.4082,  0.2344,  0.2679,  0.1173],
        [ 0.0454, -0.7213,  1.2479, -0.9528, -0.0633, -1.2849,  0.2315,  0.3592],
        [ 0.6147, -0.4189,  1.8836,  0.2746, -0.5885, -0.2440,  0.4363,  0.1093]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4324,  1.8192, -0.0842, -0.6231, -0.6385,  0.5537,
          -0.1278],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5552, -0.4113,  0.9790, -1.0480, -0.7155, -0.3998,  0.3815,
           0.3623],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.11814627237618
step:  72
running loss:  0.05719647600522472

Train Steps: 72/90  Loss: 0.0572 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402],
        [0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6401, -0.3275,  1.9039,  0.0135, -0.5674, -0.7047,  0.5180,  0.0962],
        [ 0.5311, -0.3679,  1.7335,  0.1201, -0.2505,  0.2096,  0.0463,  0.1490],
        [ 0.7563, -0.2695,  1.7467, -0.0610, -0.3387,  0.3851,  0.3857,  0.1715],
        [-1.4279, -1.7449,  0.9868, -1.1764, -0.1548, -1.2947,  0.2669,  0.3564],
        [ 0.2403, -0.5642,  1.0672, -0.7588, -0.5522, -0.9347,  0.0379,  0.3111],
        [ 0.7850, -0.2328,  1.5708, -0.5475, -0.5102, -0.8937,  0.2295,  0.2070],
        [ 0.9283, -0.1462,  1.5625,  0.1236, -0.4814, -0.0100,  0.1466,  0.2467],
        [ 0.2391, -0.6283,  1.9438, -0.2441, -0.3081, -0.1375,  0.7502,  0.2023]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6148, -0.3918,  1.8942, -0.1920, -0.5423, -0.8002,  0.6414,
          -0.0156],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093],
         [ 0.6454, -0.3623,  1.9346, -0.4460, -0.4961, -0.2921,  1.1642,
           0.2409]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0410, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0410, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.15917850472033
step:  73
running loss:  0.05697504800986754
Train Steps: 73/90  Loss: 0.0570 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6300, 0.4102, 0.9088, 0.4433, 0.4088, 0.3067, 0.6820, 0.5540],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0255, -0.7414,  1.0145, -1.0360, -0.3244, -1.0102,  0.2996,  0.3519],
        [ 0.1935, -0.6416,  0.8982, -0.9045, -0.4853, -0.9969,  0.0657,  0.2896],
        [ 0.5508, -0.4163,  1.8753, -0.2968, -0.3653, -0.9057,  0.3999,  0.1318],
        [ 0.9391, -0.2031,  1.1864, -0.7964, -0.4275, -0.8836,  0.3701,  0.3034],
        [ 0.3174, -0.5763,  1.8704,  0.0961, -0.6383, -0.0635,  0.1696,  0.1344],
        [ 0.0848, -0.7070,  2.0174, -0.0102, -0.3566, -0.5104,  0.5992,  0.1564],
        [ 0.4316, -0.5112,  1.8690,  0.0852, -0.5426,  0.1211,  0.4263,  0.1277],
        [ 0.3346, -0.5371,  1.7998,  0.2516, -0.0975,  0.4123,  0.1748,  0.1796]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.6240, -0.3912,  1.9115, -0.2382, -0.3979, -0.8694,  0.8644,
           0.2730],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0431, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0431, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.202301474288106
step:  74
running loss:  0.05678785776065008
Train Steps: 74/90  Loss: 0.0568 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7725, -0.2617,  1.3868, -1.0722, -0.2079, -1.3805,  0.5797,  0.2321],
        [ 0.7794, -0.2949,  1.9241,  0.0387, -0.4490,  0.2553,  0.8479,  0.1340],
        [ 0.8670, -0.1966,  1.7308,  0.3913, -0.4143, -0.0618,  0.3734,  0.2194],
        [ 0.5301, -0.4200,  1.6865, -0.3245, -0.6355, -0.6120,  0.1663,  0.2268],
        [ 0.5905, -0.3883,  1.7943, -0.0852, -0.4299,  0.0460,  0.2930,  0.1580],
        [-1.6482, -1.9028,  1.1660, -1.1783, -0.2913, -1.2421,  0.1438,  0.2935],
        [ 0.5850, -0.3715,  1.7286,  0.1431, -0.5558, -0.2252,  0.1153,  0.2125],
        [ 0.5957, -0.3554,  1.7312, -0.0205, -0.2870, -0.0232,  0.1938,  0.1764]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1577e-01, -4.2249e-01,  1.3307e+00, -1.3253e+00, -1.9244e-01,
          -1.3252e+00,  6.7213e-01,  1.7271e-01],
         [ 6.4212e-01, -3.6953e-01,  1.7788e+00,  2.3557e-02, -4.8453e-01,
           1.5443e-01,  1.1971e+00,  2.1955e-01],
         [ 5.8909e-01, -3.5574e-01,  1.7326e+00,  3.3918e-01, -4.2102e-01,
          -1.2271e-01,  3.2379e-01,  3.0069e-01],
         [ 5.6969e-01, -4.1132e-01,  1.7499e+00, -2.7667e-01, -6.4042e-01,
          -7.1547e-01,  1.5756e-01,  4.0319e-01],
         [ 5.2500e-01, -4.6613e-01,  1.7383e+00, -7.6520e-02, -4.2679e-01,
          -2.2633e-02,  2.5348e-01,  2.0347e-01],
         [-2.2859e+00, -2.2859e+00,  9.0115e-01, -1.4006e+00, -4.6721e-01,
          -1.1928e+00,  1.3421e-01,  1.3734e-01],
         [ 5.4515e-01, -4.0670e-01,  1.7557e+00,  5.4350e-02, -4.9607e-01,
          -3.3056e-01,  1.3228e-01,  4.3063e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0209, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0209, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.223247792571783
step:  75
running loss:  0.056309970567623775
Train Steps: 75/90  Loss: 0.0563 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4065, 0.7598, 0.2385, 0.4317, 0.1981, 0.5933, 0.5221],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6216, 0.4100, 0.7350, 0.2067, 0.4325, 0.2050, 0.5950, 0.5333]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7325, -0.3244,  1.1943, -0.8618, -0.3379, -0.9226,  0.3813,  0.1958],
        [ 0.6158, -0.3913,  1.6816,  0.5930, -0.4862,  0.2030,  0.3024,  0.2457],
        [ 0.6307, -0.3547,  1.6683, -0.4211, -0.6285, -0.4675,  0.1638,  0.1631],
        [ 0.6086, -0.3802,  1.9739, -0.0922, -0.4960, -0.5134,  0.4618,  0.1108],
        [-1.6262, -1.8678,  1.7056, -0.6897,  0.0506, -0.6270,  0.7561,  0.2796],
        [ 0.5644, -0.3997,  1.8604, -0.3902, -0.3610, -0.6911,  0.5889,  0.1362],
        [ 0.6110, -0.4007,  1.1670, -0.8371, -0.5049, -0.6734,  0.3403,  0.2276],
        [ 0.6246, -0.3696,  1.0815, -0.8941, -0.3092, -1.0043,  0.2052,  0.3066]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5774, -0.4082,  1.2235, -1.1844, -0.2919, -1.3709,  0.4544,
           0.1256],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5853, -0.3920,  1.1090, -1.3313, -0.2882, -1.3390,  0.4624,
           0.1775]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0613, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0613, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.284526634961367
step:  76
running loss:  0.05637535046001798
Train Steps: 76/90  Loss: 0.0564 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5418, -0.4318,  1.7813,  0.4587, -0.0794, -0.2210,  0.4923,  0.2903],
        [ 0.6229, -0.4087,  0.9010, -1.1260, -0.3065, -1.4490,  0.2739,  0.3452],
        [ 0.7011, -0.3479,  1.7164, -0.6893, -0.4533, -0.8815,  0.4622,  0.2529],
        [ 0.3350, -0.5665,  1.7980, -0.4537, -0.5948, -0.7768,  0.2783,  0.1598],
        [ 0.2740, -0.6352,  1.6905, -0.5705, -0.6383, -0.4217,  0.5188,  0.1312],
        [ 0.2169, -0.6774,  1.7397, -0.1561, -0.3435, -0.0342,  0.6219,  0.1825],
        [ 0.1279, -0.7503,  1.7811, -0.0669, -0.4797, -0.1236,  0.4468,  0.1145],
        [ 0.4340, -0.5311,  1.8522, -0.1038, -0.4461, -0.0288,  0.4235,  0.1248]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.306571505963802
step:  77
running loss:  0.055929500077451975
Train Steps: 77/90  Loss: 0.0559 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6197, 0.3986, 0.8800, 0.4617, 0.4188, 0.4783, 0.5687, 0.5550],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2123, -0.6681,  1.4267, -0.7008, -0.3961, -1.0789,  0.4470,  0.1575],
        [ 0.6287, -0.4280,  1.9480, -0.2461, -0.6259, -0.2741,  0.5778,  0.1985],
        [ 0.2384, -0.6014,  1.5249, -0.6004, -0.1790, -0.7868,  0.4314,  0.3348],
        [ 0.2662, -0.6620,  1.6252, -0.7981, -0.0459, -1.2227,  0.8659,  0.1341],
        [ 0.3869, -0.5725,  1.1212, -0.8591, -0.5330, -0.8021,  0.4060,  0.2322],
        [ 0.6979, -0.3889,  1.9113, -0.0834, -0.5975, -0.2396,  0.4525,  0.2011],
        [ 0.1241, -0.7364,  1.8760,  0.2413, -0.3607,  0.2421,  0.2625,  0.1373],
        [ 0.4837, -0.5007,  1.1885, -0.8307, -0.4771, -0.9443,  0.4297,  0.1917]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5763, -0.4450,  1.7788, -0.1535, -0.3517, -0.0765,  0.3411,
           0.2776],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0397, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.346283700317144
step:  78
running loss:  0.05572158590150185
Train Steps: 78/90  Loss: 0.0557 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2503, -0.6194,  1.6771, -0.5663, -0.2092, -0.0134,  0.4559,  0.2668],
        [ 0.4025, -0.5215,  1.7636, -0.3499, -0.2321,  0.0510,  0.4189,  0.2570],
        [ 0.3624, -0.5574,  1.6009, -0.4521, -0.5776, -0.7097,  0.4002,  0.2726],
        [ 0.4997, -0.5109,  1.9008, -0.2579, -0.4983, -0.6274,  0.6899,  0.2027],
        [ 0.3547, -0.6100,  1.7118, -0.0586, -0.3042, -0.1724,  0.6228,  0.1929],
        [ 0.8087, -0.3421,  1.1945, -1.4183, -0.5040, -1.5953,  0.5418,  0.1857],
        [ 0.5330, -0.4932,  1.7886,  0.0924, -0.4707, -0.4936,  0.5452,  0.1295],
        [ 0.4743, -0.5207,  1.8230,  0.0724, -0.5959, -0.6447,  0.4366,  0.1072]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0373, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0373, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.3835613541305065
step:  79
running loss:  0.055488118406715276
Train Steps: 79/90  Loss: 0.0555 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6332, 0.4128, 0.9200, 0.3517, 0.4400, 0.3833, 0.7461, 0.5494],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2519, -0.6683,  1.8736, -0.7073, -0.3280, -0.7509,  1.0281,  0.1443],
        [ 0.2991, -0.6456,  1.4643, -0.8791, -0.6811, -1.1794,  0.2277,  0.1704],
        [ 0.4103, -0.5468,  1.4818, -1.0196, -0.6254, -0.7361,  0.6622,  0.1772],
        [ 0.6202, -0.4099,  1.7969,  0.1244, -0.5959, -0.7569,  0.3795,  0.1859],
        [ 0.4177, -0.5366,  1.7767,  0.0455, -0.1893, -0.0683,  0.3880,  0.1860],
        [ 0.6376, -0.4223,  1.7051,  0.2728, -0.3978, -0.2228,  0.6107,  0.2835],
        [ 0.7116, -0.3657,  1.2793, -1.2706, -0.4624, -1.1501,  0.7176,  0.1937],
        [ 0.3611, -0.5519,  1.7906, -0.4244, -0.2106,  0.0961,  0.5442,  0.1985]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6388, -0.3792,  1.9635, -0.6616, -0.2536, -0.5153,  1.1605,
           0.2516],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0244, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0244, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.407923875376582
step:  80
running loss:  0.055099048442207275
Train Steps: 80/90  Loss: 0.0551 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6100, 0.4071, 0.7601, 0.3444, 0.3400, 0.4117, 0.5625, 0.5617],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.5290e-01, -6.1397e-01,  1.9549e+00, -5.3336e-03, -2.9136e-01,
         -7.2324e-02,  9.3207e-01,  1.6320e-01],
        [ 2.8469e-01, -6.2809e-01,  1.9445e+00, -2.0434e-04, -1.3079e-01,
         -2.2070e-02,  6.3742e-01,  2.1544e-01],
        [ 3.5060e-01, -5.5138e-01,  1.1136e+00, -1.1509e+00, -2.4896e-01,
         -1.5926e+00,  4.1498e-01,  2.8779e-01],
        [ 6.6889e-01, -3.9197e-01,  1.8542e+00,  2.6315e-01, -2.2090e-01,
         -2.3001e-01,  3.9280e-01,  1.7063e-01],
        [ 4.6131e-01, -4.7106e-01,  1.4068e+00, -8.2631e-01, -7.4783e-01,
         -6.5008e-01,  4.4228e-01,  2.2298e-01],
        [ 8.3234e-01, -2.7670e-01,  1.0542e+00, -1.0518e+00, -7.1007e-01,
         -1.0961e+00,  3.9934e-01,  2.9696e-01],
        [ 2.8947e-01, -6.0541e-01,  1.5527e+00, -9.9893e-01, -6.6533e-01,
         -6.2536e-01,  7.8111e-01,  1.6534e-01],
        [ 6.4313e-01, -4.2306e-01,  2.0376e+00, -1.2549e-01, -4.8717e-01,
         -1.5416e-01,  5.7382e-01,  1.1506e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.5318, -0.4056,  1.2249, -0.6949, -0.7155, -0.3844,  0.3122,
           0.3084],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5711, -0.3788,  1.8249, -0.1766, -0.4672,  0.2160,  0.3625,
           0.0742]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0296, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0296, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.4374978970736265
step:  81
running loss:  0.05478392465522996
Train Steps: 81/90  Loss: 0.0548 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6152, 0.4131, 0.6863, 0.2567, 0.3625, 0.3300, 0.5765, 0.5305],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1934, -0.6862,  2.0995, -0.3841, -0.2928, -0.8127,  1.0653,  0.1940],
        [ 0.3868, -0.5774,  1.4899, -1.2743, -0.2030, -1.3073,  0.9704,  0.1167],
        [ 0.1129, -0.7319,  1.4276, -0.8536, -0.6659, -0.9510,  0.3433,  0.1963],
        [ 0.9127, -0.1787,  1.4410, -0.5508, -0.5565, -0.6560,  0.6148,  0.2726],
        [ 0.6915, -0.3389,  1.0534, -1.0535, -0.6616, -0.7224,  0.4801,  0.2981],
        [ 0.5534, -0.4577,  1.8698,  0.1757, -0.1685,  0.1346,  0.3258,  0.1852],
        [ 0.5698, -0.4565,  1.8043,  0.2670, -0.2506,  0.2621,  0.3408,  0.1853],
        [ 0.3866, -0.5505,  0.9395, -1.1604, -0.5641, -1.0599,  0.3823,  0.2258]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.5557, -0.3779,  0.8838, -1.1004, -0.6115, -0.7617,  0.3769,
           0.1644],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1651, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1651, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.602609543129802
step:  82
running loss:  0.05612938467231465
Train Steps: 82/90  Loss: 0.0561 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6205, -0.3294,  1.2714, -1.1643, -0.4718, -0.8882,  0.4508,  0.2994],
        [ 0.8339, -0.2433,  1.6666, -0.0028, -0.2328,  0.1562,  0.3314,  0.2164],
        [-0.2367, -0.9609,  1.5820, -1.1476, -0.0225, -0.9568,  1.1855,  0.2878],
        [ 1.3021,  0.0271,  1.6371,  0.3666, -0.7279, -0.3856,  0.4049,  0.1173],
        [ 0.8664, -0.2550,  1.7417, -0.1421, -0.6307, -0.0862,  0.6780,  0.1225],
        [ 0.2749, -0.5678,  1.1647, -1.2503, -0.3124, -1.2384,  0.3588,  0.2341],
        [ 1.0003, -0.1206,  1.5467, -0.5714, -0.7366, -0.1394,  0.3882,  0.1260],
        [-0.8779, -1.3588,  1.7350, -0.7833, -0.1671, -0.9548,  0.8598,  0.2712]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1799, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1799, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.782462088391185
step:  83
running loss:  0.05762002516133958
Train Steps: 83/90  Loss: 0.0576 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.6758, -1.8790,  0.9515, -1.1832, -0.3921, -1.2005,  0.1190,  0.2377],
        [ 0.6928, -0.3176,  1.7793, -0.5673, -0.5725, -0.8589,  0.5203,  0.2073],
        [ 0.6950, -0.3005,  1.5411, -0.6932, -0.5098, -0.0067,  0.7635,  0.2678],
        [ 0.8057, -0.2322,  1.5274, -0.7015, -0.6557, -0.4211,  0.5909,  0.1877],
        [ 0.8430, -0.2581,  1.7463,  0.0786, -0.2258,  0.1675,  0.8384,  0.2404],
        [ 0.8383, -0.2479,  1.3780, -1.2788, -0.1072, -1.4723,  0.6900,  0.1429],
        [ 0.7669, -0.3051,  1.6815,  0.1584, -0.2706,  0.1765,  0.6218,  0.2041],
        [ 0.6534, -0.3386,  1.4837, -0.7632, -0.6079, -0.6089,  0.3371,  0.2506]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852],
         [ 0.5886, -0.3784,  1.4554, -0.9079, -0.6577, -0.4845,  0.3440,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.803826930001378
step:  84
running loss:  0.057188415833349736

Train Steps: 84/90  Loss: 0.0572 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5288, -0.4258,  1.6598,  0.0234, -0.6744, -0.2807,  0.2428,  0.2266],
        [ 0.9124, -0.1514,  0.9119, -1.0870, -0.1578, -1.0845,  0.3587,  0.3047],
        [ 0.5259, -0.4405,  1.5958, -0.1026, -0.4962,  0.0710,  0.4900,  0.2501],
        [ 0.4467, -0.4996,  1.2111, -1.1375, -0.1979, -1.1565,  0.5828,  0.1334],
        [ 0.8034, -0.2387,  1.4822, -0.5721, -0.6348, -0.1920,  0.4950,  0.1476],
        [ 0.0750, -0.6879,  1.3695, -0.9216, -0.2341, -0.8327,  0.4966,  0.2875],
        [-0.2534, -0.9799,  1.8873, -0.7545, -0.4268, -0.6145,  1.0349,  0.0990],
        [ 0.2832, -0.5986,  1.6411, -0.9750, -0.3327, -0.7753,  0.6956,  0.1492]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5444, -0.3852,  1.3786, -0.5409, -0.6924, -0.4229,  0.1791,
           0.2341],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5790, -0.4031,  1.6915, -0.9564, -0.4152, -1.1063,  0.4425,
           0.2528]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0526, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0526, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.856406262144446
step:  85
running loss:  0.057134191319346425
Train Steps: 85/90  Loss: 0.0571 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.3328e-01, -6.7352e-01,  1.6691e+00, -2.4416e-01, -1.3594e-01,
         -3.2876e-04,  4.3535e-01,  2.3712e-01],
        [ 5.2176e-01, -4.1727e-01,  1.4926e+00, -8.6348e-01, -5.5333e-01,
         -1.8318e-01,  7.7127e-01,  2.5558e-01],
        [ 9.9327e-01, -1.1433e-01,  1.0954e+00, -1.3476e+00, -2.7377e-01,
         -1.3365e+00,  3.8144e-01,  1.8049e-01],
        [-8.2795e-01, -1.3359e+00,  1.9219e+00, -7.7653e-01, -3.3671e-01,
         -8.4426e-01,  9.5188e-01,  1.5540e-01],
        [ 4.9690e-01, -4.4354e-01,  1.7715e+00,  3.1300e-02, -6.5161e-01,
         -6.7309e-01,  5.1132e-01,  5.7911e-02],
        [ 7.3540e-01, -2.5406e-01,  9.1125e-01, -1.3418e+00, -4.7364e-01,
         -1.1851e+00,  3.1099e-01,  2.4200e-01],
        [ 4.7442e-01, -4.5498e-01,  1.7000e+00, -1.5574e-01, -2.9064e-01,
          1.7565e-01,  4.3889e-01,  2.0958e-01],
        [ 6.5780e-01, -3.2612e-01,  1.6180e+00, -1.8878e-01, -3.5431e-01,
          1.8572e-02,  3.9815e-01,  2.2789e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392],
         [ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0671, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0671, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.923488324508071
step:  86
running loss:  0.05724986423846594
Train Steps: 86/90  Loss: 0.0572 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6679, -0.3393,  1.1044, -1.2029, -0.5126, -0.9637,  0.2172,  0.1473],
        [ 0.2462, -0.6525,  1.7013,  0.3707, -0.3928,  0.1506,  0.3154,  0.2182],
        [ 0.2769, -0.6023,  1.5248, -1.0627, -0.4206, -0.9832,  0.6722,  0.0666],
        [ 0.6292, -0.3429,  1.2376, -1.0654, -0.3068, -0.9931,  0.4548,  0.3508],
        [-0.0074, -0.7957,  1.7611, -0.6247, -0.3023, -0.7269,  0.8707,  0.0755],
        [ 0.5369, -0.4352,  1.6622, -0.9727, -0.4015, -0.7603,  0.5024,  0.2316],
        [ 0.2221, -0.6411,  1.7975, -0.0278, -0.1875,  0.1898,  0.6727,  0.1995],
        [ 0.5766, -0.3768,  1.0787, -1.0031, -0.5580, -0.6710,  0.2390,  0.2642]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.947322266176343
step:  87
running loss:  0.05686577317444073
Train Steps: 87/90  Loss: 0.0569 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7241, -0.3271,  1.7330,  0.0022, -0.4415, -0.4059,  0.5559,  0.1113],
        [ 0.8021, -0.2346,  1.5974, -0.6172, -0.2946, -0.7826,  0.7004,  0.1298],
        [ 0.5272, -0.4370,  1.6671, -0.8570, -0.4961, -0.7450,  0.4616,  0.1232],
        [-0.0215, -0.7598,  0.7726, -1.3853, -0.3094, -1.2399,  0.1006,  0.2363],
        [ 0.6110, -0.3637,  1.6312, -1.1276, -0.2190, -0.9056,  0.7891,  0.1843],
        [ 0.5471, -0.3935,  1.6186, -0.3462, -0.4808, -0.3456,  0.2056,  0.2678],
        [ 1.0903, -0.1401,  1.7994, -0.1475, -0.3498,  0.5473,  0.7149,  0.1603],
        [-1.3033, -1.6128,  1.1779, -0.9719, -0.4504, -0.8305,  0.2302,  0.2690]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6273, -0.4249,  1.7095,  0.1159, -0.5480, -0.4306,  1.0910,
           0.1928],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.5799, -0.4329,  1.7210, -0.7694, -0.5711, -0.8771,  0.3988,
           0.0774],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0496, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0496, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.99695965833962
step:  88
running loss:  0.056783632481132044

Train Steps: 88/90  Loss: 0.0568 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5584, -0.4093,  1.1146, -1.4048, -0.2779, -1.3822,  0.1954,  0.1406],
        [ 0.4821, -0.4613,  1.6472, -0.0517, -0.4324, -0.3837,  0.1814,  0.2442],
        [ 0.4873, -0.4168,  1.3685, -0.8206, -0.5818, -0.4522,  0.2436,  0.1914],
        [ 0.3995, -0.5603,  1.7979, -0.0745, -0.4099, -0.0866,  0.7555,  0.1212],
        [ 0.0065, -0.7383,  0.9568, -1.1590, -0.3999, -1.0661,  0.2975,  0.3177],
        [ 0.6278, -0.4072,  1.7102, -0.8546, -0.5490, -0.6138,  0.4779,  0.2245],
        [ 0.0327, -0.7839,  1.8877, -0.2893, -0.2485, -0.4808,  0.8511,  0.2126],
        [ 0.7731, -0.3011,  1.7908, -0.3452, -0.3399,  0.2271,  0.5904,  0.0849]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5452, -0.4067,  1.7557,  0.0543, -0.4961, -0.3306,  0.1323,
           0.4306],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0316, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0316, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.028513407334685
step:  89
running loss:  0.05650015064420995
Train Steps: 89/90  Loss: 0.0565 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4825, -0.4272,  0.9730, -1.4118, -0.4009, -1.3373,  0.0767,  0.2495],
        [ 0.4915, -0.4617,  1.9515, -0.4588, -0.5543, -0.2200,  0.6500,  0.0742],
        [ 0.3416, -0.6033,  1.6379, -0.0055, -0.4627, -0.4151,  0.4429,  0.1592],
        [ 0.4801, -0.4831,  1.6780, -0.1948, -0.3423, -0.0419,  0.2214,  0.2790],
        [ 0.6173, -0.4038,  1.7523, -0.1950, -0.3700,  0.1127,  0.7578,  0.2431],
        [ 0.5661, -0.4204,  1.8014, -0.4218, -0.4077,  0.0485,  0.4907,  0.2373],
        [ 0.0555, -0.7193,  0.9680, -1.5541, -0.2692, -1.6329,  0.2577,  0.1827],
        [ 0.4184, -0.5378,  1.6813, -0.1549, -0.4171, -0.3171,  0.5697,  0.1647]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0333, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0333, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  5.0618322510272264
step:  90
running loss:  0.05624258056696918
Valid Steps: 10/10  Loss: nan 62
--------------------------------------------------
Epoch: 3  Train Loss: 0.0562 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7934, -0.2856,  1.6860,  0.1092, -0.3487,  0.0531,  0.2048,  0.2442],
        [ 0.6889, -0.3477,  1.0870, -1.3416, -0.3528, -1.3638,  0.1548,  0.2013],
        [ 0.5929, -0.4533,  1.6458, -0.0300, -0.2567,  0.1042,  0.5948,  0.2456],
        [-1.2841, -1.6451,  1.3930, -0.9300, -0.5634, -0.8736,  0.1785,  0.2065],
        [ 0.2508, -0.6173,  1.6443, -0.9053, -0.2038, -0.8371,  0.8204,  0.1669],
        [ 0.7218, -0.3298,  1.5397, -1.0182, -0.5050, -0.7588,  0.8013,  0.1396],
        [ 0.9012, -0.2219,  1.7789, -0.3461, -0.6196, -0.1334,  0.4337,  0.0805],
        [ 0.8209, -0.2396,  1.5937, -0.2505, -0.5622, -0.4064,  0.3184,  0.2603]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.6224, -0.4105,  1.9173, -0.7771, -0.1030, -0.7308,  1.1532,
           0.1875],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0408, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0408, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.0408310666680336
step:  1
running loss:  0.0408310666680336
Train Steps: 1/90  Loss: 0.0408 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8029, -0.2294,  1.0461, -1.3274, -0.4808, -1.3214,  0.4222,  0.1729],
        [ 0.5322, -0.4257,  1.7850, -0.4723, -0.6244, -0.5832,  0.4501,  0.2225],
        [-1.7818, -1.9189,  1.1634, -1.3966, -0.2579, -1.3634,  0.2830,  0.2149],
        [ 0.7616, -0.3080,  1.6486, -0.0197, -0.4939, -0.2841,  0.5924,  0.1066],
        [ 0.7523, -0.2829,  1.6721, -0.1539, -0.2369, -0.1656,  0.1428,  0.1686],
        [ 0.8615, -0.2260,  1.7055, -0.0355, -0.3871,  0.1315,  0.7918,  0.1862],
        [ 0.6541, -0.3519,  1.6196, -0.1458, -0.3515, -0.2593,  0.2668,  0.1777],
        [ 0.7497, -0.3061,  1.7884, -0.3122, -0.4508,  0.1585,  0.5595,  0.2249]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.06501925364136696
step:  2
running loss:  0.03250962682068348

Train Steps: 2/90  Loss: 0.0325 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6161, 0.4099, 0.8738, 0.4383, 0.3788, 0.5483, 0.5605, 0.5019],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2261, -0.6299,  1.5691,  0.0380, -0.4303, -0.4064,  0.3217,  0.2605],
        [ 0.8775, -0.2186,  1.6144, -0.0903, -0.2743, -0.0483,  0.2540,  0.2187],
        [ 0.4941, -0.4669,  1.6542,  0.0592, -0.4179,  0.0067,  0.4888,  0.2468],
        [ 0.6490, -0.3877,  1.5852,  0.0381, -0.5231, -0.2220,  0.4692,  0.1378],
        [ 0.6293, -0.3672,  1.8195, -0.9589, -0.4476, -1.1585,  0.6918,  0.1580],
        [-0.9213, -1.3341,  1.0464, -1.5667, -0.3857, -1.5674,  0.3233,  0.1719],
        [ 0.8097, -0.2308,  1.6492, -0.5242, -0.5474,  0.1092,  0.4527,  0.1488],
        [ 0.6409, -0.3545,  1.6522, -0.3213, -0.3163, -0.0979,  0.5912,  0.1635]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5597, -0.3928,  1.7499, -0.2613, -0.5365,  0.2468,  0.3028,
           0.0321],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0751, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0751, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1400858722627163
step:  3
running loss:  0.04669529075423876
Train Steps: 3/90  Loss: 0.0467 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6201, 0.4102, 0.7288, 0.2417, 0.4150, 0.2383, 0.6100, 0.5500],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3854, -0.5699,  1.7729, -0.4065, -0.3826, -0.5799,  0.8162,  0.0487],
        [ 0.4473, -0.4987,  1.2553, -0.9025, -0.4371, -1.0451,  0.5099,  0.1875],
        [ 0.3850, -0.5415,  1.2425, -1.1285, -0.3311, -1.2141,  0.4639,  0.1034],
        [ 0.4943, -0.4585,  1.7603, -0.3231, -0.4710, -0.5697,  0.3823,  0.2806],
        [ 0.5609, -0.4599,  1.7936,  0.3726, -0.2832,  0.3955,  0.2943,  0.1781],
        [ 0.3167, -0.5832,  1.6743,  0.1032, -0.5132,  0.2972,  0.2819,  0.1813],
        [ 0.0717, -0.6920,  1.2379, -0.9312, -0.3837, -0.9721,  0.3222,  0.3046],
        [ 0.5122, -0.4441,  1.2345, -0.7984, -0.4852, -0.8042,  0.5456,  0.2060]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5784, -0.3913,  1.0801, -1.1697, -0.3691, -1.1851,  0.5316,
           0.2545],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.16878480091691017
step:  4
running loss:  0.04219620022922754
Train Steps: 4/90  Loss: 0.0422 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6402, -0.3300,  1.6367, -0.5436, -0.4823, -0.6285,  0.3887,  0.2062],
        [ 0.4304, -0.5247,  1.8311, -0.0857, -0.2697,  0.3819,  0.6370,  0.2235],
        [ 0.3012, -0.6414,  1.6228,  0.3746, -0.3542, -0.0797,  0.5618,  0.0932],
        [ 0.3471, -0.5312,  1.0608, -0.9703, -0.4720, -0.8061,  0.3146,  0.2213],
        [ 0.3248, -0.5650,  1.7027, -0.1101, -0.4417, -0.2336,  0.5059,  0.1623],
        [ 0.3386, -0.5307,  1.7406, -0.2570, -0.3301, -1.0203,  0.5861,  0.1280],
        [ 0.3174, -0.5268,  1.0960, -0.8999, -0.4709, -0.9923,  0.1387,  0.2535],
        [ 0.6184, -0.4022,  1.6616, -0.6118, -0.5818, -0.3922,  0.4269,  0.2213]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18524960055947304
step:  5
running loss:  0.037049920111894605
Train Steps: 5/90  Loss: 0.0370 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2791, -0.5424,  1.3593, -0.6483, -0.5082, -0.7606,  0.2373,  0.3004],
        [ 0.5529, -0.4208,  1.3162, -0.7741, -0.5420, -0.8749,  0.5742,  0.2522],
        [ 0.5527, -0.4374,  1.6764,  0.2120, -0.1778,  0.1175,  0.2001,  0.1639],
        [ 0.7011, -0.3902,  1.7922,  0.3820, -0.5591,  0.0326,  0.7921,  0.0431],
        [ 0.1883, -0.6151,  1.7248, -0.4770, -0.3421, -1.0000,  0.5109,  0.1547],
        [ 0.2386, -0.6325,  1.7365,  0.1798, -0.4045,  0.3961,  0.4558,  0.1295],
        [ 0.3358, -0.5460,  1.2014, -1.0744, -0.4078, -1.0060,  0.5095,  0.1908],
        [ 0.3464, -0.4803,  1.1684, -0.9478, -0.2323, -1.0542,  0.3087,  0.2845]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5935, -0.3558,  1.3284, -0.6924, -0.5249, -0.9618,  0.3353,
           0.3084],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5614, -0.4586,  1.7587,  0.0641, -0.2998,  0.1712,  0.4958,
           0.1170],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.21053649485111237
step:  6
running loss:  0.03508941580851873

Train Steps: 6/90  Loss: 0.0351 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3029, -0.6244,  1.8468,  0.1460, -0.4225,  0.1632,  0.9719,  0.1582],
        [ 0.3994, -0.5348,  1.6714,  0.0397, -0.2388, -0.1771,  0.2345,  0.1581],
        [ 0.2754, -0.6236,  1.7249,  0.0636, -0.3578, -0.0518,  0.3006,  0.1270],
        [ 0.6174, -0.3559,  1.3701, -0.3050, -0.6034, -0.3570,  0.1214,  0.1833],
        [ 0.5716, -0.4054,  1.5687, -0.6477, -0.6942, -0.6264,  0.4524,  0.2152],
        [ 0.2340, -0.6259,  1.7155, -0.2797, -0.4494,  0.2091,  0.7213,  0.2117],
        [ 0.6382, -0.3643,  1.3742, -0.9335, -0.3079, -1.3957,  0.6677,  0.2151],
        [ 0.5772, -0.3455,  1.0543, -0.8894, -0.1617, -1.3255,  0.2601,  0.3533]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5671, -0.3988,  1.7499, -0.4614, -0.5423,  0.3007,  0.5894,
           0.3469],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.22919072955846786
step:  7
running loss:  0.03274153279406684
Train Steps: 7/90  Loss: 0.0327 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5962, -0.3807,  1.8008, -0.0904, -0.3684,  0.2387,  0.6538,  0.1876],
        [ 0.5492, -0.4183,  1.7119, -0.1476, -0.3619,  0.1762,  0.4529,  0.2305],
        [ 0.7731, -0.3102,  1.6519,  0.2326, -0.3488, -0.1404,  0.5892,  0.1673],
        [ 0.7477, -0.2326,  1.3266, -0.5177, -0.3959, -0.8787,  0.3715,  0.3245],
        [ 0.8838, -0.2180,  1.6062,  0.3130, -0.3376, -0.1118,  0.7455,  0.2682],
        [-1.4788, -1.7508,  1.1179, -1.3049, -0.2588, -1.3062,  0.2117,  0.2637],
        [ 0.8055, -0.2542,  1.6588, -0.3911, -0.6106, -0.3597,  0.4233,  0.1606],
        [ 0.9708, -0.1498,  1.6112, -0.6890, -0.6115, -0.9635,  0.1644,  0.1881]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0315, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0315, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2607172168791294
step:  8
running loss:  0.032589652109891176
Train Steps: 8/90  Loss: 0.0326 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9991, -0.1294,  1.8289, -0.3092, -0.4135, -0.4943,  0.7495,  0.1788],
        [ 0.6798, -0.3583,  1.8032, -0.0833, -0.4193, -0.0604,  0.7310,  0.2062],
        [-1.1939, -1.5435,  1.6261, -0.7515, -0.1293, -1.0238,  0.6422,  0.2504],
        [ 1.0001, -0.1213,  1.0754, -0.6870, -0.5014, -0.7288,  0.2028,  0.2405],
        [ 1.0468, -0.0862,  1.6703,  0.3435, -0.3764,  0.3130,  0.1611,  0.1331],
        [ 0.9204, -0.1412,  1.6262,  0.0114, -0.5259, -0.2258,  0.2021,  0.2598],
        [ 0.7783, -0.2752,  1.5301, -0.8552, -0.2124, -1.0131,  0.8405,  0.2358],
        [-0.8339, -1.2837,  1.0198, -0.9123, -0.5547, -0.8795,  0.0556,  0.2826]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.3883e-01, -3.6231e-01,  1.9173e+00, -7.3857e-01, -3.5173e-01,
          -5.8460e-01,  1.1495e+00,  2.6764e-01],
         [ 6.4542e-01, -3.6231e-01,  1.9346e+00, -4.4604e-01, -4.9607e-01,
          -2.9207e-01,  1.1642e+00,  2.4092e-01],
         [-2.2859e+00, -2.2859e+00,  1.8249e+00, -8.0015e-01,  4.0878e-02,
          -1.2543e+00,  8.0590e-01,  3.0505e-01],
         [ 5.4417e-01, -3.8545e-01,  1.0224e+00, -9.5412e-01, -6.1155e-01,
          -9.2333e-01,  1.7452e-01,  2.5215e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 6.0722e-01, -3.2394e-01,  1.8423e+00, -3.5366e-01, -4.9607e-01,
          -3.9215e-01,  2.0831e-01,  1.8522e-01],
         [ 6.0425e-01, -4.1045e-01,  1.5478e+00, -1.2082e+00, -1.2079e-01,
          -1.0927e+00,  9.7040e-01,  3.1574e-01],
         [-2.2859e+00, -2.2859e+00,  1.1020e+00, -1.0994e+00, -5.3649e-01,
          -1.0542e+00,  5.4227e-02,  2.9047e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1190, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1190, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3797225020825863
step:  9
running loss:  0.042191389120287366
Train Steps: 9/90  Loss: 0.0422 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4157, 0.8337, 0.5800, 0.3763, 0.4200, 0.5547, 0.6125],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.2359,  0.0152,  1.4352,  0.4591, -0.4579, -0.1886,  0.3458,  0.3827],
        [-1.4108, -1.7165,  1.6278, -0.9198, -0.0999, -1.1243,  0.6107,  0.2600],
        [ 1.0880, -0.0631,  1.4730, -0.7942, -0.2523, -1.2433,  0.1780,  0.2025],
        [ 0.9040, -0.1922,  1.7536, -0.0645, -0.4241,  0.4290,  0.6224,  0.1873],
        [ 0.9999, -0.1657,  1.5762, -0.5998, -0.5918, -0.5274,  0.6032,  0.1100],
        [ 0.6061, -0.3682,  1.4800, -0.3083, -0.6131, -0.1629,  0.2296,  0.2176],
        [ 0.9515, -0.1362,  1.5629, -0.2965, -0.5961, -0.2386,  0.4166,  0.2649],
        [-0.7224, -1.2803,  1.7950, -0.7486, -0.2483, -0.8924,  0.8542,  0.2345]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6124, -0.3658,  1.5651,  0.3931, -0.5480, -0.3460,  0.2761,
           0.5431],
         [-2.2859, -2.2859,  1.8249, -0.8002,  0.0409, -1.2543,  0.8059,
           0.3050],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1079, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1079, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.48758096620440483
step:  10
running loss:  0.048758096620440484

Train Steps: 10/90  Loss: 0.0488 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7067, -0.3148,  1.0492, -1.0354, -0.4981, -0.9338,  0.3020,  0.3286],
        [-0.7523, -1.2924,  0.9029, -1.2760, -0.3634, -1.3894,  0.3071,  0.3262],
        [ 0.6640, -0.3744,  1.8604, -0.2007, -0.5467,  0.1417,  0.5132,  0.2404],
        [ 0.5437, -0.4182,  1.7214,  0.1975, -0.6007, -0.5034,  0.4236,  0.2390],
        [ 0.3511, -0.5864,  1.7093, -0.9693,  0.0304, -1.2827,  1.0219,  0.1822],
        [ 1.1674, -0.0858,  1.8699, -0.0512, -0.5583, -0.3091,  0.7732,  0.1525],
        [ 0.3252, -0.5765,  1.7152,  0.1841, -0.2517,  0.2405,  0.2954,  0.2331],
        [ 0.3638, -0.5548,  1.8978, -0.1514, -0.4938, -0.0809,  0.1914,  0.1650]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0692, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0692, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5567609034478664
step:  11
running loss:  0.05061462758616968
Train Steps: 11/90  Loss: 0.0506 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3899, -0.5611,  1.6083, -1.0398, -0.0411, -1.4380,  0.9611,  0.1850],
        [ 0.7063, -0.3622,  1.7582, -0.4214, -0.6344, -0.0607,  0.7025,  0.2027],
        [ 0.0398, -0.7886,  1.7258, -0.0711, -0.5843,  0.0780,  0.3114,  0.1939],
        [ 0.3534, -0.5398,  1.6284, -0.9779, -0.2579, -1.2172,  0.6238,  0.2286],
        [ 0.5881, -0.3905,  1.2062, -1.0493, -0.2944, -1.2115,  0.6174,  0.4106],
        [ 0.1641, -0.6547,  1.5900, -0.0401, -0.4739,  0.0842,  0.2363,  0.2308],
        [ 0.3576, -0.5340,  1.6793, -0.2877, -0.6649, -0.5644,  0.2157,  0.2440],
        [ 0.3927, -0.5486,  1.7002,  0.2642, -0.4248, -0.0980,  0.4854,  0.1575]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5767896324396133
step:  12
running loss:  0.04806580270330111
Train Steps: 12/90  Loss: 0.0481 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7066, -0.3359,  1.6617,  0.1113, -0.4845,  0.2730,  0.3180,  0.1751],
        [ 0.6655, -0.3258,  1.6267,  0.1583, -0.5994, -0.3720,  0.3459,  0.2149],
        [ 0.7973, -0.2172,  1.5151, -0.6836, -0.6012, -0.6649,  0.2786,  0.2913],
        [ 0.7946, -0.2888,  1.9036, -0.3246, -0.5414, -0.2549,  0.8325,  0.2533],
        [ 0.5353, -0.4337,  1.5933, -0.9831, -0.0078, -1.1072,  0.9309,  0.2004],
        [ 0.3392, -0.5292,  1.6934, -0.5276, -0.3595, -1.0432,  0.5401,  0.1994],
        [-2.1027, -2.1584,  1.0679, -0.8955, -0.4812, -0.9877,  0.2749,  0.2430],
        [ 0.5163, -0.4084,  1.4821, -1.0341, -0.1654, -1.1220,  0.6254,  0.2533]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.6088, -0.4015,  1.6113, -1.0696, -0.0861, -1.4545,  0.6051,
           0.1343]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5947947613894939
step:  13
running loss:  0.045753443183807224
Train Steps: 13/90  Loss: 0.0458 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8568, -0.1986,  1.7606, -0.0271, -0.2534, -0.0415,  0.1967,  0.1760],
        [ 1.1717, -0.0319,  1.6136, -0.6131, -0.6550, -0.5300,  0.3238,  0.1442],
        [ 1.0539, -0.1441,  1.7893, -0.6783, -0.5686, -0.2087,  0.8835,  0.2074],
        [ 1.0515, -0.1461,  1.7092, -0.7597, -0.5884, -0.7283,  0.6856,  0.1205],
        [ 0.7875, -0.2442,  1.7666,  0.2316, -0.5501, -0.6627,  0.4504,  0.2163],
        [-2.0296, -2.1249,  1.2080, -0.9242, -0.4599, -1.0183,  0.2166,  0.2925],
        [-1.3036, -1.6394,  1.8677, -0.7513,  0.0723, -1.0658,  1.0924,  0.3734],
        [ 0.5397, -0.3751,  1.1715, -0.8596, -0.4805, -1.1048,  0.2473,  0.3443]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3508e-01, -4.1527e-01,  1.7326e+00, -4.5727e-02, -2.2139e-01,
          -4.6642e-02,  4.3431e-02,  2.2284e-01],
         [ 5.2061e-01, -4.6028e-01,  1.4670e+00, -4.7683e-01, -6.5774e-01,
          -3.9985e-01,  1.8356e-01,  2.0831e-03],
         [ 6.1083e-01, -4.2731e-01,  1.8711e+00, -6.6159e-01, -5.7691e-01,
          -1.9969e-01,  9.1557e-01,  1.5543e-01],
         [ 6.0306e-01, -4.3072e-01,  1.7268e+00, -8.0015e-01, -6.0577e-01,
          -6.4619e-01,  6.4417e-01, -2.1963e-02],
         [ 5.6966e-01, -4.5138e-01,  1.7420e+00,  2.6720e-01, -6.0553e-01,
          -6.3118e-01,  3.4489e-01,  2.0578e-01],
         [-2.2859e+00, -2.2859e+00,  1.2030e+00, -1.0288e+00, -4.9607e-01,
          -1.1081e+00,  8.1293e-02,  3.1609e-01],
         [-2.2859e+00, -2.2859e+00,  1.8192e+00, -8.5404e-01,  1.4480e-01,
          -9.8491e-01,  1.0143e+00,  4.8673e-01],
         [ 5.5484e-01, -3.9360e-01,  1.1634e+00, -8.1049e-01, -5.1917e-01,
          -1.0696e+00,  2.3718e-01,  3.9307e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0493, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0493, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.644109707325697
step:  14
running loss:  0.04600783623754978

Train Steps: 14/90  Loss: 0.0460 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3045, -0.5674,  1.3769, -0.9429, -0.6118, -0.4503,  0.2990,  0.2750],
        [ 0.0977, -0.6868,  1.3143, -0.7793,  0.0222, -1.2691,  0.4035,  0.3906],
        [ 0.4517, -0.4892,  1.5790, -0.6596, -0.6443, -0.5839,  0.3201,  0.2341],
        [ 0.0941, -0.8263,  1.9781, -0.0808, -0.4988,  0.1383,  0.6655,  0.1129],
        [ 0.4164, -0.5374,  1.9136,  0.3085, -0.5462, -0.6897,  0.5370,  0.1564],
        [ 0.2482, -0.6505,  2.1673, -0.2775, -0.6107, -0.3451,  0.8151,  0.0446],
        [-0.0211, -0.7762,  1.3772, -0.9917, -0.2255, -1.2161,  0.5604,  0.3626],
        [ 0.3111, -0.6232,  1.2350, -1.1596, -0.4139, -1.2741,  0.4848,  0.2642]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0427, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0427, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6868270449340343
step:  15
running loss:  0.04578846966226895
Train Steps: 15/90  Loss: 0.0458 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4056, -0.5116,  1.7553, -0.5207, -0.1930, -1.2530,  0.6542,  0.2057],
        [ 0.0376, -0.7179,  1.3283, -0.9410, -0.3670, -1.1820,  0.3219,  0.2579],
        [ 0.7586, -0.2953,  1.6136, -0.7672, -0.5980, -0.7300,  0.5055,  0.2464],
        [ 1.1241, -0.0934,  1.7848, -0.3410, -0.5859, -0.2160,  0.5642,  0.0793],
        [ 0.6242, -0.3637,  1.8110, -0.4475, -0.5276, -0.6335,  0.5430,  0.2081],
        [-2.5332, -2.4693,  1.1160, -0.8603, -0.3118, -1.1134,  0.3019,  0.2916],
        [ 0.6375, -0.3858,  1.7093,  0.0144, -0.3216, -0.1430,  0.4885,  0.1177],
        [ 0.4408, -0.4880,  1.7590, -0.6851, -0.6015, -0.5339,  0.6534,  0.3028]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5798, -0.4156,  1.3977, -1.0388, -0.4672, -1.1004,  0.3469,
           0.1082],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7119743004441261
step:  16
running loss:  0.04449839377775788
Train Steps: 16/90  Loss: 0.0445 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.5698, -1.1630,  1.7988, -1.0738,  0.0985, -1.2631,  0.9678,  0.2631],
        [ 0.6247, -0.3964,  1.8911, -0.4913, -0.7389, -0.3246,  0.3989,  0.1941],
        [-1.1609, -1.5773,  1.9380, -0.7570, -0.0841, -1.2592,  0.9371,  0.2391],
        [ 0.4757, -0.5144,  1.6757,  0.2291, -0.5092, -0.3942,  0.3250,  0.1567],
        [ 0.1884, -0.6917,  1.8490, -0.1794, -0.5994,  0.2266,  0.3432,  0.1332],
        [ 0.6206, -0.3816,  1.1967, -1.1353, -0.5213, -1.1738,  0.2903,  0.2247],
        [ 0.6793, -0.3524,  1.1073, -1.2023, -0.6062, -1.0704,  0.3309,  0.2422],
        [ 0.5047, -0.4610,  1.5853,  0.0454, -0.5763, -0.2399,  0.3652,  0.1877]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1294, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1294, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8413371220231056
step:  17
running loss:  0.04949041894253563
Train Steps: 17/90  Loss: 0.0495 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3496, -0.6161,  1.8231, -0.7200, -0.6343, -0.1043,  0.8363,  0.1154],
        [ 0.2936, -0.5610,  1.7201, -0.4867, -0.2092, -0.3321,  0.2514,  0.2062],
        [ 0.5884, -0.4009,  1.6049,  0.0735, -0.1333, -0.5680,  0.4170,  0.2590],
        [-0.0426, -0.8502,  1.6135,  0.1152, -0.2904, -0.5447,  0.2721,  0.1971],
        [-0.1033, -0.8852,  2.0310, -0.9600, -0.3148, -1.1868,  1.0985,  0.2178],
        [ 0.2483, -0.6758,  1.7849, -0.3754, -0.3378, -0.4320,  0.2930,  0.1095],
        [-0.0405, -0.8126,  1.6816, -0.3414, -0.7438, -0.7737,  0.2725,  0.1434],
        [ 0.3748, -0.5497,  1.3174, -1.2418, -0.7503, -0.8426,  0.5530,  0.2293]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0813, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0813, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9225974231958389
step:  18
running loss:  0.05125541239976883

Train Steps: 18/90  Loss: 0.0513 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4430, -0.4844,  1.7350, -0.4449, -0.5268, -0.4250,  0.4806,  0.1754],
        [ 0.7304, -0.3097,  1.7664, -0.6020, -0.5014, -0.2737,  0.5494,  0.1550],
        [ 0.8088, -0.2873,  1.7017, -0.1383, -0.4139, -0.1332,  0.5881,  0.2076],
        [-2.3069, -2.3295,  1.1612, -1.1341, -0.2896, -1.2715,  0.1326,  0.3356],
        [ 0.6132, -0.3375,  1.7022, -0.2673, -0.5030, -0.4217,  0.3474,  0.1730],
        [ 0.4882, -0.4704,  1.8124, -0.1721, -0.5237, -0.8142,  0.6059,  0.0388],
        [ 0.4792, -0.4727,  1.7930, -0.9632, -0.2783, -1.1860,  0.7636,  0.1998],
        [ 0.5194, -0.4366,  1.5938, -0.0664, -0.4184, -0.2661,  0.3575,  0.1813]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5770, -0.3918,  1.7961,  0.1544, -0.5480,  0.1467,  0.4450,
           0.2853],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0290, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0290, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9516376163810492
step:  19
running loss:  0.050086190335844695
Train Steps: 19/90  Loss: 0.0501 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6199, 0.4093, 0.7913, 0.2533, 0.4288, 0.2467, 0.5975, 0.5700],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1724, -0.7311,  1.9600, -0.4847, -0.5312, -0.7648,  0.7926,  0.1386],
        [ 0.4509, -0.5342,  1.4227, -1.0582, -0.5859, -0.7999,  0.5457,  0.1146],
        [ 0.0037, -0.8193,  1.9162, -0.4894, -0.6796, -0.5751,  0.5336,  0.0400],
        [-0.0795, -0.8154,  1.1245, -0.8385, -0.5245, -0.8974,  0.2899,  0.3562],
        [ 0.7510, -0.2744,  1.6003, -0.7833, -0.2182, -1.1405,  0.3211,  0.1225],
        [ 0.1794, -0.6694,  1.7174,  0.0391, -0.2750,  0.1796,  0.3027,  0.1166],
        [-0.3175, -1.0336,  1.3863, -1.1355, -0.3639, -1.0212,  0.5602,  0.2073],
        [ 0.6083, -0.3555,  1.6484,  0.3436, -0.0741, -0.2059,  0.3531,  0.2449]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.5477, -0.4413,  1.3688, -0.8771, -0.6115, -0.8771,  0.4104,
           0.0467],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5771, -0.3955,  1.3688, -1.1158, -0.3055, -1.1466,  0.4739,
           0.3469],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0521, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0521, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0037182997912169
step:  20
running loss:  0.05018591498956084
Train Steps: 20/90  Loss: 0.0502 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1581, -0.7393,  1.1670, -1.3299, -0.6123, -1.1580,  0.3761,  0.1508],
        [ 0.7792, -0.3083,  1.7652,  0.1693, -0.4503, -0.1500,  0.5473,  0.1806],
        [-0.0364, -0.8090,  1.1568, -1.1909, -0.6619, -0.9205,  0.3632,  0.2406],
        [ 0.1614, -0.6613,  1.7122, -0.0781, -0.0744, -0.1382,  0.0251,  0.1446],
        [ 0.1000, -0.7275,  1.7813, -0.1652, -0.1890, -0.0821,  0.1867,  0.1571],
        [ 0.4845, -0.4482,  1.8444, -0.0939, -0.4233, -0.6957,  0.6399,  0.1452],
        [ 0.5154, -0.4710,  1.9175, -0.6788, -0.4608, -0.8603,  0.9891,  0.1327],
        [ 0.1317, -0.7220,  1.7761, -0.2175, -0.3860, -0.1320,  0.3566,  0.1352]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0353, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0353, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0390332210808992
step:  21
running loss:  0.049477772432423774
Train Steps: 21/90  Loss: 0.0495 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5319, -0.4074,  1.9047, -0.0513, -0.4148, -0.4593,  0.4412,  0.1348],
        [ 0.2248, -0.6662,  1.6434, -0.0576, -0.4394, -0.2607,  0.5983,  0.2211],
        [ 0.5160, -0.4834,  1.7566,  0.1108, -0.4688,  0.0316,  0.6468,  0.1698],
        [ 0.5514, -0.4455,  1.8779,  0.2109, -0.5295, -0.2038,  0.3353, -0.0306],
        [ 0.0569, -0.7394,  0.9787, -1.4228, -0.3317, -1.4684,  0.0992,  0.2083],
        [ 0.1960, -0.6464,  1.6755, -0.2134, -0.4800,  0.0778,  0.1021,  0.1230],
        [ 0.3866, -0.5533,  2.0356, -0.8076, -0.3010, -0.5609,  0.8130,  0.1686],
        [ 0.2819, -0.5713,  1.0122, -1.2399, -0.3901, -1.1646,  0.2829,  0.3324]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0764061901718378
step:  22
running loss:  0.0489275540987199

Train Steps: 22/90  Loss: 0.0489 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4221, -0.4916,  1.3856, -0.8910, -0.5794, -0.8885,  0.3294,  0.2227],
        [ 0.3831, -0.5018,  1.5959,  0.2377, -0.1456, -0.1022,  0.0904,  0.2351],
        [ 0.6868, -0.3415,  1.8932, -0.6819, -0.1232, -1.1595,  0.8876,  0.1838],
        [ 0.5910, -0.4053,  1.6661, -0.5671, -0.6732, -0.4688,  0.3958,  0.1051],
        [ 0.2762, -0.5875,  1.6663,  0.0127, -0.2104, -0.0351,  0.2161,  0.1858],
        [ 0.2888, -0.6276,  1.7013,  0.0176, -0.4367, -0.1943,  0.6267,  0.1648],
        [ 0.4352, -0.4806,  1.5642, -0.6004, -0.6763, -0.3811,  0.2263,  0.1577],
        [ 0.2547, -0.6514,  1.8138, -0.4008, -0.4382,  0.1134,  0.4997,  0.0756]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.6207, -0.4466,  1.7326,  0.1621, -0.5480, -0.1073,  0.9704,
           0.1608],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0940845366567373
step:  23
running loss:  0.04756889289811901
Train Steps: 23/90  Loss: 0.0476 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4754, -0.4291,  0.9876, -0.9167, -0.4275, -0.9420,  0.2557,  0.2084],
        [ 0.5949, -0.3673,  0.9835, -0.8483, -0.4139, -1.0030,  0.3359,  0.2510],
        [-1.5239, -1.7801,  1.4724, -0.5498, -0.4969, -0.6206,  0.1061,  0.2190],
        [ 1.0447, -0.0863,  1.6853, -0.6476, -0.2820, -0.6336,  0.6414,  0.1602],
        [ 0.7545, -0.2793,  1.3460, -0.7836, -0.4708, -0.6146,  0.4870,  0.2678],
        [ 0.8902, -0.1837,  1.6729, -0.4024, -0.5099, -0.6107,  0.3860,  0.1088],
        [ 0.6083, -0.3687,  1.9450,  0.3126, -0.4421,  0.1083,  0.5850,  0.1294],
        [ 0.5531, -0.4151,  1.8876,  0.2921, -0.2572,  0.2739,  0.4322,  0.0999]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5790, -0.4031,  1.6915, -0.9564, -0.4152, -1.1063,  0.4425,
           0.2528],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0574, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0574, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1515279468148947
step:  24
running loss:  0.04798033111728728
Train Steps: 24/90  Loss: 0.0480 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6289, 0.4081, 0.8720, 0.3487, 0.3900, 0.3183, 0.6703, 0.5376],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5418, -0.4124,  1.8235, -0.1119, -0.3812,  0.1074,  0.7229,  0.1254],
        [ 0.6203, -0.3487,  1.6785, -0.5720, -0.4225, -0.8041,  0.6948,  0.1912],
        [-1.7598, -1.9331,  1.1522, -1.0600, -0.4270, -0.9675, -0.0287,  0.3160],
        [ 1.1561, -0.0339,  1.7192,  0.2305, -0.5978, -0.1364,  0.6343,  0.0543],
        [ 0.7348, -0.2362,  1.6043,  0.1218, -0.2008,  0.1591,  0.0928,  0.1539],
        [ 0.6645, -0.3278,  1.6605,  0.1640, -0.3562,  0.2098,  0.6699,  0.1587],
        [ 0.8523, -0.1380,  1.3972, -0.5103, -0.4060, -0.9285,  0.1484,  0.2288],
        [ 0.9301, -0.1348,  1.4233, -0.9516, -0.4670, -0.7360,  0.4224,  0.2452]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.6191, -0.4008,  1.7420, -0.6753, -0.4845, -0.8156,  0.8101,
           0.1974],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0297, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0297, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1811874378472567
step:  25
running loss:  0.04724749751389026
Train Steps: 25/90  Loss: 0.0472 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.1092, -0.0598,  1.7175, -0.5010, -0.7258, -0.0769,  0.5840,  0.1207],
        [ 0.7990, -0.2687,  1.0544, -0.9522, -0.4777, -1.0258,  0.1616,  0.2518],
        [ 0.6795, -0.3569,  1.8876,  0.3645, -0.4024,  0.2626,  0.5803,  0.1490],
        [ 0.8305, -0.2397,  1.7730, -0.4483, -0.3952, -0.6633,  0.7930,  0.1416],
        [ 1.0673, -0.0639,  1.7255,  0.5401, -0.5086, -0.2005,  0.5255,  0.2547],
        [ 0.7767, -0.2754,  1.1634, -1.0008, -0.5500, -0.8639,  0.2313,  0.1580],
        [-1.7676, -1.9638,  1.1525, -1.1372, -0.3661, -1.0775,  0.0339,  0.3052],
        [ 0.5077, -0.4275,  1.8660,  0.0588, -0.0673,  0.2542,  0.3526,  0.2022]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0428, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0428, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2239569071680307
step:  26
running loss:  0.047075265660308875
Train Steps: 26/90  Loss: 0.0471 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5252, -0.4151,  1.6701,  0.0175, -0.1096,  0.1072,  0.4594,  0.2154],
        [ 0.4531, -0.4956,  1.5928,  0.0686, -0.4088,  0.0361,  0.6365,  0.2085],
        [ 0.2903, -0.5712,  1.5617, -0.4637, -0.6604, -0.6051,  0.1524,  0.2101],
        [ 0.3504, -0.5716,  1.7172, -0.3043, -0.4345,  0.1715,  0.5451,  0.1113],
        [ 0.3246, -0.5665,  1.6040, -0.0296, -0.3346,  0.0444,  0.3115,  0.2818],
        [ 0.7752, -0.2857,  1.4962, -0.7700, -0.5900, -0.9204,  0.3944,  0.1760],
        [ 1.0919, -0.0991,  1.5440, -0.8091, -0.4919, -1.0663,  0.7723,  0.1144],
        [ 0.3260, -0.5237,  1.5657, -0.0825, -0.6330, -0.5299,  0.1789,  0.2688]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2489608246833086
step:  27
running loss:  0.046257808321604026
Train Steps: 27/90  Loss: 0.0463 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4644, -0.4701,  1.7021,  0.0982, -0.1020,  0.1515,  0.2594,  0.2304],
        [ 0.6701, -0.3498,  1.1743, -1.0372, -0.5572, -0.7721,  0.4599,  0.2256],
        [ 0.5408, -0.4026,  1.7313,  0.0126, -0.4380, -0.1173,  0.1420,  0.1929],
        [ 0.6182, -0.3839,  1.3790, -0.8283, -0.5608, -0.8546,  0.4777,  0.1537],
        [ 0.7149, -0.3733,  1.9399,  0.0853, -0.4579,  0.1658,  0.8671,  0.1258],
        [ 0.4842, -0.4774,  1.7424,  0.0258, -0.5271, -0.1801,  0.4708,  0.1866],
        [ 0.0581, -0.7235,  1.0430, -0.9465, -0.4204, -1.1660,  0.2980,  0.3445],
        [ 0.5249, -0.4811,  1.8443, -0.2301, -0.6742, -0.5042,  0.4780,  0.0843]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2669219318777323
step:  28
running loss:  0.04524721185277615
Train Steps: 28/90  Loss: 0.0452 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3292, -0.6127,  1.6667,  0.2913, -0.3799,  0.2480,  0.4851,  0.1940],
        [ 0.5045, -0.4484,  1.7734,  0.2048, -0.5201, -0.0983,  0.3444,  0.1669],
        [ 0.9764, -0.1649,  1.7343, -0.0197, -0.3502,  0.1187,  0.3336,  0.2008],
        [ 0.6445, -0.4002,  1.4565, -1.2108, -0.2055, -1.2694,  0.7895,  0.1524],
        [ 0.4371, -0.5265,  1.5985, -0.6078, -0.6801, -0.6091,  0.4320,  0.1052],
        [ 0.9756, -0.1525,  1.5874,  0.0874, -0.4362, -0.7796,  0.5513,  0.2914],
        [-0.1907, -0.9122,  1.2446, -1.0707, -0.4485, -0.9089,  0.2790,  0.2335],
        [ 0.3977, -0.5413,  1.5528, -0.5059, -0.7190, -0.1582,  0.2814,  0.1526]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [ 0.5435, -0.4045,  1.7557,  0.0851, -0.5307, -0.2844,  0.0172,
           0.1980],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1221, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1221, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3889758083969355
step:  29
running loss:  0.04789571753092881
Train Steps: 29/90  Loss: 0.0479 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6447, -0.3391,  1.0203, -1.0295, -0.2438, -1.3132,  0.3005,  0.3568],
        [ 0.7181, -0.3352,  1.7661, -0.0676, -0.5545,  0.0418,  0.3674,  0.1823],
        [ 0.3253, -0.6027,  1.8249, -0.0198, -0.5174,  0.2183,  0.4973,  0.1816],
        [ 1.0088, -0.1655,  1.8082, -0.0407, -0.3024,  0.0897,  0.3959,  0.1048],
        [ 0.6614, -0.4317,  1.8519, -0.5815, -0.5667, -0.8422,  0.6848,  0.1938],
        [-0.8125, -1.3321,  1.0198, -1.1514, -0.5100, -1.2320,  0.2646,  0.2864],
        [ 0.6633, -0.3855,  1.5774, -0.5996, -0.7283, -0.3927,  0.4222,  0.1267],
        [ 0.8054, -0.3088,  1.6503,  0.4464, -0.5051, -0.2037,  0.5452,  0.1913]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1010e-01, -3.1524e-01,  1.0166e+00, -7.5396e-01, -2.2633e-02,
          -1.4468e+00,  2.8226e-01,  5.7018e-01],
         [ 5.3684e-01, -4.4057e-01,  1.7730e+00, -1.7660e-01, -5.2494e-01,
          -5.3426e-02,  2.3141e-01,  3.4688e-01],
         [ 5.7760e-01, -4.4842e-01,  1.8249e+00, -1.8430e-01, -5.4226e-01,
           1.1594e-01,  5.5473e-01,  1.9292e-01],
         [ 5.2494e-01, -4.4734e-01,  1.7326e+00, -9.1917e-02, -2.0162e-01,
           1.5443e-01,  1.7328e-01,  4.1158e-02],
         [ 5.7921e-01, -4.0523e-01,  1.8214e+00, -6.5874e-01, -5.3842e-01,
          -8.9239e-01,  4.3812e-01,  2.4425e-01],
         [-2.2859e+00, -2.2859e+00,  9.4385e-01, -9.9666e-01, -4.6143e-01,
          -1.1851e+00,  2.4679e-01,  4.0188e-01],
         [ 5.2061e-01, -4.6028e-01,  1.4670e+00, -4.7683e-01, -6.5774e-01,
          -3.9985e-01,  1.8356e-01,  2.0831e-03],
         [ 5.6801e-01, -4.5619e-01,  1.5697e+00,  4.9469e-01, -4.9038e-01,
          -1.5026e-01,  3.5357e-01,  1.9563e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0670, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0670, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4559749905019999
step:  30
running loss:  0.048532499683399996

Train Steps: 30/90  Loss: 0.0485 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3969, -0.5640,  1.6768,  0.0966, -0.4565, -0.4329,  0.6561,  0.2496],
        [ 0.2968, -0.6093,  1.6604, -0.1043, -0.5758, -0.1632,  0.3509,  0.3169],
        [ 0.7539, -0.3650,  1.8065, -0.1882, -0.5726, -0.0869,  0.6342,  0.1433],
        [ 0.2691, -0.5931,  1.1348, -1.0432, -0.6014, -1.0747,  0.2123,  0.2751],
        [ 0.8217, -0.2588,  1.6736, -0.1274, -0.1709, -0.0524,  0.2523,  0.2500],
        [ 0.5199, -0.5038,  1.1993, -1.2389, -0.5359, -1.1787,  0.5091,  0.2795],
        [ 0.3096, -0.5846,  1.7719, -0.4621, -0.6384, -0.5422,  0.2241,  0.1382],
        [ 0.4792, -0.4978,  1.7307,  0.2366, -0.4688, -0.1269,  0.5286,  0.1288]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4763062540441751
step:  31
running loss:  0.04762278238852178
Train Steps: 31/90  Loss: 0.0476 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2273, -0.6596,  1.1092, -0.9489, -0.6768, -0.8663,  0.0910,  0.2431],
        [ 0.7486, -0.3217,  1.6883,  0.0425, -0.3411, -0.1704,  0.2981,  0.2276],
        [ 0.5208, -0.4361,  1.6414,  0.4044, -0.4322, -0.2129,  0.3308,  0.3269],
        [-0.0311, -0.8324,  1.0396, -1.3393, -0.3552, -1.6871,  0.3319,  0.1816],
        [ 0.7902, -0.3247,  1.8514, -0.2893, -0.5331, -0.0267,  0.5042,  0.1592],
        [ 0.3829, -0.5580,  1.7809,  0.2276, -0.5510, -0.3927,  0.5745,  0.2348],
        [ 0.6664, -0.3745,  1.8520, -0.2423, -0.4796,  0.2054,  0.6264,  0.1599],
        [ 0.4054, -0.5725,  1.5891, -0.7661, -0.6209, -0.6981,  0.5075,  0.3368]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4978971872478724
step:  32
running loss:  0.04680928710149601
Train Steps: 32/90  Loss: 0.0468 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6682, -0.3635,  1.1771, -0.8218, -0.3968, -0.9152,  0.4136,  0.3601],
        [ 0.6833, -0.3600,  1.7315, -0.4808, -0.6057, -0.7120,  0.4325,  0.1391],
        [-1.7206, -1.9316,  1.4490, -0.7641, -0.6125, -0.7112,  0.2333,  0.2175],
        [ 0.4376, -0.4658,  1.5066, -0.4000, -0.4101, -0.9178,  0.2045,  0.2454],
        [ 0.2897, -0.5951,  1.3823, -0.8484, -0.4510, -0.7861,  0.5288,  0.2703],
        [ 1.0572, -0.1334,  1.7365,  0.1202, -0.3583,  0.3940,  0.6201,  0.1901],
        [ 1.1275, -0.1140,  1.7753,  0.0943, -0.6044, -0.1970,  0.5039,  0.1713],
        [ 0.6546, -0.3253,  1.1122, -0.6033, -0.3702, -0.9839,  0.1899,  0.3367]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0360, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0360, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.533901834860444
step:  33
running loss:  0.04648187378364982
Train Steps: 33/90  Loss: 0.0465 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1480, -0.7081,  1.4007, -0.5825, -0.5700, -1.0408,  0.2384,  0.2237],
        [ 0.5896, -0.4433,  1.4925, -0.8253, -0.5779, -0.3485,  0.6271,  0.2747],
        [ 0.3425, -0.5901,  1.0766, -0.9527, -0.5053, -1.1356,  0.2093,  0.2348],
        [ 0.8501, -0.2678,  1.8594,  0.1508, -0.2696,  0.3967,  0.5798,  0.2531],
        [ 0.2669, -0.6123,  1.8149, -0.1087, -0.3577, -0.8990,  0.6010,  0.2930],
        [ 0.7211, -0.3709,  1.6834, -0.3010, -0.6311, -0.5038,  0.3394,  0.2056],
        [ 0.0754, -0.7388,  1.3125, -0.8194, -0.4243, -1.1414,  0.2379,  0.2833],
        [ 0.3136, -0.6088,  1.6698, -0.2275, -0.5166, -0.0057,  0.3620,  0.2574]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.5783, -0.4216,  1.6847, -0.5078, -0.6732, -0.5377,  0.4752,
           0.0839],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5591852515935898
step:  34
running loss:  0.04585838975275264

Train Steps: 34/90  Loss: 0.0459 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3723, -0.5713,  1.5412, -1.1410, -0.4123, -1.2833,  0.7458,  0.2572],
        [-0.0439, -0.7983,  1.3700, -0.6209, -0.6206, -1.1788,  0.1694,  0.3199],
        [ 0.4568, -0.5009,  1.5959, -0.0868, -0.5835, -0.4344,  0.1355,  0.2190],
        [ 0.3854, -0.5706,  1.7432, -0.5431, -0.6401, -0.9886,  0.6589,  0.2581],
        [ 0.6753, -0.3385,  1.6879, -0.1744, -0.3901,  0.1000,  0.3988,  0.2561],
        [ 0.6335, -0.3926,  1.5830, -0.1774, -0.4380, -0.2220,  0.5967,  0.2536],
        [ 0.2948, -0.5686,  1.6185, -0.0778, -0.3593, -0.0700,  0.2592,  0.2595],
        [ 0.4754, -0.4777,  1.6022, -0.0768, -0.2555, -0.0874,  0.2974,  0.2777]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0343, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.593443851917982
step:  35
running loss:  0.04552696719765663
Train Steps: 35/90  Loss: 0.0455 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1774, -0.6739,  1.3619, -1.0813, -0.2807, -1.6227,  0.5180,  0.2143],
        [ 0.3338, -0.5876,  1.7390, -0.0251, -0.5067, -0.1704,  0.4971,  0.2085],
        [ 0.4705, -0.4790,  1.7364, -0.0638, -0.3783,  0.0956,  0.4293,  0.2739],
        [ 0.6925, -0.3200,  1.7505, -0.1045, -0.3952,  0.1059,  0.3062,  0.2407],
        [ 0.6138, -0.3833,  1.7019, -0.2001, -0.2819,  0.0471,  0.4653,  0.3456],
        [ 0.4023, -0.5554,  1.5965, -0.7829, -0.4790, -1.2861,  0.6305,  0.2734],
        [ 0.3821, -0.5534,  1.6308, -0.1025, -0.5651, -0.0953,  0.3352,  0.2354],
        [ 0.2864, -0.6015,  1.1239, -0.9904, -0.6295, -1.1959,  0.0964,  0.2094]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0277, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0277, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6211165934801102
step:  36
running loss:  0.045031016485558614
Train Steps: 36/90  Loss: 0.0450 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3947, -0.4847,  1.5870, -0.3033, -0.5490, -0.3614,  0.0847,  0.3221],
        [ 0.1355, -0.6723,  1.1828, -1.0753, -0.4606, -1.4371,  0.2556,  0.1990],
        [ 0.5287, -0.4141,  1.7355, -0.2123, -0.3593,  0.2886,  0.3807,  0.2076],
        [ 0.3074, -0.5518,  1.6790, -0.8450, -0.1968, -1.2325,  0.5182,  0.1985],
        [ 0.5691, -0.4298,  1.5528, -0.9136, -0.3392, -1.1796,  0.6582,  0.2453],
        [ 0.5131, -0.4907,  1.6979,  0.1381, -0.5536, -0.2265,  0.5239,  0.1741],
        [ 0.5242, -0.4441,  1.7725, -0.1746, -0.4777,  0.0534,  0.4184,  0.2524],
        [ 0.4037, -0.5380,  1.6122, -0.0100, -0.4977, -0.0729,  0.4697,  0.2294]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5707, -0.4189,  1.2707, -1.2467, -0.4095, -1.3082,  0.3758,
           0.0928],
         [ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0234, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0234, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6445499509572983
step:  37
running loss:  0.04444729597181887
Train Steps: 37/90  Loss: 0.0444 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6100, 0.4071, 0.7601, 0.3444, 0.3400, 0.4117, 0.5625, 0.5617],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1872, -0.6722,  1.8496, -0.0055, -0.4651, -0.0681,  0.4674,  0.1633],
        [ 0.4701, -0.4734,  1.5983, -1.1720, -0.0912, -1.0880,  0.6450,  0.1887],
        [ 0.2988, -0.5591,  1.3431, -0.8010, -0.6583, -0.3453,  0.2976,  0.2991],
        [ 0.4385, -0.4926,  1.5840, -0.5594, -0.6529, -0.5741,  0.2479,  0.1788],
        [ 0.5675, -0.4378,  1.8293,  0.2816, -0.5209, -0.2343,  0.4806,  0.1298],
        [ 0.4914, -0.4685,  1.6776, -0.5615, -0.5379, -0.7593,  0.4647,  0.1668],
        [ 0.6671, -0.3534,  1.2841, -1.0860, -0.1890, -1.3536,  0.4186,  0.2550],
        [ 0.5687, -0.3997,  1.7216,  0.1144, -0.1886,  0.1014,  0.2823,  0.2538]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5318, -0.4056,  1.2249, -0.6949, -0.7155, -0.3844,  0.3122,
           0.3084],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6591525804251432
step:  38
running loss:  0.04366191001118798
Train Steps: 38/90  Loss: 0.0437 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.9073e-01, -3.3128e-01,  1.5764e+00, -1.0210e+00, -4.4448e-01,
         -1.1284e+00,  5.1971e-01,  9.0985e-02],
        [ 7.7653e-01, -2.6876e-01,  1.7526e+00,  9.8295e-04, -1.8860e-01,
         -1.1193e-01,  3.4547e-01,  1.6992e-01],
        [ 8.5491e-01, -2.1427e-01,  1.9309e+00, -2.1968e-01, -3.7515e-01,
          3.5782e-01,  5.1594e-01,  1.0342e-01],
        [ 5.4454e-01, -4.1243e-01,  1.8518e+00, -1.7703e-01, -1.7207e-01,
         -6.9722e-02,  5.0051e-01,  1.7933e-01],
        [ 8.4427e-01, -2.5028e-01,  1.1858e+00, -1.1193e+00, -4.6734e-01,
         -1.2457e+00,  5.1291e-01,  1.8033e-01],
        [-1.3002e+00, -1.5918e+00,  1.1560e+00, -1.2955e+00, -2.7973e-01,
         -1.4764e+00,  3.8677e-01,  2.7004e-01],
        [ 6.1068e-01, -3.7035e-01,  1.7309e+00, -1.0349e-02, -3.6074e-01,
          1.1573e-01,  3.6811e-01,  1.5947e-01],
        [ 6.7004e-01, -2.9821e-01,  1.7256e+00,  2.0917e-01, -6.2269e-01,
         -4.3491e-01,  3.2126e-01,  2.6025e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7016998585313559
step:  39
running loss:  0.0436333297059322
Train Steps: 39/90  Loss: 0.0436 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6086, 0.3998, 0.8788, 0.4450, 0.4025, 0.4650, 0.5306, 0.5103],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4242, -0.5076,  1.9139, -0.3800, -0.3886, -0.0722,  0.5852,  0.0703],
        [ 0.6892, -0.3367,  1.8315, -0.3075, -0.3468, -0.2121,  0.3945,  0.1449],
        [ 0.5346, -0.4161,  1.7029, -0.1029, -0.4170, -0.3621,  0.4635,  0.3057],
        [ 0.5330, -0.4363,  1.8144, -0.1320, -0.4021, -0.2648,  0.4028,  0.0935],
        [ 0.4335, -0.4818,  1.7706, -0.5227, -0.3796, -0.3209,  0.2563,  0.1315],
        [ 0.5602, -0.4312,  1.8075, -0.1298, -0.2862, -0.0801,  0.4577,  0.1479],
        [ 0.6446, -0.3702,  1.8362, -0.1281, -0.4253, -0.1565,  0.6927,  0.0867],
        [ 0.4386, -0.4931,  1.0271, -1.2705, -0.3864, -1.4639,  0.2277,  0.2080]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4247,  1.8711, -0.0842, -0.5307,  0.1005,  0.6771,
          -0.0821],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.5253, -0.4392,  1.7730, -0.2305, -0.4268, -0.1381,  0.1651,
           0.0712],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7223987337201834
step:  40
running loss:  0.04305996834300459
Train Steps: 40/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 9.7662e-01, -1.1745e-01,  1.6946e+00, -1.8736e-02, -2.7298e-01,
          1.1961e-01,  6.4769e-01,  1.2871e-01],
        [ 8.3737e-01, -2.2624e-01,  1.7305e+00, -1.1073e-03, -3.4214e-01,
         -1.4048e-01,  4.8221e-01,  1.4542e-01],
        [ 6.4155e-01, -3.4631e-01,  1.7510e+00, -1.0764e-01, -2.6191e-01,
         -6.1281e-02,  3.9667e-01,  7.9823e-02],
        [ 7.0425e-01, -2.9291e-01,  1.8040e+00, -2.7007e-01, -4.8139e-01,
         -3.5236e-01,  3.2093e-01,  1.1178e-01],
        [ 8.2886e-01, -2.0781e-01,  1.6514e+00,  6.9484e-02, -3.7936e-01,
         -2.4129e-02,  2.7950e-01,  1.7206e-01],
        [-1.6621e+00, -1.8554e+00,  1.2965e+00, -1.3455e+00, -3.9351e-01,
         -1.0603e+00,  1.3691e-01,  1.4077e-01],
        [ 7.7488e-01, -2.3785e-01,  1.8051e+00, -5.3855e-01, -4.5368e-01,
         -4.5824e-01,  4.3108e-01,  2.1553e-01],
        [ 8.9303e-01, -1.7966e-01,  1.6875e+00, -8.4745e-01, -2.5337e-01,
         -1.0233e+00,  7.5601e-01,  7.6916e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0354, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0354, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.757778873667121
step:  41
running loss:  0.04287265545529563

Train Steps: 41/90  Loss: 0.0429 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5364, -0.4022,  1.7602, -0.2904, -0.5344, -0.4302,  0.1283,  0.1212],
        [ 0.6020, -0.3860,  1.1146, -1.0672, -0.2285, -1.3674,  0.2108,  0.0569],
        [ 0.5184, -0.4487,  1.8782,  0.1548, -0.1674,  0.3226,  0.6550,  0.1418],
        [ 0.6975, -0.3259,  1.4950, -0.8409, -0.2680, -0.8396,  0.5728,  0.1666],
        [ 0.5019, -0.4184,  1.5995, -0.2894, -0.3780, -0.9116,  0.2311,  0.1745],
        [ 0.4203, -0.4804,  1.6434, -0.4923, -0.5403, -0.3176,  0.3912,  0.0179],
        [ 0.0798, -0.6898,  1.6994, -0.5779, -0.3896,  0.1759,  0.8041,  0.1626],
        [ 0.5689, -0.4070,  1.7062, -0.3296, -0.4752, -0.0741,  0.4950,  0.0697]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5384, -0.4393,  0.9762, -1.1851, -0.4210, -1.3852,  0.1712,
           0.0201],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.778610149398446
step:  42
running loss:  0.042347860699963005
Train Steps: 42/90  Loss: 0.0423 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4099, 0.8738, 0.4383, 0.3788, 0.5483, 0.5605, 0.5019],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3502, -0.5350,  1.8028, -0.1968, -0.4146,  0.5732,  0.5760,  0.0674],
        [ 0.7001, -0.2969,  1.4979, -0.3223, -0.5520, -0.0171,  0.1787,  0.0619],
        [ 0.5623, -0.3918,  1.8224, -0.2495, -0.3759, -0.4400,  0.4877,  0.2254],
        [ 0.4395, -0.4990,  1.0913, -1.0361, -0.3294, -1.1480,  0.3250,  0.1471],
        [ 0.3808, -0.5393,  1.5022, -0.8524, -0.3207, -0.9561,  0.5060,  0.0491],
        [ 0.5369, -0.4363,  1.2601, -0.9757, -0.3010, -1.1186,  0.2567,  0.0580],
        [ 0.4902, -0.4967,  1.9258,  0.1589, -0.4215,  0.2360,  0.8296,  0.0872],
        [ 0.4893, -0.4287,  1.6650, -0.4043, -0.3079, -0.8211,  0.2554,  0.1332]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5597, -0.3928,  1.7499, -0.2613, -0.5365,  0.2468,  0.3028,
           0.0321],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8074938002973795
step:  43
running loss:  0.04203473954179952
Train Steps: 43/90  Loss: 0.0420 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7905, -0.2252,  1.6335, -0.0263, -0.6232, -0.1224,  0.1979,  0.1167],
        [ 0.7494, -0.2658,  1.4417, -1.1422, -0.2417, -1.3671,  0.5485,  0.0467],
        [-1.5169, -1.7478,  1.5878, -1.2802, -0.0359, -1.0986,  0.6142,  0.1493],
        [ 0.7136, -0.3303,  1.8095,  0.1998, -0.4240,  0.2751,  0.4201,  0.1101],
        [ 0.9599, -0.1700,  1.7080,  0.1720, -0.4273,  0.1289,  0.6565,  0.1152],
        [ 0.6922, -0.3478,  1.7639, -0.0507, -0.5437,  0.0132,  0.4204,  0.0642],
        [ 0.7462, -0.2894,  1.2072, -1.1087, -0.6579, -0.7699,  0.3299,  0.0590],
        [ 0.7810, -0.2467,  1.7174,  0.1712, -0.2060,  0.1815,  0.2094,  0.1444]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0319, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0319, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8393607195466757
step:  44
running loss:  0.041803652716969904
Train Steps: 44/90  Loss: 0.0418 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4716, -0.4719,  1.7441, -0.2225, -0.5760, -0.4219,  0.7062,  0.1232],
        [ 0.5111, -0.4207,  1.4883, -0.2494, -0.6212, -0.3269,  0.2111,  0.1063],
        [ 0.5906, -0.4036,  1.6814, -0.0946, -0.4266, -0.0143,  0.4353,  0.0676],
        [ 0.7047, -0.3238,  1.6344, -1.1320, -0.3182, -1.2865,  0.5688,  0.0724],
        [ 0.4475, -0.5090,  1.6610, -0.0321, -0.5360, -0.1445,  0.3971,  0.0563],
        [ 0.3423, -0.5918,  1.6331, -0.1741, -0.3868,  0.2066,  0.6619,  0.1233],
        [ 0.3358, -0.5321,  1.5918, -0.2288, -0.3002, -0.1307,  0.2582,  0.1861],
        [ 0.6290, -0.3624,  1.6425, -0.1294, -0.1318, -0.0388,  0.1791,  0.0794]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0137, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0137, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8530531292781234
step:  45
running loss:  0.04117895842840274
Train Steps: 45/90  Loss: 0.0412 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.0062, -2.1088,  1.2378, -1.1293, -0.6208, -0.9271,  0.1880,  0.1063],
        [ 0.6630, -0.3410,  1.7287,  0.0418, -0.1805,  0.1816,  0.3918,  0.1792],
        [ 0.6831, -0.3443,  1.8144, -0.0936, -0.5714,  0.2910,  0.6572,  0.0492],
        [ 0.7003, -0.3176,  1.2593, -1.1093, -0.1448, -1.5150,  0.5180,  0.0846],
        [ 0.9637, -0.1827,  1.7292,  0.3907, -0.4397,  0.2822,  0.5706,  0.0913],
        [ 1.0779, -0.0850,  1.2507, -0.9365, -0.5781, -0.9499,  0.3741,  0.0290],
        [ 0.6943, -0.2916,  1.5082, -0.5144, -0.6949, -0.6832,  0.2075,  0.1789],
        [ 0.9264, -0.1761,  1.7016,  0.2059, -0.1610,  0.0985,  0.3311,  0.1391]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.5999, -0.4236,  1.2880, -1.4083, -0.0630, -1.6393,  0.4584,
          -0.0208],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8797959005460143
step:  46
running loss:  0.04086512827273944
Train Steps: 46/90  Loss: 0.0409 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4136, -0.5211,  1.6518, -0.5711, -0.4877, -1.1473,  0.1868,  0.0327],
        [ 0.0622, -0.7807,  1.6220,  0.0317, -0.5489, -0.1672,  0.4488,  0.2454],
        [ 0.1679, -0.6337,  1.3389, -0.7607, -0.6656, -0.5568,  0.2576,  0.1309],
        [ 0.6829, -0.3497,  1.8155, -0.0984, -0.4948,  0.0420,  0.4061,  0.0627],
        [ 0.4903, -0.4681,  1.6231,  0.1573, -0.1295, -0.0120,  0.1925,  0.1658],
        [ 0.7352, -0.3283,  1.3336, -1.2855, -0.3736, -1.1986,  0.5552,  0.1144],
        [ 0.6767, -0.3760,  1.6842,  0.2048, -0.3348,  0.2051,  0.7426,  0.0626],
        [ 0.5668, -0.4108,  1.6528, -0.3251, -0.5824,  0.0828,  0.4796,  0.0241]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8977786405012012
step:  47
running loss:  0.040378268946834064
Train Steps: 47/90  Loss: 0.0404 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6192, 0.3980, 0.7078, 0.2750, 0.4250, 0.2100, 0.5450, 0.5783],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6224, -0.3776,  1.7414, -0.8322, -0.2218, -0.8424,  0.5022,  0.0806],
        [ 0.4926, -0.5226,  1.6715,  0.2126, -0.5110,  0.1479,  0.4177,  0.2301],
        [ 0.5360, -0.4621,  1.0516, -1.1743, -0.4601, -0.9034,  0.2978,  0.1392],
        [ 0.8273, -0.2386,  1.7271,  0.1335, -0.6301, -0.1857,  0.1177,  0.0842],
        [ 1.0371, -0.1818,  1.8480,  0.4197, -0.5808, -0.2250,  0.4951,  0.0019],
        [-1.5094, -1.7850,  1.0574, -1.0092, -0.3379, -0.9945,  0.2675,  0.1895],
        [ 0.6967, -0.3592,  1.9175, -0.3306, -0.5247, -0.1906,  0.6084,  0.0473],
        [ 0.7549, -0.3261,  1.1601, -0.8692, -0.4138, -0.8388,  0.4756,  0.2019]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5742, -0.4474,  0.9834, -1.0159, -0.3229, -1.3159,  0.2314,
           0.3854],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0243153674528003
step:  48
running loss:  0.04217323682193334
Train Steps: 48/90  Loss: 0.0422 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5666, -0.4526,  1.4781, -0.7345, -0.4664, -0.7452,  0.4017,  0.1356],
        [ 0.3569, -0.5902,  1.4038, -0.7881, -0.1524, -1.2387,  0.5315,  0.1132],
        [ 0.8075, -0.3212,  1.7756, -0.3874, -0.5380, -0.8027,  0.3158,  0.0359],
        [ 0.4889, -0.5159,  1.4719, -0.5841, -0.6540, -0.5052,  0.1248,  0.1664],
        [ 0.3145, -0.6566,  1.7905,  0.4144, -0.3301,  0.5480,  0.6483,  0.1989],
        [ 0.2731, -0.6563,  1.5606, -0.4530, -0.5923, -0.3571,  0.4636,  0.1154],
        [ 0.4306, -0.5213,  1.4185, -0.5322, -0.6252, -0.2094,  0.3687,  0.1786],
        [ 0.3540, -0.5800,  1.2383, -0.7893, -0.4970, -0.7637,  0.4088,  0.1234]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.067306305281818
step:  49
running loss:  0.04218992459758812

Train Steps: 49/90  Loss: 0.0422 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5385, -0.4836,  1.2245, -0.9226, -0.4233, -1.0781,  0.2606,  0.1285],
        [ 0.6310, -0.4203,  1.2385, -0.8954, -0.5206, -0.7738,  0.6003,  0.1909],
        [ 0.7104, -0.3214,  1.5186, -0.3326, -0.2686, -0.7922,  0.3363,  0.3189],
        [ 0.8336, -0.3251,  1.8312, -0.2580, -0.6616, -0.3110,  0.6699,  0.0044],
        [ 0.6117, -0.4478,  1.7861,  0.4758, -0.2638,  0.4468,  0.2286,  0.1295],
        [ 0.6076, -0.4409,  1.5538, -0.6097, -0.7504, -0.3698,  0.2756,  0.2015],
        [ 0.5570, -0.4618,  1.5436, -0.8213, -0.4644, -0.8386,  0.4805,  0.1029],
        [-1.1730, -1.5919,  0.9783, -1.0332, -0.4394, -1.1426,  0.3340,  0.2623]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0568, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0568, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1241164905950427
step:  50
running loss:  0.04248232981190085
Train Steps: 50/90  Loss: 0.0425 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7524, -0.3048,  1.7285,  0.0559, -0.5789, -0.3614,  0.4482,  0.2964],
        [ 0.6012, -0.4074,  1.7178, -0.2578, -0.3618,  0.1045,  0.5429,  0.2140],
        [ 0.7497, -0.3409,  1.7492,  0.1629, -0.3651,  0.2797,  0.8453,  0.2304],
        [-1.1396, -1.5549,  1.0833, -1.2028, -0.4997, -1.1879,  0.1421,  0.2040],
        [ 0.7176, -0.3714,  1.7701, -0.4835, -0.6730, -0.7595,  0.3634,  0.0367],
        [ 0.5878, -0.4171,  1.6346,  0.3001, -0.3926, -0.0520,  0.1840,  0.1566],
        [ 0.6174, -0.4194,  1.3560, -1.0567, -0.6214, -1.0043,  0.3839,  0.2182],
        [ 0.4703, -0.5073,  1.3387, -1.1426, -0.4838, -1.0649,  0.5185,  0.2052]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0363, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0363, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1603687768802047
step:  51
running loss:  0.04236017209569029
Train Steps: 51/90  Loss: 0.0424 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7951, -0.3181,  1.3667, -0.9975, -0.6434, -0.7699,  0.4930,  0.1455],
        [ 0.6817, -0.3643,  1.6849, -0.0330, -0.1792, -0.0081,  0.2371,  0.2157],
        [ 0.5805, -0.4193,  1.4511, -0.7298, -0.5682, -1.1159,  0.2997,  0.2842],
        [ 0.7572, -0.3580,  1.8490, -0.1689, -0.4425,  0.1329,  0.8386,  0.1823],
        [-1.5188, -1.8176,  1.2768, -1.1645, -0.4267, -1.1418,  0.3316,  0.2596],
        [ 0.8045, -0.2769,  1.7545, -0.1248, -0.5806, -0.3896,  0.5359,  0.3604],
        [ 0.3195, -0.5944,  1.3143, -1.0067, -0.6936, -0.9331,  0.1250,  0.2017],
        [ 0.8338, -0.3000,  1.6501,  0.2392, -0.5147, -0.1556,  0.5634,  0.1801]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0298, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0298, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1901937695220113
step:  52
running loss:  0.04211911095234637
Train Steps: 52/90  Loss: 0.0421 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2910, -0.6319,  0.8737, -1.2362, -0.5089, -1.1692,  0.2117,  0.3007],
        [ 0.5419, -0.4641,  1.7910, -0.0319, -0.4816,  0.1344,  0.4855,  0.1718],
        [ 0.4724, -0.5371,  1.8747, -0.3285, -0.5541, -0.7206,  0.4187,  0.2375],
        [ 0.4847, -0.4866,  1.0764, -1.1323, -0.4219, -1.1624,  0.3798,  0.4126],
        [ 0.3838, -0.5823,  1.7736, -0.6931, -0.6253, -0.8531,  0.3493,  0.2185],
        [ 0.4651, -0.5428,  1.7617,  0.0150, -0.6195,  0.0082,  0.4829,  0.1659],
        [-0.0310, -0.8469,  1.2318, -1.2809, -0.3572, -1.3031,  0.5550,  0.2932],
        [ 0.6677, -0.3943,  1.7676,  0.1537, -0.4608,  0.2785,  0.6763,  0.2784]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4827e-01, -3.9908e-01,  8.0300e-01, -1.2159e+00, -5.0185e-01,
          -1.1928e+00,  2.6243e-01,  3.8516e-01],
         [ 6.0716e-01, -4.2502e-01,  1.8249e+00, -7.2363e-03, -4.0370e-01,
           1.0824e-01,  6.7296e-01, -8.8090e-02],
         [ 6.0935e-01, -3.9469e-01,  1.8885e+00, -2.9977e-01, -5.7691e-01,
          -6.7698e-01,  6.0670e-01,  1.0054e-01],
         [ 5.6871e-01, -4.0878e-01,  1.0397e+00, -1.1466e+00, -3.1132e-01,
          -1.1928e+00,  4.6813e-01,  5.8553e-01],
         [ 5.7921e-01, -4.0523e-01,  1.8214e+00, -6.5874e-01, -5.3842e-01,
          -8.9239e-01,  4.3812e-01,  2.4425e-01],
         [ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.9169e-01, -3.8607e-01,  1.0455e+00, -1.3698e+00, -2.8822e-01,
          -1.1928e+00,  6.0670e-01,  2.0831e-01],
         [ 6.4212e-01, -3.8157e-01,  1.7037e+00,  1.9292e-01, -4.0370e-01,
           2.3911e-01,  1.1861e+00,  2.2489e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0241, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0241, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2142448211088777
step:  53
running loss:  0.04177820417186562

Train Steps: 53/90  Loss: 0.0418 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 2.5260e-02, -7.6672e-01,  1.0277e+00, -1.2165e+00, -3.4002e-01,
         -1.3102e+00,  4.8023e-01,  3.9226e-01],
        [ 6.2153e-01, -4.3315e-01,  1.9337e+00,  1.7966e-03, -5.1253e-01,
          9.0811e-02,  5.9042e-01,  1.6422e-01],
        [ 4.9724e-01, -5.0812e-01,  1.6399e+00, -7.6851e-01, -6.8466e-01,
         -7.5338e-01,  3.2359e-01,  3.3033e-01],
        [ 6.1532e-01, -4.3510e-01,  1.4187e+00, -8.1107e-01, -6.2200e-01,
         -7.1508e-01,  4.0486e-01,  1.7140e-01],
        [ 3.6046e-01, -5.7041e-01,  1.3250e+00, -1.0281e+00, -6.1943e-01,
         -6.3158e-01,  4.3742e-01,  2.4319e-01],
        [ 3.0706e-01, -6.2405e-01,  1.9129e+00, -7.9856e-01, -4.4438e-01,
         -9.1659e-01,  7.7821e-01,  1.9522e-01],
        [ 5.9681e-01, -4.0429e-01,  1.6356e+00,  4.3390e-01, -3.5430e-01,
         -3.2069e-01,  4.2337e-01,  4.7371e-01],
        [ 2.7878e-01, -6.1629e-01,  1.1768e+00, -9.2799e-01, -6.1763e-01,
         -7.4626e-01,  2.4131e-01,  3.0193e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2317135045304894
step:  54
running loss:  0.04132802786167573
Train Steps: 54/90  Loss: 0.0413 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103],
        [0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3991, -0.5190,  1.6326, -0.1913, -0.3595, -0.1455,  0.4408,  0.2888],
        [ 0.2619, -0.6540,  1.8745, -0.3648, -0.5207, -0.9587,  0.7523,  0.2107],
        [ 0.3949, -0.5408,  0.8073, -1.4307, -0.5081, -1.3098,  0.3159,  0.3495],
        [ 0.3794, -0.5318,  1.4255, -1.1229, -0.7340, -0.7321,  0.3473,  0.2941],
        [ 0.3057, -0.5531,  1.3458, -1.0888, -0.5595, -1.1431,  0.3626,  0.4253],
        [ 0.6391, -0.3797,  1.6804,  0.1259, -0.4331, -0.0430,  0.4921,  0.3337],
        [ 0.5814, -0.4455,  1.7452, -0.0697, -0.6352, -0.1981,  0.7558,  0.1840],
        [ 0.3373, -0.5463,  1.6790, -0.1625, -0.2885, -0.1123,  0.2628,  0.2724]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.2730e-01, -4.2490e-01,  1.8654e+00, -6.1124e-02, -4.6721e-01,
          -6.6928e-01,  1.0910e+00,  1.9818e-01],
         [ 5.4827e-01, -3.9908e-01,  8.0300e-01, -1.2159e+00, -5.0185e-01,
          -1.1928e+00,  2.6243e-01,  3.8516e-01],
         [ 5.8863e-01, -3.7837e-01,  1.4554e+00, -9.0793e-01, -6.5774e-01,
          -4.8453e-01,  3.4395e-01,  7.1216e-02],
         [ 5.9348e-01, -3.5581e-01,  1.3284e+00, -6.9238e-01, -5.2494e-01,
          -9.6182e-01,  3.3533e-01,  3.0839e-01],
         [ 5.7419e-01, -3.7921e-01,  1.6460e+00,  3.0839e-01, -3.4596e-01,
           1.4673e-01,  4.1617e-01,  3.1609e-01],
         [ 6.0589e-01, -4.1768e-01,  1.8087e+00,  1.9408e-01, -4.8680e-01,
          -4.1391e-02,  8.0095e-01,  1.3848e-01],
         [ 5.7696e-01, -3.6243e-01,  1.7326e+00,  5.4350e-02, -1.4965e-01,
           3.2379e-01,  2.3775e-01,  1.1464e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0297, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0297, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.261423231102526
step:  55
running loss:  0.04111678602004593
Train Steps: 55/90  Loss: 0.0411 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6118, 0.4052, 0.8463, 0.3917, 0.3538, 0.3450, 0.5053, 0.5593],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0752, -0.7276,  1.4581, -0.7417, -0.6950, -0.7660,  0.0415,  0.3244],
        [ 0.3550, -0.5610,  1.6460, -0.5112, -0.6129, -0.5533,  0.4340,  0.2236],
        [ 0.4733, -0.4840,  1.6904, -0.1513, -0.3921, -0.0886,  0.5491,  0.2488],
        [ 0.5271, -0.4809,  1.5573,  0.0957, -0.5033, -0.2430,  0.6557,  0.2935],
        [ 0.3911, -0.4719,  1.0264, -1.1537, -0.1195, -1.2667,  0.3460,  0.4831],
        [ 0.4838, -0.4367,  1.6707, -0.3050, -0.5068, -0.9674,  0.4554,  0.3163],
        [ 0.3380, -0.5800,  1.6796, -0.6661, -0.6049, -0.2165,  0.6289,  0.3577],
        [ 0.7290, -0.3204,  1.6073, -0.8694, -0.6387, -0.6692,  0.6848,  0.1262]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5399, -0.4142,  1.6229, -0.4768, -0.6520, -0.6924,  0.0481,
           0.2972],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.296431795693934
step:  56
running loss:  0.04100771063739168
Train Steps: 56/90  Loss: 0.0410 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.5338, -1.0908,  1.0218, -1.2956, -0.2762, -1.3676,  0.3314,  0.2925],
        [ 0.7514, -0.3161,  1.7225, -0.0812, -0.4777, -0.1617,  0.6445,  0.1176],
        [ 0.6451, -0.3701,  1.8502, -0.3280, -0.4483, -0.7106,  0.7212,  0.2513],
        [ 0.7114, -0.2943,  1.5651, -0.8324, -0.6431, -0.5288,  0.6222,  0.2602],
        [ 0.7963, -0.2482,  1.6338, -0.7183, -0.6423, -0.4676,  0.5556,  0.3234],
        [-0.1757, -0.8331,  1.1903, -0.9809, -0.4011, -1.0549,  0.2312,  0.3846],
        [ 0.4617, -0.4524,  1.3170, -0.5441, -0.5445, -0.7966,  0.2700,  0.4307],
        [ 0.5571, -0.3778,  1.7054,  0.1239, -0.4832, -0.2008,  0.3696,  0.2623]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1399, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.1399, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.436326772905886
step:  57
running loss:  0.042742574963261164
Train Steps: 57/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.8910e-01, -4.9305e-01,  1.6736e+00, -1.0089e+00, -2.0297e-01,
         -1.2898e+00,  8.2985e-01,  3.0091e-01],
        [ 4.2471e-01, -4.7600e-01,  1.7696e+00, -1.4306e-01, -4.9965e-01,
         -9.5795e-02,  7.4937e-01,  2.1200e-01],
        [ 5.2550e-01, -4.1549e-01,  1.6856e+00, -5.4736e-01, -4.8786e-01,
         -3.7032e-01,  7.5352e-01,  2.1056e-01],
        [ 4.8281e-01, -4.3335e-01,  1.8100e+00,  1.3539e-03, -3.4686e-01,
          2.0120e-01,  5.2785e-01,  3.4740e-01],
        [ 4.8238e-01, -4.4421e-01,  1.1127e+00, -1.1223e+00, -4.4218e-01,
         -1.2524e+00,  3.8058e-01,  2.7940e-01],
        [ 2.9010e-01, -5.9548e-01,  1.1687e+00, -1.0469e+00, -6.2078e-01,
         -1.0666e+00,  3.2697e-01,  1.9013e-01],
        [ 3.8660e-01, -4.7169e-01,  1.3892e+00, -2.7819e-01, -6.6921e-01,
         -3.4179e-01, -8.3418e-02,  1.6513e-01],
        [ 4.1583e-01, -4.8280e-01,  1.3151e+00, -8.3128e-01, -5.0556e-01,
         -9.7859e-01,  4.4635e-01,  5.0129e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4578881757333875
step:  58
running loss:  0.04237738234023082
Train Steps: 58/90  Loss: 0.0424 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6272, 0.4045, 0.8538, 0.5900, 0.3750, 0.4417, 0.5989, 0.4649],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4276, -0.4216,  1.0481, -1.0719, -0.1652, -1.3034,  0.2338,  0.3338],
        [ 0.6741, -0.2671,  1.6596,  0.0128, -0.5760, -0.7280,  0.2549,  0.2385],
        [ 0.5957, -0.3851,  1.6734,  0.3216, -0.6498, -0.2558,  0.4546,  0.1138],
        [ 0.6606, -0.3073,  1.7693, -0.5237, -0.6310, -0.6105,  0.7902,  0.2340],
        [-0.8477, -1.3076,  1.6011, -1.1105,  0.0148, -1.0858,  0.9775,  0.3887],
        [ 0.6939, -0.2546,  1.6675, -0.2473, -0.4186,  0.2012,  0.3346,  0.2056],
        [ 0.5684, -0.3351,  1.5003, -1.0045, -0.4395, -0.9511,  0.5698,  0.2595],
        [ 0.5738, -0.3424,  1.1729, -1.0006, -0.6760, -0.5028,  0.3477,  0.2576]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.6109, -0.4177,  1.6575,  0.4393, -0.5538, -0.2459,  0.4805,
          -0.1385],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0630, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0630, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.520900216884911
step:  59
running loss:  0.04272712232008324
Train Steps: 59/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6314, 0.4107, 0.8750, 0.5100, 0.3788, 0.4900, 0.7121, 0.5864],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9893, -0.0856,  1.4816, -1.0489, -0.1731, -1.3726,  0.6884,  0.1718],
        [ 0.5411, -0.3862,  1.4689,  0.1822, -0.3924, -0.1881,  0.3981,  0.4081],
        [ 0.5717, -0.3800,  1.8185,  0.0153, -0.4474, -0.1558,  0.8028,  0.2387],
        [ 0.0362, -0.6552,  1.6265, -0.2109, -0.3773, -0.2945,  0.1722,  0.2111],
        [ 0.5384, -0.3899,  1.8012, -0.2197, -0.4780, -0.1419,  0.7585,  0.1865],
        [ 0.3051, -0.5194,  1.7123, -0.9239, -0.4580, -0.9475,  0.5561,  0.2275],
        [-0.0521, -0.7613,  1.2508, -1.1285, -0.5612, -0.7800,  0.2824,  0.3768],
        [ 0.6793, -0.2890,  1.6110, -0.4560, -0.6494, -0.4286,  0.3983,  0.0995]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.6306, -0.3888,  1.7557,  0.0697, -0.5365, -0.0226,  1.0033,
           0.4226],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0357, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0357, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5565678672865033
step:  60
running loss:  0.04260946445477506
Train Steps: 60/90  Loss: 0.0426 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6110, 0.4047, 0.8700, 0.4483, 0.3713, 0.3967, 0.5088, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7788, -0.2101,  1.7978, -0.4085, -0.6473, -0.3535,  0.1756,  0.1227],
        [ 0.8946, -0.1416,  1.6702, -0.9497,  0.0064, -1.1562,  0.9449,  0.2182],
        [ 0.9714, -0.1470,  1.8020,  0.1940, -0.4284,  0.0314,  0.6996,  0.1681],
        [-0.5611, -1.1197,  0.9617, -1.1811, -0.3930, -1.2175,  0.3303,  0.3160],
        [-1.0809, -1.4155,  0.9003, -1.1566, -0.3876, -1.1537,  0.2993,  0.4127],
        [ 0.6877, -0.3139,  1.9421,  0.1481, -0.5822, -0.3625,  0.5538,  0.1134],
        [ 0.7454, -0.2486,  1.7348, -0.7554, -0.2176, -0.6656,  0.9340,  0.1684],
        [ 0.8294, -0.1889,  1.6893, -0.1422, -0.6164, -0.2008,  0.1228,  0.2367]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6224, -0.4105,  1.9173, -0.7771, -0.1030, -0.7308,  1.1532,
           0.1875],
         [ 0.5363, -0.4168,  1.7326, -0.2151, -0.5711, -0.4537,  0.0640,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0806, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0806, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6371513130143285
step:  61
running loss:  0.04323198873793981

Train Steps: 61/90  Loss: 0.0432 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5904, -0.3481,  1.3853, -0.9300, -0.7038, -0.5478,  0.6628,  0.1901],
        [ 0.7472, -0.2219,  1.4910, -0.8652, -0.2222, -1.3944,  0.4443,  0.2165],
        [ 0.5629, -0.3763,  1.8600, -0.0448, -0.2762, -0.1915,  0.5234,  0.1410],
        [ 0.7760, -0.2245,  1.2375, -0.9950, -0.6542, -0.6808,  0.6083,  0.2506],
        [-2.2670, -2.2596,  1.1679, -1.1750, -0.4814, -1.3681,  0.2612,  0.2891],
        [ 0.9036, -0.1748,  1.7474,  0.1289, -0.1123, -0.3393,  0.3888,  0.2046],
        [ 0.9780, -0.1009,  1.8675, -0.0857, -0.2561, -0.0475,  0.7317,  0.1477],
        [ 0.9501, -0.1388,  1.8309, -0.0459, -0.2355,  0.0528,  0.6644,  0.2409]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0268, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0268, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6639770111069083
step:  62
running loss:  0.04296737114688562
Train Steps: 62/90  Loss: 0.0430 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3569, -0.4949,  1.6938, -0.3559, -0.2054,  0.1943,  0.5201,  0.1686],
        [ 0.4867, -0.4273,  1.7035, -0.3954, -0.6700, -0.4678,  0.2266,  0.1097],
        [ 0.6877, -0.3373,  1.6928,  0.1891, -0.4250, -0.0477,  0.4994,  0.1601],
        [-0.9558, -1.3822,  1.5410, -1.2279,  0.1464, -1.2743,  0.9212,  0.3460],
        [ 0.9958, -0.1204,  1.7140, -0.5015, -0.3964, -0.9068,  0.7189,  0.0435],
        [ 0.8597, -0.1777,  1.4339, -1.0562, -0.4009, -0.8427,  0.4997,  0.2891],
        [ 0.3033, -0.5074,  1.3019, -0.7391, -0.6111, -0.5300,  0.2686,  0.2457],
        [ 0.5942, -0.3914,  1.8203,  0.0827, -0.3343, -0.6801,  0.7941,  0.2058]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0702, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0702, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.7341925194486976
step:  63
running loss:  0.043399881261090435
Train Steps: 63/90  Loss: 0.0434 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8489, -0.2227,  1.7997, -0.5051, -0.4486, -0.5622,  0.6693,  0.2327],
        [ 0.2771, -0.5652,  1.6160, -0.3772, -0.4482, -0.3172,  0.3491,  0.1680],
        [ 0.1536, -0.6882,  1.8718, -0.3745, -0.4070,  0.1483,  0.8937,  0.1137],
        [ 0.5407, -0.3957,  1.7259, -0.1100, -0.5389, -0.6844,  0.4568,  0.2921],
        [ 0.3525, -0.5436,  0.8690, -1.2150, -0.4159, -1.3178,  0.2979,  0.2886],
        [ 0.5503, -0.4333,  1.7132,  0.0185, -0.0879, -0.1173,  0.5199,  0.1360],
        [ 0.4545, -0.4887,  1.8710, -0.6144, -0.2999, -1.2758,  0.7149,  0.0996],
        [ 0.3100, -0.5452,  1.8769, -0.2250, -0.1633,  0.1682,  0.5864,  0.1355]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.7581892935559154
step:  64
running loss:  0.04309670771181118
Train Steps: 64/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6239, 0.4206, 0.8750, 0.5400, 0.3688, 0.4850, 0.5737, 0.5700],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5196, -0.4510,  1.7051, -0.8963, -0.5621, -1.1083,  0.6279,  0.0341],
        [ 0.4282, -0.4812,  1.6406, -0.0781,  0.0335, -0.6546,  0.3637,  0.3195],
        [ 0.3719, -0.5328,  1.7015, -0.3336, -0.2812, -0.1746,  0.2990,  0.2221],
        [ 0.5406, -0.4317,  1.7712, -0.1215, -0.4843, -0.2928,  0.5235,  0.1871],
        [ 0.6402, -0.3560,  1.6619,  0.0413, -0.3322, -0.5363,  0.4270,  0.3390],
        [ 0.6243, -0.4074,  1.6774, -0.2420, -0.3619, -0.3324,  0.7050,  0.0932],
        [ 0.3252, -0.5740,  1.8606, -0.2420, -0.3334,  0.1080,  0.7974,  0.2020],
        [ 0.1856, -0.6645,  1.8283, -0.6080, -0.4700,  0.0561,  0.7195,  0.0907]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.5960, -0.3430,  1.7557,  0.2083, -0.5827, -0.0457,  0.3642,
           0.3469],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0390, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0390, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.797200477682054
step:  65
running loss:  0.04303385350280083

Train Steps: 65/90  Loss: 0.0430 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4078, 0.8800, 0.5083, 0.3900, 0.5000, 0.6100, 0.5583],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6687, -0.3593,  1.8971,  0.1707, -0.4330,  0.0961,  0.6451,  0.1299],
        [ 0.5644, -0.4138,  1.7877,  0.0097, -0.0366, -0.0669,  0.4079,  0.2327],
        [ 0.7685, -0.2672,  1.7709, -0.5620, -0.6552, -0.2216,  0.4247,  0.1788],
        [-1.0692, -1.4496,  1.1144, -1.0959, -0.2064, -1.3422,  0.3366,  0.3403],
        [ 0.3732, -0.5458,  1.8620,  0.0651, -0.0702, -0.0228,  0.4075,  0.1777],
        [ 0.4668, -0.4828,  1.4026, -0.9949, -0.5788, -0.5876,  0.6636,  0.2020],
        [ 0.5879, -0.4394,  1.9501,  0.2348, -0.5701, -0.4968,  0.7669,  0.0505],
        [ 0.9447, -0.1949,  1.2377, -1.2274, -0.2411, -1.2837,  0.5303,  0.2160]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5794, -0.4023,  1.7788,  0.0620, -0.4845,  0.0236,  0.5316,
           0.2930],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0485, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0485, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.845730713568628
step:  66
running loss:  0.04311713202376709
Train Steps: 66/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3285, -0.5892,  1.8296, -0.5351, -0.5713, -0.4515,  0.6056,  0.1702],
        [ 0.1763, -0.6597,  1.6175,  0.2585, -0.3035,  0.0659,  0.3303,  0.1897],
        [ 0.4622, -0.5033,  1.6857, -0.1942, -0.5921, -0.4273,  0.6031,  0.1828],
        [ 0.2868, -0.5815,  1.7712, -0.0843, -0.2788,  0.4183,  0.5205,  0.2098],
        [ 0.4892, -0.4744,  1.8808, -0.3870, -0.2168, -0.9448,  0.8276,  0.1716],
        [ 0.4710, -0.4649,  1.6061,  0.1596, -0.1887,  0.1203,  0.1593,  0.2353],
        [ 0.7560, -0.3035,  1.0503, -1.2743, -0.3153, -1.2866,  0.1925,  0.1969],
        [ 0.5216, -0.4476,  1.9730, -0.6449, -0.3307, -0.5987,  0.9147,  0.1548]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.86319727730006
step:  67
running loss:  0.042734287720896415
Train Steps: 67/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4266, -0.5112,  1.7698,  0.0365, -0.0220,  0.1191,  0.4562,  0.2976],
        [ 0.4087, -0.5572,  1.9169,  0.0073, -0.5026,  0.2506,  0.6863,  0.1113],
        [ 0.1075, -0.7343,  1.3653, -0.8740, -0.4800, -0.9601,  0.2076,  0.2042],
        [ 0.3999, -0.5319,  1.7445, -0.3835, -0.6190, -0.5022,  0.2338,  0.1659],
        [ 0.5842, -0.4576,  1.6458, -0.9018, -0.4912, -0.6226,  1.0400,  0.1461],
        [ 0.7194, -0.3208,  1.6277,  0.1032, -0.2578, -0.7793,  0.5120,  0.4292],
        [ 0.5912, -0.4189,  1.2441, -1.0201, -0.4948, -0.9039,  0.3610,  0.1170],
        [ 0.3899, -0.5879,  1.9004,  0.0208, -0.1882,  0.1316,  0.4283,  0.0949]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0202, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0202, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.883371683768928
step:  68
running loss:  0.042402524761307764
Train Steps: 68/90  Loss: 0.0424 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0256, -0.1258,  1.8074, -0.7311, -0.2773, -0.7034,  0.7876,  0.1885],
        [-1.4408, -1.7286,  1.1651, -1.0770, -0.1554, -0.9629,  0.2680,  0.3037],
        [ 0.9199, -0.2048,  1.3228, -1.0172, -0.2033, -1.1164,  0.5515,  0.1754],
        [ 1.0787, -0.1060,  1.6983, -0.5107, -0.6539, -0.3158,  0.4087,  0.2556],
        [-1.2559, -1.5952,  1.3378, -0.7338, -0.5142, -0.7789,  0.1824,  0.2635],
        [ 0.8443, -0.2714,  1.8309, -0.3378, -0.5479, -0.5533,  0.6412,  0.0626],
        [ 0.9600, -0.2078,  1.8367,  0.3667, -0.4265,  0.3660,  0.4879,  0.1222],
        [ 0.9529, -0.1759,  1.7623,  0.5614, -0.3391,  0.2584,  0.3591,  0.2860]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5767, -0.4396,  1.6782,  0.1905, -0.3844,  0.0308,  0.4588,
           0.0855],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0832, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0832, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.9666087506338954
step:  69
running loss:  0.042994329719331814

Train Steps: 69/90  Loss: 0.0430 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6339, 0.4102, 0.8588, 0.3133, 0.4425, 0.2117, 0.6417, 0.5089],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0945, -0.7125,  1.0857, -0.9566, -0.3616, -0.9317,  0.1844,  0.2622],
        [ 0.6179, -0.4146,  1.6800, -0.5893, -0.2319, -0.8998,  0.7288,  0.1170],
        [ 0.4128, -0.5567,  1.8628,  0.3670, -0.6036, -0.1763,  0.3295,  0.0783],
        [-0.0069, -0.8548,  1.7534, -0.8855,  0.1549, -1.0048,  0.9400,  0.2685],
        [ 0.4008, -0.5571,  1.9227, -0.1961, -0.5610, -0.1070,  0.5655,  0.1825],
        [ 0.7813, -0.2972,  1.7793, -0.0681, -0.6172, -0.1469,  0.3549,  0.2691],
        [ 0.6439, -0.3781,  1.7482, -0.2119, -0.6423,  0.3156,  0.2430,  0.1745],
        [ 0.5604, -0.4501,  1.1170, -1.0097, -0.3723, -0.8632,  0.3318,  0.2643]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.6421, -0.3912,  1.6806, -0.8386, -0.2420, -1.3082,  0.6780,
           0.0646],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0494, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0494, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.0159969767555594
step:  70
running loss:  0.043085671096507995
Train Steps: 70/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6908, -0.4021,  1.8993,  0.1808, -0.5602, -0.0866,  0.6491,  0.1600],
        [ 0.3828, -0.5673,  1.8360, -0.3507, -0.4966,  0.0851,  0.3386,  0.1186],
        [ 0.7606, -0.3255,  1.8966,  0.1732, -0.3291,  0.5183,  0.7372,  0.2568],
        [ 0.5708, -0.4434,  1.7218, -0.5815, -0.7062, -0.3660,  0.2640,  0.0845],
        [ 0.6328, -0.3785,  1.7117,  0.1811, -0.4657, -0.6712,  0.3862,  0.3782],
        [ 0.5071, -0.4653,  1.1100, -1.0328, -0.0600, -1.3080,  0.1529,  0.3689],
        [-0.3958, -1.1060,  1.3111, -1.2376, -0.3739, -0.9371,  0.3930,  0.2738],
        [ 0.4604, -0.5685,  1.9232, -0.0375, -0.5582, -0.0750,  0.5697,  0.0881]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0906, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0906, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.1066278582438827
step:  71
running loss:  0.043755321947096935
Train Steps: 71/90  Loss: 0.0438 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6317, 0.4038, 0.8287, 0.5900, 0.3800, 0.4717, 0.6295, 0.4986],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5412, -0.4559,  1.7843,  0.0259, -0.2841,  0.1660,  0.2377,  0.1969],
        [ 0.6741, -0.3356,  1.8233, -0.4519, -0.2874, -1.1560,  0.4323,  0.2217],
        [ 0.7896, -0.3125,  1.7426,  0.3888, -0.6745, -0.0785,  0.5314,  0.1593],
        [ 0.6071, -0.4343,  1.7290, -0.3111, -0.7544, -0.4238,  0.3074,  0.0894],
        [-1.1140, -1.5608,  1.7046, -0.9713,  0.0438, -1.1867,  0.8088,  0.3351],
        [ 0.4090, -0.5324,  1.3724, -0.7669, -0.7136, -0.0075,  0.4359,  0.2871],
        [ 0.6645, -0.3611,  1.7667,  0.1716, -0.2005,  0.3721,  0.2576,  0.2559],
        [ 0.7018, -0.3551,  1.2018, -1.1815, -0.5421, -0.9914,  0.5265,  0.1972]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.6320, -0.4206,  1.5420,  0.4393, -0.5307, -0.1073,  0.6216,
           0.0171],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5432, -0.4224,  1.3284, -0.8540, -0.6866, -0.0226,  0.4077,
           0.3177],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0398, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0398, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.146448607556522
step:  72
running loss:  0.043700675104951694
Train Steps: 72/90  Loss: 0.0437 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5118, -0.4524,  1.7195, -0.3490, -0.4138, -0.5709,  0.4172,  0.3501],
        [ 1.0943, -0.0776,  1.6530, -0.0977, -0.2364, -0.7991,  0.5785,  0.3261],
        [ 0.6776, -0.4029,  1.9237, -0.5634, -0.6072, -0.3619,  0.7648,  0.0746],
        [ 1.0923, -0.1342,  1.7725, -0.4052, -0.6281,  0.1162,  0.4874,  0.1301],
        [ 0.6887, -0.3659,  1.7554,  0.0926, -0.3180,  0.2316,  0.3344,  0.1946],
        [ 0.6969, -0.3097,  1.6428,  0.0207, -0.5718, -0.5985,  0.2854,  0.2422],
        [-2.1434, -2.2292,  1.0703, -1.2591, -0.3749, -1.2681,  0.2250,  0.1873],
        [ 0.3197, -0.6014,  1.0105, -1.1921, -0.3945, -1.0479,  0.4393,  0.2994]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.6077, -0.3965,  1.8480, -0.6539, -0.6231, -0.4537,  0.6216,
          -0.0220],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0283, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0283, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.174727371893823
step:  73
running loss:  0.043489416053340044

Train Steps: 73/90  Loss: 0.0435 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5926, -0.4584,  1.1286, -1.4791, -0.3460, -1.2189,  0.5719,  0.2300],
        [ 0.2274, -0.6594,  1.7152, -0.5702, -0.6758, -0.4601,  0.1921,  0.1128],
        [ 0.6375, -0.3545,  1.6312, -0.4032, -0.2160, -0.9396,  0.4620,  0.3717],
        [ 0.2176, -0.6772,  1.8095, -0.1802, -0.4826, -0.6983,  0.5700,  0.1636],
        [ 0.0604, -0.7763,  1.6917,  0.1112, -0.4883, -0.2882,  0.1321,  0.1681],
        [ 0.4266, -0.5131,  1.5818, -0.1841, -0.4556, -0.1109,  0.2273,  0.2884],
        [ 0.5517, -0.4476,  1.8382, -0.2390, -0.5477, -0.2693,  0.7168,  0.2239],
        [ 0.4387, -0.5354,  1.6025, -0.0815, -0.5076,  0.0810,  0.6287,  0.2390]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0268, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0268, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2015545638278127
step:  74
running loss:  0.04326425086253801
Train Steps: 74/90  Loss: 0.0433 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4025, -0.5363,  1.6971,  0.1246, -0.1701,  0.1078,  0.2141,  0.2565],
        [ 0.4167, -0.5550,  1.7186, -0.4311, -0.7491, -0.2282,  0.5160,  0.2378],
        [ 0.3892, -0.5351,  1.5867,  0.4916, -0.4973, -0.3103,  0.2211,  0.4570],
        [-0.0709, -0.8842,  1.3462, -1.3077, -0.3917, -1.4341,  0.6078,  0.1435],
        [ 0.5810, -0.4226,  1.7171, -0.1685, -0.4232,  0.1927,  0.2545,  0.2298],
        [ 0.3430, -0.6123,  1.4879, -1.0594, -0.5487, -1.2002,  0.5690,  0.0772],
        [ 0.7413, -0.3250,  1.6692, -0.4937, -0.6821,  0.0267,  0.6439,  0.2146],
        [ 0.1623, -0.6903,  1.6709, -0.8004, -0.1233, -1.2627,  0.6041,  0.2084]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5635e-01, -3.8422e-01,  1.7268e+00,  1.0054e-01, -2.4997e-02,
           3.2255e-01,  2.6581e-01,  8.6245e-02],
         [ 5.7783e-01, -4.3934e-01,  1.8018e+00, -4.6143e-01, -6.6928e-01,
          -1.3811e-01,  5.4896e-01,  2.0831e-01],
         [ 6.0381e-01, -3.4642e-01,  1.7037e+00,  3.9307e-01, -4.4411e-01,
          -2.6128e-01,  3.0069e-01,  4.6236e-01],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 5.4990e-01, -4.2249e-01,  1.8018e+00, -2.9207e-01, -3.0554e-01,
           5.4350e-02,  4.0462e-01,  2.6990e-01],
         [ 6.0421e-01, -4.2248e-01,  1.5420e+00, -1.2082e+00, -4.7298e-01,
          -1.0311e+00,  6.3800e-01, -2.1963e-02],
         [ 6.0098e-01, -3.8961e-01,  1.7326e+00, -5.6921e-01, -6.2887e-01,
           8.1601e-03,  5.0277e-01,  1.0054e-01],
         [ 6.5365e-01, -3.7194e-01,  1.6979e+00, -8.6174e-01, -1.6859e-02,
          -1.3621e+00,  6.9257e-01,  1.5008e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0287, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2302527902647853
step:  75
running loss:  0.04307003720353047
Train Steps: 75/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.8661, -2.0538,  1.2785, -0.8249, -0.6488, -0.8578,  0.1658,  0.2023],
        [ 0.6903, -0.3068,  1.8189,  0.1420, -0.4976, -0.8075,  0.3031,  0.2389],
        [ 0.7957, -0.2790,  1.3134, -0.9248, -0.5435, -0.9453,  0.2031,  0.1206],
        [ 0.9262, -0.2276,  1.8351,  0.1683, -0.3136,  0.3725,  0.7447,  0.2883],
        [ 0.6961, -0.3637,  1.4982, -1.0795, -0.2947, -1.1262,  0.6684,  0.2113],
        [-0.1521, -0.8515,  1.1088, -1.1953, -0.3039, -1.4054,  0.2218,  0.2412],
        [ 0.8814, -0.2470,  1.7744,  0.1652, -0.3566,  0.0847,  0.4990,  0.2598],
        [ 0.7957, -0.3254,  1.6967, -0.7133, -0.7268, -0.3437,  0.6567,  0.1718]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.6141, -0.4153,  1.4208, -1.2697, -0.2940, -1.0234,  0.8644,
           0.1715],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0314, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0314, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2616537315770984
step:  76
running loss:  0.042916496468119715
Train Steps: 76/90  Loss: 0.0429 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5106, -0.4525,  1.8837,  0.1418, -0.5735, -0.5365,  0.4087,  0.0735],
        [ 0.7139, -0.3620,  1.7725,  0.1793, -0.4467,  0.1089,  0.4679,  0.1903],
        [ 0.2135, -0.6826,  1.3965, -1.3342, -0.2621, -1.3666,  0.6790,  0.1654],
        [ 0.5085, -0.4804,  1.4542, -1.1903, -0.2808, -1.1662,  0.6581,  0.2043],
        [ 0.0263, -0.7549,  0.9504, -1.1005, -0.4628, -1.2502,  0.0552,  0.2227],
        [ 0.5397, -0.4609,  1.7287, -0.2117, -0.5355, -0.0586,  0.2339,  0.0983],
        [ 0.2517, -0.6470,  1.7428,  0.1414, -0.4972, -0.3696,  0.7320,  0.2673],
        [ 0.2752, -0.5864,  1.6242, -0.6104, -0.6357, -0.2963,  0.3731,  0.3826]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.2730e-01, -4.1045e-01,  1.8480e+00,  1.0824e-01, -5.5381e-01,
          -5.0762e-01,  6.4140e-01, -4.8817e-03],
         [ 5.9082e-01, -4.3664e-01,  1.7557e+00,  1.3903e-01, -5.1917e-01,
           1.3133e-01,  6.5289e-01,  2.3557e-02],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 6.1413e-01, -4.1527e-01,  1.4208e+00, -1.2697e+00, -2.9400e-01,
          -1.0234e+00,  8.6439e-01,  1.7146e-01],
         [ 5.4700e-01, -4.0808e-01,  8.4919e-01, -1.0773e+00, -5.3072e-01,
          -1.1620e+00,  9.1240e-02,  1.8903e-01],
         [ 5.2269e-01, -4.6151e-01,  1.6575e+00, -1.3041e-01, -5.0762e-01,
          -1.4935e-02,  1.8150e-01,  2.0831e-03],
         [ 6.2236e-01, -4.0323e-01,  1.5940e+00,  2.9299e-01, -5.7691e-01,
          -2.6898e-01,  8.8998e-01,  2.5161e-01],
         [ 5.7742e-01, -3.8684e-01,  1.6286e+00, -5.6921e-01, -6.4619e-01,
          -2.7667e-01,  5.1432e-01,  5.2394e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.2847120529040694
step:  77
running loss:  0.04265859808966324

Train Steps: 77/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3915, -0.5025,  1.7193, -0.3797, -0.6087, -1.2569,  0.5107,  0.0821],
        [ 0.4523, -0.4895,  1.5831, -0.5257, -0.6798, -0.7597,  0.3999,  0.1821],
        [ 0.3838, -0.5686,  1.6145, -0.2962, -0.6730, -0.5379,  0.5283,  0.3127],
        [ 0.1110, -0.6749,  1.5092, -0.0243, -0.5125, -0.6090,  0.4088,  0.3631],
        [ 0.3467, -0.5665,  1.6822, -0.2644, -0.0797, -0.4045,  0.2067,  0.1177],
        [ 0.7551, -0.3455,  1.6826, -0.6358, -0.4583,  0.0169,  0.7260,  0.1225],
        [ 0.3825, -0.5697,  1.6859, -0.4049, -0.2606, -0.2820,  0.3845,  0.1126],
        [ 0.4185, -0.5269,  1.6859, -0.5249, -0.1563, -0.1265,  0.5731,  0.2411]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0481, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0481, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.33284895028919
step:  78
running loss:  0.042728832696015254
Train Steps: 78/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.4889,  0.1334,  1.8088, -0.1667, -0.6862, -0.3736,  0.5403,  0.0498],
        [ 1.3320,  0.0668,  1.7552,  0.3750, -0.3791,  0.2351,  0.4607,  0.2350],
        [-1.3916, -1.6578,  0.9473, -1.2229, -0.4628, -1.2002,  0.2467,  0.2536],
        [ 0.9997, -0.1110,  1.7093, -0.5094, -0.6704, -0.7536,  0.3662,  0.0959],
        [ 0.9938, -0.1120,  1.7601,  0.2227, -0.2643,  0.1579,  0.2913,  0.1372],
        [-0.9061, -1.3098,  0.9455, -1.1612, -0.3852, -1.3221,  0.2039,  0.2837],
        [-1.6012, -1.8199,  1.1570, -1.0037, -0.5747, -1.0591,  0.2236,  0.2229],
        [ 1.1578, -0.0632,  1.7333, -1.0920,  0.0493, -1.0529,  1.2628,  0.2168]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [-2.2859, -2.2859,  0.9922, -1.2021, -0.3229, -1.4314,  0.1044,
           0.2930],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1332, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1332, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.4660702189430594
step:  79
running loss:  0.043874306568899485
Train Steps: 79/90  Loss: 0.0439 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4458, -0.5032,  1.5592,  0.0993, -0.4399, -0.3817,  0.4723,  0.1310],
        [ 0.7403, -0.2708,  1.5286, -0.8189, -0.5177, -0.9784,  0.4248,  0.1831],
        [ 0.1945, -0.5920,  1.5142, -0.3926, -0.6283, -0.8031,  0.0536,  0.2479],
        [ 0.6446, -0.3842,  1.5927, -0.0636, -0.3261, -0.2536,  0.5394,  0.1778],
        [ 0.1360, -0.7198,  1.8964, -0.9149, -0.2398, -0.8776,  1.0256,  0.1518],
        [ 0.2770, -0.6113,  1.6559, -0.1666, -0.4320, -0.4876,  0.1736,  0.1383],
        [ 0.2104, -0.6595,  1.6697, -0.1950, -0.4642, -0.4355,  0.3429,  0.0977],
        [ 0.4589, -0.4922,  1.5949, -0.6927, -0.3965,  0.1450,  0.6767,  0.2705]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.5671, -0.3988,  1.7499, -0.4614, -0.5423,  0.3007,  0.5894,
           0.3469]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0359, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0359, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.502012967132032
step:  80
running loss:  0.0437751620891504
Train Steps: 80/90  Loss: 0.0438 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4675, -0.4482,  1.5720, -0.3319, -0.5601, -0.4890,  0.3313,  0.2283],
        [ 0.4698, -0.4146,  1.3785, -1.0504, -0.3257, -1.3054,  0.3977,  0.1078],
        [ 0.1245, -0.6607,  1.5465, -0.6004, -0.4580, -1.0717,  0.1884,  0.1108],
        [ 0.6066, -0.3798,  1.5851, -0.5191, -0.5383, -0.1436,  0.3088,  0.0781],
        [ 0.0988, -0.7262,  1.8452, -0.4678, -0.2128, -0.6663,  1.0411,  0.2591],
        [ 0.5097, -0.4873,  1.5568, -0.0783, -0.3597,  0.2482,  0.9797,  0.3026],
        [ 0.5244, -0.4431,  1.5430,  0.2526, -0.2678, -0.0672,  0.1750,  0.1631],
        [-0.1690, -0.8363,  1.3229, -0.9650, -0.4343, -1.2110,  0.2810,  0.0549]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0330, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0330, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.53500113543123
step:  81
running loss:  0.043641989326311484

Train Steps: 81/90  Loss: 0.0436 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2931, -0.5850,  1.3665, -1.0628, -0.4258, -1.0431,  0.5518,  0.2436],
        [ 0.7559, -0.2991,  1.5757, -1.0323, -0.1496, -1.3116,  0.6911,  0.1442],
        [ 0.7068, -0.3175,  1.2592, -1.1584, -0.2464, -1.3062,  0.4130,  0.1583],
        [ 0.2576, -0.6200,  1.7675,  0.3444, -0.5498,  0.0901,  0.4331,  0.1720],
        [ 0.3448, -0.5905,  1.7996,  0.2079, -0.4959,  0.1073,  0.7317,  0.1350],
        [-0.2655, -0.9400,  1.5480, -0.6480, -0.6969, -0.6634,  0.2014,  0.1471],
        [ 0.2986, -0.5727,  1.7204,  0.2381, -0.0618,  0.0382,  0.2197,  0.1804],
        [ 0.2452, -0.6121,  1.0176, -1.1555, -0.5223, -1.0575,  0.2831,  0.1055]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177],
         [ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0293, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0293, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.564255858771503
step:  82
running loss:  0.04346653486306711
Train Steps: 82/90  Loss: 0.0435 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9934, -0.1945,  1.8464, -0.3701, -0.3761, -0.5561,  0.9081,  0.0323],
        [ 1.0571, -0.0771,  1.3978, -0.8396, -0.1539, -1.1052,  0.5071,  0.1309],
        [-1.6352, -1.8696,  1.1451, -0.8900, -0.4603, -0.8711,  0.1760,  0.1800],
        [ 0.6482, -0.3183,  1.6749, -0.8900, -0.1365, -0.8788,  0.6645,  0.0612],
        [-1.4340, -1.7223,  0.8990, -1.0310, -0.4178, -1.1867,  0.1727,  0.2790],
        [ 0.7065, -0.3046,  1.7416,  0.1067, -0.4849,  0.2435,  0.4102,  0.1512],
        [ 0.6215, -0.3323,  1.6901, -0.1141, -0.5998, -0.5355,  0.1440,  0.1141],
        [ 0.9429, -0.1613,  1.1300, -0.8821, -0.3557, -0.9696,  0.4113,  0.3535]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0665, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0665, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.630719925276935
step:  83
running loss:  0.043743613557553435
Train Steps: 83/90  Loss: 0.0437 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6199, 0.4065, 0.7598, 0.2385, 0.4317, 0.1981, 0.5933, 0.5221]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.1672, -0.0103,  1.4356, -0.7056, -0.6808, -0.2443,  0.4589,  0.0789],
        [ 1.2498,  0.1052,  1.4687, -0.1174, -0.2292, -0.6798,  0.1431,  0.2818],
        [-1.0567, -1.4895,  1.6280, -0.8708,  0.0069, -0.7950,  0.9648,  0.2630],
        [-0.4714, -1.0502,  1.8932, -0.3346, -0.0877, -0.7876,  0.8404,  0.2231],
        [-1.2858, -1.5904,  1.0354, -0.9126, -0.5178, -1.0090,  0.1041,  0.1625],
        [ 1.2956,  0.0862,  1.2792, -0.7547, -0.2526, -1.0581,  0.2798,  0.0854],
        [-1.0856, -1.4630,  1.2056, -0.8829, -0.5616, -0.7047,  0.3875,  0.2448],
        [ 1.5989,  0.2509,  1.3222, -0.8339, -0.3640, -0.9206,  0.3607,  0.0468]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.5774, -0.4082,  1.2235, -1.1844, -0.2919, -1.3709,  0.4544,
           0.1256]]], device='cuda:0')
loss_train_step before backward:  tensor(0.2647, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.2647, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.8954066587612033
step:  84
running loss:  0.04637388879477623
Train Steps: 84/90  Loss: 0.0464 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0092, -0.7831,  1.4251, -0.8901, -0.6195, -0.3991,  0.4450,  0.2552],
        [ 0.1866, -0.6944,  1.7594, -0.0529, -0.4564,  0.0751,  0.3812,  0.1549],
        [ 0.4072, -0.4985,  1.0225, -1.0642, -0.3926, -1.3225,  0.2822,  0.2517],
        [-0.3008, -0.9750,  1.1834, -1.0713, -0.5787, -0.8064,  0.1357,  0.1497],
        [ 0.4684, -0.5414,  1.8716,  0.1877, -0.3996,  0.2120,  0.9094,  0.1500],
        [ 0.7999, -0.2541,  1.8295, -0.6501, -0.4471, -1.0200,  0.4277,  0.0413],
        [ 0.4781, -0.4347,  1.6580,  0.4612,  0.0516, -0.3173,  0.2600,  0.3793],
        [ 0.3030, -0.6041,  1.5122, -1.0825, -0.1982, -1.4243,  0.6538,  0.1128]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9328551990911365
step:  85
running loss:  0.04626888469518984

Train Steps: 85/90  Loss: 0.0463 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3836, -0.5184,  1.6498,  0.0154, -0.1134,  0.1239,  0.3044,  0.1965],
        [ 0.4918, -0.4554,  1.6638,  0.0633, -0.2440,  0.0597,  0.2894,  0.1129],
        [ 0.7150, -0.2920,  1.2913, -1.2055, -0.1567, -1.4490,  0.4141,  0.1894],
        [ 0.7872, -0.2240,  1.7332, -0.0770, -0.4979, -1.0182,  0.3480,  0.1206],
        [ 0.5916, -0.3943,  1.0506, -1.1736, -0.5250, -1.0944,  0.4367,  0.2910],
        [ 0.5973, -0.3884,  1.6319,  0.2809, -0.4084,  0.0409,  0.4515,  0.2362],
        [ 0.1417, -0.6834,  1.4807, -0.8859, -0.7096, -0.4316,  0.4162,  0.2001],
        [-2.0467, -2.1798,  1.6085, -1.1863, -0.0272, -1.3415,  0.9383,  0.2650]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9474326334893703
step:  86
running loss:  0.04590037945917873
Train Steps: 86/90  Loss: 0.0459 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3863, -0.5068,  1.3909, -1.0064, -0.0798, -1.3737,  0.4426,  0.1917],
        [ 0.0985, -0.7115,  1.3916, -1.2851, -0.0720, -1.3754,  0.7241,  0.2478],
        [ 0.3931, -0.5064,  1.5499, -0.4864, -0.6317, -0.7154,  0.0686,  0.1628],
        [ 0.2412, -0.6454,  1.5829,  0.1082, -0.1753,  0.0653,  0.2417,  0.1627],
        [ 0.0780, -0.7639,  1.7483, -0.3355, -0.5922, -0.1877,  0.5523,  0.0529],
        [ 0.2777, -0.6107,  1.5568,  0.3643, -0.1859, -0.3246,  0.4243,  0.4047],
        [ 0.1649, -0.6641,  1.2672, -1.1711, -0.3359, -1.0829,  0.6421,  0.2771],
        [-0.1123, -0.8771,  1.6413, -0.5845, -0.6554, -0.2488,  0.6509,  0.2595]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0403, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0403, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.9877162650227547
step:  87
running loss:  0.04583581913819258
Train Steps: 87/90  Loss: 0.0458 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1744, -0.6968,  1.5299, -1.1521, -0.1250, -1.4734,  0.6400,  0.1067],
        [ 0.4351, -0.5575,  1.7017,  0.2760, -0.1643,  0.3751,  0.4155,  0.1889],
        [-0.1450, -0.9232,  1.6934, -1.1407, -0.0424, -1.2464,  1.1251,  0.2949],
        [ 0.1820, -0.6939,  1.7591, -0.4505, -0.2610, -1.0295,  0.6851,  0.1865],
        [ 0.4787, -0.4771,  1.3901, -0.4078, -0.5066, -0.3232,  0.0269,  0.1471],
        [ 0.1439, -0.7145,  1.1538, -1.0634, -0.5412, -0.6070,  0.4496,  0.3232],
        [ 0.1047, -0.7455,  1.5241, -0.7351, -0.6339, -0.3523,  0.4122,  0.2333],
        [ 0.3210, -0.5923,  1.4436, -0.4391, -0.5093, -0.9542,  0.0538,  0.3497]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.5450, -0.4706,  1.7643,  0.0722, -0.3708,  0.3200,  0.4854,
           0.0612],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0404, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0404, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.0281651839613914
step:  88
running loss:  0.04577460436319763
Train Steps: 88/90  Loss: 0.0458 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1915, -0.6440,  1.4687, -0.5500, -0.6943, -0.3780,  0.1095,  0.2380],
        [ 0.3804, -0.5327,  1.4882, -1.2403, -0.1517, -1.4743,  0.5692,  0.2154],
        [-0.0196, -0.8108,  1.5399, -0.0779, -0.3252,  0.0614,  0.3196,  0.2752],
        [ 0.3610, -0.5834,  1.6524, -0.2101, -0.6242, -0.3816,  0.5197,  0.1405],
        [ 0.4290, -0.5124,  1.3662, -1.4068, -0.0729, -1.5972,  0.5732,  0.2222],
        [ 0.1196, -0.7140,  1.5856, -0.2194, -0.1171, -0.0294,  0.3316,  0.3566],
        [ 0.1048, -0.7306,  1.9049, -0.7238, -0.1563, -1.2254,  0.9249,  0.1957],
        [ 0.2424, -0.6750,  1.5581,  0.0550, -0.4404, -0.0346,  0.5450,  0.2040]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3672e-01, -4.2941e-01,  1.5709e+00, -4.9992e-01, -6.6928e-01,
          -3.0747e-01,  2.4546e-01,  3.5585e-01],
         [ 6.0878e-01, -4.0146e-01,  1.6113e+00, -1.0696e+00, -8.6143e-02,
          -1.4545e+00,  6.0510e-01,  1.3434e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.1742e-01, -4.4897e-01,  1.8885e+00, -9.9615e-02, -4.8453e-01,
          -3.6905e-01,  9.8137e-01,  1.7146e-01],
         [ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04],
         [ 5.5052e-01, -4.2071e-01,  1.7095e+00, -5.3426e-02, -5.0936e-02,
           1.0502e-01,  3.8730e-01,  3.0069e-01],
         [ 6.1083e-01, -4.2008e-01,  1.9346e+00, -5.5381e-01, -1.4965e-01,
          -1.0773e+00,  1.0545e+00,  2.1421e-01],
         [ 6.2361e-01, -4.3441e-01,  1.6171e+00,  1.8522e-01, -3.4018e-01,
           2.3557e-02,  6.4711e-01,  6.9746e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0387, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0387, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.066847592592239
step:  89
running loss:  0.04569491677069932

Train Steps: 89/90  Loss: 0.0457 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2890, -0.5716,  1.3113, -1.2958, -0.1987, -1.5838,  0.4590,  0.2383],
        [ 0.2683, -0.5812,  1.4407, -1.0742, -0.1550, -1.5367,  0.4240,  0.2070],
        [ 0.4971, -0.4523,  1.5860, -0.8335, -0.6447, -0.9323,  0.5781,  0.2279],
        [ 0.2467, -0.6203,  1.7023, -0.1982, -0.2799, -0.1041,  0.2939,  0.1046],
        [ 0.2707, -0.6597,  1.7397, -0.2222, -0.5196,  0.0379,  0.8742,  0.2198],
        [ 0.2934, -0.6259,  1.6778, -0.0822, -0.4994, -0.3037,  0.4800,  0.2324],
        [ 0.1104, -0.7315,  1.6631, -0.0197, -0.1773, -0.1624,  0.3443,  0.3367],
        [ 0.1810, -0.6591,  1.6120, -0.3214, -0.1508, -0.0314,  0.4300,  0.3403]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5249, -0.4473,  1.7326, -0.0919, -0.2016,  0.1544,  0.1733,
           0.0412],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0306, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0306, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  4.097452521324158
step:  90
running loss:  0.04552725023693509
Valid Steps: 10/10  Loss: nan 5.8477
--------------------------------------------------
Epoch: 4  Train Loss: 0.0455 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.4651e-01, -5.8417e-01,  1.7318e+00, -5.1866e-01, -5.5468e-01,
         -4.1584e-01,  3.5147e-01,  5.9733e-02],
        [ 2.0160e-01, -6.7345e-01,  1.7936e+00, -4.8521e-01, -6.1855e-02,
         -4.0095e-01,  5.5372e-01,  2.8475e-01],
        [ 4.4827e-01, -4.2845e-01,  1.4146e+00, -5.0683e-01, -5.0848e-01,
         -1.2103e+00,  2.3973e-01,  5.2721e-01],
        [ 5.1592e-01, -4.7822e-01,  1.7209e+00, -1.5612e-01, -4.5384e-01,
         -2.8481e-01,  7.0564e-01,  1.2522e-01],
        [ 7.6344e-01, -2.9085e-01,  1.7067e+00,  8.7751e-04, -4.5148e-01,
         -2.4599e-01,  6.7884e-01,  2.8083e-01],
        [ 2.3650e-01, -6.3350e-01,  1.7368e+00, -3.9993e-01, -3.5953e-02,
         -4.3623e-01,  3.3012e-01,  2.6307e-01],
        [ 3.1048e-01, -5.8417e-01,  1.7569e+00, -4.4972e-01, -6.0495e-02,
         -4.0298e-01,  5.7915e-01,  3.2222e-01],
        [ 1.8989e-01, -6.7958e-01,  1.7583e+00, -5.6773e-01, -4.8253e-01,
         -2.4003e-01,  4.2579e-01,  8.0821e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5227, -0.4615,  1.6575, -0.1304, -0.5076, -0.0149,  0.1815,
           0.0021],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.6010, -0.4321,  1.6517,  0.2160, -0.4210,  0.0774,  0.6356,
           0.0313],
         [ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0548, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0548, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.054758865386247635
step:  1
running loss:  0.054758865386247635
Train Steps: 1/90  Loss: 0.0548 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3067, -0.5911,  1.3730, -1.0648, -0.3434, -0.9991,  0.5182,  0.3448],
        [-0.3291, -0.9670,  1.0663, -1.0819, -0.3201, -1.1403,  0.2702,  0.3937],
        [ 0.5365, -0.4417,  1.6636, -1.0241, -0.0103, -1.3002,  0.7841,  0.2095],
        [ 0.7065, -0.3506,  1.7970, -0.1609, -0.5044,  0.1665,  0.2508,  0.1114],
        [-0.1420, -0.8803,  1.4987, -0.7562, -0.4674, -0.4524,  0.4285,  0.3405],
        [ 0.6437, -0.3572,  1.7996, -0.9246, -0.2193, -0.9633,  0.7583,  0.2072],
        [ 0.3890, -0.5329,  1.5026, -0.9721, -0.3509, -1.0259,  0.4017,  0.1881],
        [ 0.6239, -0.4407,  1.8843,  0.4963, -0.4543,  0.0053,  0.5245,  0.1646]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0447, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0447, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.09948705509305
step:  2
running loss:  0.049743527546525
Train Steps: 2/90  Loss: 0.0497 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5210, -0.4563,  1.7610, -0.8858, -0.2437, -0.7401,  0.9069,  0.1881],
        [ 0.2435, -0.5746,  1.7808, -0.4829, -0.3414, -1.1378,  0.3184,  0.3190],
        [-0.1094, -0.8018,  0.9690, -1.3126, -0.3771, -1.2953,  0.2717,  0.4078],
        [ 0.4078, -0.5230,  1.8003, -0.1228, -0.0185,  0.1290,  0.4568,  0.3150],
        [ 0.7459, -0.3426,  1.8601,  0.1211, -0.5755, -0.1134,  0.6215,  0.1065],
        [ 0.4384, -0.4892,  1.4912, -1.1436, -0.3577, -1.0383,  0.4101,  0.1810],
        [ 0.6986, -0.3227,  1.7810,  0.1030, -0.4969, -0.2094,  0.2139,  0.2080],
        [ 0.7046, -0.3568,  1.7441,  0.0391, -0.2582,  0.1621,  0.4744,  0.1544]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.2236e-01, -4.1045e-01,  1.9173e+00, -7.7706e-01, -1.0299e-01,
          -7.3084e-01,  1.1532e+00,  1.8749e-01],
         [ 5.8995e-01, -3.9323e-01,  1.8307e+00, -3.9215e-01, -4.2679e-01,
          -1.1851e+00,  3.7575e-01,  1.9292e-01],
         [ 5.7131e-01, -3.6712e-01,  8.6651e-01, -1.0696e+00, -3.6905e-01,
          -1.2236e+00,  3.5266e-01,  2.6220e-01],
         [ 5.3712e-01, -4.2517e-01,  1.7037e+00, -6.8822e-02, -3.4180e-02,
           6.2048e-02,  3.7575e-01,  2.8530e-01],
         [ 6.2401e-01, -4.3212e-01,  1.8423e+00,  1.8522e-01, -5.8845e-01,
          -1.6120e-01,  6.9623e-01,  1.1149e-02],
         [ 5.7898e-01, -4.0793e-01,  1.5929e+00, -1.0630e+00, -4.7294e-01,
          -1.0725e+00,  4.1374e-01,  8.0707e-02],
         [ 5.4353e-01, -4.0454e-01,  1.7557e+00,  8.5142e-02, -5.3072e-01,
          -2.8437e-01,  1.7213e-02,  1.9805e-01],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.12145851366221905
step:  3
running loss:  0.040486171220739685

Train Steps: 3/90  Loss: 0.0405 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5027, -0.4413,  1.8971, -0.8446, -0.2785, -1.2732,  0.7965,  0.1499],
        [ 0.3700, -0.5806,  1.7208,  0.2440, -0.2295,  0.1421,  0.3970,  0.1733],
        [ 0.4950, -0.4589,  1.1742, -1.2359, -0.5166, -1.0659,  0.2792,  0.1711],
        [ 0.6150, -0.3365,  1.7022,  0.1509, -0.4928, -0.4111,  0.5337,  0.3872],
        [ 0.6815, -0.3452,  1.8120, -0.0561, -0.2128,  0.1955,  0.3699,  0.1365],
        [ 0.2446, -0.5919,  1.4378, -0.8585, -0.5198, -0.8801,  0.1190,  0.2465],
        [ 0.7320, -0.2839,  1.4079, -1.1618, -0.3278, -1.2204,  0.5434,  0.2279],
        [ 0.4952, -0.4617,  1.7817,  0.0618, -0.1303,  0.2405,  0.4049,  0.2265]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.13915947452187538
step:  4
running loss:  0.034789868630468845
Train Steps: 4/90  Loss: 0.0348 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8880, -0.1930,  1.3037, -0.9538, -0.5272, -0.8709,  0.3894,  0.2118],
        [ 0.7731, -0.2506,  1.6970,  0.1314, -0.1712,  0.3505,  0.3391,  0.2241],
        [-1.9436, -2.0312,  1.3338, -0.8958, -0.3679, -1.0223,  0.3111,  0.2546],
        [ 0.9518, -0.1705,  1.7189, -0.3662, -0.5749, -0.1627,  0.4393,  0.1420],
        [ 0.7302, -0.2546,  1.4106, -1.0633, -0.1283, -1.3372,  0.4802,  0.2443],
        [ 0.9238, -0.1728,  1.6986, -0.2053, -0.4794, -0.0917,  0.3199,  0.2095],
        [ 0.9332, -0.1299,  1.6650, -0.8772, -0.2057, -1.0746,  0.5534,  0.1711],
        [ 0.8415, -0.2139,  1.7384,  0.2925, -0.3925, -0.0505,  0.5245,  0.2025]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0299, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0299, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.16904453001916409
step:  5
running loss:  0.033808906003832816
Train Steps: 5/90  Loss: 0.0338 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8357, -0.2498,  1.7605,  0.2656, -0.2423,  0.1694,  0.2467,  0.1434],
        [ 0.9518, -0.1559,  1.2529, -0.8951, -0.6224, -0.6567,  0.3689,  0.2523],
        [ 0.6504, -0.3560,  1.8047, -0.0042, -0.0985,  0.1004,  0.2837,  0.2233],
        [ 0.8765, -0.1998,  1.3278, -0.8894, -0.6295, -0.8862,  0.1980,  0.1767],
        [ 0.8432, -0.2417,  1.7446, -0.0057, -0.4000,  0.3157,  0.2729,  0.1645],
        [ 0.6089, -0.3450,  1.5589, -0.3284, -0.5271, -1.1253,  0.0505,  0.2763],
        [-0.9919, -1.4238,  1.7263, -1.0578,  0.1417, -1.2524,  1.0073,  0.2014],
        [ 1.0442, -0.1350,  1.7510, -0.6142, -0.4799, -0.3495,  0.8260,  0.1358]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0641, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0641, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2331299614161253
step:  6
running loss:  0.038854993569354214
Train Steps: 6/90  Loss: 0.0389 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6151, 0.4058, 0.7068, 0.2680, 0.3400, 0.4083, 0.5775, 0.5733]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9756, -0.1992,  1.7893, -0.4266, -0.4919, -0.2887,  0.6990,  0.1151],
        [ 0.9571, -0.1918,  1.1712, -1.0054, -0.2589, -1.1467,  0.5271,  0.2481],
        [ 0.8672, -0.2019,  1.5381, -0.4543, -0.4556, -0.7202,  0.2660,  0.1861],
        [ 0.8332, -0.2177,  1.7749, -0.5389,  0.0245, -1.0307,  0.5606,  0.1816],
        [ 0.7884, -0.2923,  1.8857, -0.3090, -0.4546, -0.6597,  0.4157,  0.1693],
        [-2.0707, -2.1505,  1.0834, -0.9208, -0.3323, -0.9233,  0.0729,  0.2109],
        [ 1.1957, -0.0154,  1.8045, -0.1536, -0.4955,  0.1855,  0.2426,  0.1583],
        [ 0.8495, -0.2346,  1.1987, -0.7389, -0.6078, -0.2832,  0.3070,  0.2877]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.5552, -0.4113,  0.9790, -1.0480, -0.7155, -0.3998,  0.3815,
           0.3623]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0500, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0500, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.28310741670429707
step:  7
running loss:  0.04044391667204244

Train Steps: 7/90  Loss: 0.0404 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7177, -0.2844,  1.2895, -0.7119, -0.6197, -0.5738,  0.1653,  0.3376],
        [ 0.6297, -0.4088,  1.2134, -1.3051, -0.3212, -1.3260,  0.5060,  0.2098],
        [ 0.5482, -0.4027,  1.6650,  0.0851, -0.4617, -0.6359,  0.1926,  0.2705],
        [ 0.6680, -0.3811,  1.8350, -0.1524, -0.4657, -0.6388,  0.6130,  0.1218],
        [ 0.6451, -0.3880,  1.7837,  0.0488, -0.2782,  0.2239,  0.3377,  0.1277],
        [ 0.6347, -0.3732,  1.6429, -0.5697, -0.4933,  0.0440,  0.5640,  0.2210],
        [ 0.7459, -0.3111,  1.7528, -0.4887, -0.6403, -0.4226,  0.3598,  0.0651],
        [ 0.6221, -0.3853,  1.7191,  0.1670, -0.1029,  0.1177,  0.2200,  0.1834]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.289715682156384
step:  8
running loss:  0.036214460269548
Train Steps: 8/90  Loss: 0.0362 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.1728, -0.0307,  1.7745, -0.4279, -0.6014, -0.7678,  0.3550,  0.1150],
        [ 1.1965, -0.0361,  1.7375, -0.0554, -0.5987,  0.2345,  0.5089,  0.1112],
        [-1.2754, -1.6184,  1.6297, -0.9376,  0.1132, -0.9360,  0.9832,  0.2434],
        [ 0.9482, -0.2055,  1.7096,  0.2033, -0.3678,  0.2868,  0.2874,  0.2983],
        [ 0.8853, -0.1925,  1.5021, -1.0313, -0.1642, -1.0260,  0.5182,  0.1084],
        [ 0.8353, -0.2145,  1.0419, -0.7815, -0.5458, -0.8351,  0.1290,  0.3244],
        [-0.7671, -1.2577,  1.3239, -0.5202, -0.6450, -0.6157,  0.0111,  0.2329],
        [ 0.9063, -0.2047,  0.9747, -0.9788, -0.5142, -1.0113,  0.2779,  0.1766]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.41375276912003756
step:  9
running loss:  0.045972529902226396
Train Steps: 9/90  Loss: 0.0460 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9313, -0.2026,  1.4965, -0.8860, -0.4646, -0.8344,  0.7200,  0.1272],
        [-1.7722, -1.9497,  1.0401, -1.0044, -0.4755, -0.9832,  0.1582,  0.2319],
        [ 1.1622, -0.0263,  1.8426, -0.0205, -0.6599, -0.2158,  0.2817,  0.1618],
        [ 1.0712, -0.1175,  1.1899, -1.1806, -0.3783, -1.2676,  0.5125,  0.1718],
        [ 1.0987, -0.0886,  1.7554,  0.2702, -0.3929,  0.3518,  0.2888,  0.1255],
        [ 0.8446, -0.2262,  1.7078,  0.0515, -0.3860,  0.2727,  0.2133,  0.2586],
        [ 1.0712, -0.1029,  1.5134, -0.9648, -0.2017, -1.2557,  0.7378,  0.2042],
        [-1.1009, -1.4880,  1.1267, -0.8914, -0.5174, -0.8465,  0.0194,  0.3053]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0825, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0825, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4962860615924001
step:  10
running loss:  0.04962860615924001
Train Steps: 10/90  Loss: 0.0496 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0878, -0.1095,  1.6107, -0.0532, -0.4727, -0.1721,  0.7642,  0.1889],
        [ 0.8507, -0.2066,  1.5986, -0.0028, -0.3621,  0.0362,  0.4501,  0.2864],
        [ 0.8927, -0.2078,  1.7943, -0.2751, -0.5363, -0.4577,  0.5687,  0.1468],
        [ 0.6973, -0.3176,  1.6548, -0.6774, -0.6204, -0.6440,  0.2402,  0.1518],
        [ 0.7442, -0.2523,  1.3724, -0.8019, -0.6210, -0.5154,  0.2633,  0.2536],
        [ 0.6057, -0.3823,  1.5197,  0.0231, -0.3128, -0.0456,  0.1714,  0.1913],
        [-2.1630, -2.2389,  1.0234, -1.2700, -0.4265, -1.2075,  0.2050,  0.1823],
        [ 0.8390, -0.2155,  1.6746, -0.1264, -0.5022, -0.4144,  0.1339,  0.1871]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 5.7419e-01, -3.7921e-01,  1.6460e+00,  3.0839e-01, -3.4596e-01,
           1.4673e-01,  4.1617e-01,  3.1609e-01],
         [ 6.0964e-01, -4.0462e-01,  1.8249e+00, -7.2363e-03, -6.1155e-01,
          -3.5366e-01,  6.1824e-01,  9.2841e-02],
         [ 5.2355e-01, -4.2731e-01,  1.7499e+00, -4.3064e-01, -5.8268e-01,
          -4.6143e-01,  1.6505e-01,  8.6245e-02],
         [ 5.4440e-01, -3.8522e-01,  1.3786e+00, -5.4087e-01, -6.9238e-01,
          -4.2294e-01,  1.7915e-01,  2.3412e-01],
         [ 5.1316e-01, -4.7360e-01,  1.6171e+00,  3.5458e-01, -3.4596e-01,
           1.2363e-01,  1.4038e-01, -9.1096e-02],
         [-2.2859e+00, -2.2859e+00,  1.0513e+00, -1.2851e+00, -4.4411e-01,
          -1.2313e+00,  2.2057e-01,  1.0729e-01],
         [ 5.4353e-01, -4.0454e-01,  1.7557e+00,  8.5142e-02, -5.3072e-01,
          -2.8437e-01,  1.7213e-02,  1.9805e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0259, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0259, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5221390677616
step:  11
running loss:  0.047467187978327274

Train Steps: 11/90  Loss: 0.0475 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3029, -0.5813,  1.6058,  0.2992, -0.4347, -0.2948,  0.2373,  0.4066],
        [ 0.1432, -0.7466,  1.3805, -1.3673, -0.3420, -1.3187,  0.7347,  0.0626],
        [ 0.1686, -0.6956,  1.5923,  0.0621, -0.4416, -0.2541,  0.3519,  0.1528],
        [ 0.2014, -0.6436,  1.2887, -0.8800, -0.6039,  0.0331,  0.3587,  0.2998],
        [ 0.5978, -0.4018,  1.1764, -1.0731, -0.6076, -0.8882,  0.0660,  0.0662],
        [ 0.5845, -0.4183,  1.5968, -0.8787, -0.6331, -0.9194,  0.3063,  0.0992],
        [ 0.5553, -0.4389,  1.4506, -1.0662, -0.4033, -1.0708,  0.5415,  0.1191],
        [ 0.3629, -0.5407,  1.6632,  0.1891, -0.4559,  0.0866,  0.4513,  0.2735]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0381e-01, -3.4642e-01,  1.7037e+00,  3.9307e-01, -4.4411e-01,
          -2.6128e-01,  3.0069e-01,  4.6236e-01],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 5.8915e-01, -4.5504e-01,  1.5132e+00,  3.5458e-01, -3.6905e-01,
          -1.5350e-01,  3.8152e-01,  1.4673e-01],
         [ 5.4319e-01, -4.2240e-01,  1.3284e+00, -8.5404e-01, -6.8661e-01,
          -2.2633e-02,  4.0770e-01,  3.1769e-01],
         [ 5.2194e-01, -4.5504e-01,  1.1415e+00, -9.1962e-01, -6.4042e-01,
          -9.3872e-01,  1.8562e-01,  1.4106e-02],
         [ 5.4825e-01, -4.2490e-01,  1.5305e+00, -7.3857e-01, -6.1155e-01,
          -8.6944e-01,  3.3533e-01,  1.0054e-01],
         [ 5.7962e-01, -3.8776e-01,  1.3688e+00, -1.0542e+00, -4.0947e-01,
          -1.1312e+00,  5.8938e-01,  1.9292e-01],
         [ 5.8528e-01, -3.6135e-01,  1.6806e+00,  2.9299e-01, -4.4988e-01,
           1.0054e-01,  3.8152e-01,  3.3149e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5421810066327453
step:  12
running loss:  0.04518175055272877
Train Steps: 12/90  Loss: 0.0452 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1219, -0.7227,  1.8549, -0.1560, -0.5318, -0.7085,  0.7696,  0.0714],
        [ 0.8323, -0.2219,  1.6331, -0.1667, -0.2122,  0.0865,  0.1752,  0.2409],
        [-2.4100, -2.4214,  0.8703, -1.1893, -0.4963, -1.1885,  0.1118,  0.2354],
        [ 0.7064, -0.3345,  1.2014, -1.1894, -0.3038, -1.3511,  0.4325,  0.1430],
        [ 0.6720, -0.3316,  1.6616, -0.2564, -0.6401, -0.3004,  0.3643,  0.1793],
        [ 0.5241, -0.4137,  1.6657, -0.1205, -0.2329,  0.3921,  0.3336,  0.2425],
        [ 0.4922, -0.4644,  1.7609, -0.4795, -0.7322, -0.6432,  0.3411,  0.0464],
        [ 0.9622, -0.1731,  0.8906, -1.0965, -0.5967, -1.1497,  0.3895,  0.2532]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5627054637297988
step:  13
running loss:  0.04328503567152298
Train Steps: 13/90  Loss: 0.0433 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456],
        [0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4958, -0.4315,  1.4636,  0.0741, -0.4305, -0.2701,  0.1757,  0.2284],
        [ 0.0142, -0.7257,  1.3866, -0.4004, -0.6804, -0.9269,  0.1312,  0.2729],
        [ 0.4388, -0.4977,  1.5452, -0.0589, -0.6108, -0.3443,  0.2965,  0.2244],
        [ 0.1248, -0.7289,  1.5169, -1.3572, -0.3329, -1.3349,  0.9413,  0.0911],
        [ 0.2870, -0.6169,  1.5969, -0.4151, -0.4717,  0.0487,  0.7505,  0.2085],
        [ 0.3186, -0.5650,  1.4995, -0.1835, -0.3716,  0.0049,  0.0432,  0.1541],
        [ 0.1244, -0.6726,  1.3800, -0.3604, -0.4168, -0.0753, -0.0819,  0.1340],
        [ 0.3934, -0.5537,  1.8068, -0.5702, -0.5608, -0.6095,  0.8026,  0.1045]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341],
         [ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0514, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0514, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6141552468761802
step:  14
running loss:  0.043868231919727156
Train Steps: 14/90  Loss: 0.0439 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1153, -0.7137,  1.8762, -0.4651, -0.3093, -0.7997,  0.9198,  0.2673],
        [ 0.2380, -0.6188,  1.6252, -0.5804, -0.7252, -0.4364,  0.3297,  0.1032],
        [ 0.4029, -0.5418,  1.0334, -1.3869, -0.4907, -1.4458,  0.2220,  0.0935],
        [ 0.4753, -0.5046,  1.0829, -1.3684, -0.6306, -1.0880,  0.3981,  0.0556],
        [ 0.0737, -0.7363,  1.5422,  0.0759, -0.5337, -0.1861,  0.7105,  0.2673],
        [ 0.2822, -0.5751,  1.5885, -0.0442, -0.2840, -0.0404,  0.1796,  0.1596],
        [ 0.2269, -0.6090,  1.6293, -0.0549, -0.2520,  0.0713,  0.2031,  0.1629],
        [-0.0072, -0.7856,  1.5862, -0.1222, -0.6186, -0.3006,  0.3431,  0.3637]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0415, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0415, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6556800110265613
step:  15
running loss:  0.04371200073510408

Train Steps: 15/90  Loss: 0.0437 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1218, -0.6983,  1.2977, -0.7802, -0.6482, -0.9329,  0.1384,  0.3076],
        [ 0.1443, -0.6555,  1.6092, -0.6454, -0.6445, -0.6126,  0.2774,  0.1033],
        [ 0.3040, -0.5442,  1.3830, -0.0120, -0.4510, -0.2879,  0.3900,  0.3919],
        [ 0.0439, -0.7803,  1.1903, -1.3528, -0.3130, -1.4106,  0.5307,  0.1385],
        [ 0.4143, -0.5202,  1.7113, -0.1068, -0.4546,  0.0416,  0.4255,  0.0655],
        [ 0.3109, -0.5906,  1.6933, -0.0469, -0.5008, -0.4294,  0.8705,  0.1147],
        [ 0.1866, -0.6275,  1.6986, -0.3177, -0.2417,  0.3220,  0.5624,  0.1782],
        [ 0.2944, -0.5437,  1.5597, -0.0388, -0.5235, -0.6436,  0.3104,  0.2505]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0385, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6941816275939345
step:  16
running loss:  0.04338635172462091
Train Steps: 16/90  Loss: 0.0434 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 2.7160e-01, -6.1288e-01,  1.3024e+00, -1.0790e+00, -2.4634e-01,
         -1.3686e+00,  5.0634e-01,  1.6069e-01],
        [ 2.6692e-01, -5.8733e-01,  1.6549e+00,  1.7750e-01, -2.6255e-01,
          1.4141e-01,  3.5143e-01,  1.6915e-01],
        [ 3.3903e-01, -5.6775e-01,  1.0713e+00, -1.1558e+00, -2.5916e-01,
         -1.4428e+00,  3.9940e-01,  2.0511e-01],
        [ 4.3410e-01, -5.4499e-01,  1.1180e+00, -1.2465e+00, -5.6629e-01,
         -1.0447e+00,  5.5686e-01,  4.9847e-02],
        [ 2.5437e-01, -6.0803e-01,  1.7518e+00,  1.5235e-01, -4.2358e-01,
          4.0426e-02,  5.6769e-01,  1.3766e-01],
        [ 6.4946e-04, -7.1879e-01,  1.5425e+00,  7.2002e-03, -6.0888e-01,
         -6.5312e-01,  2.5940e-01,  3.6687e-01],
        [ 1.4826e-01, -6.5294e-01,  1.8039e+00, -3.0606e-01, -5.9294e-01,
         -5.2833e-02,  6.3769e-01,  2.8626e-01],
        [ 8.7252e-02, -6.8236e-01,  1.6944e+00, -4.0593e-01, -6.6378e-01,
         -3.7071e-01,  5.3112e-01,  2.8553e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7261817371472716
step:  17
running loss:  0.04271657277336892
Train Steps: 17/90  Loss: 0.0427 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9092, -0.1473,  1.7510, -0.4465, -0.6588, -0.6622,  0.2803,  0.0766],
        [ 0.6855, -0.2995,  1.7302, -0.2893, -0.4286,  0.1628,  0.6664,  0.2222],
        [ 0.5960, -0.4104,  1.4210, -1.1680, -0.3207, -1.3542,  0.9038,  0.1072],
        [ 0.5793, -0.3802,  1.6687,  0.1535, -0.4748, -0.2674,  0.5813,  0.1793],
        [-2.6504, -2.5917,  1.0145, -1.4165, -0.4417, -1.2874,  0.2440,  0.2193],
        [ 0.6755, -0.2863,  1.4774,  0.1994, -0.5063, -0.2944,  0.5160,  0.4400],
        [ 0.4113, -0.4544,  1.6717,  0.0710, -0.1949, -0.0334,  0.2397,  0.2295],
        [ 0.6982, -0.2907,  1.6843, -0.0253, -0.4022,  0.0244,  0.4109,  0.3028]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0168, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0168, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7429619831964374
step:  18
running loss:  0.04127566573313541
Train Steps: 18/90  Loss: 0.0413 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1537, -0.7204,  1.6356, -0.8018, -0.6451, -0.8134,  0.7579,  0.1320],
        [ 0.5381, -0.3980,  1.6382, -0.0354, -0.6471, -0.7040,  0.4174,  0.4160],
        [ 0.3666, -0.4972,  1.6796, -0.2601, -0.1986,  0.0435,  0.4511,  0.3033],
        [ 0.2557, -0.5845,  1.7455,  0.0321, -0.1672,  0.1011,  0.3273,  0.2243],
        [ 0.2479, -0.6265,  1.6954,  0.2720, -0.5356, -0.2905,  0.6293,  0.1359],
        [ 0.5597, -0.4278,  1.1547, -1.2702, -0.3355, -1.5681,  0.3867,  0.1769],
        [ 0.3058, -0.5402,  1.7025, -0.1812, -0.2044,  0.0503,  0.5050,  0.2742],
        [ 0.2479, -0.6194,  1.8035, -0.1138, -0.5522, -0.0488,  0.5325,  0.2004]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0247, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0247, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7676935633644462
step:  19
running loss:  0.04040492438760243

Train Steps: 19/90  Loss: 0.0404 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [   nan,    nan, 0.8850, 0.2817, 0.5112, 0.2183, 0.7184, 0.5436],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5391, -0.4111,  1.8399,  0.5539, -0.5385, -0.3105,  0.1539,  0.1573],
        [-0.4865, -1.1033,  1.7536, -0.9170,  0.0708, -1.0576,  1.1059,  0.2863],
        [ 0.7090, -0.2659,  1.6790, -0.7104, -0.3165, -0.8219,  0.6182,  0.2112],
        [ 1.0314, -0.0671,  1.9320,  0.0433, -0.5273,  0.1994,  0.5365,  0.3001],
        [ 0.7391, -0.2983,  1.1664, -1.0349, -0.3136, -0.9762,  0.4261,  0.2512],
        [ 0.9982, -0.1675,  1.8577,  0.0253, -0.5594, -0.2516,  0.6394,  0.1182],
        [ 0.6368, -0.3559,  1.2847, -0.8534, -0.4753, -0.6293,  0.4588,  0.2208],
        [-2.1450, -2.2038,  0.8288, -1.1550, -0.3983, -1.0886,  0.1174,  0.3643]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5379, -0.4358,  1.7326,  0.1852, -0.6058, -0.5461,  0.0684,
          -0.0310],
         [-2.2859, -2.2859,  1.8018, -0.9849,  0.0755, -1.2774,  1.0326,
           0.2249],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1029, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1029, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8706217845901847
step:  20
running loss:  0.04353108922950923
Train Steps: 20/90  Loss: 0.0435 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5395, -0.4382,  1.1486, -1.2259, -0.4905, -0.8644,  0.3337,  0.1198],
        [ 0.6198, -0.3472,  1.6669, -0.0291, -0.5057, -0.2221,  0.2427,  0.3126],
        [ 0.4126, -0.5339,  1.4331, -1.0436, -0.2162, -1.1185,  0.6102,  0.1433],
        [ 0.5501, -0.4162,  1.8176, -0.2285, -0.5117,  0.0819,  0.6617,  0.2014],
        [ 0.6478, -0.3610,  1.6992,  0.5170, -0.4537,  0.1087,  0.4591,  0.1850],
        [ 0.1851, -0.6295,  1.3142, -0.7649, -0.5219, -0.7357, -0.0488,  0.2572],
        [ 0.2418, -0.6364,  1.9933,  0.0325, -0.2490, -0.7881,  0.7903,  0.2832],
        [-0.4642, -1.0908,  1.9517, -0.5161, -0.0796, -0.6657,  1.0323,  0.3870]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0475, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0475, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9181526629254222
step:  21
running loss:  0.04372155537740106
Train Steps: 21/90  Loss: 0.0437 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6205, 0.4081, 0.8950, 0.4017, 0.3788, 0.4700, 0.5963, 0.5667],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0581, -0.7464,  1.3099, -1.2809, -0.1847, -1.5320,  0.3973,  0.1047],
        [ 0.4789, -0.4865,  2.0377,  0.2317, -0.4262,  0.3754,  0.9245,  0.2274],
        [ 0.2831, -0.5276,  1.3031, -0.8277, -0.5686, -0.3106,  0.3127,  0.3282],
        [-0.0833, -0.8177,  1.0154, -1.2084, -0.3860, -1.3190,  0.2106,  0.2604],
        [ 0.7950, -0.2507,  1.9152, -0.1057, -0.5803,  0.0395,  0.5121,  0.2700],
        [ 0.3878, -0.5124,  1.9157,  0.1641, -0.0578,  0.0620,  0.4092,  0.2649],
        [ 0.6601, -0.3920,  1.8787,  0.6277, -0.4979,  0.0237,  0.6823,  0.2055],
        [ 0.4764, -0.4623,  1.5466, -0.8331, -0.2431, -1.1635,  0.6208,  0.2329]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8284e-01, -4.4175e-01,  1.2476e+00, -1.3929e+00, -1.7275e-01,
          -1.5700e+00,  4.6937e-01, -2.4798e-02],
         [ 6.0260e-01, -4.4175e-01,  1.8654e+00, -8.4219e-02, -4.4411e-01,
           2.6220e-01,  9.2654e-01,  1.5543e-01],
         [ 5.5087e-01, -3.7983e-01,  1.2129e+00, -8.6944e-01, -6.9815e-01,
          -2.6128e-01,  3.8302e-01,  1.1931e-01],
         [ 5.2315e-01, -4.1886e-01,  9.3580e-01, -1.4006e+00, -3.9215e-01,
          -1.3698e+00,  2.5553e-01,  2.9064e-01],
         [ 5.7991e-01, -4.0115e-01,  1.8480e+00, -4.3064e-01, -5.3649e-01,
          -1.1501e-01,  4.6813e-01,  3.3149e-01],
         [ 5.3712e-01, -4.2517e-01,  1.7037e+00, -6.8822e-02, -3.4180e-02,
           6.2048e-02,  3.7575e-01,  2.8530e-01],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 6.1742e-01, -4.2249e-01,  1.4975e+00, -1.1709e+00, -3.1736e-01,
          -1.1806e+00,  6.5391e-01,  1.8793e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9488857751712203
step:  22
running loss:  0.043131171598691835
Train Steps: 22/90  Loss: 0.0431 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4515, -0.4720,  1.4325, -1.0735, -0.0188, -1.3452,  0.6986,  0.1841],
        [ 0.6504, -0.3483,  1.7911, -0.2205, -0.5954, -0.4333,  0.2837,  0.1217],
        [ 0.1686, -0.6797,  1.4327, -0.8897, -0.3231, -1.0884,  0.6743,  0.1728],
        [ 0.2799, -0.5739,  1.7917,  0.1795, -0.2080,  0.2609,  0.3030,  0.1324],
        [ 0.0126, -0.7755,  1.7338, -0.6765, -0.5620, -0.7782,  0.6809,  0.1863],
        [ 0.5867, -0.3887,  1.3940, -0.7872, -0.4405, -0.8869,  0.5255,  0.3176],
        [ 0.5458, -0.4143,  1.7265, -0.0424, -0.4915, -0.1369,  0.3132,  0.2854],
        [ 0.4597, -0.4834,  1.8259,  0.0604, -0.1184,  0.2290,  0.6608,  0.2708]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04],
         [ 5.5953e-01, -3.9877e-01,  1.7672e+00, -4.4604e-01, -5.5381e-01,
          -5.3841e-01,  8.2802e-02, -3.0981e-02],
         [ 5.8851e-01, -4.4288e-01,  1.4266e+00, -9.9261e-01, -4.3834e-01,
          -1.2313e+00,  4.2276e-01,  1.1948e-01],
         [ 5.5155e-01, -4.2249e-01,  1.7788e+00, -5.3426e-02, -2.0162e-01,
           1.9292e-01,  1.5683e-01,  6.8210e-02],
         [ 5.7991e-01, -4.3295e-01,  1.7210e+00, -7.6936e-01, -5.7113e-01,
          -8.7714e-01,  3.9885e-01,  7.7444e-02],
         [ 5.8747e-01, -3.8876e-01,  1.3111e+00, -8.8483e-01, -4.6143e-01,
          -9.8491e-01,  5.2009e-01,  2.6220e-01],
         [ 5.4405e-01, -3.9969e-01,  1.7326e+00, -2.2279e-01, -4.4411e-01,
          -2.9207e-01,  2.9551e-02,  2.4088e-01],
         [ 5.5978e-01, -4.2731e-01,  1.7152e+00, -1.2271e-01, -6.4698e-03,
           1.9169e-01,  5.1432e-01,  2.8530e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0256, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0256, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.974448068998754
step:  23
running loss:  0.042367307347771915

Train Steps: 23/90  Loss: 0.0424 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5464, -0.4343,  1.5575, -0.8826, -0.4123, -0.6552,  0.5500,  0.2263],
        [ 0.8880, -0.2405,  1.9189, -0.1182, -0.5029, -0.3676,  0.4924,  0.2121],
        [ 0.0587, -0.7420,  0.9993, -1.1595, -0.2452, -1.3513,  0.2003,  0.2672],
        [ 0.3428, -0.5721,  1.6978, -0.4107, -0.5528, -0.2838,  0.3479,  0.0575],
        [ 0.1762, -0.6208,  1.4553, -0.6422, -0.3622, -0.7972,  0.3625,  0.3719],
        [ 0.4635, -0.4896,  1.5542, -0.8813, -0.2341, -1.0112,  0.6000,  0.1013],
        [ 0.6053, -0.4251,  1.9318, -0.4953, -0.3275, -0.9114,  0.6566,  0.1574],
        [ 0.3713, -0.5982,  1.8847,  0.3658, -0.2720,  0.4730,  0.9611,  0.2410]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5935, -0.3558,  1.3284, -0.6924, -0.5249, -0.9618,  0.3353,
           0.3084],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0266, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0266, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.001086718402803
step:  24
running loss:  0.04171194660011679
Train Steps: 24/90  Loss: 0.0417 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1870, -0.6556,  1.0506, -1.2502, -0.2470, -1.4751,  0.2263,  0.1088],
        [ 0.9500, -0.1776,  1.8741, -0.2319, -0.6673, -0.1799,  0.6115,  0.2558],
        [ 0.5001, -0.4606,  1.8854,  0.0563, -0.1951,  0.3606,  0.6289,  0.2175],
        [ 0.3553, -0.5747,  1.8311, -0.1599, -0.5016,  0.1822,  0.3915,  0.0840],
        [ 0.4626, -0.5170,  1.5021, -1.0981, -0.1401, -1.4030,  0.7077,  0.1556],
        [ 0.5643, -0.4305,  1.2420, -1.1086, -0.3508, -1.2393,  0.2733,  0.1198],
        [ 0.5204, -0.5165,  1.8178,  0.2130, -0.5849, -0.0536,  0.5791,  0.3442],
        [ 0.3039, -0.5933,  1.8124, -0.8292, -0.2101, -1.0178,  0.6856,  0.2138]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0197177669033408
step:  25
running loss:  0.040788710676133634
Train Steps: 25/90  Loss: 0.0408 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6903, -0.3480,  1.6033, -1.1603, -0.2271, -1.2476,  0.8479,  0.1206],
        [ 0.9546, -0.2341,  1.9506, -0.1557, -0.5827, -0.3543,  0.8376,  0.1278],
        [ 0.7325, -0.3103,  1.4645, -1.0865, -0.5483, -0.8621,  0.4646,  0.2128],
        [ 0.9658, -0.1793,  1.7586,  0.3576, -0.2545, -0.2151,  0.4456,  0.2952],
        [ 0.6139, -0.3888,  1.7524,  0.0334, -0.2684,  0.1579,  0.3302,  0.1551],
        [ 0.9975, -0.1532,  1.7208, -0.8041, -0.6586, -0.6190,  0.5044,  0.1213],
        [-1.4734, -1.7306,  1.0105, -1.3044, -0.3757, -1.4271,  0.1577,  0.2327],
        [ 0.5141, -0.4748,  1.8513, -0.0350, -0.0525, -0.0404,  0.2714,  0.1178]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0308, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0308, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0505003025755286
step:  26
running loss:  0.04040385779136649
Train Steps: 26/90  Loss: 0.0404 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6182, 0.3998, 0.8793, 0.4191, 0.3552, 0.4285, 0.6038, 0.5312],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3545, -0.5765,  1.8130, -0.4768, -0.5115, -0.0557,  0.6404,  0.3101],
        [ 0.8690, -0.2657,  1.8614, -0.3410, -0.3643, -1.1425,  0.4606, -0.0299],
        [ 0.5647, -0.4242,  1.6549, -0.8860, -0.5752, -0.6408,  0.4819,  0.1474],
        [ 0.5902, -0.3918,  1.2179, -1.2495, -0.3850, -1.0606,  0.3993,  0.0960],
        [ 0.7421, -0.3249,  1.7175, -0.5679, -0.5654, -0.3985,  0.4766,  0.1935],
        [ 0.3850, -0.5400,  1.6495, -1.0489, -0.2069, -1.1659,  0.7564,  0.1570],
        [ 0.6308, -0.3960,  1.5943,  0.2649, -0.3435, -0.1843,  0.4090,  0.3099],
        [ 0.4256, -0.5386,  1.7622, -0.0179, -0.1365, -0.0189,  0.2498,  0.2253]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.6116, -0.3898,  1.8654, -0.1997, -0.4788, -1.1081,  0.4367,
          -0.0637],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5697, -0.4393,  1.7754, -0.3503, -0.6453, -0.3067,  0.5028,
           0.1677],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0623777024447918
step:  27
running loss:  0.039347322312770064
Train Steps: 27/90  Loss: 0.0393 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0085, -0.1871,  1.8592, -0.1330, -0.5335, -0.2461,  0.5151,  0.1121],
        [ 0.3415, -0.6384,  1.7394, -0.0560, -0.5300, -0.2992,  0.4617,  0.3580],
        [ 0.3285, -0.5683,  1.3489, -1.0629, -0.3567, -1.1883,  0.1364,  0.1996],
        [ 0.9330, -0.2222,  1.7962, -0.3420, -0.4949, -0.8077,  0.4360,  0.1853],
        [ 0.1978, -0.6507,  1.7339, -0.5420, -0.4382,  0.2163,  0.6497,  0.2670],
        [ 0.5605, -0.4510,  1.8137, -0.1079, -0.2602,  0.0344,  0.3814,  0.2185],
        [ 0.6950, -0.3404,  1.2603, -1.1607, -0.5204, -0.9337,  0.4292,  0.1559],
        [ 0.6403, -0.3981,  1.6608, -1.2186, -0.1359, -1.5327,  0.6665, -0.0350]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5671, -0.3988,  1.7499, -0.4614, -0.5423,  0.3007,  0.5894,
           0.3469],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.081544168293476
step:  28
running loss:  0.03862657743905272
Train Steps: 28/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.0282e-01, -3.5619e-01,  1.7135e+00, -4.1727e-02, -3.3237e-01,
          1.0901e-02,  6.6772e-01,  2.1084e-01],
        [ 3.8480e-01, -5.4974e-01,  1.7183e+00, -4.0325e-01, -5.3389e-01,
         -2.2765e-01,  2.6194e-01,  2.6075e-01],
        [ 7.6077e-01, -3.0297e-01,  1.5522e+00, -1.4613e+00, -3.3689e-01,
         -1.3400e+00,  7.1667e-01,  7.7529e-02],
        [ 7.0844e-01, -3.7311e-01,  1.6807e+00,  2.1612e-01, -2.8488e-01,
         -1.6373e-01,  1.3775e-01,  1.9161e-01],
        [ 9.8953e-01, -1.7994e-01,  1.8835e+00, -4.4454e-01, -4.4358e-01,
         -1.2113e+00,  4.9894e-01,  5.9100e-02],
        [ 2.3141e-01, -6.8316e-01,  1.7980e+00, -3.3082e-01, -5.0640e-01,
          9.5241e-05,  7.1420e-01,  2.7764e-01],
        [ 4.2223e-01, -5.0048e-01,  1.6832e+00, -6.2590e-01, -5.5156e-01,
         -1.7219e-01,  3.4742e-01,  2.4207e-01],
        [ 7.0103e-01, -3.0725e-01,  9.7545e-01, -1.3389e+00, -4.3456e-01,
         -1.3520e+00,  1.6919e-01,  2.4624e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0425e-01, -4.2731e-01,  1.6920e+00,  1.8595e-01, -2.7171e-01,
           1.4059e-01,  7.9965e-01,  1.0043e-01],
         [ 5.3684e-01, -4.4057e-01,  1.7730e+00, -1.7660e-01, -5.2494e-01,
          -5.3426e-02,  2.3141e-01,  3.4688e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 5.1928e-01, -4.6990e-01,  1.5767e+00,  4.0077e-01, -2.4203e-01,
           7.7444e-02,  1.1776e-01, -6.1038e-02],
         [ 6.1161e-01, -3.8976e-01,  1.8654e+00, -1.9969e-01, -4.7875e-01,
          -1.1081e+00,  4.3668e-01, -6.3661e-02],
         [ 5.9436e-01, -4.4897e-01,  1.8643e+00, -6.5918e-02, -5.1472e-01,
           1.2348e-01,  7.6842e-01,  1.0043e-01],
         [ 5.5456e-01, -4.6205e-01,  1.7788e+00, -4.2294e-01, -5.1917e-01,
          -2.2633e-02,  4.2771e-01,  2.4681e-01],
         [ 5.4827e-01, -3.9908e-01,  8.0300e-01, -1.2159e+00, -5.0185e-01,
          -1.1928e+00,  2.6243e-01,  3.8516e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0218, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0218, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1033018305897713
step:  29
running loss:  0.03804489070999211
Train Steps: 29/90  Loss: 0.0380 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700],
        [0.6339, 0.4102, 0.8588, 0.3133, 0.4425, 0.2117, 0.6417, 0.5089]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9041, -0.2328,  1.4413, -1.2928, -0.3322, -1.1886,  0.6267,  0.0711],
        [ 0.7592, -0.2912,  1.6034, -0.9775, -0.1320, -1.3031,  0.6796,  0.1741],
        [-1.2913, -1.6136,  0.9918, -1.1419, -0.4308, -1.3234,  0.0654,  0.2949],
        [ 0.8360, -0.2591,  1.3810, -0.9939, -0.5174, -1.0080,  0.2762,  0.1503],
        [ 0.7807, -0.3532,  1.7547,  0.2277, -0.4817,  0.1521,  0.4084,  0.1783],
        [ 0.7861, -0.2807,  1.6459, -0.4515, -0.6758, -0.4393,  0.1187,  0.3166],
        [ 0.4825, -0.4640,  1.7166, -0.4412, -0.5613,  0.3670,  0.6141,  0.3111],
        [ 0.8659, -0.2588,  1.6902, -0.7670, -0.2796, -1.1250,  0.6830,  0.1375]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 6.4707e-01, -3.8397e-01,  1.5767e+00, -1.0311e+00, -4.5727e-02,
          -1.5007e+00,  6.8892e-01,  1.0199e-01],
         [-2.2859e+00, -2.2859e+00,  1.0712e+00, -1.2085e+00, -3.8060e-01,
          -1.3929e+00,  7.5520e-02,  2.0062e-01],
         [ 5.7985e-01, -4.1555e-01,  1.3977e+00, -1.0388e+00, -4.6721e-01,
          -1.1004e+00,  3.4688e-01,  1.0824e-01],
         [ 5.7673e-01, -4.3957e-01,  1.6782e+00,  1.9046e-01, -3.8437e-01,
           3.0841e-02,  4.5876e-01,  8.5521e-02],
         [ 5.5813e-01, -3.9120e-01,  1.6460e+00, -5.2302e-01, -6.1732e-01,
          -5.9230e-01,  6.8107e-02,  4.3475e-01],
         [ 5.6715e-01, -3.9885e-01,  1.7499e+00, -4.6143e-01, -5.4226e-01,
           3.0069e-01,  5.8938e-01,  3.4688e-01],
         [ 6.4212e-01, -3.9120e-01,  1.6806e+00, -8.3865e-01, -2.4203e-01,
          -1.3082e+00,  6.7795e-01,  6.4585e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0340, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0340, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1373316459357738
step:  30
running loss:  0.0379110548645258

Train Steps: 30/90  Loss: 0.0379 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6192, 0.3980, 0.7078, 0.2750, 0.4250, 0.2100, 0.5450, 0.5783],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9908, -0.1592,  1.7502, -0.3743, -0.6669, -0.1327,  0.2648,  0.2209],
        [-0.1769, -0.8809,  1.1025, -1.1944, -0.3271, -1.3661,  0.1683,  0.3038],
        [-0.9808, -1.4234,  1.6078, -1.3676,  0.0597, -1.3673,  0.7059,  0.2835],
        [-1.0429, -1.4503,  0.9365, -1.3842, -0.4058, -1.4962,  0.0476,  0.3043],
        [ 1.3095,  0.0057,  1.8528,  0.1808, -0.6550, -0.1029,  0.3944,  0.2550],
        [ 1.3513,  0.0706,  1.4051, -1.2822, -0.5891, -1.0075,  0.4432, -0.0362],
        [ 1.3579,  0.0215,  1.8816,  0.1004, -0.4905,  0.3744,  0.8456,  0.2072],
        [ 1.0344, -0.1677,  1.8004,  0.2043, -0.4927, -0.0642,  0.3500,  0.2197]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.5742, -0.4474,  0.9834, -1.0159, -0.3229, -1.3159,  0.2314,
           0.3854],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1383, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1383, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2756343595683575
step:  31
running loss:  0.04114949546994701
Train Steps: 31/90  Loss: 0.0411 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7756, -0.2943,  1.5082, -1.1577, -0.5133, -0.9230,  0.4684,  0.1807],
        [ 0.3804, -0.5261,  0.9433, -1.4339, -0.4707, -1.3062,  0.1094,  0.1210],
        [ 0.6888, -0.3697,  1.7758, -0.6519, -0.3946, -1.1142,  0.5529,  0.1363],
        [ 0.6840, -0.3646,  1.5596,  0.2019, -0.4157, -0.2509,  0.2369,  0.3986],
        [ 0.8092, -0.3029,  1.7801, -0.0520, -0.4425, -0.0876,  0.3524,  0.1252],
        [ 0.6672, -0.3370,  1.2757, -1.0965, -0.4721, -1.1377,  0.3404,  0.3186],
        [ 0.3779, -0.5995,  1.8432, -0.2514, -0.4791,  0.1413,  0.7156,  0.2372],
        [ 0.3615, -0.6130,  1.7762, -0.2651, -0.5145,  0.0278,  0.5792,  0.2315]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2920843735337257
step:  32
running loss:  0.04037763667292893
Train Steps: 32/90  Loss: 0.0404 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6177, 0.4086, 0.8738, 0.3950, 0.3775, 0.5600, 0.6225, 0.5700],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7272, -0.3183,  1.7046, -0.5656, -0.4559, -1.0896,  0.1794,  0.1725],
        [ 0.4934, -0.5156,  1.8159, -0.1265, -0.5439, -0.0894,  0.4923,  0.2124],
        [ 0.6612, -0.3344,  1.7433, -0.5302, -0.4852,  0.2510,  0.5717,  0.3081],
        [ 0.7566, -0.2804,  1.0319, -1.3667, -0.4885, -1.1770,  0.3090,  0.1345],
        [ 0.6595, -0.3936,  1.5598,  0.0052, -0.4803, -0.1097,  0.5725,  0.2791],
        [-0.9094, -1.3789,  1.0018, -1.3468, -0.2830, -1.5701,  0.1808,  0.3358],
        [ 0.7135, -0.3099,  1.2355, -1.1843, -0.5799, -0.8957,  0.4245,  0.2362],
        [ 0.8254, -0.3237,  1.8059,  0.2547, -0.4740, -0.2230,  0.5220,  0.1259]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4850e-01, -4.2094e-01,  1.6691e+00, -4.1524e-01, -5.2494e-01,
          -1.1081e+00,  7.2521e-02,  2.0831e-03],
         [ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.6715e-01, -3.9885e-01,  1.7499e+00, -4.6143e-01, -5.4226e-01,
           3.0069e-01,  5.8938e-01,  3.4688e-01],
         [ 5.0531e-01, -4.2810e-01,  8.9538e-01, -1.3698e+00, -5.4226e-01,
          -1.1389e+00,  2.4525e-01,  8.6245e-02],
         [ 6.2895e-01, -4.3453e-01,  1.3794e+00,  3.6792e-01, -4.8453e-01,
           3.8953e-02,  9.2654e-01,  1.9283e-01],
         [-2.2859e+00, -2.2859e+00,  6.7598e-01, -1.4083e+00, -3.2864e-01,
          -1.4160e+00,  2.4873e-01,  3.4688e-01],
         [ 5.4660e-01, -4.0805e-01,  1.0668e+00, -1.1764e+00, -6.2887e-01,
          -7.6166e-01,  4.8545e-01,  3.0069e-01],
         [ 6.3949e-01, -4.2132e-01,  1.7037e+00,  3.6228e-01, -4.3256e-01,
          -1.0731e-01,  6.5602e-01, -4.8817e-03]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0586, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0586, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3506991527974606
step:  33
running loss:  0.0409302773574988
Train Steps: 33/90  Loss: 0.0409 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3825, -0.5192,  1.5531, -0.5483, -0.5774, -0.2306,  0.2690,  0.1452],
        [ 0.3526, -0.5745,  1.5906,  0.1417, -0.4948, -0.4045,  0.2288,  0.1579],
        [ 0.5171, -0.4502,  1.0703, -1.4119, -0.5305, -1.0881,  0.4877,  0.2627],
        [ 0.4865, -0.4936,  1.6517, -0.4755, -0.5666, -0.7995,  0.4503,  0.1849],
        [ 0.8655, -0.1874,  1.4872, -0.2307, -0.6180, -0.7052,  0.3166,  0.3255],
        [ 0.4165, -0.5100,  1.6322, -0.2517, -0.3476, -0.0160,  0.4465,  0.2920],
        [ 0.4606, -0.5201,  1.6801, -0.0939, -0.3939,  0.0481,  0.4526,  0.2095],
        [ 0.4394, -0.4942,  1.3631, -1.2998, -0.2485, -1.3518,  0.7349,  0.1318]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3644524635747075
step:  34
running loss:  0.04013095481102081
Train Steps: 34/90  Loss: 0.0401 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6110, 0.4047, 0.8700, 0.4483, 0.3713, 0.3967, 0.5088, 0.5517],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5411, -0.4536,  1.7278, -0.3899, -0.5399, -0.1135,  0.6217,  0.1842],
        [ 0.3986, -0.5291,  1.6807, -0.3776, -0.6092, -0.5501,  0.3713,  0.1663],
        [ 0.6661, -0.3267,  1.3198, -0.6602, -0.6227, -0.4715,  0.1822,  0.1441],
        [ 0.3818, -0.5150,  1.5559, -0.4041, -0.6201, -0.5724,  0.1614,  0.2175],
        [ 0.3520, -0.6014,  1.6483,  0.0400, -0.4569, -0.2901,  0.5195,  0.1823],
        [ 0.7070, -0.3190,  1.6861, -0.3544, -0.1871,  0.0213,  0.5974,  0.2302],
        [ 0.5853, -0.4072,  1.4730,  0.1342, -0.3969, -0.3106,  0.5202,  0.4160],
        [ 0.1553, -0.6436,  0.8552, -1.3981, -0.4279, -1.4607,  0.2782,  0.2042]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5363, -0.4168,  1.7326, -0.2151, -0.5711, -0.4537,  0.0640,
           0.2622],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3845558362081647
step:  35
running loss:  0.03955873817737613
Train Steps: 35/90  Loss: 0.0396 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2897, -0.6276,  1.5647, -0.0474, -0.4891, -0.2550,  0.5759,  0.1923],
        [ 0.5408, -0.4012,  1.5358,  0.0289, -0.3157, -0.0208,  0.1720,  0.2009],
        [ 0.5524, -0.4431,  1.6840, -0.4082, -0.5403, -0.9415,  0.4238,  0.0553],
        [ 0.4974, -0.4879,  1.6445, -0.0998, -0.4748, -0.0273,  0.3334,  0.1735],
        [ 0.5754, -0.4577,  1.6794, -0.2655, -0.5683, -0.5576,  0.6392,  0.2151],
        [ 0.2067, -0.6470,  0.9056, -1.5566, -0.5469, -1.1697,  0.3692,  0.1897],
        [ 0.6249, -0.3607,  1.5125, -0.7481, -0.5763, -0.1067,  0.5937,  0.2508],
        [ 0.3513, -0.5097,  1.4105,  0.1475, -0.3911, -0.3318,  0.2325,  0.4419]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6207, -0.4466,  1.7326,  0.1621, -0.5480, -0.1073,  0.9704,
           0.1608],
         [ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [ 0.6148, -0.3918,  1.8942, -0.1920, -0.5423, -0.8002,  0.6414,
          -0.0156],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.6010, -0.3896,  1.7326, -0.5692, -0.6289,  0.0082,  0.5028,
           0.1005],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0228, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0228, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4073562482371926
step:  36
running loss:  0.039093229117699795
Train Steps: 36/90  Loss: 0.0391 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6089, -0.3586,  0.9983, -1.0574, -0.4327, -1.0262,  0.4522,  0.3104],
        [ 0.7212, -0.3187,  1.2293, -1.0060, -0.4093, -1.1530,  0.3823,  0.1102],
        [ 0.9051, -0.1809,  1.4924, -0.3170, -0.7052, -0.3290,  0.1440,  0.1669],
        [ 0.1922, -0.6328,  0.9536, -0.8334, -0.5797, -0.8038,  0.2082,  0.3640],
        [ 0.9224, -0.2444,  2.0366,  0.1023, -0.4859,  0.4914,  0.9817,  0.1094],
        [-2.0891, -2.1434,  1.0060, -1.0435, -0.4197, -1.1671,  0.2153,  0.2539],
        [ 0.3065, -0.5146,  1.1554, -0.6968, -0.1279, -1.0569,  0.2675,  0.3804],
        [ 0.7788, -0.3376,  1.8395,  0.3493, -0.5287,  0.0480,  0.6786,  0.0816]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [-2.2859, -2.2859,  0.9922, -1.2021, -0.3229, -1.4314,  0.1044,
           0.2930],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.6207, -0.4466,  1.7326,  0.1621, -0.5480, -0.1073,  0.9704,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0270, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0270, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4343694495037198
step:  37
running loss:  0.038766741878478915
Train Steps: 37/90  Loss: 0.0388 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6161, 0.4055, 0.8675, 0.3867, 0.3713, 0.4033, 0.5195, 0.5162],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.0315, -1.4505,  0.8585, -1.1804, -0.3616, -1.3684,  0.2596,  0.2981],
        [ 0.3760, -0.4742,  1.6197, -0.2871, -0.5844, -0.3497,  0.1494,  0.1322],
        [ 0.2731, -0.5802,  0.7607, -1.3135, -0.4940, -1.0363,  0.2531,  0.2214],
        [ 0.6946, -0.3087,  1.6473,  0.2415, -0.1956,  0.1741,  0.4767,  0.1525],
        [ 0.7139, -0.3329,  1.4853,  0.1988, -0.4484,  0.0563,  0.7421,  0.2211],
        [ 0.5019, -0.4580,  1.7091, -0.0458, -0.5463, -0.2297,  0.5223,  0.2264],
        [ 0.7135, -0.3331,  1.8205, -0.2745, -0.5317, -0.6166,  0.6577,  0.1887],
        [ 0.4978, -0.4209,  1.3890, -0.5404, -0.6099, -0.6694,  0.2540,  0.2692]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5598, -0.4129,  1.7210, -0.4999, -0.5711, -0.4229,  0.1136,
           0.0983],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0676, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0676, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.501950633712113
step:  38
running loss:  0.03952501667663455
Train Steps: 38/90  Loss: 0.0395 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6832, -0.3513,  1.7042, -0.1977, -0.6291, -0.4616,  0.5176,  0.1659],
        [-0.7401, -1.2939,  1.7845, -0.6514, -0.1847, -0.8358,  1.0248,  0.2050],
        [-0.5645, -1.1050,  0.7261, -1.0714, -0.4450, -1.3088,  0.0884,  0.2421],
        [ 0.6336, -0.3166,  1.6069,  0.0188, -0.1684,  0.2818,  0.4854,  0.2356],
        [ 0.6863, -0.3263,  1.6596,  0.1793, -0.3551,  0.1340,  0.4881,  0.2052],
        [ 0.6414, -0.3296,  1.4893, -0.1288, -0.5712, -0.1099,  0.2392,  0.1740],
        [ 0.4698, -0.4321,  0.7184, -0.8961, -0.6497, -0.8492,  0.1134,  0.3681],
        [ 0.7837, -0.2923,  1.5828, -0.4301, -0.5045, -0.8921,  0.5768,  0.0597]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0914, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0914, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5933644147589803
step:  39
running loss:  0.04085549781433283
Train Steps: 39/90  Loss: 0.0409 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5238, -0.3950,  1.2829, -0.8842, -0.3780, -1.2504,  0.3666,  0.1162],
        [ 0.2301, -0.5965,  1.5215,  0.3388, -0.3021, -0.0835,  0.4180,  0.1480],
        [ 0.3454, -0.4980,  1.4978,  0.1416, -0.5490, -0.5785,  0.3343,  0.2566],
        [ 0.5529, -0.4195,  1.7595, -0.3212, -0.4820,  0.2027,  0.8572,  0.1335],
        [ 0.3021, -0.5822,  1.6934, -0.0044, -0.4441, -0.0950,  0.3973,  0.1461],
        [ 0.3611, -0.5352,  0.9858, -1.2857, -0.5901, -1.0377,  0.4483,  0.2478],
        [ 0.2816, -0.5578,  1.3447, -0.7849, -0.6097, -0.5858,  0.5139,  0.3761],
        [ 0.3448, -0.5351,  1.4953,  0.3681, -0.2450, -0.1087,  0.2777,  0.2207]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0166, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0166, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.610002956353128
step:  40
running loss:  0.0402500739088282
Train Steps: 40/90  Loss: 0.0403 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5868, -0.4193,  1.2456, -0.9690, -0.5729, -0.7326,  0.5721,  0.2117],
        [ 0.3966, -0.4664,  1.5337, -0.4057, -0.4873,  0.2182,  0.5452,  0.3014],
        [-0.0431, -0.8257,  0.8331, -1.1309, -0.4279, -1.1973,  0.2385,  0.2226],
        [ 0.3674, -0.5902,  1.4668, -0.8268, -0.2956, -1.1755,  0.6494,  0.1242],
        [ 0.3705, -0.5327,  1.7229,  0.2829, -0.4762, -0.2262,  0.2493,  0.2158],
        [ 0.4006, -0.4981,  1.2489, -0.7730, -0.3574, -1.0831,  0.3577,  0.2296],
        [ 0.3442, -0.6000,  1.7299,  0.7331, -0.4478,  0.0127,  0.5833,  0.1481],
        [ 0.3361, -0.5357,  1.5195, -0.5111, -0.5457, -0.3380,  0.4007,  0.2688]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5886, -0.3784,  1.4554, -0.9079, -0.6577, -0.4845,  0.3440,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0313, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0313, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6413122108206153
step:  41
running loss:  0.040032005141966226
Train Steps: 41/90  Loss: 0.0400 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7870, -0.2595,  1.2943, -1.1052, -0.3462, -1.0785,  0.7152,  0.2656],
        [ 0.4789, -0.4572,  1.4920,  0.2105, -0.5343, -0.1205,  0.1726,  0.2225],
        [ 0.6183, -0.3261,  1.4758,  0.0889, -0.4249,  0.0699,  0.1858,  0.2688],
        [ 0.7325, -0.2322,  1.4474, -0.0852, -0.2401,  0.0818,  0.2022,  0.2692],
        [ 0.6747, -0.3397,  1.6252, -0.1277, -0.6790, -0.1723,  0.4741,  0.0560],
        [ 0.2175, -0.6533,  1.6239, -0.7552, -0.1979, -1.1170,  0.7941,  0.1465],
        [-1.5191, -1.7626,  1.4842, -0.8116, -0.1347, -1.1538,  0.5951,  0.3030],
        [ 0.6647, -0.3226,  1.5790,  0.1086, -0.5153,  0.0848,  0.4939,  0.1292]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [-2.2859, -2.2859,  1.8249, -0.8002,  0.0409, -1.2543,  0.8059,
           0.3050],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0408, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0408, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.682096759788692
step:  42
running loss:  0.040049922852111716

Train Steps: 42/90  Loss: 0.0400 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6151, 0.4058, 0.7068, 0.2680, 0.3400, 0.4083, 0.5775, 0.5733],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5004, -0.4306,  1.6711, -0.3141, -0.1863,  0.1056,  0.4462,  0.1948],
        [ 0.3833, -0.5706,  1.7636,  0.1744, -0.3820, -0.0903,  0.6075,  0.1104],
        [ 0.7137, -0.3340,  1.0047, -1.1597, -0.6519, -0.5842,  0.4302,  0.3509],
        [ 0.2005, -0.6191,  1.5591, -0.4497, -0.5971, -1.0111,  0.1772,  0.1835],
        [ 0.3202, -0.6021,  1.6128,  0.3261, -0.4215, -0.4935,  0.3956,  0.1628],
        [ 0.4754, -0.4941,  1.8339, -0.1144, -0.4388, -0.0946,  0.6142,  0.1738],
        [ 0.4219, -0.4805,  1.3762, -0.5846, -0.5242, -1.1056,  0.2978,  0.3035],
        [ 0.3386, -0.5356,  1.7691, -0.1034, -0.1531,  0.1973,  0.6431,  0.2470]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236],
         [ 0.5552, -0.4113,  0.9790, -1.0480, -0.7155, -0.3998,  0.3815,
           0.3623],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0167, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0167, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6988404570147395
step:  43
running loss:  0.03950791760499394
Train Steps: 43/90  Loss: 0.0395 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7240, -0.3647,  1.4197, -1.1986, -0.3715, -1.4628,  0.6403,  0.0908],
        [ 0.3467, -0.5586,  1.7756, -0.1293, -0.4171, -0.0376,  0.5929,  0.1243],
        [ 0.5438, -0.4304,  1.6915,  0.2665, -0.4031, -0.1974,  0.4155,  0.2774],
        [ 0.4697, -0.4414,  1.6029,  0.1337, -0.1995, -0.1209,  0.1611,  0.2092],
        [ 0.1763, -0.6875,  1.6918, -0.0366, -0.4339, -0.2375,  0.3021,  0.2240],
        [ 0.3239, -0.5864,  1.5668,  0.0814, -0.3454,  0.1129,  0.7768,  0.3226],
        [ 0.5229, -0.4454,  1.6353, -0.4913, -0.5194, -0.0920,  0.3297,  0.1946],
        [ 0.4346, -0.4854,  1.6011, -0.7661, -0.5156, -0.7754,  0.4753,  0.2727]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0154, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0154, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7142196567729115
step:  44
running loss:  0.03895953765392981
Train Steps: 44/90  Loss: 0.0390 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.8981, -2.0774,  1.7373, -1.0459,  0.1501, -1.2919,  0.9771,  0.2549],
        [ 0.6542, -0.3248,  1.6869,  0.0199, -0.3070,  0.0515,  0.1334,  0.2514],
        [ 0.7948, -0.2716,  1.4147, -0.7527, -0.6649, -0.6969,  0.3543,  0.1676],
        [ 0.5800, -0.3888,  1.8255, -0.1103, -0.1156,  0.1581,  0.5761,  0.3198],
        [ 0.7730, -0.2810,  1.3485, -0.9682, -0.6464, -0.4463,  0.5706,  0.2872],
        [ 0.5955, -0.4088,  1.9148,  0.0193, -0.5055,  0.0592,  0.5711,  0.1925],
        [ 0.5736, -0.3881,  0.9811, -1.1537, -0.4690, -1.4067,  0.1148,  0.1811],
        [ 0.9616, -0.1831,  1.7293,  0.5908, -0.5086, -0.0755,  0.4916,  0.0809]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7298358231782913
step:  45
running loss:  0.0384407960706287
Train Steps: 45/90  Loss: 0.0384 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.2043, -2.2418,  1.7081, -0.8358, -0.0276, -1.0152,  0.8084,  0.2407],
        [ 0.5243, -0.4429,  1.9431, -0.0100, -0.6092,  0.0366,  0.5699,  0.1601],
        [ 0.6887, -0.3278,  1.3823, -0.8020, -0.3371, -1.0292,  0.6584,  0.2193],
        [ 0.6709, -0.3032,  1.7437,  0.0247, -0.1854,  0.2688,  0.3536,  0.2386],
        [ 0.9483, -0.1798,  1.2172, -0.9029, -0.1352, -1.4696,  0.4495,  0.1328],
        [ 0.6183, -0.3735,  1.6392, -0.4924, -0.5940,  0.1497,  0.6687,  0.2686],
        [ 0.6845, -0.2976,  1.3550, -0.4397, -0.6997, -0.2449,  0.1676,  0.2389],
        [ 0.7395, -0.2648,  1.2949, -0.8578, -0.2455, -1.1228,  0.3436,  0.2488]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5999, -0.4236,  1.2880, -1.4083, -0.0630, -1.6393,  0.4584,
          -0.0208],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7548013236373663
step:  46
running loss:  0.038147854861681874

Train Steps: 46/90  Loss: 0.0381 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5808, -0.4027,  1.7523,  0.1851, -0.2221,  0.0181,  0.2749,  0.2247],
        [ 0.1685, -0.6521,  1.8133, -0.9287, -0.1096, -1.2804,  0.6237,  0.1164],
        [ 0.5971, -0.3892,  1.8052, -0.2200, -0.3549,  0.2286,  0.5063,  0.3570],
        [-1.4883, -1.7690,  1.2798, -1.1738, -0.4054, -1.2219,  0.2785,  0.2763],
        [ 0.4992, -0.4773,  1.9323, -0.2267, -0.4326,  0.3214,  0.7804,  0.2136],
        [ 0.7130, -0.3289,  1.7113,  0.3647, -0.3429,  0.0021,  0.2070,  0.1561],
        [ 0.6170, -0.4312,  1.7823,  0.1004, -0.4980, -0.1354,  0.7443,  0.1665],
        [ 1.4584,  0.1012,  1.0517, -1.3167, -0.5159, -1.1998,  0.3566,  0.2365]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.6207, -0.4466,  1.7326,  0.1621, -0.5480, -0.1073,  0.9704,
           0.1608],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0435, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0435, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7982591893523932
step:  47
running loss:  0.038260833816008366
Train Steps: 47/90  Loss: 0.0383 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5740, -0.4570,  1.2343, -1.2853, -0.3430, -1.3086,  0.2643,  0.1285],
        [ 0.7208, -0.4197,  1.9882,  0.2828, -0.5127, -0.1009,  0.7220,  0.0963],
        [-1.0776, -1.5501,  1.2808, -1.1677, -0.3018, -1.2895,  0.2042,  0.2265],
        [ 0.6298, -0.4848,  2.0928, -0.0428, -0.5081, -0.2292,  0.8535,  0.1820],
        [ 0.9159, -0.2347,  1.5106, -0.9483, -0.3872, -0.8938,  0.5857,  0.3830],
        [ 0.3516, -0.5812,  1.9792,  0.1283, -0.3523,  0.1517,  0.2751,  0.1903],
        [ 0.7296, -0.3684,  1.1634, -1.1615, -0.5584, -0.6658,  0.1552,  0.3173],
        [ 0.5119, -0.5072,  1.9833, -0.0225, -0.1524,  0.3139,  0.7481,  0.1937]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [ 0.5049, -0.4428,  0.8692, -0.9581, -0.6693, -0.8386,  0.0897,
           0.2589],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0539, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0539, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.852201757952571
step:  48
running loss:  0.038587536624011896
Train Steps: 48/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6163, 0.4006, 0.8788, 0.4683, 0.3663, 0.4883, 0.5887, 0.5017],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3295, -0.5814,  1.8805, -0.0697, -0.5494, -0.1917,  0.4035,  0.2892],
        [ 0.7263, -0.3292,  1.8847, -0.2392, -0.1815,  0.3605,  0.5436,  0.2755],
        [-1.5498, -1.8469,  1.1289, -1.4847, -0.3832, -1.3001,  0.2906,  0.2223],
        [ 0.7428, -0.3750,  1.4495, -1.3152, -0.2427, -1.3279,  0.7417,  0.0372],
        [ 0.4533, -0.5365,  1.8424, -0.2498, -0.5483,  0.0561,  0.5313,  0.1250],
        [ 0.5942, -0.4407,  1.8397,  0.1174, -0.5398, -0.1064,  0.4411,  0.2406],
        [ 0.7884, -0.3214,  1.8269,  0.0239, -0.3524,  0.1700,  0.4697,  0.1303],
        [ 0.9849, -0.1455,  1.5928, -0.6527, -0.0722, -1.1593,  0.4756,  0.3225]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575],
         [ 0.5609, -0.4354,  1.7730, -0.1227, -0.5942, -0.0303,  0.4335,
           0.0313],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5784, -0.4088,  1.7268,  0.0467, -0.3344,  0.0697,  0.5490,
           0.2545],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0276, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0276, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8798270765691996
step:  49
running loss:  0.03836381788916734
Train Steps: 49/90  Loss: 0.0384 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0420, -0.7969,  1.9109, -0.8322, -0.1011, -0.8858,  0.9601,  0.1443],
        [ 0.6866, -0.3095,  1.7257, -0.0317, -0.5664, -0.5953,  0.2935,  0.1853],
        [ 0.2108, -0.6950,  1.9938, -0.5592, -0.2313, -0.8180,  0.9008,  0.1145],
        [ 0.5528, -0.4017,  1.3345, -1.0168, -0.2567, -1.0105,  0.4153,  0.2544],
        [ 0.6255, -0.3738,  1.1034, -1.1191, -0.5814, -0.7942,  0.3894,  0.3216],
        [ 0.7603, -0.3225,  1.7301,  0.1145, -0.2304,  0.4093,  0.1185,  0.0922],
        [-1.5151, -1.8184,  1.7782, -0.8214, -0.0171, -0.7889,  0.8844,  0.3772],
        [ 0.9260, -0.1868,  1.1814, -1.0478, -0.6314, -0.6874,  0.0614,  0.0822]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [-2.2859, -2.2859,  1.8192, -0.8540,  0.1448, -0.9849,  1.0143,
           0.4867],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0425, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9223244320601225
step:  50
running loss:  0.03844648864120245

Train Steps: 50/90  Loss: 0.0384 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5079, -0.4253,  1.7334, -0.5518, -0.2087, -1.0789,  0.5205,  0.1830],
        [-2.1959, -2.2539,  1.6896, -0.8953,  0.1348, -0.9927,  0.8918,  0.3466],
        [ 0.7811, -0.3041,  1.3094, -1.1007, -0.1904, -1.1196,  0.6205,  0.1609],
        [ 0.6017, -0.3955,  1.7478, -0.2562, -0.3932, -0.8967,  0.5031,  0.0947],
        [ 0.5943, -0.3944,  1.5952, -0.4495, -0.6258, -0.1813,  0.4599,  0.2885],
        [ 0.5591, -0.3863,  1.4813, -0.8121, -0.5755, -0.7021,  0.1551,  0.1755],
        [ 0.7742, -0.2851,  1.6700, -0.2640, -0.4691,  0.5642,  0.4217,  0.1421],
        [ 0.5294, -0.4214,  1.5105, -0.9518, -0.3016, -0.8068,  0.4605,  0.2259]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5790, -0.4031,  1.6915, -0.9564, -0.4152, -1.1063,  0.4425,
           0.2528]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9353253524750471
step:  51
running loss:  0.037947555930883274
Train Steps: 51/90  Loss: 0.0379 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7340, -0.3327,  1.4879, -1.1681, -0.0782, -1.3344,  0.7709,  0.1514],
        [-0.8746, -1.3776,  1.0971, -1.3145, -0.2678, -1.3062,  0.2473,  0.3377],
        [ 1.0725, -0.1333,  1.8916, -0.2227, -0.3438,  0.3868,  0.5975,  0.2453],
        [ 1.0992, -0.1554,  1.8354,  0.2487, -0.5583, -0.2261,  0.6530,  0.0657],
        [ 0.5148, -0.4407,  1.8467, -0.5045, -0.5949, -0.5906,  0.3270,  0.1523],
        [ 0.8868, -0.2235,  1.5971, -1.0558, -0.2848, -1.0580,  0.6227,  0.1622],
        [-2.1556, -2.2283,  1.1792, -1.2546, -0.2982, -1.1205,  0.3752,  0.3032],
        [ 0.7901, -0.2864,  1.8163,  0.0887, -0.4164,  0.0258,  0.2030,  0.1948]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6158, -0.4225,  1.3307, -1.3253, -0.1924, -1.3252,  0.6721,
           0.1727],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0704, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0704, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0057187657803297
step:  52
running loss:  0.038571514726544805
Train Steps: 52/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0896, -0.8350,  1.8853, -0.9877, -0.0115, -1.3491,  0.7882,  0.0851],
        [ 0.2664, -0.6331,  1.5328, -0.9256, -0.5753, -0.5936,  0.5557,  0.4303],
        [ 0.2831, -0.6234,  1.7790, -0.2026, -0.5764, -0.2057,  0.4492,  0.1349],
        [ 0.2364, -0.6552,  1.3299, -1.3268, -0.1236, -1.4516,  0.5103,  0.1620],
        [ 0.4781, -0.5272,  1.7003,  0.0702, -0.4299, -0.1375,  0.4306,  0.1112],
        [ 0.4198, -0.5174,  1.7888, -0.1580, -0.2072,  0.1132,  0.0995,  0.0633],
        [ 0.4876, -0.4862,  1.3988, -1.0940, -0.6574, -0.4401,  0.6009,  0.2054],
        [ 0.3655, -0.5576,  1.7252, -0.1082, -0.3145, -0.9504,  0.4736,  0.3978]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0279, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0279, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0335935931652784
step:  53
running loss:  0.038369690437080724
Train Steps: 53/90  Loss: 0.0384 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4297, -0.4967,  1.6639, -0.1452, -0.3522, -0.0779,  0.1092,  0.1016],
        [-0.0545, -0.8022,  1.8791, -0.6957, -0.2669, -1.4643,  0.7409,  0.1956],
        [ 0.1286, -0.6560,  1.5928, -0.6839, -0.3915, -1.2792,  0.3740,  0.2566],
        [ 0.2547, -0.6250,  1.2035, -1.4607, -0.3059, -1.5024,  0.5547,  0.1377],
        [-0.0957, -0.8061,  1.3868, -1.1668, -0.4368, -1.0446,  0.5488,  0.2840],
        [ 0.9410, -0.2207,  1.7451, -0.2033, -0.2315,  0.1644,  0.6318,  0.2716],
        [ 0.5294, -0.4676,  1.7483, -0.0365, -0.1930, -0.0027,  0.2473,  0.0986],
        [ 0.0932, -0.7754,  1.6980, -0.1735, -0.4596,  0.0964,  0.6184,  0.1822]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0433, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0433, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.076877860352397
step:  54
running loss:  0.03846070111763698

Train Steps: 54/90  Loss: 0.0385 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4562, -0.5427,  1.6782,  0.0694, -0.4969, -0.1446,  0.6702,  0.2226],
        [-0.1811, -0.8887,  1.0253, -1.2883, -0.3301, -1.3747,  0.0681,  0.2783],
        [ 0.8465, -0.3035,  1.8925, -0.1580, -0.5932, -0.4709,  0.5199,  0.1389],
        [ 0.0712, -0.7317,  1.5243, -1.0640, -0.3472, -1.1446,  0.3364,  0.2090],
        [ 0.4380, -0.5539,  1.8446,  0.0722, -0.3768,  0.1330,  0.3437,  0.1530],
        [-0.0180, -0.8051,  1.5171, -1.2229, -0.1305, -1.3399,  0.7107,  0.2390],
        [-0.0261, -0.8366,  1.5963, -1.1512, -0.2253, -1.3229,  0.6682,  0.1688],
        [ 0.6177, -0.4220,  1.8000, -0.2515, -0.5198, -0.0278,  0.3949,  0.1956]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0463, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0463, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1231579910963774
step:  55
running loss:  0.03860287256538868
Train Steps: 55/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3630, -0.5458,  1.6351,  0.1872, -0.3983, -0.4754,  0.3092,  0.3913],
        [ 0.2263, -0.6256,  1.3120, -1.3146, -0.4408, -1.4280,  0.5027,  0.2511],
        [ 0.2667, -0.6203,  1.8972, -0.3692, -0.3622, -0.1678,  0.5342,  0.2368],
        [ 0.2488, -0.6262,  1.3356, -1.1459, -0.5657, -0.8258,  0.5429,  0.2466],
        [ 0.3914, -0.5923,  1.8955, -0.0133, -0.4285, -0.2241,  0.6273,  0.0103],
        [ 0.0806, -0.7299,  1.6935, -0.6597, -0.4001,  0.0085,  0.5942,  0.2190],
        [ 0.4726, -0.4565,  1.3884, -1.1786, -0.5101, -1.2969,  0.1848, -0.0156],
        [ 0.4982, -0.4523,  1.7932,  0.2545,  0.0606, -0.6184,  0.3437,  0.3104]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236],
         [ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0382, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0382, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.161322994157672
step:  56
running loss:  0.038595053467101285
Train Steps: 56/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4092, -0.5138,  1.8144, -0.1999, -0.3258, -0.0545,  0.4307,  0.1656],
        [ 0.4702, -0.4808,  1.7870, -0.0377, -0.1724, -0.1545,  0.3535,  0.1485],
        [ 0.3143, -0.5592,  1.5140,  0.1310, -0.4379, -0.4050,  0.2350,  0.4357],
        [ 0.6361, -0.4048,  1.8149, -0.2947, -0.5310, -0.4568,  0.6891,  0.1461],
        [ 0.0101, -0.7609,  1.3474, -1.3365, -0.3493, -1.3944,  0.4397,  0.2876],
        [ 0.4153, -0.5429,  1.7749, -0.1072, -0.4279, -0.2432,  0.6392,  0.1070],
        [ 0.1730, -0.6428,  1.2906, -1.3643, -0.2571, -1.6480,  0.3724,  0.1490],
        [ 0.5979, -0.4057,  1.8060, -0.3230, -0.5050, -0.1868,  0.4154,  0.1172]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0283, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0283, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.189621262252331
step:  57
running loss:  0.03841440810969001
Train Steps: 57/90  Loss: 0.0384 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6948, -0.3456,  1.8998,  0.0423, -0.1258,  0.0501,  0.6125,  0.2276],
        [ 0.3303, -0.5843,  1.8655,  0.0207, -0.4595, -0.1592,  0.3264,  0.0907],
        [ 0.1220, -0.6186,  1.3515, -0.9253, -0.1465, -1.4670,  0.3551,  0.3518],
        [ 0.5260, -0.4394,  1.9115, -0.1421, -0.3737,  0.0497,  0.5564,  0.1762],
        [ 0.0102, -0.7211,  1.0825, -1.0281, -0.4573, -1.3510,  0.0147,  0.2470],
        [ 0.3063, -0.5432,  1.2584, -1.0544, -0.5468, -1.2192,  0.4297,  0.2727],
        [ 0.4030, -0.5388,  1.8117,  0.1530, -0.4069,  0.0941,  0.9434,  0.1687],
        [ 0.5400, -0.4138,  1.0428, -1.2295, -0.5807, -1.2244,  0.2741,  0.0920]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0236, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0236, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.213260428979993
step:  58
running loss:  0.038159662568620564

Train Steps: 58/90  Loss: 0.0382 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7516, -0.2493,  1.6080, -0.1194, -0.3354, -0.4171,  0.2348,  0.2148],
        [ 0.1629, -0.6173,  1.6239, -0.3986, -0.4561,  0.0161,  0.4742,  0.1740],
        [ 0.4031, -0.4658,  1.5838,  0.0052, -0.1537, -0.3175,  0.1387,  0.2543],
        [ 0.5602, -0.4197,  1.6715, -0.3033, -0.3595, -0.1238,  0.5330,  0.2328],
        [ 0.4136, -0.4696,  1.6398, -1.0198, -0.4677, -1.4931,  0.7789,  0.1734],
        [ 0.2517, -0.6238,  1.5922,  0.0767, -0.4577, -0.4736,  0.5105,  0.1944],
        [ 0.7147, -0.2776,  1.5206, -0.6886, -0.5991, -0.2994,  0.6749,  0.2496],
        [ 0.4535, -0.4406,  1.5970,  0.0072, -0.1969, -0.2337,  0.1553,  0.1555]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.3759e-01, -3.9030e-01,  1.7095e+00, -3.2286e-01, -4.7298e-01,
           4.7005e-01,  3.8714e-01,  7.7228e-02],
         [ 5.3181e-01, -4.3102e-01,  1.6864e+00,  5.4350e-02, -1.5543e-01,
           1.3133e-01,  6.3480e-02,  2.6342e-01],
         [ 5.9602e-01, -4.1016e-01,  1.8018e+00, -1.6120e-01, -3.3441e-01,
           1.1594e-01,  5.4896e-01,  2.3141e-01],
         [ 6.1742e-01, -4.2008e-01,  1.7309e+00, -8.7840e-01, -4.7351e-01,
          -9.5238e-01,  6.2423e-01,  1.9310e-01],
         [ 5.7748e-01, -4.6066e-01,  1.6741e+00,  1.9623e-01, -4.0362e-01,
          -1.2115e-01,  4.5876e-01,  1.9786e-01],
         [ 6.0098e-01, -3.8961e-01,  1.7326e+00, -5.6921e-01, -6.2887e-01,
           8.1601e-03,  5.0277e-01,  1.0054e-01],
         [ 5.2408e-01, -4.4696e-01,  1.6806e+00,  1.3133e-01, -1.6120e-01,
           1.9292e-01,  3.3778e-01,  2.6129e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0338, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0338, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2470400538295507
step:  59
running loss:  0.038085424641178825
Train Steps: 59/90  Loss: 0.0381 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4013, 0.8888, 0.4767, 0.3600, 0.3567, 0.6148, 0.4672],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.4318,  0.1613,  1.6839, -0.1669, -0.6021, -0.5390,  0.4439,  0.0423],
        [ 1.2904,  0.1413,  1.4333, -0.7264, -0.3609, -1.2067,  0.1633,  0.1794],
        [ 1.0495, -0.0377,  1.2722, -0.9776, -0.3320, -1.2180,  0.2905,  0.1976],
        [ 1.0321, -0.0924,  1.4443,  0.2232, -0.4871,  0.0177,  0.6999,  0.2629],
        [ 0.9761, -0.0933,  1.1736, -1.0616, -0.5285, -0.7053,  0.4697,  0.2521],
        [-1.8286, -1.9014,  1.0395, -0.8848, -0.4785, -1.0044,  0.0752,  0.2423],
        [ 0.9323, -0.1344,  1.6433,  0.1998, -0.2636,  0.3281,  0.3945,  0.1279],
        [-2.3898, -2.3125,  1.5499, -0.9304,  0.1178, -1.0389,  0.9971,  0.3760]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6132, -0.4324,  1.8192, -0.0842, -0.6231, -0.6385,  0.5537,
          -0.1278],
         [ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0677, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0677, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3147859629243612
step:  60
running loss:  0.038579766048739354
Train Steps: 60/90  Loss: 0.0386 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6984, -0.3234,  1.5211, -0.3551, -0.5158, -0.1597,  0.2934,  0.1677],
        [ 0.3330, -0.5850,  1.6220, -0.5140, -0.4023,  0.2297,  0.7771,  0.2031],
        [ 0.2629, -0.6181,  1.7049,  0.1271, -0.3293, -0.2368,  0.1755,  0.1922],
        [ 0.8531, -0.1939,  1.6120, -0.5787, -0.4479, -0.9063,  0.3136,  0.2825],
        [ 0.6014, -0.4231,  1.7773,  0.0603, -0.4681, -0.4661,  0.7059,  0.1404],
        [ 0.3605, -0.4942,  1.2824, -0.5865, -0.5712, -0.4829,  0.1422,  0.3245],
        [ 0.4777, -0.4718,  1.7059, -0.5215, -0.2062, -0.9239,  0.8412,  0.1175],
        [ 0.3245, -0.5201,  1.0536, -1.0747, -0.4880, -0.8538,  0.3860,  0.3297]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0159, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0159, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.330700110644102
step:  61
running loss:  0.038208198535149215
Train Steps: 61/90  Loss: 0.0382 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6100, 0.4071, 0.7601, 0.3444, 0.3400, 0.4117, 0.5625, 0.5617],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5166, -0.4363,  1.5673,  0.4389, -0.3340,  0.1185,  0.6154,  0.3582],
        [ 0.7376, -0.2867,  1.6665, -0.9273, -0.1881, -1.2132,  0.7366,  0.0424],
        [ 1.0151, -0.0670,  1.6360,  0.0200, -0.5590, -0.5761,  0.2286,  0.3074],
        [-1.9647, -2.0599,  1.0725, -0.9805, -0.3861, -0.9972,  0.1053,  0.3411],
        [ 0.7916, -0.2394,  1.3005, -0.7080, -0.6687, -0.2677,  0.3271,  0.2352],
        [ 0.7570, -0.3201,  1.7928, -0.0304, -0.3660,  0.1177,  0.9711,  0.0881],
        [ 0.8833, -0.1852,  1.0046, -1.0671, -0.4564, -1.1528,  0.3791,  0.2964],
        [ 0.7265, -0.2935,  1.6835, -0.2477, -0.4694, -0.0076,  0.2798,  0.0503]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.5318, -0.4056,  1.2249, -0.6949, -0.7155, -0.3844,  0.3122,
           0.3084],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0206, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0206, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.351294633001089
step:  62
running loss:  0.03792410698388853

Train Steps: 62/90  Loss: 0.0379 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9962, -0.0934,  1.1704, -0.8884, -0.5775, -0.9059,  0.1283,  0.0411],
        [ 0.5343, -0.3708,  0.9757, -1.0411, -0.3740, -1.2404,  0.1549,  0.3203],
        [ 0.6687, -0.3089,  1.6206, -0.1213, -0.5958, -0.6372,  0.2967,  0.3001],
        [ 0.9464, -0.1766,  1.5838,  0.2979, -0.3140,  0.3399,  1.1289,  0.2496],
        [ 0.8749, -0.1664,  1.7403, -0.0485, -0.2417,  0.4094,  0.6488,  0.1518],
        [-2.2750, -2.2735,  1.1797, -0.9250, -0.4382, -1.0054,  0.2959,  0.2726],
        [ 0.6862, -0.2847,  1.3516, -0.7464, -0.5798, -1.0829,  0.1398,  0.1386],
        [ 0.9209, -0.1630,  1.7334, -0.0049, -0.1730,  0.2321,  0.8091,  0.1891]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0234, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0234, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3746544364839792
step:  63
running loss:  0.03769292756323776
Train Steps: 63/90  Loss: 0.0377 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7226, -0.3009,  1.7418, -0.4842, -0.5559, -0.6611,  0.4734,  0.2265],
        [ 0.4656, -0.4734,  1.4132, -0.7718, -0.6248, -0.4430,  0.5061,  0.1726],
        [ 0.5246, -0.4583,  1.6505,  0.0021, -0.4564,  0.2503,  0.5228,  0.1319],
        [ 0.3909, -0.5617,  1.6733,  0.2320, -0.2253,  0.2285,  0.9119,  0.1082],
        [ 0.7132, -0.3086,  0.9763, -0.9335, -0.6716, -0.7552,  0.1523,  0.2934],
        [ 0.4919, -0.4394,  1.6127,  0.4938, -0.3679, -0.0914,  0.3918,  0.3192],
        [ 0.6757, -0.3431,  1.2730, -1.1612, -0.1780, -1.3853,  0.4469,  0.1643],
        [ 0.1408, -0.6819,  1.6216, -0.6210, -0.6415, -0.3399,  0.3708,  0.2362]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3852399922907352
step:  64
running loss:  0.03726937487954274
Train Steps: 64/90  Loss: 0.0373 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.2325, -0.9602,  1.2720, -1.0271, -0.3637, -0.9876,  0.4289,  0.2526],
        [ 0.4505, -0.5013,  1.8136,  0.0927, -0.1843,  0.4526,  0.6604,  0.1773],
        [ 0.8687, -0.2430,  1.0114, -1.1226, -0.5207, -0.9863,  0.3914,  0.2113],
        [ 0.6572, -0.3616,  1.5121, -0.5709, -0.6501, -0.3371,  0.4752,  0.4255],
        [ 0.7217, -0.3336,  1.3004, -1.0443, -0.2111, -1.2127,  0.4349,  0.1557],
        [ 0.3431, -0.5483,  1.2653, -0.8805, -0.6536, -0.6157,  0.3194,  0.1887],
        [ 0.3079, -0.6517,  1.7307,  0.5960, -0.5675,  0.1268,  0.7210,  0.0536],
        [ 0.6070, -0.3925,  1.6147, -0.2691, -0.6091, -0.5846,  0.4420,  0.1639]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0348, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0348, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.420039724558592
step:  65
running loss:  0.03723138037782449
Train Steps: 65/90  Loss: 0.0372 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5645, -0.4307,  1.5633, -0.5971, -0.4191, -0.9917,  0.6887,  0.1340],
        [ 0.7224, -0.3567,  1.5991, -0.2279, -0.4591,  0.3066,  0.8598,  0.1349],
        [ 0.2056, -0.6534,  1.6414, -0.3374, -0.5785, -0.4410,  0.4228,  0.3512],
        [ 0.9953, -0.1275,  1.5085, -0.5903, -0.7189, -0.6876,  0.1175,  0.0700],
        [ 0.3773, -0.5384,  1.5414, -0.1393, -0.3429,  0.0346,  0.3330,  0.2650],
        [ 0.5671, -0.4097,  1.5155,  0.2661, -0.4947, -0.1401,  0.4437,  0.1082],
        [ 0.5217, -0.4431,  1.5807, -0.2839, -0.1187,  0.0570,  0.4562,  0.2333],
        [ 0.3458, -0.5701,  1.5426, -0.6712, -0.6604, -0.4480,  0.5075,  0.3324]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0216, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4416198935359716
step:  66
running loss:  0.03699424081115109

Train Steps: 66/90  Loss: 0.0370 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5820, -0.4485,  1.6251, -0.0173, -0.6775,  0.0058,  0.4772,  0.1054],
        [ 0.8377, -0.2557,  1.0665, -1.3392, -0.4191, -1.2162,  0.4193,  0.1196],
        [ 0.7974, -0.2742,  1.7813, -0.2587, -0.6334, -0.5775,  0.6602,  0.2203],
        [ 0.5028, -0.4743,  1.6421, -0.0655, -0.2851,  0.0431,  0.2469,  0.1449],
        [ 0.6925, -0.3438,  1.5984, -0.0479, -0.4077,  0.1826,  0.6601,  0.2109],
        [-1.8189, -2.0004,  1.1048, -1.0873, -0.5757, -0.9374,  0.1628,  0.3239],
        [ 0.8944, -0.1868,  1.5583,  0.3516, -0.4822,  0.1158,  0.2916,  0.2641],
        [ 0.9293, -0.2237,  1.5071, -1.1302, -0.2633, -1.0934,  1.0246,  0.1812]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005],
         [ 0.5453, -0.4091,  1.7499,  0.1390, -0.2940, -0.0996,  0.1300,
           0.4272],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.466248968616128
step:  67
running loss:  0.03680968609874818
Train Steps: 67/90  Loss: 0.0368 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5870, -0.4610,  1.3650, -1.2479, -0.2693, -0.9599,  0.7566,  0.1759],
        [ 0.4017, -0.5527,  1.6589, -0.4986, -0.6020, -0.2526,  0.3103,  0.3728],
        [ 0.7367, -0.3825,  1.8921,  0.1706, -0.5680, -0.3303,  0.6146, -0.0270],
        [ 0.3524, -0.5784,  1.2265, -1.1055, -0.5940, -0.6406,  0.4431,  0.2381],
        [ 0.4678, -0.5461,  1.7167, -0.0406, -0.5576, -0.2412,  0.6385,  0.1505],
        [ 0.4932, -0.5308,  1.5870,  0.1907, -0.4714,  0.0821,  0.8611,  0.1655],
        [ 0.6406, -0.3934,  1.2931, -0.9672, -0.4253, -0.9065,  0.1885,  0.2612],
        [ 0.3304, -0.5758,  1.4735, -0.6033, -0.6111, -0.6446,  0.1847,  0.2778]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6141, -0.4153,  1.4208, -1.2697, -0.2940, -1.0234,  0.8644,
           0.1715],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.479281820356846
step:  68
running loss:  0.036460026769953614
Train Steps: 68/90  Loss: 0.0365 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6203, 0.4078, 0.8800, 0.5083, 0.3900, 0.5000, 0.6100, 0.5583],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6216, 0.4100, 0.7350, 0.2067, 0.4325, 0.2050, 0.5950, 0.5333],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4208, -0.5286,  1.5660, -0.6811, -0.6707, -0.0938,  0.6795,  0.2433],
        [ 0.4844, -0.5045,  1.7132, -0.2291, -0.6871, -0.6187,  0.3231,  0.2310],
        [ 0.5048, -0.5052,  1.8143,  0.1818, -0.5250,  0.1356,  0.5827,  0.1163],
        [ 0.4867, -0.5049,  1.7367, -0.1605, -0.5433, -0.1209,  0.4980,  0.3073],
        [ 0.8457, -0.3071,  1.1189, -1.3358, -0.4476, -1.1324,  0.6848,  0.1563],
        [ 0.5788, -0.4468,  1.1256, -1.3333, -0.3039, -1.3215,  0.4436,  0.2026],
        [ 0.4527, -0.5231,  1.6824, -0.2289, -0.6501, -0.3667,  0.5120,  0.2052],
        [ 0.2446, -0.6634,  1.8283,  0.1008, -0.0463,  0.0247,  0.2871,  0.1155]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.5794, -0.4023,  1.7788,  0.0620, -0.4845,  0.0236,  0.5316,
           0.2930],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5853, -0.3920,  1.1090, -1.3313, -0.2882, -1.3390,  0.4624,
           0.1775],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0102, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0102, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4894718173891306
step:  69
running loss:  0.03607930170129175
Train Steps: 69/90  Loss: 0.0361 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4360, -0.4805,  1.6811, -0.2378, -0.3917,  0.2554,  0.4442,  0.2100],
        [ 0.7784, -0.3134,  1.6368, -0.8815, -0.3902, -1.1743,  0.6127,  0.2010],
        [ 0.4541, -0.5240,  1.7817,  0.1039, -0.5630, -0.0397,  0.6083,  0.1318],
        [ 0.6691, -0.3933,  0.9687, -1.3212, -0.6521, -1.1426,  0.4844,  0.1541],
        [ 0.1000, -0.7177,  1.7854, -0.0132, -0.3303, -0.0130,  0.2209,  0.1332],
        [ 0.6156, -0.4212,  1.1427, -1.2524, -0.5990, -1.0458,  0.6910,  0.2183],
        [ 0.3454, -0.6151,  1.7236,  0.0457, -0.5889, -0.2072,  0.4643,  0.2432],
        [ 0.4638, -0.4857,  1.7544, -0.1624, -0.1677, -0.1337,  0.4243,  0.2240]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0172, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0172, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.506653221324086
step:  70
running loss:  0.03580933173320123

Train Steps: 70/90  Loss: 0.0358 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8442, -0.2878,  1.8822, -0.1673, -0.3492, -1.0421,  0.6640,  0.0426],
        [ 0.7231, -0.3500,  1.3377, -0.9462, -0.5609, -0.9033,  0.3942,  0.3295],
        [ 0.1892, -0.6626,  1.2548, -0.9844, -0.6395, -0.4658,  0.4720,  0.2314],
        [ 0.4308, -0.5277,  1.1750, -1.1513, -0.5298, -0.9072,  0.5386,  0.2045],
        [ 0.3504, -0.5871,  1.8031, -0.1725, -0.5336, -0.3180,  0.3269,  0.2640],
        [ 0.2974, -0.5743,  1.7718,  0.0869, -0.1664,  0.3221,  0.2445,  0.2308],
        [ 0.6129, -0.4227,  1.6943, -0.1902, -0.5263,  0.1815,  0.7341,  0.1576],
        [ 0.4973, -0.4933,  1.8406, -0.6789, -0.4059, -0.7973,  0.6918,  0.1629]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0133, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0133, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5199545985087752
step:  71
running loss:  0.03549231828885599
Train Steps: 71/90  Loss: 0.0355 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5248, -0.4641,  1.7781, -0.0666, -0.2967, -0.0768,  0.3448,  0.2732],
        [ 0.6372, -0.3929,  1.7426, -0.5425, -0.6774, -0.6999,  0.3333,  0.1048],
        [ 0.3841, -0.5738,  1.0240, -1.3658, -0.5510, -0.8458,  0.6108,  0.2919],
        [ 0.4925, -0.4407,  1.6825, -0.1932, -0.6649, -0.5765,  0.1744,  0.2428],
        [ 0.3824, -0.5599,  1.7717,  0.1097, -0.2361,  0.2542,  0.5080,  0.1504],
        [ 0.6134, -0.4053,  1.7990, -0.2906, -0.3894,  0.1740,  0.5379,  0.2180],
        [ 0.6294, -0.4055,  1.8176, -0.1581, -0.6121, -0.5588,  0.3933,  0.0921],
        [ 0.5168, -0.5085,  1.4544, -1.3228, -0.1340, -1.4168,  0.8669,  0.1577]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5260266615077853
step:  72
running loss:  0.03508370363205257
Train Steps: 72/90  Loss: 0.0351 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6334, -0.4061,  1.6728, -1.1904, -0.2485, -1.1383,  0.6056,  0.1502],
        [ 0.3768, -0.5504,  1.8360,  0.0306, -0.2621,  0.2948,  0.3617,  0.1141],
        [ 0.7082, -0.3276,  1.7454,  0.2261, -0.4818, -0.0875,  0.3203,  0.2773],
        [ 0.4360, -0.5399,  1.2143, -1.1695, -0.4310, -1.0023,  0.5435,  0.3108],
        [ 0.7105, -0.3180,  1.7618, -0.0368, -0.3727, -0.7612,  0.3573,  0.3785],
        [ 0.3095, -0.5736,  1.6237, -0.7393, -0.6324, -0.0113,  0.5981,  0.2196],
        [ 0.5194, -0.4909,  1.8626,  0.1112, -0.5627, -0.3060,  0.6890,  0.1156],
        [ 0.3677, -0.5692,  1.1701, -1.4718, -0.4682, -1.2223,  0.2472,  0.0670]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5383365219458938
step:  73
running loss:  0.03477173317734101
Train Steps: 73/90  Loss: 0.0348 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.4418e-01, -4.4780e-01,  1.1559e+00, -1.3561e+00, -5.1064e-01,
         -1.0292e+00,  4.7806e-01,  1.2951e-01],
        [-1.2765e+00, -1.6316e+00,  1.6362e+00, -1.2697e+00,  1.1559e-01,
         -9.7170e-01,  9.1181e-01,  3.6843e-01],
        [ 8.5290e-01, -2.6447e-01,  1.9745e+00, -1.9718e-01, -5.8324e-01,
         -2.4832e-01,  6.2102e-01,  1.3964e-01],
        [ 6.6774e-01, -3.8083e-01,  1.7173e+00,  6.7244e-04, -4.7820e-01,
         -1.5158e-01,  5.3323e-01,  1.8132e-01],
        [ 6.6050e-01, -3.5493e-01,  1.7779e+00, -1.7826e-01, -1.4851e-01,
          1.2158e-01,  2.9447e-01,  1.5800e-01],
        [ 1.0210e+00, -1.2668e-01,  1.6734e+00, -6.9517e-01, -6.8150e-01,
         -4.4491e-01,  4.3289e-01,  2.1880e-01],
        [ 6.1925e-01, -3.6422e-01,  1.4968e+00, -5.0518e-01, -4.9594e-01,
         -1.0194e+00,  1.9179e-01,  3.0572e-01],
        [ 7.5316e-01, -3.0276e-01,  1.7571e+00, -1.9632e-03, -4.9168e-01,
         -3.3726e-01,  1.9005e-01,  1.0943e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0367, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0367, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5750327026471496
step:  74
running loss:  0.03479773922496148

Train Steps: 74/90  Loss: 0.0348 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5096, -0.4283,  1.7634, -0.3190, -0.4290, -0.4513,  0.0348,  0.2677],
        [ 0.3356, -0.5704,  1.5252, -1.1793, -0.3212, -1.1210,  0.4800,  0.1549],
        [ 0.5342, -0.4191,  1.7516, -0.4826, -0.4391,  0.1963,  0.6230,  0.2563],
        [ 0.5286, -0.4179,  1.7052, -0.2810, -0.3513,  0.1736,  0.3214,  0.2292],
        [ 0.6839, -0.3655,  1.7865,  0.1565, -0.4345, -0.2359,  0.5560,  0.0668],
        [ 0.5197, -0.4576,  1.6927, -0.9587, -0.3475, -1.0610,  0.6220,  0.1999],
        [ 0.7338, -0.3127,  1.4894, -0.0715, -0.4081, -0.2553,  0.6845,  0.3432],
        [ 0.4452, -0.4472,  1.5220, -0.7479, -0.5569, -0.9219,  0.1381,  0.2604]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5915102371945977
step:  75
running loss:  0.0345534698292613
Train Steps: 75/90  Loss: 0.0346 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2447, -0.6079,  1.0104, -1.2852, -0.3396, -1.1869,  0.1303,  0.1883],
        [-0.0586, -0.8399,  1.7326, -1.1093,  0.0978, -0.9643,  0.9543,  0.2626],
        [ 0.6468, -0.3746,  1.8626,  0.2272, -0.6019, -0.0139,  0.5560,  0.1825],
        [ 0.6586, -0.3544,  1.8994, -0.1186, -0.5412, -0.0036,  0.1801,  0.2295],
        [ 0.6833, -0.3836,  1.8911, -0.0879, -0.6091, -0.1609,  0.6603,  0.1590],
        [ 0.1767, -0.6590,  1.0074, -1.3677, -0.3177, -1.2696,  0.1919,  0.1461],
        [ 0.6589, -0.3171,  1.5171, -0.1376, -0.4783, -0.5075,  0.2700,  0.4525],
        [ 0.7460, -0.2777,  1.8169, -0.8115, -0.1521, -0.7355,  0.5067,  0.1502]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0396, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0396, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6311407880857587
step:  76
running loss:  0.03462027352744419
Train Steps: 76/90  Loss: 0.0346 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5096, -0.4109,  1.4637, -0.8476, -0.5801, -0.3472,  0.3674,  0.1769],
        [ 0.8256, -0.1998,  1.7899, -0.3321, -0.4646, -0.4428,  0.3457,  0.2799],
        [-1.3500, -1.6118,  1.2457, -1.3102, -0.3704, -1.1211,  0.2283,  0.2938],
        [ 0.8079, -0.2665,  1.8021,  0.1917, -0.4374, -0.2552,  0.4940,  0.0330],
        [ 0.8357, -0.2062,  1.8751, -0.1593, -0.4265,  0.0671,  0.5050,  0.2274],
        [ 0.6870, -0.3474,  1.9166, -0.1231, -0.2887, -0.2234,  0.7814,  0.2500],
        [ 0.5397, -0.4013,  1.2299, -1.1997,  0.0241, -1.3590,  0.4714,  0.2773],
        [ 0.7879, -0.2330,  1.6780, -0.3961, -0.5048, -0.8428,  0.1642,  0.2339]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0323, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0323, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6634310306981206
step:  77
running loss:  0.03459001338568988
Train Steps: 77/90  Loss: 0.0346 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4709, -0.4453,  1.0841, -1.2571, -0.3121, -1.3903,  0.4219,  0.4682],
        [ 0.5359, -0.4140,  1.8498, -0.2117, -0.0671,  0.0072,  0.5131,  0.3493],
        [ 0.7026, -0.3289,  1.8133, -0.0557, -0.2773, -0.1168,  0.3260,  0.2713],
        [ 0.3245, -0.5751,  1.8032, -0.2144, -0.1927,  0.1364,  0.4431,  0.2329],
        [ 0.6127, -0.4122,  1.7185, -0.8684, -0.6133, -0.9153,  0.6240,  0.0393],
        [ 0.4521, -0.5100,  1.7841, -0.8017, -0.4028, -1.2877,  0.5973,  0.0130],
        [ 0.4815, -0.4352,  1.6452, -0.2379, -0.5157, -0.3379,  0.2251,  0.3758],
        [ 0.7428, -0.3001,  1.7455, -0.2779, -0.5834, -0.0526,  0.3788,  0.1368]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6766006434336305
step:  78
running loss:  0.03431539286453372

Train Steps: 78/90  Loss: 0.0343 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5273, -0.4399,  1.8495, -0.1630, -0.2124, -0.1018,  0.4078,  0.2698],
        [ 0.5313, -0.4043,  1.3250, -1.3841, -0.2848, -1.3463,  0.4527,  0.3200],
        [ 0.6812, -0.3249,  1.7316, -0.3940, -0.4961, -0.0325,  0.3028,  0.1664],
        [ 0.5938, -0.4122,  1.8738, -0.2503, -0.4744, -0.6442,  0.5637,  0.1794],
        [ 0.7607, -0.2876,  1.7610, -0.0193, -0.2895,  0.1308,  0.7129,  0.3571],
        [ 0.5551, -0.4227,  1.8155,  0.0922, -0.4076, -0.4884,  0.3522,  0.0836],
        [ 0.4960, -0.4693,  1.6879, -0.8681, -0.4898, -0.7002,  0.5810,  0.1831],
        [ 0.3679, -0.5129,  1.5779, -0.5601, -0.5443, -0.5261,  0.1086,  0.2616]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.6960538187995553
step:  79
running loss:  0.0341272635291083
Train Steps: 79/90  Loss: 0.0341 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6262, 0.4085, 0.8438, 0.3150, 0.4025, 0.2633, 0.6339, 0.4810],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6406, -0.3394,  1.5624, -0.9658, -0.4175, -1.0238,  0.4895,  0.0445],
        [ 0.8191, -0.2232,  1.7964, -0.2992, -0.5615, -0.4212,  0.4417,  0.3493],
        [ 0.4210, -0.5028,  1.7112, -0.0776, -0.3531,  0.2189,  0.5235,  0.2024],
        [ 0.3600, -0.5230,  1.3145, -1.0232, -0.6596, -0.3986,  0.5122,  0.2381],
        [ 0.4282, -0.4474,  1.7761, -0.7220, -0.1502, -1.1927,  0.5608,  0.2853],
        [ 0.2045, -0.6083,  1.6021, -1.0291, -0.0299, -1.2599,  0.7801,  0.2161],
        [ 0.6250, -0.3410,  1.7121,  0.1525, -0.6350, -0.5269,  0.2029,  0.1414],
        [ 0.5669, -0.3527,  1.7078,  0.0535, -0.1782,  0.1812,  0.2248,  0.2197]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6064, -0.3990,  1.6113, -0.8309, -0.4268, -1.0696,  0.6421,
          -0.0640],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.5379, -0.4358,  1.7326,  0.1852, -0.6058, -0.5461,  0.0684,
          -0.0310],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.7083711810410023
step:  80
running loss:  0.03385463976301253
Train Steps: 80/90  Loss: 0.0339 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7237, -0.3149,  1.8418, -0.0973, -0.3929,  0.4974,  0.4936,  0.1480],
        [ 0.5533, -0.4386,  2.0288, -0.0327, -0.5607, -0.3373,  0.6171,  0.0117],
        [ 0.6416, -0.3521,  1.0816, -1.1016, -0.4769, -1.0356,  0.4465,  0.2484],
        [-0.0895, -0.8211,  1.0411, -1.2723, -0.3167, -1.3586,  0.1415,  0.1784],
        [ 0.0629, -0.7368,  2.1032, -0.5214, -0.1178, -1.0612,  0.8426,  0.1643],
        [ 0.6451, -0.3647,  1.2101, -1.0310, -0.4915, -0.8103,  0.5724,  0.2705],
        [ 0.6988, -0.3193,  1.5759, -0.4323, -0.6370, -0.3351,  0.2304,  0.1933],
        [ 0.6208, -0.3282,  1.7503, -0.0942, -0.2058, -0.9515,  0.4224,  0.3945]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1471, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1471, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.855488333851099
step:  81
running loss:  0.03525294239322344
Train Steps: 81/90  Loss: 0.0353 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.1345, -1.4592,  0.8842, -1.3519, -0.4274, -1.4106,  0.0831,  0.2845],
        [ 0.6571, -0.3376,  1.7894,  0.0479, -0.3040, -0.0971,  0.2572,  0.1928],
        [ 0.6914, -0.2991,  1.3371, -1.1903, -0.2251, -1.5271,  0.3750,  0.1489],
        [ 0.8150, -0.2614,  1.6584, -0.8945, -0.5536, -0.6788,  0.8310,  0.1009],
        [ 0.7828, -0.2719,  1.6696,  0.2097, -0.3416,  0.3041,  0.8104,  0.3228],
        [ 0.4134, -0.5005,  1.9845, -0.5028, -0.5451, -0.6079,  0.6033,  0.1341],
        [ 0.7405, -0.2666,  1.6761,  0.0836, -0.4790, -0.1078,  0.1919,  0.2615],
        [ 0.7103, -0.3291,  1.7885,  0.0517, -0.3564, -0.0208,  0.6138,  0.1718]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  8.0331e-01, -1.1250e+00, -3.8637e-01,
          -1.3082e+00,  1.1262e-01,  4.5430e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.7870e-01, -4.0862e-01,  1.3535e+00, -1.2794e+00, -1.7640e-01,
          -1.4891e+00,  4.6447e-01,  2.4425e-01],
         [ 6.0919e-01, -4.2490e-01,  1.6402e+00, -1.0465e+00, -4.6721e-01,
          -6.6928e-01,  8.8267e-01,  1.6077e-01],
         [ 6.3060e-01, -4.1527e-01,  1.5141e+00,  2.2241e-01, -3.6905e-01,
           2.6220e-01,  1.0033e+00,  3.4245e-01],
         [ 6.0733e-01, -4.0577e-01,  1.8885e+00, -4.9992e-01, -5.9423e-01,
          -4.7683e-01,  6.4134e-01,  1.5443e-01],
         [ 5.4249e-01, -4.0670e-01,  1.5543e+00,  2.4057e-02, -5.5958e-01,
          -1.3811e-01,  1.0049e-01,  2.0932e-01],
         [ 6.0095e-01, -4.5619e-01,  1.7198e+00, -9.0441e-03, -3.4644e-01,
           1.0758e-02,  6.2944e-01,  1.6266e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0413, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0413, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.8967771902680397
step:  82
running loss:  0.03532655110082975

Train Steps: 82/90  Loss: 0.0353 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6182, 0.3998, 0.8793, 0.4191, 0.3552, 0.4285, 0.6038, 0.5312],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7146, -0.3538,  1.8599,  0.1712, -0.4480,  0.1083,  0.5213,  0.0950],
        [ 0.6914, -0.3237,  1.8138, -0.0676, -0.1364,  0.2315,  0.5159,  0.2180],
        [ 0.7692, -0.2724,  1.7680, -0.3090, -0.5663, -0.4063,  0.5210,  0.2294],
        [ 0.6687, -0.3124,  1.3652, -0.8803, -0.4324, -1.0893,  0.5859,  0.3320],
        [ 0.5855, -0.3619,  1.7856, -0.5942, -0.4860, -0.7473,  0.4492,  0.2532],
        [ 0.6554, -0.3291,  1.1327, -1.2360, -0.4624, -1.1226,  0.3796,  0.2043],
        [ 0.8600, -0.2718,  1.8370,  0.4075, -0.4948, -0.0732,  0.7471,  0.0575],
        [-1.5150, -1.7410,  0.9122, -1.3620, -0.3742, -1.4723,  0.1188,  0.2358]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7829e-01, -4.3634e-01,  1.7724e+00,  4.3211e-02, -5.1531e-01,
           8.7136e-02,  4.8401e-01,  6.6263e-02],
         [ 5.5260e-01, -4.3510e-01,  1.7672e+00, -1.9199e-01, -1.7852e-01,
           2.6990e-01,  5.2587e-01,  2.6990e-01],
         [ 5.6966e-01, -4.3934e-01,  1.7754e+00, -3.5028e-01, -6.4527e-01,
          -3.0670e-01,  5.0278e-01,  1.6774e-01],
         [ 5.9151e-01, -3.6821e-01,  1.2187e+00, -1.2313e+00, -4.3256e-01,
          -9.5412e-01,  5.7783e-01,  3.7768e-01],
         [ 5.7829e-01, -3.9330e-01,  1.6748e+00, -6.1540e-01, -5.7691e-01,
          -6.4619e-01,  4.7968e-01,  3.3149e-01],
         [ 5.3557e-01, -4.2171e-01,  1.0339e+00, -1.4776e+00, -5.0762e-01,
          -1.1081e+00,  4.2194e-01,  2.8530e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [-2.2859e+00, -2.2859e+00,  7.0230e-01, -1.3883e+00, -4.2679e-01,
          -1.3621e+00,  8.1293e-02,  2.6990e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0244, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0244, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.921171437948942
step:  83
running loss:  0.03519483660179448
Train Steps: 83/90  Loss: 0.0352 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4120, 0.8013, 0.2350, 0.4888, 0.1533, 0.6281, 0.4895],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3414, -0.5336,  1.3901, -1.0815, -0.1304, -1.4158,  0.6134,  0.1596],
        [ 0.5834, -0.4411,  1.6709,  0.4052, -0.5984,  0.0808,  0.5935,  0.1417],
        [ 0.3512, -0.5651,  1.7264, -0.7843, -0.0953, -1.0059,  0.9068,  0.1935],
        [ 0.4498, -0.4207,  1.3572, -0.9040, -0.5169, -0.8613,  0.3319,  0.2744],
        [ 0.3137, -0.5197,  1.1709, -1.0104, -0.5328, -1.2113,  0.2474,  0.1146],
        [ 0.5019, -0.4251,  1.6912,  0.0891, -0.2694,  0.3256,  0.5324,  0.2705],
        [ 0.3252, -0.5454,  1.1839, -1.0608, -0.4705, -1.1051,  0.3983,  0.2607],
        [ 0.4924, -0.4734,  1.8682, -0.0788, -0.6548,  0.1146,  0.5234,  0.1737]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6053, -0.3830,  1.4150, -1.2005, -0.0284, -1.5777,  0.6154,
          -0.0250],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5707, -0.4189,  1.2707, -1.2467, -0.4095, -1.3082,  0.3758,
           0.0928],
         [ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.9391067922115326
step:  84
running loss:  0.034989366573946815
Train Steps: 84/90  Loss: 0.0350 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3572, -0.5497,  1.8215, -0.4146, -0.5355, -0.3716,  0.3348,  0.2300],
        [ 0.5134, -0.4433,  1.6347, -0.5314, -0.6411, -0.5109,  0.4675,  0.2653],
        [ 0.3472, -0.5754,  1.7767, -0.6031, -0.3520, -1.0399,  0.7266,  0.1543],
        [ 0.5444, -0.4306,  1.1022, -1.4533, -0.3904, -1.3121,  0.5611,  0.1790],
        [ 0.3579, -0.5079,  1.5207,  0.2874, -0.3740, -0.3332,  0.2718,  0.4807],
        [ 0.6658, -0.3873,  1.7824, -0.3300, -0.4989,  0.1572,  0.8910,  0.1273],
        [ 0.5774, -0.4470,  1.5978,  0.1259, -0.3104,  0.0424,  0.7856,  0.1582],
        [ 0.4544, -0.4687,  1.3953, -0.5208, -0.5736, -0.3778,  0.0729,  0.1174]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.948201633989811
step:  85
running loss:  0.03468472510576248
Train Steps: 85/90  Loss: 0.0347 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4660, -0.5156,  1.7767, -0.2449, -0.3343,  0.1230,  0.6427,  0.1392],
        [ 0.3637, -0.5195,  1.6345, -0.0874, -0.6553, -0.6107,  0.3418,  0.3022],
        [ 0.4526, -0.5204,  1.7592, -0.2958, -0.4045,  0.2497,  0.6422,  0.1193],
        [ 0.0573, -0.7052,  1.4025, -0.9575, -0.4882, -1.0913,  0.3891,  0.2999],
        [ 0.4061, -0.4735,  1.1699, -0.8911, -0.0988, -1.4151,  0.2780,  0.3841],
        [ 0.5552, -0.4399,  1.6502,  0.2949, -0.3972,  0.1041,  0.5352,  0.2250],
        [ 0.5542, -0.4346,  1.0822, -1.1684, -0.5267, -1.0174,  0.6169,  0.2570],
        [ 0.7242, -0.3797,  1.7948, -0.4427, -0.6509, -0.5013,  0.7786,  0.0073]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5935, -0.3558,  1.3284, -0.6924, -0.5249, -0.9618,  0.3353,
           0.3084],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.964329108595848
step:  86
running loss:  0.034468943123207536

Train Steps: 86/90  Loss: 0.0345 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5998, -0.3945,  1.2492, -1.0363, -0.3124, -1.2346,  0.6505,  0.1615],
        [ 0.4399, -0.5304,  1.5987,  0.2052, -0.2732,  0.2001,  0.5628,  0.1825],
        [ 0.4002, -0.4918,  1.2865, -1.0020, -0.2786, -1.2601,  0.4286,  0.2335],
        [ 0.5183, -0.4353,  1.5123, -0.2794, -0.6870, -0.2431,  0.3356,  0.1993],
        [ 0.1278, -0.6566,  1.4739, -1.0337, -0.1406, -1.3200,  0.6354,  0.1578],
        [ 0.4852, -0.4609,  1.6576, -0.2034, -0.3438,  0.3765,  0.6157,  0.1554],
        [-0.0316, -0.7990,  1.7789, -0.2751, -0.6377, -0.7240,  0.6715,  0.2198],
        [ 0.5022, -0.4296,  1.0507, -1.0560, -0.6059, -0.9220,  0.4741,  0.3350]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1577e-01, -4.2249e-01,  1.3307e+00, -1.3253e+00, -1.9244e-01,
          -1.3252e+00,  6.7213e-01,  1.7271e-01],
         [ 5.5484e-01, -4.6823e-01,  1.7309e+00,  9.6578e-02, -1.3942e-01,
           1.7573e-01,  5.0451e-01,  9.4188e-02],
         [ 5.7679e-01, -4.0308e-01,  1.3838e+00, -1.1527e+00, -2.1876e-01,
          -1.4216e+00,  4.3790e-01,  1.8502e-01],
         [ 5.3672e-01, -4.2941e-01,  1.5709e+00, -4.9992e-01, -6.6928e-01,
          -3.0747e-01,  2.4546e-01,  3.5585e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 5.1155e-01, -4.3318e-01,  1.7557e+00, -3.1517e-01, -2.5358e-01,
           3.9307e-01,  4.1387e-01,  2.9364e-01],
         [ 6.1114e-01, -3.8276e-01,  1.8885e+00, -3.8445e-01, -5.6536e-01,
          -8.0785e-01,  5.6628e-01,  1.3903e-01],
         [ 5.7460e-01, -3.8822e-01,  1.1436e+00, -1.2005e+00, -4.9030e-01,
          -1.0157e+00,  4.3926e-01,  3.5458e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.9893352556973696
step:  87
running loss:  0.03436017535284333
Train Steps: 87/90  Loss: 0.0344 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6628, -0.3783,  1.3547,  0.0378, -0.5396, -0.2219,  0.7363,  0.3387],
        [ 0.9989, -0.0989,  1.0561, -1.0009, -0.3688, -1.1186,  0.2621,  0.3592],
        [ 0.8307, -0.2395,  1.6155, -0.5370, -0.7173, -0.2707,  0.4068,  0.0687],
        [-2.1859, -2.2229,  1.5529, -1.2666,  0.0458, -1.3234,  0.9324,  0.2525],
        [ 0.4735, -0.4862,  1.6272, -0.1025, -0.5379, -0.1717,  0.3618,  0.0620],
        [ 0.6799, -0.3520,  1.6324, -0.1560, -0.4966,  0.0338,  0.2962,  0.1715],
        [ 0.6859, -0.3553,  1.3792,  0.0354, -0.5202, -0.0513,  0.8590,  0.3345],
        [ 0.6793, -0.2859,  1.6432, -0.9845, -0.1492, -1.2886,  0.5025,  0.1337]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.0085563641041517
step:  88
running loss:  0.034188140501183545
Train Steps: 88/90  Loss: 0.0342 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.8385, -1.9641,  0.9082, -1.2111, -0.4355, -1.1670,  0.1173,  0.2900],
        [ 0.6356, -0.3790,  1.6797, -0.1061, -0.5099, -0.3461,  0.6313,  0.1793],
        [ 0.5199, -0.3973,  1.6923, -0.4086, -0.3310, -0.9304,  0.6163,  0.2632],
        [ 0.7638, -0.3175,  1.7645, -0.4099, -0.4495, -0.4600,  0.9688,  0.2919],
        [ 0.7587, -0.2697,  1.4616, -0.1549, -0.3250,  0.0384,  0.2837,  0.1989],
        [ 0.7750, -0.2476,  1.4770, -0.9351, -0.5789, -0.6013,  0.5758,  0.2528],
        [ 0.6622, -0.3352,  1.5473, -0.1471, -0.1829, -0.0524,  0.2201,  0.1321],
        [ 0.6658, -0.3254,  1.6760, -0.0658, -0.3696, -0.5965,  0.7424,  0.2032]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.6096, -0.4046,  1.8249, -0.0072, -0.6115, -0.3537,  0.6182,
           0.0928],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.0263278856873512
step:  89
running loss:  0.034003684108846646
Train Steps: 89/90  Loss: 0.0340 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2155, -0.6617,  1.7206, -0.2581, -0.0849, -0.0335,  0.5475,  0.2886],
        [ 0.3063, -0.6256,  1.7132, -0.2126, -0.6088, -0.1912,  0.7480,  0.2040],
        [ 0.4653, -0.5070,  1.7394,  0.1501, -0.6849, -0.4636,  0.5853,  0.0483],
        [ 0.5087, -0.4337,  1.2280, -1.1637, -0.1142, -1.4992,  0.4559,  0.2600],
        [ 0.6276, -0.3673,  1.3516, -1.2932, -0.1980, -1.4377,  0.6106,  0.2283],
        [ 0.3026, -0.6008,  1.6122, -0.0452, -0.0811, -0.0767,  0.2343,  0.2728],
        [ 0.5610, -0.3835,  1.2338, -0.8067, -0.7232, -0.4564,  0.3050,  0.3639],
        [ 0.5379, -0.4936,  1.6835,  0.0435, -0.6293, -0.0777,  0.8585,  0.2135]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0141, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0141, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  3.0404702592641115
step:  90
running loss:  0.03378300288071235

Valid Steps: 10/10  Loss: nan 7.2476
--------------------------------------------------
Epoch: 5  Train Loss: 0.0338 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7542, -0.2940,  1.0693, -1.0823, -0.2846, -1.4095,  0.2587,  0.1636],
        [ 0.4289, -0.4749,  1.8449, -0.2291, -0.3635, -0.8582,  0.6296,  0.2635],
        [ 0.7719, -0.2729,  1.6264, -0.6635, -0.6348, -0.6002,  0.4818,  0.1923],
        [-2.1929, -2.2416,  1.0535, -1.1674, -0.3955, -1.2469,  0.2622,  0.2562],
        [ 0.8213, -0.2376,  0.9933, -1.0158, -0.3735, -1.2595,  0.0756,  0.2700],
        [ 0.7109, -0.3502,  1.7879,  0.0807, -0.3919,  0.4202,  0.9466,  0.2984],
        [ 0.7260, -0.3469,  1.6753,  0.1680, -0.3162,  0.1486,  0.9122,  0.1825],
        [ 0.6985, -0.3393,  1.7840, -0.1376, -0.3363,  0.1751,  0.5855,  0.2307]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.009727518074214458
step:  1
running loss:  0.009727518074214458
Train Steps: 1/90  Loss: 0.0097 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6199, 0.4093, 0.7913, 0.2533, 0.4288, 0.2467, 0.5975, 0.5700],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6004, -0.3672,  1.2156, -0.6897, -0.3006, -1.1231,  0.3223,  0.4997],
        [ 0.3149, -0.5709,  1.8053, -0.1810, -0.4348, -0.0823,  0.1140,  0.1113],
        [ 0.3440, -0.6193,  1.6411,  0.4132, -0.2512,  0.0696,  0.2662,  0.1777],
        [ 0.6088, -0.4192,  1.4295, -1.1601, -0.3286, -1.0138,  0.7049,  0.2644],
        [ 0.5523, -0.4556,  1.0715, -1.3078, -0.4542, -1.0982,  0.6409,  0.2777],
        [ 0.4007, -0.5953,  1.8373, -0.6258, -0.2968, -0.8168,  1.0265,  0.0947],
        [ 0.1804, -0.6489,  1.6171, -0.5607, -0.6342, -0.7571,  0.2685,  0.2146],
        [ 0.4799, -0.5429,  1.6780,  0.1912, -0.4269,  0.0378,  0.8408,  0.1385]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.5771, -0.3955,  1.3688, -1.1158, -0.3055, -1.1466,  0.4739,
           0.3469],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0148, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0148, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.024488049559295177
step:  2
running loss:  0.012244024779647589
Train Steps: 2/90  Loss: 0.0122 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7454, -0.3024,  1.7860, -0.3361, -0.0949,  0.0958,  0.5557,  0.2262],
        [ 0.5253, -0.4278,  1.4045, -0.8717, -0.5915, -0.6161,  0.2637,  0.3010],
        [ 0.6854, -0.3350,  1.7206, -0.0855, -0.2740, -0.0146,  0.3494,  0.2215],
        [ 0.7256, -0.3493,  1.4856,  0.0067, -0.3950, -0.1420,  0.8548,  0.2708],
        [ 0.8537, -0.2916,  1.6853,  0.2443, -0.5348, -0.2137,  0.6321,  0.1528],
        [-1.9638, -2.1107,  1.0300, -1.3369, -0.1977, -1.5700,  0.3303,  0.3528],
        [ 0.7093, -0.3309,  1.8327, -0.2651, -0.5227, -0.4226,  0.3786,  0.1303],
        [ 0.8808, -0.2086,  1.8253, -0.0877, -0.4148, -0.8260,  0.6492,  0.1294]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5784, -0.4088,  1.7268,  0.0467, -0.3344,  0.0697,  0.5490,
           0.2545],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.043093412183225155
step:  3
running loss:  0.014364470727741718
Train Steps: 3/90  Loss: 0.0144 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0854, -0.7300,  1.3343, -1.0758, -0.0698, -1.3501,  0.5538,  0.1221],
        [ 0.4797, -0.4857,  1.3555, -1.0026, -0.2330, -1.1817,  0.5848,  0.1294],
        [ 0.4533, -0.4955,  1.4321, -0.8290, -0.3719, -0.8532,  0.5331,  0.2373],
        [ 0.3314, -0.5476,  1.5791, -0.4780, -0.6127, -0.5765,  0.2331,  0.1541],
        [ 0.3811, -0.5397,  1.6226,  0.3160, -0.5185, -0.2334,  0.2644,  0.2589],
        [ 0.2556, -0.6680,  1.6682,  0.1286, -0.5395,  0.0395,  0.4531,  0.3512],
        [ 0.4959, -0.4210,  1.4818, -0.3671, -0.0721, -0.9667,  0.3686,  0.3975],
        [ 0.6450, -0.4446,  1.6500, -0.9368, -0.5058, -0.4594,  1.1056,  0.0772]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0271, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0271, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.07015109900385141
step:  4
running loss:  0.017537774750962853

Train Steps: 4/90  Loss: 0.0175 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6732, -0.3474,  1.6743, -0.0082, -0.4961,  0.0134,  0.2572, -0.0216],
        [ 0.8126, -0.2493,  1.6378,  0.0115, -0.5362,  0.0172,  0.2641,  0.2438],
        [ 0.7811, -0.2574,  1.5581,  0.0977, -0.4353,  0.0952,  0.1921,  0.1597],
        [ 0.7708, -0.2707,  1.4945,  0.3949, -0.2718, -0.1890,  0.3506,  0.2391],
        [-2.1231, -2.2121,  1.5529, -1.2340,  0.0463, -1.3679,  1.1119,  0.3009],
        [ 0.6323, -0.3641,  1.6140,  0.1118, -0.1846, -0.1604,  0.1566,  0.1369],
        [ 0.3799, -0.5494,  1.6646, -1.1212,  0.0340, -1.5158,  1.2984,  0.2480],
        [ 0.9152, -0.1758,  1.4520, -1.0302, -0.5784, -0.9599,  0.4555,  0.2445]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 5.5393e-01, -4.0308e-01,  1.7168e+00, -5.9398e-02, -3.7483e-01,
           5.4350e-02,  1.3903e-01,  3.7768e-01],
         [ 5.1784e-01, -4.4796e-01,  1.6748e+00,  6.2048e-02, -2.7667e-01,
           2.0831e-01,  1.0666e-01,  2.3862e-01],
         [ 5.7258e-01, -4.2487e-01,  1.5824e+00,  3.7768e-01, -9.4206e-02,
          -5.5582e-02,  2.7815e-01,  2.9966e-01],
         [-2.2859e+00, -2.2859e+00,  1.6517e+00, -1.2620e+00,  2.1409e-01,
          -1.1928e+00,  1.1166e+00,  2.4627e-01],
         [ 5.2448e-01, -4.3472e-01,  1.6806e+00,  1.1594e-01,  4.6468e-03,
           1.2940e-02,  1.0439e-01,  1.5443e-01],
         [ 6.3718e-01, -3.5749e-01,  1.6633e+00, -1.2082e+00,  2.1986e-01,
          -1.2467e+00,  1.1313e+00,  3.0505e-01],
         [ 5.7783e-01, -3.9299e-01,  1.5189e+00, -9.3872e-01, -4.3256e-01,
          -9.1563e-01,  4.8545e-01,  3.3918e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0189, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0189, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.08904801961034536
step:  5
running loss:  0.017809603922069074
Train Steps: 5/90  Loss: 0.0178 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4679, -0.5249,  1.1432, -1.3886, -0.4626, -1.0470,  0.5615,  0.1004],
        [ 0.6455, -0.3653,  1.5256, -0.2370, -0.4582, -0.1594,  0.2167,  0.2687],
        [ 0.3983, -0.5051,  1.6557,  0.0228, -0.5898, -0.5597,  0.1420,  0.1631],
        [-0.1206, -0.9222,  1.9298, -0.4981,  0.0381, -0.9257,  1.4428,  0.4271],
        [ 0.5584, -0.3998,  1.7356, -0.2781, -0.2670, -1.1656,  0.4453,  0.2577],
        [ 0.4390, -0.5099,  1.8071, -0.1181, -0.3375, -0.1904,  0.1749,  0.0565],
        [ 0.6322, -0.3949,  1.6822,  0.0830, -0.2574,  0.1128,  0.3545,  0.3131],
        [ 0.5678, -0.4407,  1.5844, -0.4062, -0.5713, -0.2275,  0.3795,  0.1258]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0255, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0255, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.11450012680143118
step:  6
running loss:  0.019083354466905195
Train Steps: 6/90  Loss: 0.0191 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7570, -0.3084,  1.7813,  0.1175, -0.2729,  0.0054,  0.5814,  0.2380],
        [ 0.6667, -0.3722,  1.4920, -1.2591, -0.1936, -1.2800,  0.9240,  0.1477],
        [ 0.4875, -0.4911,  1.6052, -0.7537, -0.5829, -0.5058,  0.7371,  0.1907],
        [ 0.8956, -0.2000,  1.7388,  0.0653, -0.1816, -0.1037,  0.2166,  0.2962],
        [ 0.8230, -0.2782,  1.6046,  0.5730, -0.1689, -0.0237,  0.2071,  0.1582],
        [-2.3906, -2.3562,  1.1195, -0.9826, -0.3667, -1.1408,  0.1601,  0.2370],
        [ 0.6998, -0.2829,  1.6248, -0.1946, -0.5209, -0.8853,  0.0696,  0.2143],
        [ 0.8486, -0.2305,  1.5716, -0.7333, -0.5215, -0.5948,  0.5211,  0.1786]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7760e-01, -4.1093e-01,  1.7326e+00, -2.2633e-02, -3.6328e-01,
           2.3557e-02,  5.6051e-01,  2.3911e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 5.6966e-01, -4.5379e-01,  1.5308e+00, -8.7027e-01, -6.5720e-01,
          -3.6388e-01,  5.7392e-01,  1.5759e-01],
         [ 5.4908e-01, -4.2902e-01,  1.7788e+00, -1.0731e-01, -2.6513e-01,
          -1.0731e-01,  2.5553e-01,  3.0567e-01],
         [ 5.1928e-01, -4.6990e-01,  1.5767e+00,  4.0077e-01, -2.4203e-01,
           7.7444e-02,  1.1776e-01, -6.1038e-02],
         [-2.2859e+00, -2.2859e+00,  1.2469e+00, -1.0288e+00, -4.5566e-01,
          -1.2774e+00,  5.1142e-02,  2.1834e-01],
         [ 5.4700e-01, -3.9515e-01,  1.6377e+00, -4.2531e-01, -6.2887e-01,
          -8.0785e-01,  2.4925e-02,  2.1157e-01],
         [ 5.8863e-01, -3.7837e-01,  1.4554e+00, -9.0793e-01, -6.5774e-01,
          -4.8453e-01,  3.4395e-01,  7.1216e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1331191835924983
step:  7
running loss:  0.019017026227499758
Train Steps: 7/90  Loss: 0.0190 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7288, -0.3058,  1.7726, -0.3509, -0.5335, -0.3225,  0.3383,  0.4083],
        [ 0.2176, -0.6818,  1.7063, -0.6477, -0.6027, -0.5390,  0.5127,  0.2334],
        [ 0.6948, -0.3953,  1.9897,  0.2174, -0.3004,  0.3106,  0.7040,  0.1262],
        [ 0.3446, -0.6356,  1.5774, -1.2607,  0.0750, -1.6404,  0.7996,  0.0959],
        [ 0.3937, -0.5598,  0.9217, -0.9847, -0.4205, -1.2133,  0.1011,  0.2899],
        [ 0.3524, -0.5586,  1.6655, -0.3946, -0.6244, -0.4767,  0.1380,  0.1607],
        [ 0.5475, -0.4451,  1.7190,  0.6524, -0.0622, -0.1217,  0.2448,  0.2306],
        [ 0.3456, -0.5822,  1.4855, -0.7606, -0.6151, -0.3893,  0.4202,  0.2709]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5990, -0.4256,  1.7499, -0.0380, -0.3979,  0.3315,  0.6529,
           0.1159],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1532347435131669
step:  8
running loss:  0.019154342939145863

Train Steps: 8/90  Loss: 0.0192 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2550, -0.6382,  1.3415, -1.3801, -0.2225, -1.3262,  0.6423,  0.1599],
        [ 0.5471, -0.4761,  1.7444,  0.2648, -0.4119, -0.1947,  0.4265,  0.1811],
        [ 0.6230, -0.3890,  1.8253,  0.3196, -0.4646, -0.2568,  0.0844,  0.0392],
        [ 0.8241, -0.2153,  1.8669, -0.0251, -0.5363, -0.3031,  0.3125,  0.3552],
        [ 0.9951, -0.1611,  1.9537, -0.3856, -0.5628, -0.2982,  0.3243,  0.1922],
        [ 0.4725, -0.4909,  1.6059,  0.3220, -0.4420, -0.0804,  0.3932,  0.4512],
        [ 0.4065, -0.5371,  1.8867, -0.1379, -0.1220,  0.2303,  0.4275,  0.2397],
        [-0.3573, -1.0397,  0.9568, -1.4847, -0.3793, -1.4299,  0.2651,  0.1650]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0303, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0303, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18358023930341005
step:  9
running loss:  0.020397804367045563
Train Steps: 9/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.3023e-01, -5.1482e-01,  1.7756e+00,  1.1360e-03, -3.6645e-01,
         -2.6895e-01,  8.9147e-02,  2.8362e-01],
        [ 2.5134e-01, -6.3133e-01,  1.8180e+00, -1.0324e-01, -3.5429e-01,
          4.1739e-01,  4.8015e-01,  1.5867e-01],
        [ 3.5384e-01, -5.8044e-01,  1.1428e+00, -1.0631e+00, -3.7179e-01,
         -9.1526e-01,  4.6287e-01,  2.6820e-01],
        [ 4.9021e-01, -4.6988e-01,  1.6632e+00, -4.7789e-01, -3.7840e-01,
         -1.0013e+00,  1.3930e-01,  1.6179e-01],
        [ 7.3768e-01, -3.5570e-01,  1.7729e+00, -6.4928e-01, -2.7519e-01,
         -8.5562e-01,  8.7062e-01,  2.3698e-01],
        [ 6.4180e-01, -3.7256e-01,  1.3457e+00, -3.2032e-01, -4.9100e-01,
         -7.8489e-01,  2.0598e-01,  4.0648e-01],
        [ 4.5137e-02, -7.7108e-01,  1.3785e+00, -9.7295e-01, -5.5496e-01,
         -6.3843e-01,  3.7514e-01,  1.5874e-01],
        [ 5.1822e-01, -4.5746e-01,  1.6131e+00, -6.3268e-01, -4.9638e-01,
         -8.6872e-01,  2.3403e-01,  9.5013e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0199, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0199, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.20348771009594202
step:  10
running loss:  0.020348771009594202
Train Steps: 10/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3729, -0.5449,  1.6055, -0.3498, -0.5716, -0.1778,  0.1901,  0.2834],
        [ 0.4369, -0.5189,  1.7649, -0.1136, -0.0909, -0.0224,  0.1736,  0.2540],
        [ 0.2000, -0.6297,  1.3461, -1.0150, -0.4848, -1.0933,  0.1059,  0.2289],
        [ 0.4935, -0.4793,  1.7645, -0.2782, -0.5397, -0.1706,  0.3770,  0.3191],
        [ 0.6598, -0.3805,  0.9234, -1.1801, -0.5330, -1.1614,  0.4945,  0.2989],
        [ 0.4239, -0.5186,  1.6509,  0.3934, -0.2377, -0.0880,  0.3082,  0.2429],
        [ 0.3168, -0.5442,  1.8375, -0.1244, -0.4559, -0.0795,  0.3196,  0.0846],
        [ 0.8351, -0.2616,  1.8822, -0.5596, -0.4198, -1.2483,  0.5455,  0.0289]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0111, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0111, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2146181659772992
step:  11
running loss:  0.019510742361572655
Train Steps: 11/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4516, -0.5583,  1.8792,  0.0522, -0.5844, -0.0748,  0.2217,  0.0709],
        [ 0.4405, -0.5722,  1.8521, -0.5826, -0.3625, -0.8696,  0.6606,  0.0918],
        [ 0.5997, -0.4428,  1.7636, -0.7638, -0.4621, -0.3558,  0.7902,  0.2362],
        [ 0.2645, -0.6072,  1.2612, -0.9835, -0.6613, -0.3469,  0.1612,  0.2814],
        [ 0.4704, -0.4822,  1.2027, -1.1104, -0.6415, -0.7891,  0.2351,  0.2756],
        [ 0.5423, -0.4085,  1.7679,  0.4169, -0.5631, -0.7001,  0.2094,  0.4311],
        [ 0.4537, -0.5225,  1.8894,  0.1367, -0.0578,  0.1081,  0.0480,  0.0833],
        [ 0.7690, -0.3127,  1.0238, -1.1468, -0.4148, -1.2598,  0.2532,  0.3526]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890],
         [ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0157, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0157, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.23029645066708326
step:  12
running loss:  0.019191370888923604

Train Steps: 12/90  Loss: 0.0192 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4027, -0.4660,  1.7366, -0.1386, -0.4564, -0.1423,  0.1591,  0.1444],
        [ 0.6957, -0.3605,  1.5943,  0.3531, -0.5002, -0.2424,  0.2633,  0.1841],
        [ 0.5300, -0.4568,  1.6870, -0.1113, -0.3307, -0.0143,  0.4898,  0.2449],
        [ 0.6326, -0.3350,  1.5015, -0.6746, -0.6986, -0.8277,  0.0879,  0.2304],
        [ 0.4498, -0.4974,  1.7203, -0.1162, -0.3503, -0.0235,  0.2616,  0.2893],
        [ 0.7554, -0.3196,  1.3230, -1.4331, -0.1000, -1.5792,  0.5366,  0.1289],
        [ 0.3027, -0.6293,  1.6558, -0.7107, -0.6150, -0.2197,  0.6912,  0.2634],
        [ 0.4142, -0.4875,  1.4956, -0.6237, -0.7294, -0.4820,  0.0756,  0.2566]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5891, -0.4550,  1.5132,  0.3546, -0.3691, -0.1535,  0.3815,
           0.1467],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.24174558836966753
step:  13
running loss:  0.018595814489974424
Train Steps: 13/90  Loss: 0.0186 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5512, -0.4012,  1.5784, -0.9252, -0.4582, -0.8089,  0.3276,  0.1340],
        [ 0.4327, -0.5581,  1.7039,  0.5004, -0.5014,  0.0815,  0.4479,  0.0676],
        [ 0.4325, -0.4672,  0.9178, -1.0695, -0.3671, -1.2160,  0.0401,  0.3845],
        [ 0.4380, -0.4994,  1.1840, -1.0801, -0.3987, -0.9658,  0.3837,  0.2877],
        [ 0.4125, -0.4639,  1.6765, -0.6351, -0.6692, -0.6472,  0.0339,  0.1250],
        [ 0.5317, -0.4280,  1.4851, -0.9166, -0.4635, -0.7955,  0.3967,  0.1464],
        [ 0.5392, -0.4849,  1.8711,  0.0163, -0.5591, -0.0264,  0.6641,  0.2175],
        [ 0.4610, -0.4635,  1.2291, -1.0568, -0.2196, -1.1458,  0.3517,  0.3011]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.25693511217832565
step:  14
running loss:  0.018352508012737547
Train Steps: 14/90  Loss: 0.0184 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5322, -0.4184,  1.0965, -1.2336, -0.5849, -1.0054,  0.0292,  0.1176],
        [ 0.6723, -0.3306,  0.9867, -1.1890, -0.4479, -1.1556,  0.2707,  0.3578],
        [ 0.4028, -0.5790,  1.8348,  0.1465, -0.5165,  0.0932,  0.5661,  0.0781],
        [ 0.6797, -0.3641,  1.9693, -0.1283, -0.6853, -0.4126,  0.5338,  0.0233],
        [ 0.6101, -0.3995,  1.8501, -0.2459, -0.1648,  0.1547,  0.4233,  0.2387],
        [ 0.5019, -0.4424,  1.6876,  0.3924, -0.2844, -0.1806,  0.2704,  0.4552],
        [ 0.2637, -0.5703,  1.0420, -1.2051, -0.4135, -1.2683,  0.0640,  0.3140],
        [ 0.7188, -0.3408,  1.7550, -0.8725, -0.6918, -0.6287,  0.5274,  0.0789]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.6010, -0.4321,  1.6517,  0.2160, -0.4210,  0.0774,  0.6356,
           0.0313],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2669285275042057
step:  15
running loss:  0.017795235166947046
Train Steps: 15/90  Loss: 0.0178 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.4917e-01, -2.9123e-01,  1.6643e+00, -7.0021e-02, -5.4613e-01,
          1.4726e-02,  8.5315e-01,  2.3208e-01],
        [ 8.6743e-01, -1.8532e-01,  1.3006e+00, -1.5328e+00, -2.5562e-01,
         -1.6725e+00,  4.7231e-01,  1.7271e-02],
        [ 5.4636e-01, -3.7996e-01,  1.6489e+00, -4.4702e-01, -2.6623e-01,
          3.5819e-02,  3.5702e-01,  3.4274e-01],
        [ 4.5332e-01, -4.3862e-01,  1.6072e+00, -5.8392e-01, -5.8043e-01,
          1.6829e-02,  4.6827e-01,  2.7635e-01],
        [ 5.6296e-01, -3.9525e-01,  1.6733e+00, -2.4120e-01, -5.7210e-01,
         -2.1659e-01,  1.4990e-01,  1.5060e-01],
        [ 5.0192e-01, -4.1994e-01,  1.5758e+00,  1.8359e-01, -5.1492e-01,
         -4.4539e-01,  2.1972e-01,  2.5103e-01],
        [ 5.4839e-01, -4.0392e-01,  1.6198e+00, -1.2432e-01, -5.0563e-01,
         -2.9601e-01,  7.4577e-02,  1.6226e-01],
        [ 5.4278e-01, -4.0608e-01,  1.6447e+00, -8.1759e-02, -3.0073e-01,
         -3.1521e-04,  3.1638e-01,  1.0237e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2889367938041687
step:  16
running loss:  0.018058549612760544

Train Steps: 16/90  Loss: 0.0181 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6277, 0.4083, 0.8350, 0.2717, 0.4562, 0.1800, 0.5918, 0.4878]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.1427e-01, -4.1541e-01,  1.5883e+00, -6.4958e-02, -2.9016e-01,
          1.5929e-03,  1.6787e-01,  2.4338e-01],
        [ 7.8892e-01, -2.8638e-01,  1.8092e+00, -2.2893e-01, -4.9548e-01,
          9.6385e-02,  7.4152e-01,  1.4290e-01],
        [ 6.8751e-01, -3.0935e-01,  1.6456e+00, -3.5264e-01, -5.5861e-01,
         -2.3207e-01,  2.7769e-01,  2.3544e-01],
        [ 7.5018e-01, -3.1599e-01,  1.6878e+00,  2.2710e-01, -5.1088e-01,
         -2.6419e-01,  6.2945e-01,  1.2593e-02],
        [ 6.6079e-01, -3.3558e-01,  1.6973e+00, -3.2839e-01, -6.2279e-01,
         -3.0419e-01,  4.1372e-01,  1.6635e-01],
        [ 5.2827e-01, -3.7146e-01,  1.0872e+00, -1.0771e+00, -6.6342e-01,
         -8.6333e-01,  2.2034e-01,  3.3167e-01],
        [ 5.4088e-01, -4.0553e-01,  1.7217e+00, -8.6147e-02, -1.6320e-01,
          1.2475e-01,  3.7833e-01,  2.1609e-01],
        [ 4.0423e-01, -4.5951e-01,  1.3544e+00, -1.2396e+00, -2.0415e-01,
         -1.3715e+00,  2.6294e-01,  7.7104e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.6132, -0.4002,  1.5709, -1.0311, -0.1785, -1.4545,  0.4474,
          -0.0328]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3035747576504946
step:  17
running loss:  0.017857338685323212
Train Steps: 17/90  Loss: 0.0179 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7755, -0.2566,  1.2124, -1.1970, -0.2807, -1.3949,  0.4493,  0.0860],
        [ 0.6724, -0.2987,  1.2744, -0.9307, -0.5428, -0.9535,  0.2306,  0.0451],
        [ 0.5606, -0.4360,  1.8056, -0.0158, -0.4819,  0.1948,  0.5600,  0.1729],
        [ 0.4362, -0.4670,  1.2045, -0.9879, -0.5975, -0.6874,  0.2234,  0.1330],
        [ 0.5636, -0.4414,  1.9031, -0.1640, -0.5636, -0.0504,  0.6355,  0.0259],
        [ 0.7105, -0.3035,  1.0117, -1.1499, -0.4594, -1.1200,  0.4641,  0.2386],
        [ 0.5666, -0.4205,  1.8395, -0.2656, -0.5567, -0.3416,  0.5523,  0.3514],
        [ 0.4156, -0.5127,  1.7689,  0.0910,  0.0355,  0.0478,  0.2672,  0.1672]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3108562519773841
step:  18
running loss:  0.01726979177652134
Train Steps: 18/90  Loss: 0.0173 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6249, -0.3117,  1.7247, -0.4558, -0.2784, -1.0430,  0.3631,  0.0424],
        [ 0.5624, -0.4253,  1.5911, -1.0202,  0.0873, -1.0461,  0.9152,  0.1176],
        [ 0.4162, -0.4453,  0.9554, -0.9243, -0.5591, -0.8039,  0.1167,  0.2402],
        [ 0.5104, -0.4898,  1.7279, -0.0447, -0.4961,  0.3425,  0.7043,  0.1548],
        [ 0.5848, -0.3563,  1.2298, -1.0580, -0.2116, -1.2383,  0.4013,  0.1006],
        [ 0.5874, -0.3731,  1.3149, -0.9523, -0.3525, -1.0013,  0.5720,  0.1029],
        [ 0.3819, -0.4549,  1.5499, -0.3267, -0.6556, -0.6680, -0.0268,  0.1221],
        [ 0.7683, -0.3051,  1.7793, -0.1137, -0.4840,  0.5970,  0.6887,  0.1274]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3251751000061631
step:  19
running loss:  0.017114478947692795
Train Steps: 19/90  Loss: 0.0171 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6266, 0.4101, 0.8350, 0.2333, 0.3950, 0.2950, 0.6264, 0.4921],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6260, 0.4120, 0.8013, 0.2350, 0.4888, 0.1533, 0.6281, 0.4895]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.3753e-01, -3.0106e-01,  1.7238e+00, -5.3725e-01, -4.3524e-01,
         -8.7413e-01,  2.8037e-01,  1.2785e-01],
        [ 7.4946e-01, -2.6226e-01,  1.4602e+00, -1.1061e+00, -3.8495e-01,
         -8.8866e-01,  5.5216e-01,  3.8942e-02],
        [ 5.6102e-01, -3.5893e-01,  1.1527e+00, -1.0360e+00, -5.2439e-01,
         -6.7386e-01,  1.5924e-01,  1.1717e-01],
        [-1.0101e+00, -1.4053e+00,  1.1850e+00, -1.0470e+00, -4.7518e-01,
         -1.0037e+00, -4.8302e-02,  1.9874e-01],
        [ 8.3262e-01, -2.4918e-01,  1.6203e+00,  3.0693e-01, -3.8922e-01,
          1.4029e-01,  6.9893e-01,  5.8639e-02],
        [ 9.2227e-01, -1.9825e-01,  1.8672e+00, -6.0081e-02, -4.7998e-01,
          2.9148e-02,  8.5436e-01,  8.6164e-02],
        [ 7.5961e-01, -2.9459e-01,  1.6385e+00,  1.3106e-01, -3.7348e-01,
          1.4454e-01,  6.9711e-01,  1.6616e-01],
        [ 7.5710e-01, -2.3514e-01,  1.3542e+00, -1.1528e+00,  1.2851e-03,
         -1.4269e+00,  5.6705e-01,  8.8829e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.6081, -0.3918,  1.5709, -1.2082, -0.4614, -0.9233,  0.6072,
          -0.0129],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.6053, -0.3830,  1.4150, -1.2005, -0.0284, -1.5777,  0.6154,
          -0.0250]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0515, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0515, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.37666080240160227
step:  20
running loss:  0.018833040120080115

Train Steps: 20/90  Loss: 0.0188 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4839, -0.5000,  1.6635,  0.1886, -0.3307, -0.3211,  0.7333,  0.2023],
        [ 0.6194, -0.3507,  1.4114, -0.9203, -0.3818, -0.8013,  0.4622,  0.0413],
        [ 0.6624, -0.3586,  1.8314, -0.1974, -0.5329,  0.0903,  0.6837,  0.1530],
        [ 0.8656, -0.2259,  1.5109, -0.8773, -0.4817, -0.4769,  0.8409,  0.1297],
        [ 0.8424, -0.2204,  1.4692, -1.0215, -0.1932, -1.1525,  0.6111, -0.0318],
        [ 0.6292, -0.3355,  1.4958, -0.4595, -0.6039, -0.3666,  0.1997,  0.0866],
        [-0.7059, -1.2208,  0.8391, -1.2020, -0.2385, -1.2981,  0.0876,  0.3023],
        [ 0.7580, -0.2258,  1.6574, -0.7458, -0.0913, -1.0447,  0.4986,  0.0383]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0800, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0800, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4566794792190194
step:  21
running loss:  0.02174664186757235
Train Steps: 21/90  Loss: 0.0217 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7002, -0.3247,  1.2085, -1.4291, -0.0743, -1.4957,  0.4974, -0.0724],
        [ 0.4774, -0.4847,  1.7084,  0.1631, -0.4217, -0.1387,  0.7403,  0.0630],
        [ 0.5838, -0.3842,  1.6920, -0.6905, -0.5661, -0.2903,  0.6077,  0.2382],
        [ 0.5264, -0.4329,  1.6813, -0.0333, -0.4499, -0.3091,  0.4960,  0.1460],
        [ 0.7125, -0.3116,  1.7807, -0.0740, -0.3466, -0.4352,  0.7564,  0.0296],
        [ 0.3954, -0.4781,  1.2758, -0.6132, -0.4806, -0.7404,  0.2370,  0.3153],
        [ 0.7172, -0.2866,  1.5352, -0.8002, -0.5477, -0.3290,  0.5524,  0.1585],
        [ 0.5864, -0.3569,  1.5866, -0.9917, -0.2150, -1.0676,  0.5041,  0.0485]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.46885613538324833
step:  22
running loss:  0.02131164251742038
Train Steps: 22/90  Loss: 0.0213 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6196, -0.3860,  1.7935,  0.0901, -0.3193,  0.3917,  0.6185,  0.0979],
        [ 0.4539, -0.5063,  1.5252,  0.2251, -0.4727,  0.1093,  0.7826,  0.1797],
        [ 0.6377, -0.3392,  1.3309, -1.1378, -0.4062, -1.0118,  0.6385,  0.1555],
        [ 0.4766, -0.4483,  1.3842, -1.0258, -0.1972, -1.3189,  0.4875,  0.1217],
        [ 0.6683, -0.3750,  1.4588, -0.9875, -0.2644, -1.2481,  0.7489,  0.0369],
        [ 0.4246, -0.4852,  1.4205, -0.7114, -0.6263, -0.5640,  0.2431,  0.1097],
        [ 0.5375, -0.3941,  1.6243, -1.0296, -0.0724, -1.3532,  0.6481,  0.0064],
        [ 0.5658, -0.3992,  1.6959, -0.5945, -0.7086, -0.3629,  0.4398,  0.2220]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9913e-01, -3.8029e-01,  1.8018e+00, -5.3426e-02, -3.4596e-01,
           1.8522e-01,  5.3741e-01,  1.3903e-01],
         [ 6.1907e-01, -4.2971e-01,  1.4612e+00,  2.3911e-01, -4.9607e-01,
           3.1255e-02,  1.1166e+00,  1.7680e-01],
         [ 5.7754e-01, -4.0539e-01,  1.2245e+00, -1.3082e+00, -4.2102e-01,
          -1.0080e+00,  5.4896e-01,  2.7760e-01],
         [ 5.7679e-01, -4.0308e-01,  1.3838e+00, -1.1527e+00, -2.1876e-01,
          -1.4216e+00,  4.3790e-01,  1.8502e-01],
         [ 6.1322e-01, -4.2479e-01,  1.5247e+00, -1.1620e+00, -2.8822e-01,
          -1.3159e+00,  6.5445e-01,  1.1931e-01],
         [ 5.2702e-01, -4.3356e-01,  1.3342e+00, -6.7698e-01, -6.5196e-01,
          -5.3841e-01,  2.3702e-01,  5.9193e-02],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 5.8672e-01, -3.9369e-01,  1.7499e+00, -7.1547e-01, -6.4042e-01,
          -3.8445e-01,  4.7390e-01,  3.3918e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4768888894468546
step:  23
running loss:  0.02073429954116759
Train Steps: 23/90  Loss: 0.0207 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [   nan,    nan, 0.8850, 0.2817, 0.5112, 0.2183, 0.7184, 0.5436],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.4015e-01, -3.2741e-01,  1.5286e+00, -5.8203e-01, -2.0736e-01,
         -1.0390e+00,  3.7237e-01,  3.1638e-01],
        [ 7.2093e-01, -2.9143e-01,  1.7759e+00, -1.1026e+00, -2.6972e-01,
         -1.1049e+00,  7.2239e-01, -1.2084e-01],
        [ 8.0535e-01, -2.6231e-01,  1.2904e+00, -1.1777e+00, -3.5370e-01,
         -1.2656e+00,  5.2912e-01, -1.9021e-02],
        [-5.5371e-01, -1.1874e+00,  1.8828e+00, -1.1686e+00, -5.8424e-03,
         -1.0682e+00,  1.1814e+00,  1.2185e-01],
        [ 5.2261e-01, -4.1431e-01,  1.4245e+00, -1.9491e-01, -5.6756e-01,
         -6.1366e-01,  3.0487e-01,  4.5116e-01],
        [ 5.1992e-01, -4.8953e-01,  1.7885e+00, -5.3513e-02, -4.4506e-01,
          3.5400e-01,  6.2226e-01,  1.5005e-01],
        [ 8.1954e-01, -3.3110e-01,  1.7693e+00,  2.3936e-01, -6.8419e-01,
         -1.6167e-03,  7.2799e-01,  3.1313e-02],
        [ 6.6607e-01, -3.6078e-01,  9.4744e-01, -1.1733e+00, -5.2266e-01,
         -1.1170e+00,  3.4295e-01,  1.2331e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [-2.2859, -2.2859,  1.8018, -0.9849,  0.0755, -1.2774,  1.0326,
           0.2249],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0837, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0837, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5606125611811876
step:  24
running loss:  0.02335885671588282

Train Steps: 24/90  Loss: 0.0234 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7548, -0.3042,  1.0104, -1.2783, -0.3081, -1.4168,  0.4733,  0.0882],
        [ 0.3597, -0.5199,  1.6652, -0.3600, -0.5313, -0.7199,  0.4997,  0.3743],
        [ 1.0061, -0.1646,  1.8598, -0.2678, -0.5175,  0.0687,  0.8785,  0.2038],
        [-1.9778, -2.1261,  1.0573, -1.3015, -0.3206, -1.1825,  0.1999,  0.2042],
        [ 0.6407, -0.3564,  1.7933, -0.4605, -0.3934, -0.7640,  0.5918,  0.2892],
        [ 0.9847, -0.1499,  1.5094, -1.0364, -0.2792, -1.1041,  0.7410,  0.0412],
        [ 0.8230, -0.2356,  1.6608, -0.5814, -0.5504, -0.7949,  0.4448,  0.0940],
        [ 0.9102, -0.2794,  1.8353, -0.3655, -0.5575, -0.4388,  0.9005,  0.0544]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5856962967664003
step:  25
running loss:  0.023427851870656012
Train Steps: 25/90  Loss: 0.0234 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950],
        [0.6197, 0.3986, 0.8800, 0.4617, 0.4188, 0.4783, 0.5687, 0.5550],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.1749, -2.2414,  1.2203, -1.2753, -0.2672, -1.2905,  0.4293,  0.2614],
        [ 0.8052, -0.2676,  1.6369, -0.9690, -0.5289, -1.0819,  0.6849,  0.2336],
        [ 0.7062, -0.3927,  1.7734,  0.1701, -0.3351,  0.0147,  0.6362,  0.0818],
        [ 0.6538, -0.3901,  1.7930, -0.1344, -0.4454, -0.0750,  0.6346,  0.2179],
        [ 0.7714, -0.2682,  1.5192, -1.0016, -0.5511, -1.1028,  0.7895,  0.1417],
        [ 0.8999, -0.1971,  1.8160, -0.1320, -0.1471,  0.0496,  0.6020,  0.2215],
        [ 0.9350, -0.1469,  1.1757, -0.9296, -0.3252, -1.4202,  0.5431,  0.3288],
        [ 0.6527, -0.3576,  1.3160, -0.9865, -0.6031, -1.0946,  0.3418, -0.0273]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  9.1750e-01, -1.3947e+00, -3.6905e-01,
          -1.2467e+00,  2.3141e-01,  3.2379e-01],
         [ 5.7783e-01, -3.9299e-01,  1.5189e+00, -9.3872e-01, -4.3256e-01,
          -9.1563e-01,  4.8545e-01,  3.3918e-01],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04],
         [ 5.7627e-01, -4.4503e-01,  1.7788e+00, -1.5350e-01, -3.5173e-01,
          -7.6520e-02,  3.4111e-01,  2.7760e-01],
         [ 5.9766e-01, -3.7916e-01,  1.2995e+00, -1.0311e+00, -5.1917e-01,
          -8.3865e-01,  5.8360e-01,  2.1601e-01],
         [ 5.5381e-01, -4.1386e-01,  1.7557e+00, -1.8430e-01, -4.5897e-02,
           1.2417e-01,  4.2194e-01,  2.8530e-01],
         [ 5.8412e-01, -3.5743e-01,  1.0859e+00, -9.5412e-01, -2.8245e-01,
          -1.2851e+00,  3.4601e-01,  3.8081e-01],
         [ 5.2194e-01, -4.5504e-01,  1.1415e+00, -9.1962e-01, -6.4042e-01,
          -9.3872e-01,  1.8562e-01,  1.4106e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.606036888435483
step:  26
running loss:  0.02330911109367242
Train Steps: 26/90  Loss: 0.0233 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 8.0656e-01, -2.6370e-01,  1.5694e+00, -7.0661e-01, -6.7750e-01,
         -6.1102e-01,  4.4837e-01,  1.7196e-01],
        [ 8.3816e-01, -2.6449e-01,  1.4815e+00, -9.9043e-01, -6.0364e-01,
         -6.2400e-01,  7.4873e-01,  1.6229e-01],
        [ 7.6048e-01, -3.0167e-01,  1.4651e+00,  1.3264e-01, -4.7946e-01,
         -7.3808e-01,  4.7905e-01,  5.3412e-01],
        [-2.4250e+00, -2.4390e+00,  1.1478e+00, -1.2399e+00, -4.5536e-01,
         -1.1712e+00,  1.5048e-01,  2.7632e-01],
        [ 9.2886e-01, -2.3300e-01,  1.6681e+00,  3.6170e-02, -4.2982e-01,
         -2.4203e-02,  1.0275e+00,  1.7328e-01],
        [ 7.3659e-01, -3.2591e-01,  1.6391e+00, -1.1892e+00, -4.0055e-01,
         -1.3278e+00,  5.5345e-01,  4.1518e-02],
        [ 7.4341e-01, -3.3253e-01,  1.7754e+00, -2.0403e-01, -2.2468e-03,
         -5.2091e-02,  6.5368e-01,  2.7859e-01],
        [ 7.0976e-01, -3.3546e-01,  1.8470e+00, -7.5960e-01, -4.6156e-01,
         -1.2449e+00,  5.1825e-01,  1.3950e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0194, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0194, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6254050750285387
step:  27
running loss:  0.023163150926982914
Train Steps: 27/90  Loss: 0.0232 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.3912, -2.4006,  1.1279, -1.3163, -0.4300, -1.4060,  0.2300,  0.2982],
        [ 0.8388, -0.2334,  1.3732, -1.0759, -0.6614, -0.8011,  0.6057,  0.2207],
        [ 0.7985, -0.2911,  1.6881,  0.1210, -0.2120, -0.0144,  0.3557,  0.1805],
        [ 0.5698, -0.3962,  1.3641, -0.7297, -0.7064, -0.7499,  0.3289,  0.3488],
        [ 0.6580, -0.3809,  1.7488, -0.0879, -0.1178, -0.1244,  0.4801,  0.3834],
        [ 1.0398, -0.1747,  1.8704,  0.0921, -0.5262,  0.1024,  1.1594,  0.2341],
        [ 0.6474, -0.3854,  1.4655, -1.3019, -0.1727, -1.7691,  0.7337,  0.1894],
        [ 0.5760, -0.4059,  1.7574, -0.5579, -0.7147, -0.9041,  0.3207,  0.1653]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.5393, -0.4294,  1.6575, -0.4075, -0.6635, -0.6308,  0.3296,
           0.0851]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0175, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6429185438901186
step:  28
running loss:  0.022961376567504237

Train Steps: 28/90  Loss: 0.0230 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3600, -0.5704,  1.3240, -1.3796, -0.1798, -1.6076,  0.5185,  0.2673],
        [ 0.5784, -0.3890,  1.7528, -0.3822, -0.4831,  0.4132,  0.5336,  0.2449],
        [ 0.4459, -0.5053,  1.4762, -1.3180, -0.2036, -1.4446,  0.5637,  0.2456],
        [ 0.2246, -0.7033,  1.5671,  0.0254, -0.4486, -0.2696,  0.4713,  0.3428],
        [ 0.5284, -0.4739,  1.8616, -0.5123, -0.5799, -0.8014,  0.6375,  0.2973],
        [ 0.3499, -0.5930,  1.6678, -0.6075, -0.6182, -0.9334,  0.5179,  0.2470],
        [ 0.6549, -0.4208,  1.5748,  0.0875, -0.4565, -0.0380,  0.7645,  0.2367],
        [ 0.0652, -0.7456,  1.5443, -0.4409, -0.7221, -0.7115,  0.0813,  0.4008]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6651229802519083
step:  29
running loss:  0.022935275181100286
Train Steps: 29/90  Loss: 0.0229 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6743, -0.3775,  1.9492, -0.5144, -0.6510, -0.6040,  0.7542,  0.2366],
        [ 0.4084, -0.5484,  0.8144, -1.2229, -0.4932, -1.3891,  0.2318,  0.3599],
        [ 0.3393, -0.5796,  1.6478, -0.0665, -0.3251, -0.0515,  0.2467,  0.3376],
        [ 0.7025, -0.3827,  1.7598, -0.0448, -0.4856, -0.1389,  0.9078,  0.2428],
        [ 0.4087, -0.5155,  1.7943, -0.0300, -0.2215,  0.2901,  0.3834,  0.2715],
        [ 0.5483, -0.4365,  1.2142, -1.0301, -0.6042, -1.1357,  0.1894,  0.0886],
        [ 0.5886, -0.3989,  1.8939, -0.6754, -0.2331, -1.3781,  0.6624,  0.3241],
        [-1.2400, -1.6479,  1.1698, -1.2162, -0.5687, -1.1057,  0.4281,  0.4191]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.4997, -0.4446,  1.1610, -0.9772, -0.6058, -1.0311,  0.1404,
          -0.1031],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0337, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0337, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6988462079316378
step:  30
running loss:  0.02329487359772126
Train Steps: 30/90  Loss: 0.0233 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6474, -0.3811,  1.9037, -0.6287, -0.2022, -1.5291,  0.5346,  0.2287],
        [ 0.5797, -0.4225,  1.7740, -0.1589, -0.1278,  0.2441,  0.5273,  0.3165],
        [ 0.3275, -0.6175,  1.7052, -0.4999, -0.6740, -0.2583,  0.5826,  0.3372],
        [ 0.0698, -0.7592,  1.6376, -0.3294, -0.4746, -0.4258,  0.0776,  0.3240],
        [ 0.0830, -0.7637,  0.9233, -1.3943, -0.5709, -1.1773,  0.2773,  0.2900],
        [ 0.2631, -0.6277,  1.5495, -0.5722, -0.5926, -0.8965,  0.4296,  0.3226],
        [ 0.3554, -0.5687,  1.5380, -0.6126, -0.7502, -0.5382,  0.2942,  0.2498],
        [ 0.5028, -0.5089,  1.7308, -0.0581, -0.4410, -0.0810,  0.8824,  0.2342]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0212, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0212, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7200348284095526
step:  31
running loss:  0.023226929948695244
Train Steps: 31/90  Loss: 0.0232 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6033, -0.4310,  1.8310,  0.4091, -0.5672,  0.0558,  0.7620,  0.1504],
        [ 0.8779, -0.2438,  2.1329, -0.3252, -0.5712, -0.5649,  0.7217,  0.2011],
        [-1.6352, -1.8747,  0.9210, -1.2440, -0.4025, -1.2805,  0.1456,  0.4208],
        [-0.6913, -1.2824,  1.0063, -1.2538, -0.3921, -1.3718,  0.0689,  0.3489],
        [ 0.7124, -0.3332,  1.8602, -0.3045, -0.5819, -0.0313,  0.3551,  0.0675],
        [ 0.4150, -0.5009,  1.2186, -1.2239, -0.4369, -1.1337,  0.3174,  0.2731],
        [ 0.6908, -0.3370,  1.6717,  0.3058, -0.4995, -0.0272,  0.5719,  0.5020],
        [ 0.5956, -0.4108,  1.1865, -1.2724, -0.4142, -1.2213,  0.2497,  0.2512]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5850, -0.3925,  1.0513, -1.3467, -0.3517, -1.2620,  0.4739,
           0.1544]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1585, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1585, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8785099294036627
step:  32
running loss:  0.02745343529386446

Train Steps: 32/90  Loss: 0.0275 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.2940e-01, -4.4512e-01,  1.6529e+00,  1.7090e-01, -2.1387e-01,
          7.7426e-03,  6.9037e-01,  1.7068e-01],
        [ 3.4147e-01, -5.6399e-01,  1.5299e+00, -8.4593e-01, -6.4986e-01,
         -7.0577e-01,  4.4995e-01,  2.9445e-01],
        [-1.7507e-03, -7.9282e-01,  1.6644e+00, -4.0141e-01, -4.2820e-01,
         -1.7175e-01,  1.8599e-01,  1.2021e-01],
        [ 2.9183e-01, -5.5249e-01,  1.0889e+00, -9.9410e-01, -6.0846e-01,
         -4.8721e-01,  2.1527e-01,  3.2583e-01],
        [ 3.6955e-01, -5.1423e-01,  1.5982e+00, -2.9987e-01, -6.4598e-01,
         -8.5654e-01, -3.9592e-02,  2.8502e-01],
        [ 3.0083e-01, -5.7450e-01,  1.6468e+00, -3.0167e-01, -4.3349e-01,
         -5.5919e-01, -3.3376e-02,  2.7009e-01],
        [ 5.5085e-01, -4.4781e-01,  1.8877e+00, -1.4398e-01, -5.1621e-01,
         -3.5603e-01,  8.2913e-01,  1.9243e-01],
        [ 4.9237e-01, -4.7212e-01,  1.7585e+00, -3.4924e-01, -4.0652e-01,
         -2.1576e-01,  8.1910e-01,  3.0801e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0250, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9034913182258606
step:  33
running loss:  0.02737852479472305
Train Steps: 33/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.9099, -2.0520,  0.9409, -1.3096, -0.3855, -1.2464,  0.1902,  0.2886],
        [ 0.5154, -0.4495,  1.7163, -0.2839, -0.3076,  0.1952,  0.4860,  0.1330],
        [ 0.5209, -0.4609,  1.6231, -1.0219, -0.5351, -1.0031,  0.5578,  0.1162],
        [ 0.5516, -0.4181,  1.5766,  0.2001, -0.1115, -0.0064,  0.2084,  0.1623],
        [ 0.4060, -0.5142,  1.6260, -0.6436, -0.6285, -0.1200,  0.2998,  0.1566],
        [ 0.7592, -0.2388,  1.3822, -0.2121, -0.4769, -0.7826,  0.2621,  0.4588],
        [ 0.6406, -0.4045,  1.7779, -0.2040, -0.5504, -0.4587,  0.7782,  0.1341],
        [ 0.6576, -0.3083,  1.6359, -0.1900, -0.5963, -0.8407,  0.2722,  0.2160]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9148482903838158
step:  34
running loss:  0.026907302658347523
Train Steps: 34/90  Loss: 0.0269 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.4211e-01, -5.5436e-01,  1.4170e+00,  6.1026e-02, -4.8594e-01,
         -1.1325e-01,  7.7582e-01,  3.2171e-01],
        [ 1.4285e-01, -6.6580e-01,  1.4183e+00, -1.1495e+00, -3.2002e-01,
         -1.2133e+00,  6.1003e-01,  2.7405e-01],
        [ 3.6311e-01, -4.9852e-01,  1.6690e+00, -1.9997e-01, -6.7210e-01,
         -5.8863e-01, -4.3973e-02,  1.5990e-01],
        [ 4.6845e-01, -4.8369e-01,  1.6665e+00, -1.5795e-02, -4.8026e-01,
         -1.5836e-03,  2.7498e-01,  9.0587e-02],
        [ 6.5483e-01, -3.1392e-01,  1.6959e+00,  2.6545e-01, -4.1626e-01,
         -8.7995e-02,  4.2136e-01,  2.3797e-01],
        [ 1.4710e-01, -6.7734e-01,  1.7470e+00, -3.3103e-01, -4.3827e-01,
         -2.9471e-01, -9.0514e-03,  3.3535e-02],
        [ 3.4537e-01, -5.5135e-01,  1.1529e+00, -1.3529e+00, -3.9643e-01,
         -1.2332e+00,  2.8598e-01,  1.4165e-01],
        [ 3.7841e-01, -5.3315e-01,  1.7237e+00, -4.0560e-01, -4.5712e-01,
         -7.7054e-02,  7.7512e-01,  2.6182e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0243, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0243, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9391738977283239
step:  35
running loss:  0.02683353993509497
Train Steps: 35/90  Loss: 0.0268 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9853, -0.0791,  1.4641, -0.3702, -0.1446, -1.0620,  0.2074,  0.3532],
        [ 0.7470, -0.2884,  1.5556, -0.9633, -0.2606, -1.1213,  0.5230,  0.1062],
        [ 0.7365, -0.3068,  1.7563, -0.0710, -0.4981, -0.0292,  0.3810,  0.1003],
        [ 0.8464, -0.1846,  1.4369, -0.5832, -0.4998, -0.7952,  0.3272,  0.2525],
        [-1.5989, -1.7973,  0.9184, -0.9933, -0.5291, -0.9933,  0.0321,  0.2860],
        [-1.6922, -1.8783,  1.0217, -1.0603, -0.4737, -1.0298,  0.0809,  0.2151],
        [ 0.7276, -0.3266,  1.7957,  0.2800, -0.4631,  0.1283,  0.7769, -0.0928],
        [ 0.7260, -0.2884,  1.6461, -0.5658, -0.5884, -0.0756,  0.7037,  0.1972]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.5935, -0.3558,  1.3284, -0.6924, -0.5249, -0.9618,  0.3353,
           0.3084],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9743791241198778
step:  36
running loss:  0.027066086781107716

Train Steps: 36/90  Loss: 0.0271 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4021, 0.8780, 0.5031, 0.3667, 0.3882, 0.5842, 0.5405],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6996, -0.3346,  1.8437,  0.1672, -0.5292, -0.3474,  0.3822, -0.0497],
        [ 0.3493, -0.5383,  1.9132, -0.5951, -0.3706, -0.8605,  0.4897,  0.1431],
        [ 0.2542, -0.6049,  1.8101, -0.1032, -0.4832, -0.2194,  0.4467,  0.1163],
        [-0.0646, -0.8031,  0.9565, -0.8911, -0.5063, -0.8299,  0.2433,  0.3494],
        [ 0.7911, -0.2365,  1.7099,  0.5081, -0.3259, -0.1652,  0.2937,  0.3079],
        [ 0.5108, -0.4289,  1.9848, -0.2359, -0.5005, -0.0401,  0.5715,  0.0395],
        [ 0.3191, -0.5725,  1.0183, -1.2563, -0.4272, -0.9802,  0.4102,  0.2090],
        [ 0.2063, -0.6487,  1.2193, -0.8771, -0.5484, -0.6147,  0.2950,  0.2426]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5791, -0.4289,  1.7694,  0.0379, -0.5923, -0.4927,  0.4126,
           0.2107],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0252, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0252, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9995399247854948
step:  37
running loss:  0.02701459256177013
Train Steps: 37/90  Loss: 0.0270 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4743, -0.4986,  1.7012,  0.2645, -0.5962, -0.0472,  0.6053, -0.0269],
        [ 0.4422, -0.4338,  1.6112, -0.2641, -0.3141, -0.9310,  0.3228,  0.4357],
        [ 0.4612, -0.4605,  1.7693, -0.4304, -0.6406, -0.4055,  0.3712,  0.1926],
        [ 0.3480, -0.5056,  1.7185, -0.0225, -0.2127,  0.2593,  0.2440,  0.0680],
        [ 0.2740, -0.6009,  1.6386, -0.3549, -0.6436, -0.3869,  0.3592,  0.2311],
        [ 0.6209, -0.3838,  1.4577, -1.1062, -0.4147, -0.9839,  0.5374,  0.0921],
        [ 0.1334, -0.7052,  1.5866,  0.1677, -0.4499, -0.1311,  0.4455,  0.1111],
        [ 0.3481, -0.5082,  1.0693, -1.1434, -0.2080, -1.2564,  0.3309,  0.3095]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0145, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0145, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0140107097104192
step:  38
running loss:  0.026684492360800505
Train Steps: 38/90  Loss: 0.0267 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [   nan,    nan, 0.8900, 0.3217, 0.5038, 0.2233, 0.6694, 0.5609],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8678, -0.2009,  1.2378, -0.9185, -0.5161, -0.8553,  0.4915,  0.3090],
        [ 0.9830, -0.1437,  1.6857,  0.4170, -0.5662, -0.0471,  0.5264, -0.0337],
        [-1.3197, -1.6164,  0.8604, -1.1805, -0.3298, -1.2823,  0.1823,  0.3035],
        [ 0.6939, -0.3165,  1.7800, -0.2526, -0.5378,  0.3783,  0.5597,  0.0969],
        [ 0.5649, -0.3764,  1.3641, -0.9624, -0.5757, -0.6402,  0.3433,  0.2319],
        [-1.4869, -1.6870,  1.6115, -0.8906, -0.0766, -1.0723,  0.6136,  0.3026],
        [ 0.9856, -0.0815,  1.6037,  0.4419, -0.2505, -0.1491,  0.2663,  0.3167],
        [ 0.7317, -0.2633,  1.8326, -0.1786, -0.4594, -0.8693,  0.3603,  0.0575]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [-2.2859, -2.2859,  1.8249, -0.8002,  0.0409, -1.2543,  0.8059,
           0.3050],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0564, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0564, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.070364617742598
step:  39
running loss:  0.027445246608784564
Train Steps: 39/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5133, -0.4663,  1.8136,  0.0464, -0.6048, -0.3059,  0.4851,  0.1031],
        [ 0.8636, -0.1945,  1.7741, -0.3626, -0.4596, -0.9356,  0.1393,  0.1064],
        [-1.3675, -1.6747,  0.9541, -1.3097, -0.3199, -1.3510,  0.3645,  0.2582],
        [ 0.8342, -0.1883,  1.7027, -0.1683, -0.4789, -0.1760,  0.1873,  0.3101],
        [-0.7556, -1.2731,  0.9561, -0.9565, -0.4540, -1.0619,  0.3168,  0.3183],
        [ 0.6719, -0.3621,  1.5153, -0.9662, -0.3847, -0.8820,  0.7084,  0.1236],
        [ 0.8573, -0.1882,  1.5670,  0.4527, -0.3737,  0.0536,  0.4860,  0.3803],
        [ 0.7862, -0.2566,  1.8451,  0.0945, -0.3737,  0.4714,  0.6448,  0.1194]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9440e-01, -4.5427e-01,  1.8018e+00,  8.1601e-03, -6.0577e-01,
          -4.3064e-01,  4.1617e-01,  1.0824e-01],
         [ 5.4850e-01, -4.2094e-01,  1.6691e+00, -4.1524e-01, -5.2494e-01,
          -1.1081e+00,  7.2521e-02,  2.0831e-03],
         [-2.2859e+00, -2.2859e+00,  7.2217e-01, -1.4930e+00, -3.9215e-01,
          -1.3698e+00,  1.4038e-01,  1.3434e-01],
         [ 5.5525e-01, -3.9923e-01,  1.7557e+00, -2.6898e-01, -4.9030e-01,
          -2.6898e-01,  5.4227e-02,  4.1446e-01],
         [-2.2859e+00, -2.2859e+00,  9.4385e-01, -9.9666e-01, -4.6143e-01,
          -1.1851e+00,  2.4679e-01,  4.0188e-01],
         [ 6.1248e-01, -4.3453e-01,  1.4308e+00, -1.1384e+00, -4.2133e-01,
          -1.0031e+00,  7.1897e-01,  1.2136e-01],
         [ 6.1339e-01, -3.9099e-01,  1.4497e+00,  3.5458e-01, -3.5173e-01,
          -9.1917e-02,  3.2956e-01,  5.2394e-01],
         [ 5.9902e-01, -4.2556e-01,  1.7499e+00, -3.8029e-02, -3.9792e-01,
           3.3149e-01,  6.5289e-01,  1.1594e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0867, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0867, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1570822978392243
step:  40
running loss:  0.02892705744598061

Train Steps: 40/90  Loss: 0.0289 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6094, -0.3628,  1.5813,  0.1503, -0.3496, -0.1345,  0.4158,  0.2550],
        [ 0.6345, -0.3623,  1.7048, -0.3339, -0.5686, -0.4320,  0.3378,  0.0178],
        [-1.7347, -1.9036,  1.1396, -0.9692, -0.5907, -0.9591,  0.2255,  0.2204],
        [ 0.7350, -0.2342,  1.5293, -0.2934, -0.1893, -1.0755,  0.4044,  0.5002],
        [ 0.5159, -0.4508,  1.6632, -0.3091, -0.3144,  0.0313,  0.3703,  0.1639],
        [ 0.6471, -0.3102,  1.6732, -0.2953, -0.5726, -0.5657,  0.2926,  0.3481],
        [ 0.3940, -0.5209,  1.8598, -0.4337, -0.3804, -0.2356,  0.9161,  0.1679],
        [ 0.8231, -0.2564,  1.5874,  0.1697, -0.5144, -0.3017,  0.5055,  0.0932]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [ 0.6454, -0.3623,  1.9346, -0.4460, -0.4961, -0.2921,  1.1642,
           0.2409],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.175681502558291
step:  41
running loss:  0.028675158598982706
Train Steps: 41/90  Loss: 0.0287 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0867, -0.0981,  1.1628, -0.9375, -0.2822, -1.2437,  0.4180,  0.2015],
        [ 0.9307, -0.1722,  1.8503, -0.2443, -0.6467, -0.3693,  0.4760,  0.2033],
        [ 0.9050, -0.1645,  1.7764,  0.1137, -0.5736,  0.1382,  0.2548,  0.2371],
        [-1.1627, -1.4897,  1.6139, -0.6616,  0.0053, -0.9658,  0.8065,  0.4578],
        [ 1.1114, -0.1139,  1.6950,  0.5100, -0.6381, -0.2213,  0.4249,  0.0464],
        [-1.7602, -1.8987,  1.0080, -0.9613, -0.5353, -1.0438,  0.1584,  0.2675],
        [-0.5237, -1.0626,  1.4513, -1.0196,  0.0815, -1.1053,  0.7325,  0.3350],
        [ 0.8871, -0.2171,  1.4334, -0.6789, -0.6656, -0.4187,  0.4968,  0.2156]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [-2.2859, -2.2859,  1.8192, -0.8540,  0.1448, -0.9849,  1.0143,
           0.4867],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1006, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1006, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2762999096885324
step:  42
running loss:  0.0303880930878222
Train Steps: 42/90  Loss: 0.0304 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5861, -0.4517,  1.3542, -0.8687, -0.6011, -0.7119,  0.5024,  0.1682],
        [ 0.7095, -0.3213,  1.5826, -0.2131, -0.7450, -0.2024,  0.2908,  0.2557],
        [ 0.6829, -0.3612,  1.0833, -1.0107, -0.4194, -1.0598,  0.4923,  0.3245],
        [-1.2285, -1.5793,  1.0233, -0.6672, -0.4874, -0.9407,  0.3913,  0.3521],
        [ 0.8831, -0.2063,  1.9609, -0.4306, -0.1119, -0.9870,  0.5996,  0.1698],
        [ 0.6656, -0.3915,  1.3575, -0.8236, -0.2261, -1.1903,  0.6117,  0.1950],
        [-1.9736, -2.0531,  1.1866, -0.7312, -0.4399, -0.9817,  0.2848,  0.2794],
        [ 0.5745, -0.4375,  1.3779, -0.8132, -0.2105, -1.1064,  0.5409,  0.2714]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5444, -0.3852,  1.3786, -0.5409, -0.6924, -0.4229,  0.1791,
           0.2341],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0686, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0686, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3449399406090379
step:  43
running loss:  0.03127767303741948
Train Steps: 43/90  Loss: 0.0313 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5280, -0.4528,  1.7985, -0.1869, -0.4356, -0.3924,  0.1520,  0.1324],
        [ 0.4553, -0.4516,  1.6858,  0.0901, -0.1598,  0.0426,  0.3004,  0.2708],
        [ 0.6611, -0.3818,  1.6391,  0.0695, -0.3394, -0.2443,  0.2703,  0.2813],
        [ 0.5227, -0.4709,  1.6064,  0.1950, -0.3658, -0.1808,  0.7545,  0.2764],
        [ 0.2876, -0.6182,  1.3079, -1.2030, -0.2005, -1.5260,  0.6327,  0.2942],
        [ 0.4826, -0.5128,  1.6825, -0.7884, -0.6276, -0.8875,  0.7476,  0.1812],
        [ 0.6377, -0.3845,  1.6858, -0.0881, -0.5576, -0.0028,  0.5573,  0.2380],
        [-1.4403, -1.7426,  1.4023, -0.8333, -0.6012, -1.0315,  0.3907,  0.2474]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0320, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3768937001004815
step:  44
running loss:  0.031293038638647304

Train Steps: 44/90  Loss: 0.0313 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.9036, -2.0651,  1.5527, -1.0373,  0.3358, -1.2065,  1.1035,  0.3857],
        [ 0.7392, -0.3105,  1.2319, -0.7023, -0.4938, -0.9192,  0.4006,  0.3703],
        [ 0.2073, -0.6865,  1.8889, -0.1462, -0.2306, -1.0921,  0.7502,  0.2691],
        [ 0.3774, -0.5846,  1.7424, -0.3205, -0.6016, -0.1874,  0.4186, -0.0711],
        [ 0.6282, -0.4141,  1.4711, -0.7965, -0.6304, -0.2250,  0.5941,  0.2709],
        [ 0.3742, -0.5652,  1.6887, -0.3577, -0.5015, -0.8006,  0.2380,  0.1651],
        [ 0.6018, -0.4007,  1.6369,  0.0416, -0.4545, -0.3304,  0.0900,  0.1834],
        [ 0.3541, -0.5593,  1.5228, -0.5119, -0.6283, -0.5439,  0.4191,  0.2913]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3970262268558145
step:  45
running loss:  0.031045027263462543
Train Steps: 45/90  Loss: 0.0310 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7793, -0.3316,  1.8120, -0.0791, -0.2213, -0.0297,  0.2753,  0.1217],
        [ 0.7511, -0.3460,  1.6510, -0.1584, -0.7081, -0.2885,  0.1719,  0.1961],
        [ 0.5894, -0.4178,  1.1553, -0.9393, -0.3990, -1.2565,  0.3335,  0.3389],
        [ 0.9679, -0.2385,  1.2764, -1.0876, -0.6151, -0.9484,  0.3991,  0.2344],
        [ 0.7129, -0.3717,  0.9215, -0.8002, -0.5720, -1.0232,  0.1904,  0.3818],
        [-2.0511, -2.0903,  1.6392, -1.0022,  0.1126, -1.3098,  1.0287,  0.2427],
        [-2.1435, -2.1390,  1.6120, -0.9052,  0.1158, -1.2869,  0.8389,  0.2812],
        [ 0.6420, -0.4414,  1.9973, -0.1654, -0.5391, -0.2443,  0.8296,  0.0792]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.6454, -0.3623,  1.9346, -0.4460, -0.4961, -0.2921,  1.1642,
           0.2409]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4189534233883023
step:  46
running loss:  0.030846813551919615
Train Steps: 46/90  Loss: 0.0308 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6262, 0.4085, 0.8438, 0.3150, 0.4025, 0.2633, 0.6339, 0.4810],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1889, -0.9780,  1.7402, -0.4658, -0.6240, -0.6522,  0.4429,  0.1077],
        [ 0.0686, -0.7909,  1.6863, -0.0267, -0.1338, -0.0739,  0.4993,  0.3025],
        [ 0.1904, -0.7449,  1.7578, -0.1275, -0.4826, -0.2689,  0.4755,  0.1531],
        [ 0.1659, -0.7163,  0.8696, -1.2486, -0.6219, -0.9096,  0.4073,  0.4252],
        [ 0.7232, -0.3879,  1.6732, -1.1300, -0.3453, -1.2824,  0.7050,  0.0514],
        [ 0.3838, -0.5893,  1.7987, -0.0436, -0.2872,  0.2436,  0.6770,  0.2404],
        [ 0.0072, -0.8378,  1.6215, -0.9220, -0.4324, -1.1284,  0.3920,  0.1993],
        [ 0.2877, -0.6304,  1.7888, -0.1657, -0.3686, -1.1141,  0.4204,  0.3036]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6692e-01, -4.7937e-01,  1.7499e+00, -3.3826e-01, -6.7506e-01,
          -4.2294e-01,  4.9700e-01, -6.1124e-02],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.7263e-01, -4.7952e-01,  1.7788e+00, -1.4935e-02, -5.7113e-01,
          -6.8822e-02,  5.0277e-01, -5.3426e-02],
         [ 5.6796e-01, -4.0046e-01,  8.0300e-01, -1.0542e+00, -6.2887e-01,
          -7.5396e-01,  3.6998e-01,  3.8537e-01],
         [ 6.0641e-01, -3.9900e-01,  1.6113e+00, -8.3095e-01, -4.2679e-01,
          -1.0696e+00,  6.4212e-01, -6.4044e-02],
         [ 5.9902e-01, -4.2556e-01,  1.7499e+00, -3.8029e-02, -3.9792e-01,
           3.3149e-01,  6.5289e-01,  1.1594e-01],
         [ 5.4825e-01, -4.2490e-01,  1.5305e+00, -7.3857e-01, -6.1155e-01,
          -8.6944e-01,  3.3533e-01,  1.0054e-01],
         [ 5.9007e-01, -4.0000e-01,  1.8423e+00, -6.8822e-02, -5.3072e-01,
          -9.2333e-01,  3.6420e-01,  1.8522e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0493, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0493, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4682444604113698
step:  47
running loss:  0.031239243838539783
Train Steps: 47/90  Loss: 0.0312 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8121, -0.2857,  1.8553, -0.0534, -0.1376,  0.1054,  0.5305,  0.2714],
        [-2.7636, -2.6309,  1.3694, -0.9074, -0.3612, -1.1750,  0.5475,  0.2775],
        [ 0.6600, -0.4128,  1.1770, -1.2402, -0.3847, -1.2091,  0.5563,  0.2726],
        [ 0.4320, -0.4988,  1.7527, -0.0355, -0.5599, -0.0758,  0.2460,  0.2057],
        [ 0.6434, -0.4167,  1.8805,  0.2187, -0.4504,  0.0262,  0.4597,  0.1198],
        [ 0.0658, -0.7735,  0.9937, -1.2910, -0.3749, -1.4518,  0.4108,  0.1898],
        [ 0.5898, -0.4576,  1.5912, -1.0806, -0.4569, -1.1443,  0.6867,  0.0462],
        [-0.1678, -0.9171,  1.3631, -1.1337, -0.2762, -1.3283,  0.5493,  0.2750]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [ 0.5828, -0.4066,  1.7557,  0.0774, -0.3691, -0.0226,  0.4277,
           0.1005],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0356, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0356, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5038310894742608
step:  48
running loss:  0.0313298143640471

Train Steps: 48/90  Loss: 0.0313 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2730, -0.6282,  1.9380, -0.1759, -0.0889,  0.0257,  0.2360,  0.1262],
        [ 0.5148, -0.5094,  1.9247, -0.4342, -0.5837, -0.4938,  0.5429,  0.0917],
        [ 0.3095, -0.6562,  1.8017,  0.1408, -0.6035, -0.1369,  0.7252,  0.1669],
        [-0.0043, -0.8408,  1.0899, -1.4017, -0.2449, -1.5586,  0.4209,  0.3265],
        [ 0.3186, -0.6128,  1.1535, -1.3408, -0.5048, -1.0129,  0.7331,  0.4692],
        [ 0.0875, -0.7587,  1.8255,  0.1383, -0.4714, -0.2924,  0.2298,  0.1498],
        [-0.2003, -0.9530,  1.7477,  0.2234, -0.5687, -0.0849,  0.5988,  0.1860],
        [ 0.1707, -0.7150,  1.1711, -1.5067, -0.3215, -1.4711,  0.4139,  0.1151]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5384, -0.4393,  0.9762, -1.1851, -0.4210, -1.3852,  0.1712,
           0.0201]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5566692175343633
step:  49
running loss:  0.031768759541517616
Train Steps: 49/90  Loss: 0.0318 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3308, -0.5791,  1.6990, -0.1509, -0.1670,  0.1825,  0.3153,  0.1267],
        [ 0.4098, -0.5453,  1.5226, -1.3711, -0.0952, -1.5752,  0.6124,  0.0944],
        [ 0.1309, -0.7259,  1.6941, -0.4025, -0.3071,  0.3146,  0.4373,  0.1410],
        [ 0.5440, -0.4765,  1.5739, -0.0572, -0.5781, -0.0772,  0.4984,  0.0258],
        [ 0.1205, -0.6980,  1.2362, -0.9301, -0.7810, -0.5665,  0.1186,  0.2302],
        [-1.3172, -1.6646,  1.9684, -0.6178, -0.2131, -1.3039,  0.8897,  0.1631],
        [ 0.5473, -0.4987,  1.7234, -0.6042, -0.4938, -0.6665,  0.9100,  0.1871],
        [ 0.4775, -0.4528,  1.5372, -0.2494, -0.4017, -0.9764,  0.2984,  0.4618]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.6088, -0.4015,  1.6113, -1.0696, -0.0861, -1.4545,  0.6051,
           0.1343],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0497, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0497, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6064054938033223
step:  50
running loss:  0.032128109876066444
Train Steps: 50/90  Loss: 0.0321 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6277, 0.4013, 0.8888, 0.4767, 0.3600, 0.3567, 0.6148, 0.4672],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4499, -0.5199,  1.6845, -0.3348, -0.3485,  0.1269,  0.3157,  0.2084],
        [ 0.6747, -0.3542,  1.6891, -0.3486, -0.6206, -0.6618,  0.4907,  0.0787],
        [ 0.6204, -0.3971,  1.6820, -0.0836, -0.0091, -0.0460,  0.1695,  0.1800],
        [ 0.6887, -0.3090,  1.6003, -0.6434, -0.4770, -1.1085,  0.1139,  0.1487],
        [ 0.4262, -0.4737,  1.1590, -1.4543, -0.3002, -1.2801,  0.6216,  0.1746],
        [ 0.4292, -0.5376,  1.8991, -0.2834, -0.4674, -0.6994,  0.8851,  0.1040],
        [ 0.4682, -0.5118,  1.7642, -0.4536, -0.5753,  0.2361,  0.9281,  0.1673],
        [-2.8165, -2.6293,  1.1189, -1.1107, -0.3079, -1.3337,  0.3717,  0.2679]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6039e-01, -4.6197e-01,  1.7961e+00, -1.9969e-01, -3.2286e-01,
           1.0824e-01,  4.1039e-01,  2.5450e-01],
         [ 6.1322e-01, -4.3241e-01,  1.8192e+00, -8.4219e-02, -6.2309e-01,
          -6.3849e-01,  5.5366e-01, -1.2778e-01],
         [ 5.3095e-01, -4.2456e-01,  1.7037e+00,  7.7444e-02,  1.5763e-02,
           7.5237e-03,  6.3480e-02,  2.0256e-01],
         [ 5.4850e-01, -4.2094e-01,  1.6691e+00, -4.1524e-01, -5.2494e-01,
          -1.1081e+00,  7.2521e-02,  2.0831e-03],
         [ 6.1248e-01, -4.2731e-01,  1.2807e+00, -1.3253e+00, -2.5737e-01,
          -1.2542e+00,  6.8644e-01,  1.5750e-01],
         [ 6.2730e-01, -4.2490e-01,  1.8654e+00, -6.1124e-02, -4.6721e-01,
          -6.6928e-01,  1.0910e+00,  1.9818e-01],
         [ 6.0095e-01, -4.4175e-01,  1.9346e+00, -2.8437e-01, -5.4804e-01,
           1.2363e-01,  9.4481e-01,  1.7146e-01],
         [-2.2859e+00, -2.2859e+00,  1.1841e+00, -1.3082e+00, -3.0554e-01,
          -1.3621e+00,  3.0069e-01,  3.0839e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6242366721853614
step:  51
running loss:  0.03184777788598748
Train Steps: 51/90  Loss: 0.0318 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.2281, -1.5360,  1.2552, -0.9789, -0.3538, -0.9091,  0.2718,  0.2497],
        [ 1.1770,  0.0143,  1.8093, -0.5852, -0.1964, -1.1055,  0.6296,  0.0711],
        [ 1.0187, -0.1383,  1.4644, -1.1879, -0.4770, -0.8713,  0.7727, -0.0471],
        [ 1.4524,  0.1545,  1.5627, -0.7437, -0.6868, -0.2045,  0.5216,  0.1345],
        [ 1.1354, -0.0355,  1.5601,  0.3532, -0.4657, -0.0231,  0.3850,  0.3366],
        [-2.4087, -2.3484,  1.7172, -1.0239,  0.0941, -1.0496,  0.9831,  0.2392],
        [ 0.8638, -0.1748,  1.5705, -0.4505, -0.6372, -0.3944,  0.0331,  0.1580],
        [-1.9988, -2.0419,  0.9688, -1.1190, -0.3952, -1.2128,  0.0812,  0.2310]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0748, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0748, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6990172257646918
step:  52
running loss:  0.032673408187782534

Train Steps: 52/90  Loss: 0.0327 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1634, -0.8578,  1.6840, -0.5581, -0.5848, -0.7154,  0.0890,  0.1144],
        [ 0.4708, -0.4999,  1.8414, -0.1520, -0.0150, -0.1076,  0.5225,  0.1580],
        [ 0.2425, -0.6167,  1.7604, -0.0780, -0.2799,  0.0465,  0.4614,  0.2296],
        [ 0.4320, -0.5397,  1.8275, -0.0124, -0.2925,  0.0979,  0.6848,  0.0197],
        [ 0.1199, -0.6968,  1.9107, -0.3066, -0.4233, -0.0754,  0.6837,  0.0897],
        [ 0.6303, -0.3232,  1.3665, -0.7849, -0.5192, -0.9144,  0.5360,  0.3355],
        [ 0.5060, -0.4484,  1.1837, -1.1058, -0.6574, -0.7888,  0.4394,  0.1935],
        [-0.2262, -0.9020,  1.6467, -0.6310, -0.5496, -0.9648,  0.1842,  0.1176]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4331e-01, -4.0323e-01,  1.6344e+00, -4.9222e-01, -5.7691e-01,
          -5.8460e-01,  3.5720e-02,  2.5666e-01],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.5393e-01, -4.0308e-01,  1.7168e+00, -5.9398e-02, -3.7483e-01,
           5.4350e-02,  1.3903e-01,  3.7768e-01],
         [ 5.6680e-01, -4.3056e-01,  1.7730e+00,  6.9746e-02, -4.0370e-01,
           1.3903e-01,  4.4503e-01,  3.8953e-02],
         [ 6.0035e-01, -3.7467e-01,  1.8885e+00, -1.9969e-01, -5.0185e-01,
          -1.4935e-02,  5.4896e-01,  1.7752e-01],
         [ 5.8320e-01, -3.5928e-01,  1.3515e+00, -6.0770e-01, -5.2494e-01,
          -9.3102e-01,  3.3533e-01,  3.4688e-01],
         [ 5.4186e-01, -4.1601e-01,  1.1810e+00, -8.9394e-01, -6.8083e-01,
          -7.4627e-01,  2.4855e-01,  3.6938e-01],
         [ 5.5606e-01, -3.8337e-01,  1.6229e+00, -5.1532e-01, -6.2309e-01,
          -8.0785e-01,  7.2734e-02,  2.8371e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0443, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0443, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7433188473805785
step:  53
running loss:  0.03289280844114299
Train Steps: 53/90  Loss: 0.0329 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4969, -0.4439,  1.6245, -0.3381, -0.5079, -0.0939,  0.2119,  0.2477],
        [-0.6186, -1.1474,  1.1579, -1.4484, -0.2859, -1.4703,  0.1573,  0.1548],
        [ 0.0448, -0.7621,  1.7929,  0.1244, -0.4749, -0.2750,  0.8188,  0.1702],
        [ 0.3577, -0.5050,  1.1513, -1.2380, -0.5836, -0.7809,  0.4390,  0.2825],
        [ 0.5176, -0.4453,  1.7902, -0.0143, -0.4640, -0.1327,  0.1576,  0.1083],
        [ 0.6601, -0.3388,  1.9378, -0.6587, -0.2862, -1.3708,  0.4818,  0.0354],
        [-0.0375, -0.7674,  1.7133,  0.1232, -0.3605, -0.0799,  0.3183,  0.2255],
        [ 0.5661, -0.4524,  1.9309, -0.3699, -0.4641,  0.2918,  1.0282,  0.1330]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0540, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0540, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7973417667672038
step:  54
running loss:  0.033284106791985256
Train Steps: 54/90  Loss: 0.0333 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6289, 0.4024, 0.9088, 0.4567, 0.3937, 0.5633, 0.7058, 0.5609],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6193, -0.2979,  1.2371, -1.2785, -0.4778, -0.9031,  0.4626,  0.2020],
        [ 0.6740, -0.3263,  1.8320, -0.1743, -0.3139,  0.2781,  0.8246,  0.2859],
        [ 0.3821, -0.4890,  1.8163, -0.2113, -0.3938, -0.2797,  0.0329,  0.0312],
        [ 0.8386, -0.1654,  1.7004, -0.5014, -0.6979, -0.4120,  0.3056,  0.0958],
        [ 0.6805, -0.3059,  1.7077,  0.1778, -0.4999, -0.0904,  0.5120,  0.1148],
        [ 0.6076, -0.3326,  1.9301, -0.3129, -0.4152, -0.5163,  0.7245,  0.2601],
        [ 0.6592, -0.3361,  1.6481,  0.1911, -0.3928, -0.1796,  0.3788,  0.1469],
        [-2.6177, -2.5506,  1.3313, -1.1060, -0.2942, -1.1176,  0.2407,  0.2369]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.6191, -0.4273,  1.9115, -0.1766, -0.4672,  0.3161,  0.9741,
           0.3050],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8091550571843982
step:  55
running loss:  0.0328937283124436
Train Steps: 55/90  Loss: 0.0329 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1492, -0.6670,  1.5802,  0.2910, -0.4135,  0.0303,  0.4409,  0.4137],
        [ 0.0904, -0.6878,  1.2486, -1.1853, -0.5766, -0.7854,  0.4236,  0.2221],
        [ 0.7112, -0.3543,  1.6138, -1.0944, -0.4004, -1.0451,  0.4618, -0.0073],
        [ 0.6569, -0.3063,  1.7665, -0.0456, -0.6110, -0.5325,  0.3404,  0.3160],
        [ 0.0950, -0.7382,  1.8449,  0.1953, -0.5241, -0.2591,  0.8265,  0.0738],
        [ 0.1203, -0.6797,  1.9646, -0.3627, -0.5742, -0.3932,  0.5246,  0.2486],
        [ 0.3048, -0.5792,  1.8250, -0.0522, -0.2013,  0.0844,  0.1208,  0.0362],
        [ 0.4090, -0.4900,  1.2181, -1.1421, -0.3401, -1.0661,  0.3066,  0.2915]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.837601481936872
step:  56
running loss:  0.03281431217744414

Train Steps: 56/90  Loss: 0.0328 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.2243e-01, -7.1268e-01,  1.8774e+00,  6.4187e-02, -6.6555e-01,
          2.1508e-01,  6.6481e-01,  2.6001e-01],
        [ 1.7363e-01, -6.6750e-01,  1.9018e+00, -4.6164e-02, -6.1875e-01,
          1.2968e-02,  3.6536e-01,  1.5884e-01],
        [ 9.2766e-02, -7.3770e-01,  1.7641e+00, -1.0756e+00,  6.6186e-02,
         -1.2018e+00,  9.7435e-01,  1.6731e-01],
        [ 8.2140e-01, -2.5627e-01,  1.3991e+00, -1.0600e+00, -3.0525e-01,
         -1.0604e+00,  4.5021e-01,  1.6918e-01],
        [ 1.3324e-01, -6.6895e-01,  9.5730e-01, -1.1570e+00, -5.2132e-01,
         -1.1929e+00,  1.6117e-03,  1.6140e-01],
        [ 2.9194e-01, -5.9492e-01,  1.3999e+00, -1.0445e+00, -2.3796e-01,
         -1.2431e+00,  3.2231e-01,  5.8498e-02],
        [ 3.9386e-01, -4.8484e-01,  1.6187e+00,  4.3420e-01, -6.6633e-01,
         -2.1455e-01,  3.6329e-01,  4.0566e-01],
        [ 4.8454e-01, -4.5625e-01,  1.7858e+00, -7.6451e-02, -6.4586e-01,
          6.5811e-02,  2.6243e-01,  2.7170e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5763, -0.3963,  1.7788, -0.0765, -0.6520, -0.0842,  0.4624,
           0.2776],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0451, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0451, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8827112754806876
step:  57
running loss:  0.03303002237685417
Train Steps: 57/90  Loss: 0.0330 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.0962, -0.0636,  1.3366, -0.8499, -0.5666, -0.6745,  0.4527,  0.2407],
        [ 0.5959, -0.3922,  1.8984,  0.1088, -0.5427,  0.2683,  0.5982,  0.1676],
        [ 1.0458, -0.0688,  1.2324, -0.9085, -0.1895, -1.3337,  0.2850,  0.2403],
        [-1.5538, -1.7963,  1.3983, -0.8904, -0.4080, -0.8523,  0.2596,  0.2820],
        [ 0.7834, -0.1845,  1.3360, -0.7645, -0.3736, -1.0244,  0.2668,  0.2252],
        [ 1.0495, -0.0705,  2.0186,  0.0522, -0.6195, -0.0223,  0.7219,  0.1308],
        [-2.0917, -2.1628,  1.0026, -1.2713, -0.3786, -1.3109,  0.1309,  0.2826],
        [ 0.8242, -0.2368,  1.9117,  0.2111, -0.6423, -0.1351,  0.4206,  0.0966]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5911, -0.4080,  1.2303, -0.9156, -0.3229, -1.2851,  0.4508,
           0.1852],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [-2.2859, -2.2859,  0.7222, -1.4930, -0.3921, -1.3698,  0.1404,
           0.1343],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0496, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0496, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.932359985075891
step:  58
running loss:  0.03331655146682571
Train Steps: 58/90  Loss: 0.0333 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3482, -0.5847,  1.6769, -0.4344, -0.6912, -0.1510,  0.5420,  0.2736],
        [ 0.4134, -0.4870,  1.6019, -0.5267, -0.6652, -0.7825,  0.3372,  0.1593],
        [ 0.5419, -0.4151,  1.6395, -0.1511, -0.5665, -0.2487,  0.1434,  0.2999],
        [ 0.0570, -0.7853,  1.8228, -0.4909, -0.6013, -0.4838,  0.6780,  0.1995],
        [ 0.5814, -0.4066,  1.7251, -0.4970, -0.4215, -1.3153,  0.4057,  0.0920],
        [ 0.6046, -0.3934,  1.6968, -0.0545, -0.2929,  0.4666,  0.5360,  0.3136],
        [ 0.5320, -0.4514,  1.5537,  0.1591, -0.1326,  0.0026,  0.1167,  0.3526],
        [ 0.3389, -0.5410,  1.5506, -0.9298, -0.3028, -1.3098,  0.5715,  0.1343]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0151, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0151, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9474248168990016
step:  59
running loss:  0.03300720028642375
Train Steps: 59/90  Loss: 0.0330 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6090, 0.4045, 0.7250, 0.2100, 0.4075, 0.2300, 0.5476, 0.5663]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3817, -0.5736,  1.9059, -0.1225, -0.4497, -0.2011,  0.2088,  0.1125],
        [ 0.9177, -0.2117,  1.3480, -0.8393, -0.3956, -0.8119,  0.5936,  0.5077],
        [ 0.4320, -0.5735,  1.8279,  0.1515, -0.3319, -0.0194,  0.5533,  0.1154],
        [ 0.4054, -0.5492,  1.9774,  0.1779, -0.5931, -0.5311,  0.6125,  0.0498],
        [ 0.6835, -0.3405,  0.9233, -0.8949, -0.5273, -0.9222,  0.1870,  0.4747],
        [ 0.4931, -0.4520,  1.6901, -0.4726, -0.6711, -0.3948,  0.3562,  0.0879],
        [ 0.4073, -0.5244,  1.8318, -0.3861, -0.5785, -0.7754,  0.4366,  0.1827],
        [-0.1445, -0.8772,  1.1068, -1.2608, -0.4086, -1.1984,  0.1743,  0.3005]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5269, -0.4176,  1.0628, -1.3159, -0.4037, -1.2236,  0.2432,
           0.3297]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0221, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0221, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.969504582695663
step:  60
running loss:  0.03282507637826105

Train Steps: 60/90  Loss: 0.0328 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7551, -0.2848,  1.7650,  0.1631, -0.5179, -0.3995,  0.1350,  0.3288],
        [ 0.6782, -0.3846,  1.5860, -1.0260, -0.3997, -1.1093,  0.5274,  0.0610],
        [ 0.6320, -0.3760,  1.7877, -0.3926, -0.4922, -0.0774,  0.3800,  0.2165],
        [-1.5177, -1.8227,  1.0843, -1.3910, -0.4651, -1.3811,  0.1120,  0.2572],
        [ 0.8237, -0.2159,  1.7595,  0.2419, -0.5153, -0.2390,  0.3561,  0.3817],
        [ 0.8449, -0.2290,  1.5374,  0.1570, -0.4488, -0.2010,  0.8125,  0.3838],
        [ 0.3734, -0.5396,  1.2457, -1.0386, -0.6445, -0.7832,  0.1265,  0.0847],
        [ 0.8764, -0.2458,  1.8436,  0.1623, -0.4635, -0.0212,  0.6347,  0.1237]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5452, -0.4067,  1.7557,  0.0543, -0.4961, -0.3306,  0.1323,
           0.4306],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9937451435253024
step:  61
running loss:  0.03268434661516889
Train Steps: 61/90  Loss: 0.0327 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3201, -0.6410,  1.7896, -0.1694, -0.4898,  0.0609,  0.4582,  0.2323],
        [ 0.4722, -0.4604,  1.3808, -0.3858, -0.7707, -0.5247,  0.1395,  0.3130],
        [ 0.5414, -0.4888,  1.3641, -1.3285, -0.4477, -1.3795,  0.6508,  0.0505],
        [ 0.3127, -0.6277,  1.7601, -0.0538, -0.2350, -0.0423,  0.4265,  0.3210],
        [ 0.2437, -0.6771,  1.7701, -1.0139, -0.0564, -1.2747,  1.0509,  0.1679],
        [ 0.5388, -0.4299,  1.0035, -1.1597, -0.4715, -1.3582,  0.1529,  0.2767],
        [ 0.8609, -0.2031,  1.7233,  0.0268, -0.7773, -0.6240,  0.2071,  0.1623],
        [ 0.5464, -0.4439,  1.6349,  0.1478, -0.3280,  0.1001,  0.1455,  0.2697]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6039e-01, -4.6197e-01,  1.7961e+00, -1.9969e-01, -3.2286e-01,
           1.0824e-01,  4.1039e-01,  2.5450e-01],
         [ 5.4267e-01, -4.0354e-01,  1.2688e+00, -3.6754e-01, -6.8083e-01,
          -5.4611e-01,  9.5867e-02,  2.2059e-01],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 5.3712e-01, -4.2517e-01,  1.7037e+00, -6.8822e-02, -3.4180e-02,
           6.2048e-02,  3.7575e-01,  2.8530e-01],
         [ 6.2072e-01, -3.9360e-01,  1.7788e+00, -1.1235e+00,  1.4480e-01,
          -1.0850e+00,  1.1459e+00,  1.9818e-01],
         [ 5.8505e-01, -3.9246e-01,  1.0513e+00, -1.3467e+00, -3.5173e-01,
          -1.2620e+00,  4.7390e-01,  1.5443e-01],
         [ 5.4434e-01, -3.9938e-01,  1.7499e+00, -1.2271e-01, -6.1732e-01,
          -5.7691e-01,  4.8756e-03,  2.0706e-01],
         [ 5.2021e-01, -4.3818e-01,  1.6460e+00,  1.0824e-01, -2.0286e-01,
           1.7544e-01,  1.0666e-01,  1.5296e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0184, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0184, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0121765499934554
step:  62
running loss:  0.03245446048376541
Train Steps: 62/90  Loss: 0.0325 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5197, -0.4527,  1.5950,  0.1716, -0.5711, -0.4149,  0.0090,  0.3377],
        [ 0.3744, -0.5529,  1.5663, -1.0771, -0.2237, -1.2708,  0.4707,  0.0513],
        [ 0.5448, -0.4714,  1.7032, -0.2847, -0.6567, -0.5911,  0.5097,  0.0959],
        [ 0.6185, -0.3506,  1.0383, -0.7511, -0.1287, -1.3023,  0.0891,  0.4953],
        [ 0.3769, -0.5777,  1.6381, -0.5963, -0.5831,  0.0237,  0.5714,  0.2753],
        [ 0.5147, -0.4490,  1.7073, -0.1214, -0.4517,  0.0542,  0.3266,  0.3011],
        [ 0.5869, -0.4673,  1.8068, -0.0764, -0.5900, -0.2953,  0.7764,  0.1528],
        [ 0.4651, -0.5418,  1.3631, -1.2766, -0.3952, -1.2271,  0.5598,  0.0800]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4515e-01, -4.0670e-01,  1.7557e+00,  5.4350e-02, -4.9607e-01,
          -3.3056e-01,  1.3228e-01,  4.3063e-01],
         [ 6.1264e-01, -3.8707e-01,  1.6229e+00, -1.0773e+00, -2.1316e-01,
          -1.3698e+00,  5.8291e-01, -2.0913e-02],
         [ 6.2200e-01, -4.4357e-01,  1.8711e+00, -3.6905e-01, -6.1732e-01,
          -4.9992e-01,  6.7021e-01,  6.9746e-02],
         [ 6.1611e-01, -3.0754e-01,  1.1678e+00, -6.5000e-01,  8.1293e-02,
          -1.4006e+00,  2.5450e-01,  5.6243e-01],
         [ 5.8412e-01, -4.1986e-01,  1.7961e+00, -6.6928e-01, -6.2309e-01,
           1.0824e-01,  6.5289e-01,  1.1594e-01],
         [ 5.9677e-01, -3.7252e-01,  1.8423e+00, -1.3811e-01, -4.0370e-01,
           1.8522e-01,  6.0092e-01,  2.7760e-01],
         [ 6.1742e-01, -4.1286e-01,  1.8711e+00, -1.0731e-01, -5.4804e-01,
          -1.2271e-01,  9.5578e-01,  2.5161e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0250426745042205
step:  63
running loss:  0.03214353451594001
Train Steps: 63/90  Loss: 0.0321 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5808, -0.4370,  1.2576, -1.1996, -0.3212, -1.3849,  0.3267,  0.0878],
        [ 0.4906, -0.5313,  1.7542,  0.1598, -0.3029,  0.2531,  0.3300,  0.1995],
        [ 0.3006, -0.5941,  1.0523, -0.8893, -0.6749, -0.6995,  0.1450,  0.3257],
        [ 0.6383, -0.3974,  0.9691, -1.1039, -0.3556, -1.3894,  0.1058,  0.2528],
        [ 0.5203, -0.4946,  1.8813, -0.0241, -0.6237, -0.5090,  0.5620,  0.1526],
        [ 0.4117, -0.5442,  1.3097, -1.0924, -0.3429, -1.2326,  0.5587,  0.1343],
        [ 0.6043, -0.4339,  1.7556,  0.0348, -0.4017,  0.2142,  0.6594,  0.2807],
        [ 0.4688, -0.4926,  1.7983, -0.7584, -0.3287, -1.0427,  0.5270,  0.1824]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.035658926703036
step:  64
running loss:  0.031807170729734935

Train Steps: 64/90  Loss: 0.0318 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6192, 0.3980, 0.7078, 0.2750, 0.4250, 0.2100, 0.5450, 0.5783],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.1619, -0.0507,  1.9458,  0.1117, -0.3936,  0.2390,  0.6420,  0.0908],
        [-0.6746, -1.2440,  0.9450, -1.3181, -0.3175, -1.5303,  0.2282,  0.3076],
        [-0.8266, -1.3301,  1.1158, -1.1625, -0.5268, -1.1397,  0.0964,  0.2674],
        [ 0.9588, -0.1822,  1.7905,  0.1449, -0.5481, -0.2363,  0.5219,  0.3334],
        [ 0.9507, -0.1960,  1.8109,  0.1169, -0.0843,  0.0336,  0.1701,  0.1119],
        [-0.1099, -0.8441,  1.0848, -1.0951, -0.3097, -1.2919,  0.2902,  0.3028],
        [ 1.0059, -0.1478,  1.7145, -0.5904, -0.6488, -0.6710,  0.6253,  0.1184],
        [ 0.9850, -0.1714,  1.1831, -1.1515, -0.3543, -1.2117,  0.5893,  0.1447]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5742, -0.4474,  0.9834, -1.0159, -0.3229, -1.3159,  0.2314,
           0.3854],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1430, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1786455223336816
step:  65
running loss:  0.03351762342051818
Train Steps: 65/90  Loss: 0.0335 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4607, -0.5076,  1.5616, -0.9819, -0.3880, -1.0047,  0.6830,  0.2139],
        [ 0.2895, -0.5994,  1.3120, -1.0558, -0.5012, -1.1000,  0.1815,  0.0953],
        [ 0.7617, -0.2370,  1.0651, -0.8918, -0.0222, -1.3057,  0.3144,  0.5303],
        [ 0.2737, -0.6040,  1.1433, -1.1580, -0.5218, -0.9390,  0.1412,  0.1010],
        [ 0.6965, -0.3564,  1.6710, -0.2018, -0.2981, -0.0155,  0.4957,  0.2971],
        [ 0.6458, -0.3963,  1.7657,  0.1448, -0.5660, -0.6313,  0.6119,  0.0351],
        [ 0.5802, -0.4325,  1.6830, -0.1799, -0.3756, -0.1435,  0.3684,  0.2465],
        [ 0.6696, -0.3913,  1.7502, -0.2301, -0.3841, -0.0126,  0.6902,  0.1319]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0131, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0131, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1917926585301757
step:  66
running loss:  0.03320897967469963
Train Steps: 66/90  Loss: 0.0332 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5727, -0.3898,  1.5611, -0.2527, -0.5054, -0.5357,  0.4417,  0.4269],
        [ 0.4821, -0.4974,  1.6563, -0.2330, -0.2927, -0.1848,  0.4000,  0.1484],
        [ 0.5810, -0.4360,  1.5775, -0.0716, -0.4948, -0.5690,  0.5614,  0.1391],
        [ 1.0774, -0.0504,  1.6881, -0.3434, -0.2318,  0.0752,  0.3415,  0.1202],
        [ 0.6469, -0.3567,  1.6222, -0.0748, -0.4106, -0.3050,  0.4462,  0.2349],
        [ 0.7940, -0.2222,  1.6271, -0.2506, -0.5119, -0.7262,  0.5196,  0.1868],
        [ 0.4953, -0.4453,  1.4948, -1.0337, -0.5386, -0.4044,  0.5632,  0.2785],
        [ 0.4612, -0.5075,  1.6961, -0.4348, -0.0683, -0.3957,  0.2832,  0.0984]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.227865911088884
step:  67
running loss:  0.033251730016252
Train Steps: 67/90  Loss: 0.0333 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8848, -0.1729,  1.4798,  0.2416, -0.3977, -0.0930,  0.4602,  0.4335],
        [ 0.7835, -0.2613,  1.4584, -1.2296, -0.3859, -1.1383,  0.6709, -0.0248],
        [ 0.8811, -0.2185,  1.4146, -1.4647, -0.0089, -1.5862,  0.7598,  0.0176],
        [ 0.7126, -0.2833,  1.5513, -0.0976, -0.4387, -0.1353,  0.2362,  0.2505],
        [-2.0188, -2.1723,  1.0514, -1.4950, -0.3005, -1.1029,  0.2591,  0.3280],
        [ 0.7695, -0.2286,  1.6170,  0.1916, -0.2849, -0.1186,  0.4334,  0.3344],
        [ 0.7143, -0.2892,  1.6661,  0.1946, -0.4831, -0.2583,  0.2466,  0.0479],
        [ 0.8132, -0.2083,  1.5800, -0.8766, -0.5991, -0.5577,  0.4929,  0.1575]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.243375484831631
step:  68
running loss:  0.03299081595340634

Train Steps: 68/90  Loss: 0.0330 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5492, -0.3537,  1.0510, -1.1307, -0.1063, -1.2669,  0.3406,  0.4151],
        [ 0.5106, -0.4782,  1.6313, -0.0935, -0.4695, -0.1447,  0.2669,  0.0259],
        [ 0.5940, -0.3389,  1.5285, -0.8920, -0.1874, -1.3273,  0.2889,  0.0553],
        [ 0.6428, -0.3886,  1.6949, -0.4102, -0.3667, -0.6118,  0.9077,  0.2542],
        [ 0.7256, -0.3228,  1.7196, -0.2445, -0.4457,  0.0972,  0.4459,  0.1771],
        [ 0.4534, -0.4983,  1.6209, -0.9948, -0.3314, -0.8475,  0.8452,  0.2427],
        [ 0.5449, -0.4638,  1.6773, -0.2547, -0.5393, -0.0724,  0.4429,  0.1515],
        [ 0.4045, -0.5464,  1.6156, -0.0932, -0.4692, -0.2328,  0.0977,  0.1593]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2540173502638936
step:  69
running loss:  0.032666918119766575
Train Steps: 69/90  Loss: 0.0327 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2508, -0.5467,  0.7966, -1.1588, -0.2903, -1.3747,  0.0383,  0.3953],
        [ 0.5413, -0.4319,  1.3898, -1.3634, -0.2613, -1.1370,  0.5943,  0.0810],
        [ 0.6342, -0.3566,  1.4557,  0.1665, -0.3822, -0.0786,  0.7992,  0.3457],
        [ 0.5728, -0.4382,  1.8137, -0.3345, -0.5790, -0.2428,  0.4343,  0.0768],
        [ 0.9392, -0.1153,  1.6216, -0.5804, -0.5492, -0.3375,  0.1921,  0.1121],
        [ 0.1582, -0.6907,  1.7376, -0.2148, -0.5145, -0.3778,  0.1450,  0.0500],
        [ 0.3844, -0.5329,  1.5189, -0.9580, -0.1783, -1.0164,  0.7031,  0.2159],
        [ 0.4851, -0.4767,  1.8267, -0.0919, -0.3050, -0.2376,  0.7236,  0.2378]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5318e-01, -4.2640e-01,  7.6259e-01, -1.1466e+00, -3.9792e-01,
          -1.2928e+00,  2.4936e-01,  3.8081e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.4542e-01, -3.9842e-01,  1.3804e+00,  2.5450e-01, -4.5566e-01,
          -3.8029e-02,  1.1057e+00,  3.4780e-01],
         [ 6.0095e-01, -4.3453e-01,  1.8480e+00, -3.5366e-01, -6.4619e-01,
          -2.6128e-01,  6.5240e-01, -9.9401e-03],
         [ 5.8406e-01, -3.7783e-01,  1.6113e+00, -6.4619e-01, -6.6351e-01,
          -2.5358e-01,  3.5423e-01,  8.0233e-02],
         [ 5.8435e-01, -4.4657e-01,  1.8423e+00, -1.9969e-01, -5.9423e-01,
          -3.9985e-01,  4.2194e-01,  4.6651e-02],
         [ 6.1742e-01, -3.9842e-01,  1.5975e+00, -9.9214e-01, -3.6328e-01,
          -9.9261e-01,  8.2047e-01,  2.0505e-01],
         [ 6.4542e-01, -3.7194e-01,  1.9115e+00, -1.3041e-01, -5.0762e-01,
          -2.8437e-01,  1.0033e+00,  4.3864e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2742685051634908
step:  70
running loss:  0.032489550073764153
Train Steps: 70/90  Loss: 0.0325 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5122, -0.4982,  1.8205, -0.3142, -0.5797, -0.0591,  0.6661,  0.1336],
        [ 0.7927, -0.2415,  1.0857, -1.1362, -0.2013, -1.2924,  0.4452,  0.1942],
        [ 0.3741, -0.4858,  1.5175, -0.3482, -0.5324, -0.6665,  0.0663,  0.2776],
        [ 0.2747, -0.5748,  1.5718, -0.4627, -0.4041, -0.8664,  0.1605,  0.1826],
        [ 0.2877, -0.5945,  1.3762, -0.9632, -0.5021, -0.6231,  0.5349,  0.1469],
        [ 0.4169, -0.4920,  1.3689, -1.1018, -0.2625, -0.9907,  0.6163,  0.2166],
        [ 0.5410, -0.4205,  1.5504, -0.5371, -0.5861, -0.2351,  0.3069,  0.0715],
        [ 0.4781, -0.5026,  1.9161, -0.2707, -0.1580, -0.6887,  0.9722,  0.1813]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5477, -0.4413,  1.3688, -0.8771, -0.6115, -0.8771,  0.4104,
           0.0467],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.289423213340342
step:  71
running loss:  0.03224539737099073
Train Steps: 71/90  Loss: 0.0322 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6125, 0.4035, 0.7825, 0.3100, 0.3463, 0.4900, 0.5832, 0.5637],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4479, -0.4506,  1.6853, -0.1913, -0.3362, -0.1246,  0.2974,  0.2190],
        [ 0.4831, -0.4276,  1.6233,  0.2123, -0.4058, -0.0915,  0.4055,  0.2812],
        [ 0.6317, -0.3702,  1.9464, -0.4200, -0.3204, -1.1019,  0.9239,  0.0278],
        [ 0.7079, -0.2363,  1.5972, -0.7340, -0.6275, -0.5334,  0.4059,  0.3556],
        [ 0.3797, -0.4968,  1.3329, -0.9653, -0.6206, -0.1962,  0.4695,  0.2560],
        [ 0.6649, -0.3512,  1.5966,  0.2881, -0.5217, -0.2935,  0.5200,  0.0120],
        [ 0.5794, -0.3805,  1.7459, -0.2830, -0.0878, -0.1662,  0.4798,  0.1850],
        [ 0.6714, -0.3518,  1.7962, -0.2419, -0.2278, -0.1438,  0.3156,  0.0287]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5432, -0.4224,  1.3284, -0.8540, -0.6866, -0.0226,  0.4077,
           0.3177],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0154, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0154, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.304807144217193
step:  72
running loss:  0.032011210336349905

Train Steps: 72/90  Loss: 0.0320 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5122, -0.4145,  1.0718, -0.8660, -0.4378, -0.9175,  0.5208,  0.2975],
        [ 0.6879, -0.2902,  1.8188, -0.6282, -0.4061, -0.6229,  0.5794,  0.0858],
        [ 0.7078, -0.2872,  1.2850, -1.0183, -0.4095, -0.7490,  0.5825,  0.1415],
        [ 0.7138, -0.3128,  1.8883,  0.1094, -0.5699, -0.3284,  0.4986,  0.0147],
        [ 0.7631, -0.2945,  1.7644, -0.9269,  0.1532, -1.1395,  1.0988,  0.0832],
        [ 0.6894, -0.2747,  1.4439, -0.3181, -0.5894, -0.7208,  0.0107,  0.2779],
        [-2.3025, -2.3297,  1.0130, -1.0680, -0.5892, -0.9831,  0.0336,  0.3642],
        [ 0.8791, -0.1854,  1.9073, -0.1095, -0.5426, -0.0348,  0.5527,  0.0630]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.318676040507853
step:  73
running loss:  0.03176268548640895
Train Steps: 73/90  Loss: 0.0318 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.7113e-01, -4.8745e-01,  1.8539e+00,  3.2894e-01, -4.1775e-01,
         -7.5153e-03,  5.0597e-01,  2.3463e-01],
        [ 5.6107e-01, -4.3712e-01,  1.7635e+00,  2.1942e-01, -4.4146e-01,
         -9.3449e-02,  4.3632e-01,  6.4832e-02],
        [ 5.3550e-01, -3.7773e-01,  1.2046e+00, -7.6963e-01, -3.0734e-01,
         -1.2585e+00,  3.2494e-01,  4.1616e-01],
        [ 7.6130e-01, -2.6534e-01,  1.8936e+00,  1.0186e-03, -2.6857e-01,
          4.8667e-01,  3.9008e-01,  1.2859e-01],
        [ 3.2546e-01, -5.6136e-01,  1.1409e+00, -1.3242e+00, -5.3331e-01,
         -1.1989e+00,  3.7836e-01,  1.0678e-01],
        [ 3.6444e-01, -5.2857e-01,  1.3846e+00, -1.0845e+00, -5.1766e-01,
         -1.0753e+00,  6.7351e-01,  2.3173e-01],
        [ 5.3250e-01, -4.3660e-01,  1.9654e+00,  2.5421e-03, -4.6362e-01,
         -5.2328e-01,  7.3296e-01,  3.7710e-02],
        [ 5.8066e-01, -4.1115e-01,  1.5945e+00, -8.2236e-01, -6.5597e-01,
         -3.0854e-01,  5.7481e-01,  1.6315e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3302313135936856
step:  74
running loss:  0.03148961234586062
Train Steps: 74/90  Loss: 0.0315 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7608, -0.2662,  1.7774,  0.1798, -0.3807, -0.0089,  0.3839,  0.2495],
        [ 0.3894, -0.5370,  1.4442, -0.7026, -0.7186, -0.3379,  0.3447,  0.1872],
        [ 0.4860, -0.4275,  1.6876,  0.2732, -0.4168, -0.2713,  0.4909,  0.4333],
        [ 0.5600, -0.3997,  1.0086, -1.0654, -0.6472, -1.0534,  0.2950,  0.2712],
        [ 0.7111, -0.3574,  1.9038, -0.0752, -0.6639, -0.4627,  0.6405,  0.0408],
        [ 0.5216, -0.4450,  1.8388, -0.1305, -0.3204,  0.0560,  0.3731,  0.1311],
        [ 0.4902, -0.5181,  1.9518, -0.7413, -0.3985, -0.9655,  1.0865,  0.0022],
        [ 0.5865, -0.3897,  1.7734,  0.0111, -0.2692,  0.1866,  0.3871,  0.1497]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5453, -0.4091,  1.7499,  0.1390, -0.2940, -0.0996,  0.1300,
           0.4272],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0163, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0163, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.34652538318187
step:  75
running loss:  0.0312870051090916
Train Steps: 75/90  Loss: 0.0313 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8955, -0.1829,  1.1701, -1.0772, -0.3697, -1.3048,  0.5593,  0.1958],
        [ 0.7101, -0.3358,  1.6189,  0.2893, -0.5472, -0.0433,  0.4882,  0.1745],
        [-0.0980, -0.8081,  1.4499, -1.2712, -0.0374, -1.2084,  0.8850,  0.3341],
        [ 0.5643, -0.3828,  1.7756, -0.2794, -0.7242, -0.0340,  0.4257,  0.1475],
        [ 0.3468, -0.5400,  1.7338, -0.1671, -0.7472, -0.5945,  0.3265,  0.2328],
        [ 0.3623, -0.5074,  1.7292, -0.6107, -0.3487, -1.0112,  0.6881,  0.2868],
        [ 0.6102, -0.4003,  1.6497,  0.1532, -0.3328,  0.2402,  0.4762,  0.1845],
        [ 0.4357, -0.5049,  1.7483, -0.0460, -0.4219,  0.1342,  0.1869,  0.0424]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0295, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0295, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.376007336191833
step:  76
running loss:  0.03126325442357675

Train Steps: 76/90  Loss: 0.0313 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.2599e-01, -3.7787e-01,  1.7324e+00, -1.4953e-03, -5.6675e-01,
         -2.6756e-01,  4.9518e-01,  4.3112e-01],
        [ 6.0591e-01, -4.0288e-01,  1.4897e+00, -9.1640e-01, -6.3901e-01,
         -7.7692e-01,  4.3591e-01,  9.2140e-02],
        [ 3.4257e-01, -5.5844e-01,  1.6558e+00,  1.9338e-01, -4.5376e-01,
         -9.7340e-03,  3.2920e-01,  2.5710e-01],
        [ 4.5453e-01, -4.8078e-01,  1.7472e+00, -1.1293e-01, -2.6900e-01,
          2.1217e-03,  2.5967e-01,  2.2156e-01],
        [ 6.1328e-01, -3.6578e-01,  1.3096e+00, -7.1024e-01, -6.7487e-01,
         -5.3066e-01,  2.5872e-01,  3.9249e-01],
        [ 5.6314e-01, -4.0142e-01,  1.8560e+00, -1.5741e-01, -1.9763e-01,
          2.6406e-01,  4.0827e-01,  1.1360e-01],
        [ 5.6209e-01, -4.2365e-01,  1.7095e+00,  1.2593e-01, -4.6443e-01,
         -4.5895e-01,  9.4878e-01,  2.4540e-01],
        [ 7.4072e-01, -3.3453e-01,  1.8828e+00, -1.8974e-01, -5.4737e-01,
         -6.2025e-01,  7.1610e-01,  1.2509e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3856922583654523
step:  77
running loss:  0.030983016342408472
Train Steps: 77/90  Loss: 0.0310 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6064, 0.3953, 0.8738, 0.4417, 0.3663, 0.4683, 0.5511, 0.5416]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4816, -0.4621,  1.4665, -0.6807, -0.7312, -0.5035,  0.4855,  0.4826],
        [ 0.3986, -0.5600,  1.7154,  0.1935, -0.3803,  0.1976,  0.4821,  0.1684],
        [ 0.6346, -0.3935,  1.7428, -0.9900,  0.1062, -1.3640,  1.2291,  0.2949],
        [ 0.6019, -0.4224,  1.4777, -0.9274, -0.5007, -0.9511,  0.6558,  0.1184],
        [ 0.4079, -0.5341,  1.7268, -0.0303, -0.6630, -0.3353,  0.3375,  0.2916],
        [ 0.5138, -0.4476,  1.8194, -0.0117, -0.0904,  0.0841,  0.4128,  0.2011],
        [ 0.3823, -0.5219,  0.9403, -0.9047, -0.5712, -1.1431,  0.1388,  0.1978],
        [ 0.5692, -0.4489,  1.8115, -0.0553, -0.6830, -0.0256,  0.2668,  0.1434]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7685e-01, -3.8992e-01,  1.3861e+00, -7.7706e-01, -5.8845e-01,
          -5.4611e-01,  5.0277e-01,  5.6243e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.3718e-01, -3.5749e-01,  1.6633e+00, -1.2082e+00,  2.1986e-01,
          -1.2467e+00,  1.1313e+00,  3.0505e-01],
         [ 6.1248e-01, -4.3453e-01,  1.4308e+00, -1.1384e+00, -4.2133e-01,
          -1.0031e+00,  7.1897e-01,  1.2136e-01],
         [ 5.4324e-01, -4.3364e-01,  1.7095e+00, -1.7660e-01, -5.9423e-01,
          -4.8453e-01,  3.0069e-01,  2.8530e-01],
         [ 5.3508e-01, -4.3212e-01,  1.7326e+00, -1.3811e-01,  4.6329e-02,
           1.0491e-01,  4.1617e-01,  2.7760e-01],
         [ 5.4700e-01, -4.0808e-01,  8.4919e-01, -1.0773e+00, -5.3072e-01,
          -1.1620e+00,  9.1240e-02,  1.8903e-01],
         [ 5.1490e-01, -4.6028e-01,  1.7499e+00, -2.4588e-01, -5.9423e-01,
          -1.2271e-01,  2.5964e-01,  2.1549e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3952217008918524
step:  78
running loss:  0.03070797052425452
Train Steps: 78/90  Loss: 0.0307 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6086, 0.3998, 0.8788, 0.4450, 0.4025, 0.4650, 0.5306, 0.5103],
        [0.6314, 0.4107, 0.8750, 0.5100, 0.3788, 0.4900, 0.7121, 0.5864],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5093, -0.4510,  1.1529, -0.9447, -0.5343, -0.9558,  0.1538,  0.2929],
        [ 0.1427, -0.6651,  1.3357, -0.4493, -0.5945, -0.9460,  0.1704,  0.4914],
        [ 0.6095, -0.4259,  1.8378,  0.1008, -0.3755,  0.2174,  0.8572,  0.2546],
        [ 0.6198, -0.4002,  1.7901,  0.1931, -0.3497,  0.1815,  0.8804,  0.2716],
        [ 0.6056, -0.3894,  1.8245, -0.1414, -0.4505, -0.2102,  0.1380,  0.1016],
        [ 0.6638, -0.3807,  1.8774,  0.2831, -0.4401, -0.0791,  0.8332,  0.2436],
        [ 0.5925, -0.3957,  1.8014, -0.3808, -0.5423, -0.1721,  0.1716,  0.2022],
        [ 0.5354, -0.4287,  1.1695, -1.0155, -0.5159, -0.9060,  0.4118,  0.2849]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.5253, -0.4392,  1.7730, -0.2305, -0.4268, -0.1381,  0.1651,
           0.0712],
         [ 0.6306, -0.3888,  1.7557,  0.0697, -0.5365, -0.0226,  1.0033,
           0.4226],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.411067308858037
step:  79
running loss:  0.03051983935263338
Train Steps: 79/90  Loss: 0.0305 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6262, 0.4085, 0.8438, 0.3150, 0.4025, 0.2633, 0.6339, 0.4810]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4540, -0.4703,  0.9067, -0.9209, -0.3107, -1.2274,  0.2563,  0.5059],
        [ 0.5799, -0.4351,  1.6240, -0.3646, -0.6393, -0.2595,  0.2720,  0.1308],
        [-1.5526, -1.8142,  0.9907, -1.0273, -0.3385, -1.2593,  0.1713,  0.4376],
        [ 0.6030, -0.4002,  1.0383, -1.0469, -0.4132, -1.0222,  0.5741,  0.3941],
        [ 0.8599, -0.2390,  1.9401, -0.4291, -0.5709, -0.3774,  0.7098,  0.1473],
        [ 0.8415, -0.3189,  1.8656,  0.4869, -0.5526, -0.0591,  0.6731,  0.1598],
        [ 0.6112, -0.4141,  1.7905, -0.2452, -0.4861,  0.1768,  0.4030,  0.2684],
        [ 0.8313, -0.2715,  1.6857, -0.6763, -0.3634, -0.9058,  0.6089,  0.0587]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5318e-01, -4.2640e-01,  7.6259e-01, -1.1466e+00, -3.9792e-01,
          -1.2928e+00,  2.4936e-01,  3.8081e-01],
         [ 5.2061e-01, -4.6028e-01,  1.4670e+00, -4.7683e-01, -6.5774e-01,
          -3.9985e-01,  1.8356e-01,  2.0831e-03],
         [-2.2859e+00, -2.2859e+00,  9.9216e-01, -1.2021e+00, -3.2286e-01,
          -1.4314e+00,  1.0439e-01,  2.9299e-01],
         [ 5.9919e-01, -3.9684e-01,  9.3067e-01, -1.3497e+00, -4.7298e-01,
          -1.0465e+00,  5.2587e-01,  2.9299e-01],
         [ 6.0774e-01, -3.9646e-01,  1.8480e+00, -6.5389e-01, -6.2309e-01,
          -4.5373e-01,  6.2155e-01, -2.1963e-02],
         [ 6.2488e-01, -4.3518e-01,  1.8018e+00,  2.5450e-01, -6.1732e-01,
          -1.9969e-01,  6.4006e-01,  2.9135e-02],
         [ 5.5456e-01, -4.6205e-01,  1.7788e+00, -4.2294e-01, -5.1917e-01,
          -2.2633e-02,  4.2771e-01,  2.4681e-01],
         [ 6.0641e-01, -3.9900e-01,  1.6113e+00, -8.3095e-01, -4.2679e-01,
          -1.0696e+00,  6.4212e-01, -6.4044e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0272, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0272, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4382315184921026
step:  80
running loss:  0.030477893981151284

Train Steps: 80/90  Loss: 0.0305 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [0.6192, 0.3980, 0.7078, 0.2750, 0.4250, 0.2100, 0.5450, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6583, -0.3531,  1.5451, -0.6303, -0.7401, -0.6090,  0.5511,  0.2601],
        [ 0.5577, -0.4344,  1.7469,  0.0396, -0.2320,  0.3542,  0.4915,  0.2582],
        [ 0.5700, -0.4197,  1.3435, -1.0377, -0.5919, -0.7790,  0.5803,  0.3046],
        [ 0.4306, -0.4598,  1.5850,  0.0190, -0.3076, -1.0861,  0.4304,  0.5001],
        [ 0.6816, -0.3647,  1.1919, -1.0613, -0.2055, -1.3733,  0.5535,  0.2396],
        [ 0.5564, -0.4769,  1.8245, -0.1644, -0.5580,  0.2945,  0.5149,  0.0401],
        [ 0.4822, -0.5046,  1.7714, -0.1248, -0.1793,  0.1259,  0.3947,  0.1858],
        [-0.4371, -1.0689,  0.9644, -0.8736, -0.3876, -1.3416,  0.3498,  0.4060]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [ 0.5742, -0.4474,  0.9834, -1.0159, -0.3229, -1.3159,  0.2314,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0289, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4671557769179344
step:  81
running loss:  0.03045871329528314
Train Steps: 81/90  Loss: 0.0305 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3561, -0.5817,  1.6280, -0.5200, -0.6140,  0.0832,  0.4891,  0.2815],
        [ 0.6177, -0.4275,  1.4497,  0.2524, -0.5313, -0.1602,  0.7929,  0.3334],
        [ 0.3869, -0.4878,  1.4759,  0.0193, -0.6202, -0.5727,  0.1075,  0.3970],
        [ 0.6651, -0.3817,  1.7857, -0.0360, -0.4305,  0.4036,  0.5908,  0.1152],
        [ 0.1623, -0.6708,  1.5985, -0.0590, -0.7143, -0.5345,  0.0244,  0.3532],
        [ 0.5097, -0.4573,  1.2580, -1.0156, -0.4474, -0.7448,  0.4199,  0.3221],
        [ 0.6839, -0.3833,  1.6283, -1.0961,  0.1755, -1.2620,  1.0173,  0.3348],
        [ 0.6074, -0.4254,  1.3506, -1.1489, -0.2045, -1.2801,  0.4970,  0.0799]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.5990, -0.4256,  1.7499, -0.0380, -0.3979,  0.3315,  0.6529,
           0.1159],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050],
         [ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.478730901144445
step:  82
running loss:  0.030228425623712744
Train Steps: 82/90  Loss: 0.0302 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1982, -0.6441,  1.4626, -1.0844, -0.4183, -0.8629,  0.2960,  0.2098],
        [ 0.1744, -0.6380,  0.9460, -1.1304, -0.3395, -1.1559,  0.1845,  0.3836],
        [ 0.4829, -0.4581,  1.7923, -0.2788, -0.4446, -0.5581,  0.5883,  0.2422],
        [ 0.5963, -0.3333,  1.1338, -1.0038, -0.1605, -1.0222,  0.3700,  0.4745],
        [ 0.5174, -0.4872,  1.6344,  0.1660, -0.4626,  0.0136,  0.4201,  0.1727],
        [ 0.4432, -0.5566,  1.8790, -0.1467, -0.3513, -0.7157,  0.9092,  0.3290],
        [ 0.6365, -0.4482,  1.6620,  0.3447, -0.5882,  0.0983,  0.6642,  0.0769],
        [ 0.6277, -0.3859,  1.1277, -1.2750, -0.3528, -1.0574,  0.4644,  0.2117]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.499280705116689
step:  83
running loss:  0.03011181572429746
Train Steps: 83/90  Loss: 0.0301 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6239, 0.4206, 0.8750, 0.5400, 0.3688, 0.4850, 0.5737, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6278, -0.3582,  1.4195, -0.5272, -0.5106, -0.8733,  0.2839,  0.3572],
        [ 0.6381, -0.4075,  1.6691, -0.0616, -0.2797,  0.1486,  0.6430,  0.1670],
        [ 0.5569, -0.3845,  1.3425, -0.9565, -0.0864, -1.1992,  0.4094,  0.2892],
        [ 0.6495, -0.4110,  1.7332,  0.0540, -0.4006,  0.1699,  0.6011,  0.0674],
        [ 0.7700, -0.2943,  0.8941, -1.3155, -0.2464, -1.4069,  0.3876,  0.2335],
        [-1.6801, -1.9175,  1.2121, -0.9034, -0.5852, -0.9538,  0.2522,  0.3485],
        [ 0.8054, -0.2963,  1.5600, -0.6453, -0.5434, -0.6607,  0.5905,  0.2499],
        [ 0.9652, -0.1676,  1.7356,  0.2161, -0.5124,  0.1078,  0.6526,  0.2850]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7790e-01, -3.8397e-01,  1.5420e+00, -4.3064e-01, -5.4226e-01,
          -9.7721e-01,  2.0412e-01,  3.9283e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.9107e-01, -3.8879e-01,  1.4727e+00, -9.5412e-01, -9.1917e-02,
          -1.4930e+00,  3.9885e-01,  2.0831e-01],
         [ 5.7777e-01, -4.3888e-01,  1.7107e+00,  1.1921e-01, -3.9207e-01,
           8.1507e-02,  4.7413e-01,  7.1077e-02],
         [ 5.5664e-01, -4.1601e-01,  9.9353e-01, -1.3313e+00, -2.8245e-01,
          -1.5161e+00,  2.1441e-01,  1.2532e-01],
         [-2.2859e+00, -2.2859e+00,  1.5074e+00, -1.0388e+00, -5.4226e-01,
          -9.8491e-01,  2.1986e-01,  2.6990e-01],
         [ 5.2546e-01, -4.4950e-01,  1.5651e+00, -4.9992e-01, -5.7113e-01,
          -8.4634e-01,  4.5658e-01,  1.6212e-01],
         [ 5.9601e-01, -3.4305e-01,  1.7557e+00,  2.0831e-01, -5.8268e-01,
          -4.5727e-02,  3.6420e-01,  3.4688e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0224, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0224, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5217115683481097
step:  84
running loss:  0.03002037581366797

Train Steps: 84/90  Loss: 0.0300 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3755, -0.5651,  1.0948, -0.7817, -0.6757, -0.6152,  0.0656,  0.2687],
        [ 0.5311, -0.4885,  1.6368, -0.8579, -0.2738, -1.1269,  0.7426,  0.1522],
        [ 0.5372, -0.4697,  1.4447, -1.0901, -0.2341, -1.2558,  0.6001,  0.1076],
        [ 0.4377, -0.5105,  1.8264,  0.0483, -0.0860,  0.1494,  0.4169,  0.2315],
        [ 0.3859, -0.5386,  0.9109, -1.0271, -0.4228, -1.2534,  0.1069,  0.3340],
        [ 0.7784, -0.3214,  1.5264, -1.0374, -0.1043, -1.2875,  0.6998,  0.2039],
        [ 0.4173, -0.5761,  1.7450,  0.3063, -0.5354,  0.3130,  0.9737,  0.3100],
        [ 0.4244, -0.5139,  1.1205, -0.9749, -0.6412, -0.6767,  0.4314,  0.2827]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0115, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0115, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5331995971500874
step:  85
running loss:  0.029802348201765732
Train Steps: 85/90  Loss: 0.0298 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3192, -0.5970,  1.7006,  0.2154, -0.0810,  0.0501,  0.5673,  0.2228],
        [ 0.5665, -0.4718,  1.7598, -0.4422, -0.5859, -0.2406,  0.6804,  0.2694],
        [ 0.7055, -0.3615,  1.8326, -0.3187, -0.5280, -0.6149,  0.5665,  0.2291],
        [ 0.2587, -0.6218,  0.9886, -1.2755, -0.3026, -1.5091,  0.3010,  0.1494],
        [ 0.6178, -0.4333,  1.6893, -0.4250, -0.4827, -0.8889,  0.5407,  0.1794],
        [ 0.7328, -0.3638,  1.1332, -1.3629, -0.4475, -1.1089,  0.5656,  0.1385],
        [ 0.4559, -0.5146,  1.7819, -0.2563, -0.3102,  0.2478,  0.6159,  0.2551],
        [ 0.6827, -0.3224,  1.0977, -0.8458, -0.4696, -1.0328,  0.1970,  0.4110]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5791, -0.4127,  1.8442, -0.3985, -0.6031, -0.6154,  0.4473,
           0.2464],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0113, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0113, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5444738110527396
step:  86
running loss:  0.02958690477968302
Train Steps: 86/90  Loss: 0.0296 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6234, 0.4179, 0.7825, 0.3450, 0.3813, 0.2867, 0.5675, 0.5617],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3100, -0.6210,  0.9047, -1.3336, -0.3877, -1.2771,  0.5174,  0.1538],
        [ 0.5911, -0.4111,  1.6927, -0.4872, -0.4639, -0.9790,  0.3204,  0.0526],
        [ 0.6158, -0.4260,  1.3063, -1.2585, -0.1382, -1.3125,  0.6621,  0.1757],
        [ 0.7599, -0.2690,  1.0580, -1.0242, -0.0868, -1.2896,  0.4650,  0.4659],
        [ 0.4308, -0.5882,  1.8699,  0.0753, -0.5445,  0.1465,  0.6465, -0.0091],
        [ 0.4604, -0.4707,  1.4312, -0.7649, -0.4340, -0.8856,  0.4767,  0.3702],
        [ 0.1774, -0.7147,  1.8432, -0.1140, -0.2642,  0.0558,  0.2860, -0.0067],
        [ 0.5459, -0.4278,  1.3398, -0.5322, -0.5929, -0.7123,  0.4224,  0.4162]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.5935, -0.3558,  1.3284, -0.6924, -0.5249, -0.9618,  0.3353,
           0.3084],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.56061180960387
step:  87
running loss:  0.029432319650619196
Train Steps: 87/90  Loss: 0.0294 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.6039e-01, -4.2506e-01,  1.4384e+00, -4.5731e-01, -4.3452e-02,
         -1.2264e+00,  3.2788e-01,  3.5845e-01],
        [ 6.0257e-01, -4.3626e-01,  1.1690e+00, -1.2788e+00, -3.3650e-01,
         -1.1651e+00,  6.8741e-01,  1.0520e-01],
        [ 5.2720e-01, -4.8766e-01,  1.6576e+00, -1.2388e+00, -1.2994e-01,
         -1.1635e+00,  1.0622e+00,  1.5645e-01],
        [ 4.8725e-01, -4.7966e-01,  1.4731e+00, -7.5758e-01, -6.2636e-01,
         -6.2725e-01,  5.6555e-01,  3.4666e-01],
        [ 4.4267e-01, -4.8748e-01,  1.3048e+00, -9.8736e-01, -4.8932e-01,
         -9.7766e-01,  2.2468e-01,  9.5480e-02],
        [ 3.4075e-01, -5.4505e-01,  1.4408e+00, -4.8045e-01, -6.5704e-01,
         -4.3574e-01,  2.1275e-01,  1.5534e-01],
        [ 3.3860e-01, -5.9572e-01,  1.7547e+00, -3.4798e-01, -5.4307e-01,
         -8.2032e-02,  4.6923e-01,  4.7698e-02],
        [ 5.7668e-01, -3.5282e-01,  1.1982e+00, -6.6692e-01, -1.3449e-03,
         -1.3082e+00,  3.4176e-01,  3.4211e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237],
         [ 0.5444, -0.3852,  1.3786, -0.5409, -0.6924, -0.4229,  0.1791,
           0.2341],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0105, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0105, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.5710743190720677
step:  88
running loss:  0.02921675362581895

Train Steps: 88/90  Loss: 0.0292 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7000, -0.3330,  1.2081, -1.3917, -0.5066, -1.2099,  0.5612,  0.2131],
        [ 0.5759, -0.4134,  1.6561, -0.3017, -0.5498, -0.2371,  0.2067,  0.2265],
        [ 0.5207, -0.4113,  1.6869, -0.0436, -0.5771, -0.3776,  0.2774,  0.1871],
        [ 0.5346, -0.4634,  1.6791,  0.0160, -0.4440, -0.0452,  0.5119,  0.0538],
        [ 0.2992, -0.6279,  1.5847,  0.2346, -0.2637, -0.1236,  0.4955,  0.2122],
        [ 0.4735, -0.4733,  1.6959, -0.1844, -0.1443, -0.1494,  0.2397,  0.2195],
        [ 0.4997, -0.4006,  1.0715, -1.2295, -0.1961, -1.5172,  0.3869,  0.3413],
        [ 0.9420, -0.1883,  1.4086, -1.4380, -0.1689, -1.5866,  0.7342,  0.0748]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6966e-01, -4.4656e-01,  1.1973e+00, -1.1871e+00, -4.5712e-01,
          -9.9653e-01,  5.2186e-01,  2.0324e-01],
         [ 5.3684e-01, -4.4057e-01,  1.7730e+00, -1.7660e-01, -5.2494e-01,
          -5.3426e-02,  2.3141e-01,  3.4688e-01],
         [ 5.5289e-01, -3.8106e-01,  1.7788e+00, -3.8029e-02, -5.3072e-01,
          -2.0739e-01,  7.2734e-02,  2.6568e-01],
         [ 5.7777e-01, -4.3888e-01,  1.7107e+00,  1.1921e-01, -3.9207e-01,
           8.1507e-02,  4.7413e-01,  7.1077e-02],
         [ 5.9107e-01, -4.0805e-01,  1.6460e+00,  3.5458e-01, -2.0739e-01,
           4.6651e-02,  4.9700e-01,  1.8522e-01],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.8620e-01, -3.5296e-01,  1.1032e+00, -1.0619e+00, -1.4965e-01,
          -1.3852e+00,  3.4111e-01,  3.9307e-01],
         [ 6.0918e-01, -4.1432e-01,  1.4901e+00, -1.2467e+00, -1.2079e-01,
          -1.4006e+00,  6.5866e-01,  1.4673e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.58522439096123
step:  89
running loss:  0.02904746506698011
Train Steps: 89/90  Loss: 0.0290 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5832, -0.3993,  1.1275, -1.2637, -0.5853, -1.0007, -0.0508, -0.0505],
        [ 0.3885, -0.4997,  1.5609,  0.1179, -0.3980, -0.2911,  0.2709,  0.3850],
        [ 0.3156, -0.6031,  1.7021, -0.8399, -0.6414, -0.2453,  0.6654,  0.1443],
        [ 0.7260, -0.3384,  1.6161,  0.0791, -0.5394, -0.3537,  0.7659,  0.1245],
        [ 0.4992, -0.4325,  1.5218,  0.1549, -0.1555, -0.3437,  0.2934,  0.4448],
        [ 0.6640, -0.2715,  1.1294, -0.9919, -0.0219, -1.3958,  0.1330,  0.4381],
        [ 0.6496, -0.3338,  1.8106, -0.5189, -0.3958, -0.9181,  0.5184,  0.1384],
        [ 0.6956, -0.3518,  1.4355, -1.4073, -0.2439, -1.3482,  0.7373,  0.1280]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.604389033280313
step:  90
running loss:  0.02893765592533681
Valid Steps: 10/10  Loss: nan 7.8799
--------------------------------------------------
Epoch: 6  Train Loss: 0.0289 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6477, -0.3526,  0.9691, -0.9025, -0.4389, -1.1085,  0.2247,  0.2755],
        [ 0.8920, -0.2164,  1.2343, -1.0870, -0.2121, -1.2321,  0.6169,  0.2335],
        [ 0.5558, -0.4183,  1.1495, -1.0581, -0.4915, -0.8478,  0.4433,  0.2620],
        [ 0.5084, -0.4509,  1.4207, -1.0557, -0.0454, -1.4207,  0.5016,  0.1969],
        [-0.0192, -0.7355,  1.4270, -0.7559, -0.2804, -1.0867,  0.2119,  0.3873],
        [ 0.6241, -0.4014,  1.9214, -0.2800, -0.5671, -0.6757,  0.3070,  0.0805],
        [ 0.5517, -0.4502,  1.3219, -1.2073, -0.4492, -1.1858,  0.5526,  0.0171],
        [ 0.4252, -0.5143,  1.6961, -0.5656, -0.6468, -0.3361,  0.3515,  0.2301]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1317, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1317, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.13170002400875092
step:  1
running loss:  0.13170002400875092
Train Steps: 1/90  Loss: 0.1317 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6647, -0.3062,  1.0944, -1.2538, -0.3591, -1.2520,  0.4543,  0.4699],
        [ 0.3959, -0.5123,  1.6735, -0.1118, -0.0870, -0.0970,  0.0966,  0.1922],
        [ 0.3720, -0.4999,  1.1677, -1.1540, -0.4044, -1.2134,  0.3068,  0.2836],
        [ 0.6326, -0.3810,  1.6411, -0.0633, -0.3244, -0.1243,  0.2366,  0.2300],
        [ 0.6179, -0.3312,  1.6827, -0.9184, -0.2375, -1.5012,  0.2988, -0.0049],
        [ 0.7444, -0.2400,  1.0723, -0.8516, -0.3273, -1.3134,  0.1802,  0.4339],
        [ 0.7338, -0.3491,  1.6987,  0.1139, -0.6360, -0.2006,  0.7904,  0.1141],
        [ 0.5614, -0.3962,  1.7932, -0.2720, -0.4493,  0.1143,  0.6197,  0.2201]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1403241939842701
step:  2
running loss:  0.07016209699213505

Train Steps: 2/90  Loss: 0.0702 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7319, -0.2171,  1.5618, -0.3020, -0.4572, -0.2303,  0.1329,  0.3098],
        [ 0.8232, -0.2165,  1.7220, -0.2264, -0.2888,  0.0441,  0.4587,  0.1933],
        [-1.7871, -1.9312,  1.1732, -1.2439, -0.4154, -1.3333,  0.0692,  0.2836],
        [ 0.7511, -0.2776,  1.8293, -0.2960, -0.3076, -0.5175,  0.9069,  0.3537],
        [ 0.9328, -0.1419,  1.4058,  0.0273, -0.4443, -0.1959,  0.7334,  0.2985],
        [ 0.9208, -0.1094,  0.9170, -1.5732, -0.3551, -1.5826,  0.2315,  0.1841],
        [ 0.7178, -0.2332,  1.5154, -0.1506, -0.5277, -0.4161, -0.0780,  0.2460],
        [ 0.8859, -0.2005,  1.6186,  0.0542, -0.3882, -0.3113,  0.3717,  0.1910]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0370, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0370, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1773393712937832
step:  3
running loss:  0.0591131237645944
Train Steps: 3/90  Loss: 0.0591 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 8.9299e-01, -1.9483e-01,  1.3833e+00,  1.2987e-01, -4.8383e-01,
         -5.3583e-03,  7.4699e-01,  2.4503e-01],
        [-1.8940e+00, -2.0092e+00,  1.3015e+00, -1.1059e+00, -3.3122e-01,
         -1.2012e+00,  2.4633e-01,  2.7320e-01],
        [ 6.9292e-01, -2.6543e-01,  1.1853e+00, -5.9782e-01, -6.0230e-01,
         -8.2772e-01,  1.5278e-01,  4.5867e-01],
        [ 6.5121e-01, -2.5269e-01,  1.3511e+00, -6.1461e-01, -7.2152e-02,
         -1.2816e+00,  1.5690e-01,  5.1567e-01],
        [ 7.7100e-01, -2.4929e-01,  1.3652e+00, -1.1704e+00, -3.3382e-01,
         -1.2479e+00,  6.5034e-01,  1.7962e-01],
        [ 8.6061e-01, -1.8263e-01,  1.6473e+00, -7.0001e-04, -5.0347e-01,
         -9.7541e-02,  1.6001e-01,  6.7358e-02],
        [ 5.2133e-01, -3.6087e-01,  1.4178e+00, -9.9686e-01, -1.1791e-01,
         -1.4057e+00,  3.2734e-01,  2.0587e-01],
        [ 8.5589e-01, -1.9249e-01,  1.6359e+00, -5.9213e-01, -6.1109e-01,
          4.0864e-02,  5.4792e-01,  2.4353e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.5326, -0.4390,  1.7557,  0.0851, -0.5192, -0.0919,  0.3180,
           0.0620],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.6010, -0.3896,  1.7326, -0.5692, -0.6289,  0.0082,  0.5028,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.19527801871299744
step:  4
running loss:  0.04881950467824936
Train Steps: 4/90  Loss: 0.0488 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6216, 0.4100, 0.7350, 0.2067, 0.4325, 0.2050, 0.5950, 0.5333],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6983, -0.2865,  1.5583,  0.4364,  0.0205, -0.2002,  0.3845,  0.5493],
        [ 0.6020, -0.3588,  1.7794, -0.0123, -0.0761,  0.4327,  0.5758,  0.3702],
        [ 0.8159, -0.2481,  1.7206, -0.3957, -0.6126, -0.8451,  0.4303,  0.1379],
        [ 0.7543, -0.2461,  1.3220, -0.4106, -0.6687, -0.5468,  0.0829,  0.3590],
        [-0.8455, -1.2990,  1.2776, -1.2102, -0.3380, -1.4762,  0.2634,  0.1421],
        [ 0.4908, -0.4188,  1.0813, -1.3411, -0.3358, -1.4621,  0.4294,  0.2803],
        [ 0.8225, -0.2386,  1.1020, -1.1353, -0.6921, -0.7803,  0.3172,  0.0501],
        [ 0.5905, -0.3740,  1.6765, -0.6473, -0.5600, -0.7175,  0.5019,  0.3938]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.5853, -0.3920,  1.1090, -1.3313, -0.2882, -1.3390,  0.4624,
           0.1775],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0562, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0562, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.25149907171726227
step:  5
running loss:  0.05029981434345245
Train Steps: 5/90  Loss: 0.0503 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7097, -0.2963,  1.1037, -1.2898, -0.6142, -1.1763,  0.4470,  0.2839],
        [ 0.6372, -0.2858,  0.9849, -0.8955, -0.1584, -1.5070,  0.1930,  0.5510],
        [ 0.6837, -0.3201,  1.6716,  0.2550, -0.1896,  0.0621,  0.3190,  0.2978],
        [ 0.2536, -0.5944,  1.3756, -1.0492, -0.5398, -0.9605,  0.6340,  0.2841],
        [ 0.4375, -0.4863,  1.8205, -0.1297, -0.4469,  0.1487,  0.6756,  0.3328],
        [ 0.0804, -0.6800,  1.4471, -0.7608, -0.4763, -1.2891,  0.1751,  0.0604],
        [ 0.7134, -0.3114,  1.6887, -0.1343, -0.5369, -0.1299,  0.2081,  0.2759],
        [ 0.6029, -0.3714,  1.6532,  0.1362, -0.3379,  0.1308,  0.3406,  0.2828]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0141, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0141, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2655968349426985
step:  6
running loss:  0.04426613915711641

Train Steps: 6/90  Loss: 0.0443 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9006, -0.2117,  1.6638, -0.3467, -0.6132, -0.4659,  0.5123,  0.1801],
        [ 0.5317, -0.3793,  0.8797, -0.9900, -0.5496, -0.9261,  0.0243,  0.3312],
        [ 0.6930, -0.3017,  0.7817, -1.0732, -0.4704, -1.2299, -0.0311,  0.2055],
        [ 0.6957, -0.3161,  1.7998, -0.4552, -0.5499, -0.4094,  0.6199,  0.2619],
        [ 0.6030, -0.3544,  1.2631, -0.3271, -0.5427, -0.2744, -0.1266,  0.2739],
        [-1.6762, -1.8580,  1.8621, -0.7469,  0.1769, -1.1852,  0.8146,  0.5468],
        [ 0.6555, -0.3252,  1.7625, -0.2648, -0.5922, -0.1266,  0.5597,  0.1009],
        [ 0.7671, -0.2935,  1.6871, -0.2076, -0.3535, -0.5524,  0.7757,  0.3876]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2878271918743849
step:  7
running loss:  0.04111817026776927
Train Steps: 7/90  Loss: 0.0411 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4279, -0.4700,  1.1087, -0.9343, -0.3377, -1.1035,  0.2972,  0.4786],
        [-0.1724, -0.8663,  1.5414, -0.3400, -0.5710, -0.8034,  0.1809,  0.4591],
        [ 0.6113, -0.3749,  1.2179, -1.1382, -0.3679, -1.2327,  0.2952,  0.1828],
        [ 0.8218, -0.2730,  1.8150, -0.3814, -0.7125, -0.3080,  0.3443,  0.1518],
        [ 0.6928, -0.3667,  1.6759,  0.5193, -0.4929,  0.2824,  0.4658,  0.1233],
        [ 0.4151, -0.4984,  0.9299, -1.0047, -0.5191, -1.0346,  0.3536,  0.3316],
        [ 0.2671, -0.6461,  2.0895, -0.5594, -0.3277, -0.3334,  1.0386,  0.3234],
        [ 0.2336, -0.6060,  1.0417, -1.1955, -0.3274, -1.4027,  0.1155,  0.1706]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.5783, -0.4216,  1.6847, -0.5078, -0.6732, -0.5377,  0.4752,
           0.0839],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0310, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3187991585582495
step:  8
running loss:  0.039849894819781184
Train Steps: 8/90  Loss: 0.0398 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6236, 0.3967, 0.8675, 0.5400, 0.3862, 0.4517, 0.5825, 0.5200],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6302, -0.3617,  1.5214,  0.2184, -0.5714, -0.2713,  0.1169,  0.2587],
        [ 0.6184, -0.3406,  1.6832, -0.3059, -0.7060, -0.2061,  0.3594,  0.0877],
        [ 0.6739, -0.3559,  1.5060,  0.3060, -0.6391, -0.1109,  0.3257,  0.1549],
        [ 0.6845, -0.3340,  1.4835,  0.2149, -0.5401, -0.0175,  0.7316,  0.3698],
        [ 0.7103, -0.3030,  1.6602, -0.1140, -0.5570,  0.0523,  0.2161,  0.2177],
        [ 0.6586, -0.3380,  1.3056, -1.1049, -0.5090, -0.9922,  0.3005,  0.1256],
        [-1.3580, -1.6826,  1.5312, -1.0974,  0.1189, -1.1105,  0.7331,  0.5404],
        [ 0.3991, -0.5250,  1.5950, -1.2209,  0.0730, -1.0968,  0.8225,  0.2854]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5944, -0.4538,  1.7210,  0.2083, -0.5018, -0.1997,  0.4046,
           0.1159],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0426, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0426, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3614186178892851
step:  9
running loss:  0.04015762420992056
Train Steps: 9/90  Loss: 0.0402 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6200, 0.4070, 0.8938, 0.4183, 0.3538, 0.4567, 0.6175, 0.5400],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6971, -0.3688,  1.7350, -0.1732, -0.4029,  0.2110,  0.7087,  0.2211],
        [ 0.4011, -0.5162,  1.1709, -1.1587, -0.3880, -1.3280,  0.4589,  0.3671],
        [ 0.4933, -0.4978,  1.7170, -0.3445, -0.6054, -0.3812,  0.6053,  0.2377],
        [ 0.3137, -0.5505,  1.5822, -0.6377, -0.6560, -1.0371,  0.2575,  0.1115],
        [ 0.5390, -0.4642,  1.6548,  0.1634, -0.3035, -0.1852,  0.5739,  0.1073],
        [ 0.2994, -0.5938,  1.6538, -0.3325, -0.4045,  0.1992,  0.3695,  0.1887],
        [ 0.5082, -0.4512,  1.6077, -0.1040, -0.5408, -0.2585,  0.5207,  0.4175],
        [ 0.4719, -0.4648,  1.5714,  0.0954, -0.1144, -0.0728,  0.1835,  0.2303]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.5778, -0.4061,  1.8423, -0.3537, -0.6520, -0.1766,  0.5663,
           0.2083],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5763, -0.3963,  1.7788, -0.0765, -0.6520, -0.0842,  0.4624,
           0.2776],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3753113318234682
step:  10
running loss:  0.03753113318234682

Train Steps: 10/90  Loss: 0.0375 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1967, -0.6591,  1.7363, -0.0536, -0.5547, -0.1339,  0.6452,  0.2842],
        [ 0.5217, -0.4646,  1.6759, -0.0579, -0.5454, -0.3497,  0.2499,  0.1922],
        [ 0.2723, -0.6024,  1.3251, -1.0565, -0.2461, -1.3451,  0.3772,  0.1343],
        [ 0.2139, -0.6353,  1.6743, -0.9571, -0.2936, -0.9478,  0.5853,  0.1640],
        [ 0.7073, -0.3514,  1.2029, -1.1984, -0.5418, -0.8277,  0.5706,  0.1203],
        [ 0.6006, -0.4165,  1.5692, -0.5432, -0.5794, -0.7226,  0.4796,  0.1666],
        [ 0.5078, -0.4796,  1.7146,  0.1441, -0.4945, -0.1384,  0.4881,  0.3228],
        [ 0.2629, -0.6667,  1.6207,  0.2619, -0.2709,  0.1349,  0.5074,  0.1552]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.5790, -0.4031,  1.6915, -0.9564, -0.4152, -1.1063,  0.4425,
           0.2528],
         [ 0.5730, -0.4562,  1.2195, -1.2440, -0.5497, -0.7711,  0.5704,
           0.1779],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0162, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0162, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3914999272674322
step:  11
running loss:  0.035590902478857475
Train Steps: 11/90  Loss: 0.0356 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6136, 0.4029, 0.8263, 0.3350, 0.3625, 0.3067, 0.5675, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9551, -0.1943,  1.7838,  0.1884, -0.5463, -0.5159,  0.7997,  0.0161],
        [ 0.8863, -0.2218,  1.0800, -1.0480, -0.5751, -0.7298,  0.4776,  0.0688],
        [-2.0307, -2.0780,  1.1745, -1.1032, -0.3354, -1.3458,  0.2500,  0.2283],
        [ 0.9031, -0.1703,  1.7089, -0.1087, -0.1458,  0.2899,  0.7898,  0.2564],
        [ 0.8976, -0.1821,  1.7356, -0.1796, -0.4199, -0.2579,  0.3009,  0.0515],
        [ 0.9155, -0.2161,  1.6589,  0.0400, -0.2482, -0.0904,  0.4978,  0.2829],
        [-1.8523, -1.9757,  1.3322, -0.7963, -0.5985, -0.8162,  0.2899,  0.2414],
        [ 0.8009, -0.2398,  1.5121, -0.6899, -0.5752, -0.8632,  0.4632,  0.1816]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5483, -0.4249,  1.5305, -0.7386, -0.6115, -0.8694,  0.3353,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0300, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0300, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.42152343317866325
step:  12
running loss:  0.03512695276488861
Train Steps: 12/90  Loss: 0.0351 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0789, -0.8634,  1.9075, -0.1872, -0.4406, -0.8748,  0.5152,  0.2647],
        [ 0.1872, -0.6352,  1.2463, -0.5061,  0.0230, -1.0992,  0.3518,  0.4947],
        [ 0.6524, -0.4729,  1.6001, -1.0348, -0.2872, -1.0288,  0.8581, -0.0065],
        [-0.0280, -0.7967,  1.5074, -0.6335, -0.5794, -0.7054,  0.1318,  0.1660],
        [-0.4311, -1.0920,  1.1659, -1.0859, -0.4291, -1.2241,  0.2571, -0.0169],
        [ 0.3784, -0.5783,  1.1265, -1.1726, -0.5293, -0.8971,  0.4713,  0.1641],
        [ 0.4242, -0.5747,  1.4232, -0.9487, -0.6321, -0.5319,  0.5436,  0.0818],
        [ 0.7843, -0.3753,  1.9808, -0.0349, -0.5629, -0.0903,  0.9297, -0.0148]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0638, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0638, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4853547476232052
step:  13
running loss:  0.0373349805864004
Train Steps: 13/90  Loss: 0.0373 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6261, 0.3987, 0.8688, 0.4917, 0.4300, 0.5333, 0.7010, 0.5309],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3884, -0.5688,  1.7313, -0.1300, -0.3147, -0.0134,  0.2209,  0.1419],
        [ 0.3916, -0.5727,  1.6822, -0.3438, -0.6272, -0.4326,  0.3543,  0.1778],
        [ 0.5572, -0.4856,  1.4594,  0.1052, -0.5221, -0.1518,  0.9008,  0.2143],
        [ 0.1300, -0.7581,  1.7953, -0.2225, -0.3607,  0.2561,  0.8635,  0.0762],
        [ 0.4244, -0.4891,  1.6533, -0.0386, -0.3964, -0.9195,  0.3851,  0.3819],
        [ 0.3393, -0.5632,  1.5823, -0.5397, -0.6619, -0.7676,  0.0628,  0.0785],
        [ 0.5327, -0.5028,  1.9065, -0.4265, -0.6527, -0.1407,  0.5415, -0.1797],
        [ 0.2941, -0.6158,  1.6339, -1.2622,  0.2046, -1.5005,  0.8122,  0.0909]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.6059, -0.4442,  1.7268, -0.0149, -0.2998,  0.1775,  0.9521,
           0.1661],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0220, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.507318003103137
step:  14
running loss:  0.036237000221652646

Train Steps: 14/90  Loss: 0.0362 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5010, -0.5033,  1.5258, -1.1736, -0.0400, -1.5058,  0.5740,  0.0958],
        [-0.6502, -1.2076,  1.3271, -1.1346, -0.1043, -1.5780,  0.2231,  0.0820],
        [ 0.1329, -0.7390,  1.6516,  0.0745, -0.3668,  0.2067,  0.9566,  0.2391],
        [ 0.5369, -0.4364,  1.6081, -0.6326, -0.6196, -0.3833,  0.2194,  0.1052],
        [ 0.6469, -0.4278,  1.8764, -0.1909, -0.5821, -0.4823,  0.7569,  0.0944],
        [ 0.5482, -0.4222,  1.8058, -0.0620, -0.5755, -0.1781,  0.4873,  0.2051],
        [ 0.6252, -0.3851,  1.7494,  0.2343, -0.5574, -0.2445,  0.6326,  0.0882],
        [ 0.5591, -0.4175,  1.8093, -0.2406, -0.5084, -0.0182,  0.4032,  0.1271]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0457, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0457, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5530113819986582
step:  15
running loss:  0.03686742546657721
Train Steps: 15/90  Loss: 0.0369 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.0703e-01, -4.5975e-01,  1.6656e+00,  3.0593e-01, -4.7732e-01,
         -6.5627e-01,  3.7422e-01,  3.8503e-01],
        [ 2.5524e-01, -6.5057e-01,  1.5289e+00, -9.4455e-01, -6.3493e-01,
         -4.8177e-01,  5.8337e-01,  1.9329e-01],
        [ 2.5623e-01, -6.6214e-01,  1.9205e+00, -1.1357e-01, -4.2664e-01,
          1.1833e-01,  1.0859e+00,  1.5132e-01],
        [ 5.9606e-01, -4.3202e-01,  9.1692e-01, -1.0829e+00, -4.4209e-01,
         -1.2715e+00,  4.4589e-02,  1.2495e-01],
        [ 2.9305e-01, -6.0549e-01,  1.8639e+00, -2.6410e-02, -2.2537e-01,
          6.4895e-02,  2.5880e-01, -2.0055e-02],
        [ 2.7239e-01, -6.2210e-01,  1.7858e+00,  4.2429e-02, -1.7373e-01,
         -4.4527e-02,  4.1536e-01,  8.2200e-02],
        [ 4.3774e-01, -5.2086e-01,  1.9156e+00, -2.9562e-01, -3.8331e-01,
         -9.2735e-01,  6.8998e-01,  1.6443e-01],
        [ 6.5677e-01, -3.7615e-01,  1.9344e+00, -6.7801e-01, -5.9268e-01,
         -6.3210e-01,  6.6573e-01, -4.8861e-04]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.6077, -0.3965,  1.8480, -0.6539, -0.6231, -0.4537,  0.6216,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0160, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0160, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5689659360796213
step:  16
running loss:  0.03556037100497633
Train Steps: 16/90  Loss: 0.0356 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0935, -0.8722,  1.3125, -1.3468, -0.2899, -1.2047,  0.7003,  0.2224],
        [ 0.2963, -0.6498,  2.0224, -0.2893, -0.5738, -0.3291,  0.8886,  0.0073],
        [ 0.6682, -0.4188,  1.9193,  0.1636, -0.6020, -0.1303,  0.5732,  0.0660],
        [ 0.6721, -0.3713,  1.9908, -0.0065, -0.5589,  0.0488,  0.3812, -0.0499],
        [ 0.1340, -0.7117,  1.1896, -1.2837, -0.2576, -1.3935,  0.3966,  0.1664],
        [ 0.5357, -0.4752,  1.9282,  0.1077, -0.5723, -0.4885,  0.5420,  0.1317],
        [ 0.7458, -0.3102,  1.8443,  0.3719, -0.2171, -0.0943,  0.5615,  0.3431],
        [ 0.4249, -0.5251,  1.0434, -1.1636, -0.3758, -1.2958,  0.1229,  0.1956]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.5326, -0.4390,  1.7557,  0.0851, -0.5192, -0.0919,  0.3180,
           0.0620],
         [ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0314, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0314, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6003932412713766
step:  17
running loss:  0.035317249486551565
Train Steps: 17/90  Loss: 0.0353 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6197, 0.3986, 0.8800, 0.4617, 0.4188, 0.4783, 0.5687, 0.5550],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3610, -0.5678,  1.9080,  0.1425, -0.2585,  0.2075,  0.4586,  0.0328],
        [ 0.5887, -0.4187,  1.6380, -0.3694, -0.3123, -1.1082,  0.3524,  0.3063],
        [ 0.3034, -0.5894,  1.8729, -0.0846, -0.3672,  0.0066,  0.5765,  0.1857],
        [ 0.2782, -0.6576,  1.9356, -0.0492, -0.4911, -0.0651,  1.0794,  0.1156],
        [ 0.3067, -0.6011,  1.0080, -1.2048, -0.4256, -1.1716,  0.5215,  0.3087],
        [ 0.1235, -0.7251,  1.5411, -0.6893, -0.6735, -0.5725,  0.3647,  0.0733],
        [ 0.6070, -0.4165,  1.3449, -0.9162, -0.1758, -1.4343,  0.4269,  0.1630],
        [ 0.7717, -0.3102,  1.7616, -0.6037, -0.6002, -0.8472,  0.3638,  0.0585]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.5763, -0.4450,  1.7788, -0.1535, -0.3517, -0.0765,  0.3411,
           0.2776],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392],
         [ 0.5270, -0.4336,  1.3342, -0.6770, -0.6520, -0.5384,  0.2370,
           0.0592],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.618410861119628
step:  18
running loss:  0.03435615895109044

Train Steps: 18/90  Loss: 0.0344 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6092, 0.4001, 0.8638, 0.4867, 0.4288, 0.5367, 0.5484, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1828, -0.6863,  1.7455, -1.3498,  0.0840, -1.6401,  0.8802,  0.0811],
        [ 0.5804, -0.3763,  1.8545, -0.1124, -0.2649,  0.2308,  0.4292,  0.1976],
        [ 0.4637, -0.4524,  1.1475, -0.7110, -0.3402, -1.3154,  0.0892,  0.4226],
        [ 0.5057, -0.4969,  1.9738, -0.3320, -0.3745, -0.6609,  0.8750,  0.2639],
        [ 0.7743, -0.3068,  1.7448,  0.1914, -0.5778,  0.1589,  0.8097,  0.1874],
        [ 0.4554, -0.5175,  1.7897,  0.2008, -0.5382, -0.1848,  0.2942,  0.0439],
        [ 0.6566, -0.3793,  1.5341,  0.1815, -0.5751, -0.1516,  0.8652,  0.2552],
        [ 0.3685, -0.5335,  1.7676, -0.0991, -0.3964,  0.0852,  0.0582,  0.0316]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5278, -0.4377,  1.7037, -0.0380, -0.3055,  0.1929,  0.2473,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6358400098979473
step:  19
running loss:  0.033465263678839334
Train Steps: 19/90  Loss: 0.0335 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6100, 0.4071, 0.7601, 0.3444, 0.3400, 0.4117, 0.5625, 0.5617],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7286, -0.3021,  1.2757, -0.6294, -0.6770, -0.5504,  0.3182,  0.2894],
        [ 0.6831, -0.3413,  1.7177,  0.1549, -0.2115, -0.1291,  0.4543,  0.2399],
        [ 1.0485, -0.1073,  1.8392, -0.5684, -0.5598, -0.7251,  0.6200,  0.0672],
        [ 0.6044, -0.4001,  1.7955,  0.1472, -0.2306, -0.2585,  0.1774,  0.2846],
        [ 0.6464, -0.3412,  1.8233, -0.2097, -0.3579,  0.0401,  0.5192,  0.2039],
        [ 0.8227, -0.2677,  1.8455,  0.1839, -0.4548,  0.0273,  0.8990,  0.1851],
        [-1.6205, -1.8727,  1.1033, -1.1597, -0.3460, -1.5958,  0.1061,  0.0953],
        [ 0.7472, -0.3128,  1.8387,  0.1208, -0.4073,  0.0710,  1.0212,  0.2521]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3178e-01, -4.0564e-01,  1.2249e+00, -6.9494e-01, -7.1547e-01,
          -3.8445e-01,  3.1224e-01,  3.0839e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.0774e-01, -3.9646e-01,  1.8480e+00, -6.5389e-01, -6.2309e-01,
          -4.5373e-01,  6.2155e-01, -2.1963e-02],
         [ 5.5254e-01, -4.4627e-01,  1.7326e+00,  3.1255e-02, -2.5358e-01,
          -6.8822e-02,  1.9677e-01,  3.6998e-01],
         [ 5.4169e-01, -4.3549e-01,  1.8018e+00, -3.3826e-01, -3.9792e-01,
           2.6220e-01,  5.1432e-01,  2.6220e-01],
         [ 6.4212e-01, -3.6953e-01,  1.7788e+00,  2.3557e-02, -4.8453e-01,
           1.5443e-01,  1.1971e+00,  2.1955e-01],
         [-2.2859e+00, -2.2859e+00,  1.0361e+00, -1.2021e+00, -4.2102e-01,
          -1.3390e+00,  8.7067e-02,  3.2379e-01],
         [ 6.4212e-01, -3.8638e-01,  1.7961e+00,  5.4350e-02, -4.3834e-01,
           2.2371e-01,  1.2007e+00,  1.9818e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0273, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0273, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6631092224270105
step:  20
running loss:  0.033155461121350524
Train Steps: 20/90  Loss: 0.0332 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5992, -0.3980,  1.7403,  0.2467, -0.4589, -0.0764,  0.5850,  0.3452],
        [ 0.3023, -0.6008,  1.8628, -0.1265, -0.4278, -0.0498,  1.0072,  0.2887],
        [ 0.8948, -0.2468,  1.3591, -1.4355, -0.3035, -1.3032,  0.6622,  0.1346],
        [ 0.8589, -0.2448,  1.5960,  0.3670, -0.4593, -0.1402,  0.7276,  0.1638],
        [ 0.5828, -0.4151,  1.7459,  0.1039, -0.2371,  0.0888,  0.3880,  0.1641],
        [ 0.5667, -0.4005,  1.7422,  0.1350, -0.4795, -0.4804,  0.1186,  0.3531],
        [ 0.5436, -0.4430,  1.7085, -0.0783, -0.4442, -0.0420,  0.4933,  0.1895],
        [ 0.4270, -0.5031,  1.7202, -0.4630, -0.4792, -0.2533,  0.3859,  0.2487]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7696e-01, -3.9176e-01,  1.7961e+00,  1.5443e-01, -5.4804e-01,
           1.4673e-01,  4.4503e-01,  2.8530e-01],
         [ 6.4212e-01, -3.9120e-01,  1.9115e+00, -8.4219e-02, -4.7298e-01,
           1.5443e-01,  1.1824e+00,  2.0352e-01],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.5695e-01, -3.9601e-01,  1.5651e+00,  4.1617e-01, -4.6143e-01,
           7.7444e-02,  7.4375e-01,  1.4474e-01],
         [ 5.4496e-01, -4.7064e-01,  1.7643e+00,  7.2204e-02, -3.7076e-01,
           3.2001e-01,  4.8543e-01,  6.1219e-02],
         [ 5.4515e-01, -4.0670e-01,  1.7557e+00,  5.4350e-02, -4.9607e-01,
          -3.3056e-01,  1.3228e-01,  4.3063e-01],
         [ 5.4660e-01, -4.7064e-01,  1.7198e+00, -9.0292e-02, -5.7125e-01,
           1.2613e-01,  4.7328e-01,  6.8827e-02],
         [ 5.5456e-01, -4.6205e-01,  1.7788e+00, -4.2294e-01, -5.1917e-01,
          -2.2633e-02,  4.2771e-01,  2.4681e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0139, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6769989067688584
step:  21
running loss:  0.03223804317946945
Train Steps: 21/90  Loss: 0.0322 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6152, 0.4131, 0.6863, 0.2567, 0.3625, 0.3300, 0.5765, 0.5305],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6423, -0.4058,  1.3525, -1.2299, -0.0814, -1.5329,  0.4613,  0.1552],
        [ 0.3405, -0.5563,  1.0578, -0.8936, -0.5718, -0.7640,  0.4300,  0.3576],
        [ 0.5428, -0.4354,  1.0600, -0.8942, -0.3129, -1.1778,  0.3834,  0.4182],
        [ 0.7124, -0.3692,  1.7740,  0.6887, -0.4695, -0.0495,  0.6066,  0.1195],
        [ 0.4637, -0.4929,  1.9336,  0.4006, -0.5610, -0.1530,  0.5893,  0.3991],
        [ 0.6304, -0.3523,  1.9097, -0.1257, -0.4233,  0.4380,  0.6059,  0.1707],
        [ 0.7436, -0.3395,  1.3049, -1.1675, -0.4783, -1.1101,  0.5469,  0.1452],
        [ 0.1071, -0.7279,  1.7459, -0.5140, -0.5872, -0.1503,  0.7996,  0.2985]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [ 0.5557, -0.3779,  0.8838, -1.1004, -0.6115, -0.7617,  0.3769,
           0.1644],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0238, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7008060766384006
step:  22
running loss:  0.031854821665381845

Train Steps: 22/90  Loss: 0.0319 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5192, -0.4303,  1.5533, -0.5186, -0.4992,  0.2291,  0.8167,  0.2161],
        [ 0.8398, -0.2164,  1.5734, -0.2260, -0.6431, -0.7362,  0.4513,  0.3491],
        [ 0.7983, -0.2492,  1.6775, -0.1223, -0.1407,  0.0391,  0.6358,  0.2704],
        [-0.8730, -1.3414,  0.9229, -1.2942, -0.4417, -1.3333,  0.1050,  0.1558],
        [ 0.7856, -0.2575,  1.5907,  0.4904, -0.6020, -0.0994,  0.5406,  0.3689],
        [ 0.7232, -0.2932,  1.6110,  0.1631, -0.2535,  0.0306,  0.2218,  0.2326],
        [ 0.7808, -0.2383,  1.7002,  0.0022, -0.2485,  0.3157,  0.6546,  0.3287],
        [ 0.6408, -0.3928,  1.9235, -0.6045, -0.2477, -1.1302,  0.9770,  0.1677]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0592, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0592, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7600116161629558
step:  23
running loss:  0.03304398331143286
Train Steps: 23/90  Loss: 0.0330 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6867, -0.2904,  1.3013, -0.6740, -0.6040, -0.8209,  0.2258,  0.2238],
        [ 0.7138, -0.2789,  1.6832,  0.0185, -0.3824,  0.1739,  0.3402,  0.2216],
        [ 0.8082, -0.2157,  1.4416, -1.2298, -0.1667, -1.0268,  0.7925,  0.1555],
        [ 0.6891, -0.3364,  1.7066,  0.2175, -0.3908,  0.2481,  0.6137,  0.1848],
        [ 0.6694, -0.3064,  1.0297, -1.0955, -0.3065, -1.2666,  0.5156,  0.3473],
        [ 0.6522, -0.3592,  1.7807, -0.1508, -0.5552,  0.2680,  0.8259,  0.2385],
        [-1.8048, -1.9724,  0.9865, -1.1424, -0.2959, -1.4394,  0.2511,  0.3223],
        [ 0.8061, -0.2563,  1.6035,  0.4277, -0.5191, -0.0406,  0.5202,  0.2413]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5319e-01, -3.8879e-01,  1.4727e+00, -7.4627e-01, -5.5381e-01,
          -1.0465e+00,  2.6467e-02,  2.1383e-01],
         [ 5.3508e-01, -4.1527e-01,  1.7326e+00, -4.5727e-02, -2.2139e-01,
          -4.6642e-02,  4.3431e-02,  2.2284e-01],
         [ 6.1270e-01, -3.9438e-01,  1.5189e+00, -1.2467e+00, -1.3233e-01,
          -1.4622e+00,  5.6463e-01, -3.6943e-02],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04],
         [ 6.0098e-01, -3.8745e-01,  1.0570e+00, -1.3313e+00, -3.1709e-01,
          -1.4160e+00,  3.1224e-01,  3.1609e-01],
         [ 5.7460e-01, -4.7064e-01,  1.8476e+00, -2.3654e-01, -5.0683e-01,
           2.2450e-01,  6.0688e-01,  1.4491e-01],
         [-2.2859e+00, -2.2859e+00,  6.7598e-01, -1.4083e+00, -3.2864e-01,
          -1.4160e+00,  2.4873e-01,  3.4688e-01],
         [ 5.8915e-01, -4.5504e-01,  1.5132e+00,  3.5458e-01, -3.6905e-01,
          -1.5350e-01,  3.8152e-01,  1.4673e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0274, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0274, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7874013772234321
step:  24
running loss:  0.032808390717643
Train Steps: 24/90  Loss: 0.0328 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5090, -0.4777,  1.5581,  0.3141, -0.4932,  0.0368,  0.8771,  0.3633],
        [ 0.2972, -0.5898,  1.5307, -1.0487, -0.2588, -1.2857,  0.4801,  0.0661],
        [ 0.3602, -0.5758,  1.5941,  0.1848, -0.5014,  0.1306,  0.7942,  0.2363],
        [ 0.6912, -0.3386,  1.7118, -0.7506, -0.3744, -1.1410,  0.4392,  0.1324],
        [ 0.4615, -0.4464,  1.5727,  0.1339, -0.2828,  0.2632,  0.0648,  0.2474],
        [ 0.6099, -0.3904,  0.9968, -1.2696, -0.4457, -0.9995,  0.4334,  0.2862],
        [ 0.7335, -0.3144,  1.1439, -1.0194, -0.5125, -0.8689,  0.5599,  0.4064],
        [ 0.5387, -0.4068,  1.7121, -0.0485, -0.3344,  0.5094,  0.5716,  0.2331]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.6128, -0.3828,  1.7499, -0.8386, -0.3344, -1.2620,  0.5792,
          -0.0263],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8001020578667521
step:  25
running loss:  0.032004082314670085
Train Steps: 25/90  Loss: 0.0320 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7484, -0.2701,  0.9943, -1.1130, -0.4974, -0.8206,  0.6677,  0.3461],
        [ 0.5576, -0.4452,  1.8740, -0.1048, -0.5938, -0.3413,  0.9014,  0.0819],
        [ 0.8929, -0.1953,  1.1599, -0.9577, -0.4125, -0.6735,  0.6857,  0.4512],
        [ 0.9197, -0.1350,  1.6207, -0.0053, -0.5782, -0.4007,  0.4676,  0.3432],
        [ 0.7223, -0.2809,  1.6813,  0.0196, -0.0342,  0.1632,  0.1919,  0.1328],
        [ 0.5366, -0.4327,  1.7118, -0.0477, -0.3475,  0.1408,  0.4257,  0.2003],
        [-1.7881, -1.9381,  1.0119, -1.3121, -0.1923, -1.0895,  0.3048,  0.1346],
        [ 0.8429, -0.1873,  1.6756, -0.1547, -0.6246, -0.4101,  0.2499,  0.1570]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0233, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0233, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.823372888378799
step:  26
running loss:  0.03166818801456919

Train Steps: 26/90  Loss: 0.0317 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6118, 0.4052, 0.8463, 0.3917, 0.3538, 0.3450, 0.5053, 0.5593]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.5652e-01, -2.7539e-01,  1.5621e+00,  1.8410e-01, -5.1502e-01,
         -3.3857e-01,  3.6783e-01,  2.5592e-01],
        [ 7.1403e-01, -3.2540e-01,  1.6967e+00, -5.6145e-01, -5.9954e-01,
         -3.0913e-01,  7.2090e-01,  7.3376e-02],
        [ 8.6360e-01, -2.0367e-01,  1.3451e+00, -1.1514e+00, -1.1073e-02,
         -1.2515e+00,  5.7336e-01,  1.6534e-01],
        [ 7.4604e-01, -2.7205e-01,  1.5418e+00,  1.2414e-01, -3.3964e-01,
          4.4680e-01,  3.2297e-01,  3.0321e-01],
        [ 5.8184e-01, -4.4765e-01,  1.8961e+00, -3.1615e-01, -2.8393e-01,
         -6.9362e-01,  1.0925e+00,  1.8052e-01],
        [-1.9204e+00, -2.0319e+00,  8.3474e-01, -1.2677e+00, -4.0795e-01,
         -1.1218e+00,  1.0736e-01,  1.9626e-01],
        [ 5.2281e-01, -4.1657e-01,  1.1166e+00, -1.1776e+00, -5.2418e-01,
         -6.1399e-01,  5.6810e-01,  2.8002e-01],
        [ 7.1040e-01, -2.8060e-01,  1.4571e+00, -4.6101e-01, -5.9290e-01,
         -4.6358e-01, -8.6606e-04,  2.7863e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9013e-01, -4.1570e-01,  1.7557e+00,  1.9292e-01, -5.4226e-01,
          -5.9230e-01,  3.5843e-01,  1.6982e-01],
         [ 6.0710e-01, -4.1186e-01,  1.7788e+00, -5.1532e-01, -6.0000e-01,
          -5.6921e-01,  6.5857e-01, -6.7050e-02],
         [ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04],
         [ 5.4428e-01, -3.8399e-01,  1.7095e+00,  6.2048e-02, -3.9792e-01,
           1.9292e-01,  1.6218e-01,  2.3412e-01],
         [ 6.2236e-01, -4.3453e-01,  1.9404e+00, -2.9207e-01, -3.1709e-01,
          -8.7714e-01,  1.0655e+00,  2.1421e-01],
         [-2.2859e+00, -2.2859e+00,  8.5162e-01, -1.3112e+00, -4.3256e-01,
          -1.2851e+00,  7.5520e-02,  2.9299e-01],
         [ 5.7296e-01, -4.5619e-01,  1.2195e+00, -1.2440e+00, -5.4966e-01,
          -7.7109e-01,  5.7045e-01,  1.7788e-01],
         [ 5.3990e-01, -4.1424e-01,  1.6229e+00, -4.7683e-01, -6.5196e-01,
          -6.9238e-01,  4.8058e-02,  2.9724e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0186, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8419636627659202
step:  27
running loss:  0.031183839361700747
Train Steps: 27/90  Loss: 0.0312 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6225, -0.3881,  1.5662, -0.0781, -0.2772,  0.1189,  0.2225,  0.0775],
        [ 0.9844, -0.1379,  1.7062, -0.6037, -0.4731,  0.3303,  0.7703,  0.1002],
        [ 0.7208, -0.3073,  1.5178,  0.1953, -0.3616, -0.4154,  0.4075,  0.4878],
        [ 0.6547, -0.3556,  1.4913,  0.1435, -0.2581, -0.0428,  0.4009,  0.1827],
        [ 0.3554, -0.5601,  1.6440, -0.4274, -0.5485, -0.4182,  0.5138,  0.2277],
        [ 0.4400, -0.5040,  1.6787, -0.3374, -0.5218, -0.4229,  0.8214,  0.1786],
        [ 0.3061, -0.5993,  1.7038, -0.4087, -0.4780, -0.3626,  0.3291,  0.2741],
        [ 0.5325, -0.4226,  1.4472, -0.5124, -0.4933, -0.2613,  0.2442,  0.2672]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0205, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8624861231073737
step:  28
running loss:  0.030803075825263346
Train Steps: 28/90  Loss: 0.0308 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1548, -0.6666,  1.0475, -1.1813, -0.3556, -1.3011,  0.2236,  0.2432],
        [ 0.7615, -0.3281,  1.7192,  0.2027, -0.5713, -0.0331,  0.7117,  0.0804],
        [ 0.5163, -0.4591,  1.4358, -1.4274, -0.3775, -1.1807,  0.6925,  0.0060],
        [ 0.6276, -0.3860,  1.7572, -0.2639, -0.3414,  0.2167,  0.4277,  0.1755],
        [ 0.3829, -0.5351,  1.7428, -0.1622, -0.5477, -0.1566,  0.4544,  0.1677],
        [ 0.5205, -0.4734,  1.5797,  0.3457, -0.2694,  0.0125,  0.0688,  0.0827],
        [ 0.3644, -0.5406,  1.6827, -0.2990, -0.5216, -0.1021,  0.4127,  0.3489],
        [ 0.4920, -0.4392,  1.0327, -1.2483, -0.3211, -1.2385,  0.4642,  0.4751]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6518e-01, -3.8584e-01,  1.0975e+00, -1.1312e+00, -3.4018e-01,
          -1.4006e+00,  1.7945e-01,  3.4688e-01],
         [ 6.1484e-01, -4.1301e-01,  1.6864e+00,  1.6982e-01, -5.3072e-01,
          -1.1501e-01,  6.1247e-01,  8.5142e-02],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 5.4990e-01, -4.2249e-01,  1.8018e+00, -2.9207e-01, -3.0554e-01,
           5.4350e-02,  4.0462e-01,  2.6990e-01],
         [ 5.8655e-01, -3.9731e-01,  1.8423e+00, -6.8822e-02, -5.1917e-01,
          -2.3048e-01,  4.1617e-01,  1.1594e-01],
         [ 5.1928e-01, -4.6990e-01,  1.5767e+00,  4.0077e-01, -2.4203e-01,
           7.7444e-02,  1.1776e-01, -6.1038e-02],
         [ 5.7003e-01, -4.0316e-01,  1.7961e+00, -1.9969e-01, -5.2494e-01,
          -2.1509e-01,  3.8152e-01,  3.1609e-01],
         [ 5.6871e-01, -4.0878e-01,  1.0397e+00, -1.1466e+00, -3.1132e-01,
          -1.1928e+00,  4.6813e-01,  5.8553e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.872529580257833
step:  29
running loss:  0.030087226905442518

Train Steps: 29/90  Loss: 0.0301 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5629, -0.4008,  1.1536, -0.9999, -0.5741, -0.8104,  0.1382,  0.2250],
        [ 0.6017, -0.3874,  1.4440, -1.0393, -0.1726, -1.3285,  0.5830,  0.1753],
        [ 0.9206, -0.2273,  1.5587,  0.5413, -0.6123,  0.1463,  0.4333,  0.0461],
        [ 0.4372, -0.4923,  1.6003, -1.1577,  0.0245, -1.0948,  1.0326,  0.1909],
        [ 0.4308, -0.4589,  1.1894, -0.9453, -0.4832, -0.9390,  0.0674,  0.2499],
        [ 0.9319, -0.1536,  1.6204, -0.4210, -0.6550,  0.0903,  0.3071,  0.1912],
        [-1.7346, -1.9065,  1.4397, -1.1808,  0.0347, -1.2153,  0.9088,  0.3061],
        [ 0.4637, -0.4995,  1.7508, -0.1255, -0.5554, -0.0794,  0.1084,  0.0721]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0269, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0269, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8993881745263934
step:  30
running loss:  0.029979605817546447
Train Steps: 30/90  Loss: 0.0300 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5029, -0.4627,  1.8340, -1.0026, -0.1339, -1.6149,  0.6156,  0.0087],
        [ 0.5740, -0.4009,  1.7582, -0.1699, -0.1234, -0.0320,  0.4125,  0.2843],
        [ 0.6356, -0.3398,  1.7359, -0.1383, -0.2639,  0.2198,  0.3052,  0.1666],
        [ 0.3308, -0.5629,  0.8794, -1.2483, -0.5392, -1.3448,  0.4178,  0.3191],
        [ 0.4581, -0.5044,  1.5836, -0.5473, -0.7216, -0.5668,  0.2383,  0.0167],
        [ 0.6568, -0.3957,  1.7078,  0.0030, -0.3137,  0.0374,  0.8280,  0.2264],
        [ 0.3297, -0.5640,  1.5501, -0.0372, -0.3852, -0.0481,  0.0236,  0.2139],
        [ 0.3091, -0.5670,  1.4527, -0.6382, -0.6001, -0.0085,  0.4038,  0.2477]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9131455309689045
step:  31
running loss:  0.02945630745060982
Train Steps: 31/90  Loss: 0.0295 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.5724e-01, -3.3551e-01,  1.7339e+00, -1.7214e-01, -5.4087e-01,
         -5.7657e-01, -7.2407e-04,  3.0961e-01],
        [ 6.4453e-01, -3.8119e-01,  1.4042e+00, -9.6262e-01, -4.7842e-01,
         -6.2890e-01,  3.6548e-01,  2.1259e-01],
        [ 5.3622e-01, -4.3840e-01,  1.4795e+00, -8.7511e-01, -5.5252e-01,
         -4.6950e-01,  5.1470e-01,  2.1833e-01],
        [ 7.7063e-01, -3.1686e-01,  1.7194e+00,  3.5740e-01, -4.2742e-01,
         -1.5771e-02,  7.1987e-01,  9.3308e-02],
        [-9.5819e-01, -1.3890e+00,  1.2376e+00, -9.8477e-01, -3.6917e-01,
         -1.1233e+00,  1.0399e-01,  3.1658e-01],
        [ 2.9942e-01, -5.8920e-01,  1.5002e+00, -1.1685e+00, -1.3334e-01,
         -1.4075e+00,  5.3227e-01,  5.6465e-02],
        [ 5.8947e-01, -4.2299e-01,  1.2521e+00, -1.2410e+00, -3.8749e-01,
         -1.2859e+00,  3.7489e-01,  5.9306e-02],
        [ 6.0614e-01, -4.2630e-01,  1.8852e+00, -1.1434e-01, -4.4070e-01,
          1.6359e-01,  5.1914e-01,  5.1127e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4544e-01, -4.0531e-01,  1.6633e+00, -1.7660e-01, -6.0577e-01,
          -5.9230e-01,  1.5773e-01,  4.3570e-01],
         [ 5.9601e-01, -3.8879e-01,  1.4840e+00, -1.0095e+00, -6.1155e-01,
          -6.2309e-01,  4.7968e-01,  3.4688e-01],
         [ 5.9319e-01, -3.9615e-01,  1.4554e+00, -9.2333e-01, -6.4042e-01,
          -4.9222e-01,  4.9122e-01,  1.1594e-01],
         [ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [-2.2859e+00, -2.2859e+00,  1.2303e+00, -7.8476e-01, -4.2102e-01,
          -1.1158e+00,  2.2564e-01,  3.7768e-01],
         [ 6.0577e-01, -3.8922e-01,  1.4208e+00, -1.0927e+00, -1.8430e-01,
          -1.4237e+00,  6.1538e-01, -3.6992e-02],
         [ 5.7067e-01, -4.1886e-01,  1.2707e+00, -1.2467e+00, -4.0947e-01,
          -1.3082e+00,  3.7575e-01,  9.2841e-02],
         [ 6.0716e-01, -4.2471e-01,  1.8711e+00, -8.4219e-02, -5.3072e-01,
           1.0054e-01,  6.7707e-01, -8.2079e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0478, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0478, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9609342403709888
step:  32
running loss:  0.0300291950115934
Train Steps: 32/90  Loss: 0.0300 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5655, -0.4276,  1.7582, -0.6235, -0.6276, -0.6743,  0.5222,  0.1137],
        [ 0.6222, -0.3659,  1.6961,  0.1163, -0.4128, -0.2092,  0.3120,  0.3234],
        [ 0.3312, -0.5525,  1.7061, -0.5412, -0.6122, -0.6128,  0.1507,  0.2349],
        [ 0.4998, -0.4658,  1.7805, -0.3142, -0.5496, -0.0170,  0.4519,  0.0428],
        [ 0.2381, -0.6250,  1.6805, -0.2034, -0.1010, -0.1950, -0.0042,  0.2027],
        [ 0.6927, -0.3407,  1.6134, -0.0583, -0.2813,  0.0023,  0.7085,  0.1154],
        [ 0.3413, -0.5539,  1.7100, -0.2173, -0.0598, -0.2415, -0.0140,  0.1867],
        [ 0.9364, -0.1751,  1.8455, -0.3379, -0.5334, -0.3309,  0.9051,  0.1270]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.6072, -0.4247,  1.8711, -0.0842, -0.5307,  0.1005,  0.6771,
          -0.0821],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9831647351384163
step:  33
running loss:  0.02979287076177019

Train Steps: 33/90  Loss: 0.0298 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6268, 0.4102, 0.8938, 0.3667, 0.4025, 0.2833, 0.6275, 0.5183],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6075, 0.4000, 0.8513, 0.5183, 0.4510, 0.5329, 0.5180, 0.5280]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5627, -0.4001,  1.8025, -0.3814, -0.5554, -0.0953,  0.4415,  0.3466],
        [ 0.5360, -0.4458,  1.7127,  0.1136, -0.3603,  0.2607,  0.8678,  0.2304],
        [ 0.6083, -0.3793,  1.3611, -1.2816, -0.2590, -1.5712,  0.4258,  0.0313],
        [ 0.1714, -0.6622,  1.6124,  0.1800, -0.4743, -0.0086,  0.1030,  0.1615],
        [ 0.3095, -0.5768,  1.9215, -0.7524, -0.3930, -1.1578,  0.5276,  0.1364],
        [ 0.6881, -0.3396,  1.8548, -0.0897, -0.3718,  0.2349,  0.6835,  0.0806],
        [ 0.4803, -0.4402,  1.0330, -1.1984, -0.4795, -1.2689,  0.0921,  0.2523],
        [ 0.4115, -0.4979,  1.7126,  0.0244, -0.1545,  0.0139, -0.0112,  0.0896]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.6092, -0.3913,  1.8423, -0.5923, -0.4268, -0.9772,  0.6125,
           0.1082],
         [ 0.5990, -0.4256,  1.7499, -0.0380, -0.3979,  0.3315,  0.6529,
           0.1159],
         [ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.5202, -0.4382,  1.6460,  0.1082, -0.2029,  0.1754,  0.1067,
           0.1530]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0109, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0109, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.994059644639492
step:  34
running loss:  0.029237048371749765
Train Steps: 34/90  Loss: 0.0292 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6201, 0.4102, 0.7288, 0.2417, 0.4150, 0.2383, 0.6100, 0.5500],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5234, -0.4664,  1.8526, -0.3534, -0.4182, -0.0822,  0.6591,  0.2142],
        [ 0.4352, -0.4940,  1.8282, -0.9907, -0.0305, -1.4398,  0.5311,  0.0966],
        [ 0.8282, -0.2346,  1.2444, -1.2653, -0.4695, -1.2162,  0.1952,  0.1267],
        [ 0.4458, -0.5179,  1.8325,  0.1580, -0.5393, -0.1276,  0.4210,  0.1183],
        [ 0.3377, -0.5294,  1.3695, -1.2153, -0.4092, -1.1784,  0.1472,  0.2982],
        [ 0.3720, -0.5473,  1.8003,  0.0639, -0.3505,  0.3625,  0.4583,  0.2098],
        [ 0.4163, -0.5423,  1.5022,  0.1460, -0.4588, -0.0288,  0.5502,  0.1593],
        [ 0.4728, -0.4942,  1.9267, -0.1118, -0.4895, -0.0021,  0.5690,  0.1152]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.5784, -0.3913,  1.0801, -1.1697, -0.3691, -1.1851,  0.5316,
           0.2545],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0352, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0292295143008232
step:  35
running loss:  0.029406557551452092
Train Steps: 35/90  Loss: 0.0294 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6034, -0.4226,  1.7620,  0.0535, -0.4684, -0.2611,  0.4431,  0.1771],
        [ 0.3709, -0.5737,  1.6665,  0.0294, -0.3556, -0.0046,  0.5314,  0.1333],
        [ 0.6214, -0.4068,  1.9044, -0.2927, -0.4045, -0.1387,  0.9449,  0.1900],
        [ 0.4604, -0.4612,  1.8500, -0.3535, -0.5022, -0.5301,  0.0546,  0.1342],
        [ 0.7181, -0.2917,  1.3510, -1.4534, -0.4692, -0.9523,  0.3789,  0.0521],
        [ 0.6420, -0.3510,  1.8920, -0.1968, -0.3205, -0.5772,  0.5890,  0.1643],
        [ 0.5143, -0.4038,  1.8072, -0.4124, -0.4635, -0.6016,  0.2431,  0.3779],
        [ 0.3334, -0.5918,  1.6142,  0.2640, -0.4179, -0.0050,  0.4461,  0.1309]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.044245726428926
step:  36
running loss:  0.029006825734136835
Train Steps: 36/90  Loss: 0.0290 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6509, -0.3897,  1.9019, -0.1008, -0.3962, -0.0111,  1.1013,  0.1596],
        [ 0.8432, -0.2382,  1.8771, -0.3779, -0.3931,  0.3015,  0.7711,  0.0823],
        [ 0.4317, -0.4885,  1.8653, -0.3814, -0.5239, -0.7898,  0.4372,  0.1703],
        [ 0.5510, -0.3753,  1.7102, -0.2932, -0.5679, -0.6029,  0.1613,  0.2940],
        [ 0.6017, -0.4021,  1.8899,  0.1966, -0.5129, -0.6484,  0.6649, -0.0689],
        [ 0.0397, -0.6923,  1.1594, -0.9537, -0.5354, -1.0902,  0.1489,  0.3543],
        [ 0.4427, -0.4832,  1.5935, -0.3385, -0.4276, -0.2279,  0.1961,  0.2921],
        [ 0.6207, -0.3919,  1.8145, -0.1962, -0.0353,  0.1292,  0.5811,  0.2452]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.5886, -0.4253,  1.8654, -0.3460, -0.5480,  0.3623,  0.6587,
           0.1005],
         [ 0.5788, -0.4135,  1.8214, -0.2408, -0.6039, -0.7854,  0.4115,
           0.2203],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0570316752418876
step:  37
running loss:  0.02856842365518615

Train Steps: 37/90  Loss: 0.0286 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4441, -0.4830,  1.6680, -1.0800, -0.2465, -1.0681,  0.7556,  0.2798],
        [ 0.1950, -0.6115,  1.0745, -1.2398, -0.6409, -0.9222,  0.2341,  0.2288],
        [ 0.6605, -0.4018,  2.1028, -0.1091, -0.3462, -0.7841,  0.9333,  0.0228],
        [ 0.7723, -0.3271,  1.7699,  0.2168, -0.3638,  0.3681,  0.7759,  0.0680],
        [ 0.7062, -0.3003,  1.1744, -1.1470, -0.4890, -0.9774,  0.3316,  0.2041],
        [ 0.5624, -0.4178,  1.6652,  0.5979, -0.2604, -0.0412,  0.2334,  0.3466],
        [ 0.0958, -0.7478,  1.8266, -0.7130, -0.0486, -0.9561,  0.8954,  0.2009],
        [ 0.1288, -0.6920,  1.6375, -0.5932, -0.7722, -0.3912,  0.4008,  0.1899]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0323, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0323, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.089333820156753
step:  38
running loss:  0.028666679477809293
Train Steps: 38/90  Loss: 0.0287 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083],
        [0.6087, 0.3951, 0.8387, 0.5833, 0.4188, 0.4933, 0.5146, 0.4830],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 8.8443e-01, -1.9540e-01,  1.8931e+00,  8.7475e-02, -4.4813e-01,
          1.6257e-03,  6.1814e-01, -9.2434e-03],
        [ 5.0552e-01, -3.8126e-01,  1.2175e+00, -1.0401e+00, -1.1707e-01,
         -1.3590e+00,  5.7183e-01,  4.3613e-01],
        [ 8.3590e-01, -2.1532e-01,  1.6410e+00,  2.7475e-01, -4.1388e-01,
         -1.0416e-01,  7.4442e-01,  4.3882e-01],
        [ 7.6310e-01, -2.6186e-01,  1.6897e+00, -2.8506e-01, -4.8278e-01,
         -1.4364e-01,  4.4101e-01,  2.6590e-01],
        [ 8.4191e-01, -2.4302e-01,  1.9611e+00, -4.4580e-01, -6.0415e-01,
         -6.3684e-01,  6.8879e-01,  9.6068e-03],
        [ 8.2173e-01, -2.3409e-01,  1.7656e+00,  4.0293e-01, -3.2369e-01,
          5.4397e-02,  5.1337e-01,  2.0862e-02],
        [-2.3548e+00, -2.3337e+00,  1.3308e+00, -7.7752e-01, -6.2998e-01,
         -7.0770e-01,  5.5572e-01,  2.3119e-01],
        [ 8.9218e-01, -1.8210e-01,  1.3559e+00, -9.9058e-01, -5.4404e-01,
         -8.9048e-01,  3.4451e-01,  9.2592e-03]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5326, -0.4390,  1.7557,  0.0851, -0.5192, -0.0919,  0.3180,
           0.0620],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620],
         [ 0.5258, -0.4610,  1.5882,  0.4085, -0.3517, -0.0072,  0.0910,
          -0.0550],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0324, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0324, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1217780141159892
step:  39
running loss:  0.028763538823486902
Train Steps: 39/90  Loss: 0.0288 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6440, -0.3332,  1.7672, -0.0498, -0.3202,  0.0893,  0.1455,  0.0761],
        [ 0.5725, -0.4177,  1.4867,  0.1828, -0.4769, -0.0204,  1.0719,  0.2339],
        [ 0.5976, -0.4119,  1.8482, -0.3967, -0.5806, -0.0978,  0.7626,  0.1046],
        [ 0.4039, -0.4856,  1.5727, -0.4861, -0.6485, -0.5054,  0.4126,  0.3674],
        [ 0.8189, -0.2302,  1.6996,  0.4369, -0.4249, -0.1943,  0.2815,  0.3349],
        [ 0.6293, -0.3363,  1.3477, -1.3669, -0.4102, -1.0134,  0.5384,  0.2066],
        [ 0.5771, -0.4255,  1.9855, -0.3066, -0.2413, -0.5252,  1.0077,  0.2510],
        [ 0.0591, -0.7700,  1.8177,  0.0866, -0.3968, -0.5449,  0.8709,  0.1763]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0169, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0169, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1386554995551705
step:  40
running loss:  0.028466387488879263
Train Steps: 40/90  Loss: 0.0285 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6078, -0.3606,  1.5451, -0.5208, -0.7137, -0.4924,  0.4499,  0.2869],
        [ 0.7464, -0.3133,  1.7544,  0.2531, -0.5698, -0.1807,  1.0396,  0.2625],
        [ 0.3502, -0.5323,  1.8783, -0.4356, -0.3516, -1.3380,  0.7168,  0.1584],
        [ 0.4409, -0.4870,  1.5813, -0.2868, -0.5962, -0.1480,  0.2479,  0.2000],
        [ 0.5728, -0.4096,  1.6914, -0.2556, -0.5003,  0.0082,  0.4210,  0.1230],
        [ 0.3514, -0.5419,  1.7136,  0.0634, -0.1271, -0.0333,  0.4373,  0.2821],
        [ 0.8080, -0.2471,  1.7488, -0.1996, -0.3355,  0.0799,  0.5897,  0.2356],
        [ 0.6162, -0.4141,  1.7027,  0.1096, -0.3821,  0.1523,  1.0530,  0.2057]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1536407247185707
step:  41
running loss:  0.028137578651672455

Train Steps: 41/90  Loss: 0.0281 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8460, -0.2558,  1.8253,  0.0117, -0.2213, -0.0403,  0.4005,  0.2357],
        [ 0.7772, -0.2915,  1.8138,  0.0177, -0.2384,  0.2574,  0.7008,  0.2388],
        [ 0.4894, -0.4668,  1.1931, -1.0988, -0.6886, -0.7637,  0.4019,  0.1059],
        [ 0.4321, -0.5275,  1.7577,  0.3191, -0.4827, -0.1046,  0.5689,  0.3247],
        [ 0.0895, -0.7132,  1.6919,  0.1463, -0.7607, -0.6208,  0.4622,  0.2670],
        [ 0.5809, -0.4362,  1.8019,  0.0882, -0.4585,  0.2636,  1.0704,  0.2819],
        [ 0.4095, -0.5098,  1.3689, -1.2173, -0.2903, -1.4032,  0.7033,  0.1959],
        [ 0.7698, -0.3002,  1.7510,  0.2490, -0.5625,  0.0499,  0.6418,  0.3161]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.7090e-01, -3.9330e-01,  1.7961e+00, -2.2633e-02, -1.9007e-01,
           3.9307e-01,  6.1824e-01,  2.0831e-01],
         [ 5.0092e-01, -4.3333e-01,  1.1090e+00, -1.1158e+00, -6.9815e-01,
          -7.3087e-01,  2.6170e-01,  6.2199e-02],
         [ 5.8834e-01, -3.5935e-01,  1.7557e+00,  2.5450e-01, -4.1524e-01,
          -6.1124e-02,  3.3533e-01,  3.0069e-01],
         [ 5.6966e-01, -4.5138e-01,  1.7420e+00,  2.6720e-01, -6.0553e-01,
          -6.3118e-01,  3.4489e-01,  2.0578e-01],
         [ 6.2072e-01, -4.2731e-01,  1.7557e+00,  2.3557e-02, -4.3256e-01,
           3.6228e-01,  1.0033e+00,  3.1574e-01],
         [ 6.1577e-01, -4.2249e-01,  1.3307e+00, -1.3253e+00, -1.9244e-01,
          -1.3252e+00,  6.7213e-01,  1.7271e-01],
         [ 5.7696e-01, -3.9176e-01,  1.7961e+00,  1.5443e-01, -5.4804e-01,
           1.4673e-01,  4.4503e-01,  2.8530e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0151, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0151, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.168755921535194
step:  42
running loss:  0.027827521941314142
Train Steps: 42/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.3789, -2.3153,  1.4070, -1.0507, -0.0678, -1.0513,  0.8482,  0.3953],
        [ 0.8099, -0.2315,  1.6563, -0.7828, -0.4231, -0.8245,  0.5477,  0.2148],
        [ 0.8783, -0.2303,  1.5719,  0.3158, -0.5748,  0.1391,  0.9184,  0.1658],
        [ 0.7176, -0.2993,  1.4880, -0.9552, -0.0990, -1.3317,  0.5871,  0.2044],
        [ 0.6668, -0.3495,  1.7761,  0.3125, -0.7050, -0.3645,  0.2513,  0.0879],
        [ 0.7174, -0.3138,  1.5611, -0.6533, -0.6790, -0.3239,  0.7629,  0.2343],
        [ 0.6578, -0.3283,  1.6729,  0.4010, -0.5496,  0.0428,  0.5500,  0.2054],
        [ 0.7935, -0.2433,  0.9686, -1.1348, -0.4325, -1.1478,  0.3664,  0.3375]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  1.7210e+00, -9.7721e-01,  1.8522e-01,
          -1.3698e+00,  7.9859e-01,  3.1039e-01],
         [ 5.7904e-01, -4.0308e-01,  1.6915e+00, -9.5640e-01, -4.1518e-01,
          -1.1063e+00,  4.4251e-01,  2.5281e-01],
         [ 6.1907e-01, -4.2971e-01,  1.4612e+00,  2.3911e-01, -4.9607e-01,
           3.1255e-02,  1.1166e+00,  1.7680e-01],
         [ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04],
         [ 5.3788e-01, -4.3580e-01,  1.7326e+00,  1.8522e-01, -6.0577e-01,
          -5.4611e-01,  6.8408e-02, -3.0981e-02],
         [ 5.6966e-01, -4.5379e-01,  1.5308e+00, -8.7027e-01, -6.5720e-01,
          -3.6388e-01,  5.7392e-01,  1.5759e-01],
         [ 6.1149e-01, -3.7244e-01,  1.7557e+00,  3.4688e-01, -4.4411e-01,
          -1.0731e-01,  4.9122e-01,  2.3911e-01],
         [ 5.2315e-01, -4.1886e-01,  9.3580e-01, -1.4006e+00, -3.9215e-01,
          -1.3698e+00,  2.5553e-01,  2.9064e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0226, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0226, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1913132583722472
step:  43
running loss:  0.027704959497029006
Train Steps: 43/90  Loss: 0.0277 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7687, -0.3415,  1.8001, -0.9061,  0.0913, -1.0675,  1.0970,  0.1657],
        [ 0.6264, -0.3643,  1.4945,  0.0356, -0.5496, -0.5861,  0.2921,  0.4837],
        [ 0.4643, -0.4759,  1.1842, -1.0252, -0.4246, -1.0295,  0.3400,  0.2287],
        [ 0.8361, -0.2656,  1.6420, -0.5933, -0.7136, -0.2909,  0.6242,  0.2097],
        [ 0.8740, -0.2414,  1.6095,  0.5303, -0.4926,  0.1541,  0.4730,  0.3609],
        [ 0.6245, -0.4205,  1.4561, -1.2001, -0.3846, -1.1205,  0.6975,  0.0619],
        [ 1.0365, -0.1871,  1.9594,  0.1347, -0.6793, -0.2144,  0.7839,  0.0429],
        [-2.2615, -2.2909,  1.0155, -0.9692, -0.4837, -1.0926,  0.3438,  0.3451]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.2072e-01, -3.9360e-01,  1.7788e+00, -1.1235e+00,  1.4480e-01,
          -1.0850e+00,  1.1459e+00,  1.9818e-01],
         [ 6.0687e-01, -3.3095e-01,  1.3742e+00, -1.4927e-01, -5.3649e-01,
          -9.5412e-01,  2.8843e-01,  5.0705e-01],
         [ 5.7460e-01, -4.1527e-01,  1.0917e+00, -1.1620e+00, -4.0370e-01,
          -1.3082e+00,  3.2339e-01,  3.2671e-01],
         [ 5.7794e-01, -4.2748e-01,  1.5894e+00, -8.3617e-01, -6.5774e-01,
          -5.1532e-01,  5.6051e-01,  2.0062e-01],
         [ 6.1339e-01, -3.9099e-01,  1.4497e+00,  3.5458e-01, -3.5173e-01,
          -9.1917e-02,  3.2956e-01,  5.2394e-01],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 6.3718e-01, -4.1286e-01,  1.8942e+00, -7.6520e-02, -6.1732e-01,
          -4.7683e-01,  6.9989e-01,  3.2524e-02],
         [-2.2859e+00, -2.2859e+00,  1.0712e+00, -1.2085e+00, -3.8060e-01,
          -1.3929e+00,  7.5520e-02,  2.0062e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2166265537962317
step:  44
running loss:  0.027650603495368905

Train Steps: 44/90  Loss: 0.0277 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3303, -0.6281,  1.9273, -0.1490, -0.3484, -0.8306,  1.1438,  0.2584],
        [ 0.4734, -0.4978,  1.7926, -0.0348, -0.6413, -0.0802,  0.6553,  0.2107],
        [ 0.5969, -0.3857,  1.6875, -0.2029, -0.6595, -0.4201,  0.2257,  0.2553],
        [ 0.5582, -0.4341,  1.7493,  0.0950, -0.6047, -0.2364,  0.6304,  0.2153],
        [ 0.9523, -0.1903,  1.3590, -1.0891, -0.0964, -1.3481,  0.5336,  0.0817],
        [ 0.5434, -0.4403,  1.5534,  0.2962, -0.5464, -0.3564,  0.3453,  0.4208],
        [ 0.6677, -0.3801,  1.7239, -0.2702, -0.4015,  0.3340,  0.7229,  0.3309],
        [ 0.0454, -0.7430,  0.8856, -1.2511, -0.3786, -1.2249,  0.1690,  0.3114]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.5544, -0.4133,  0.8145, -1.2082, -0.4268, -1.3544,  0.1221,
           0.3446]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2349761677905917
step:  45
running loss:  0.027443914839790928
Train Steps: 45/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6229, 0.4066, 0.7612, 0.2967, 0.4250, 0.2167, 0.5925, 0.5350],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9098, -0.2486,  1.7183,  0.3586, -0.4905, -0.0874,  0.6515,  0.0615],
        [ 0.8520, -0.2772,  1.7976, -0.0532, -0.5135, -0.2319,  0.7554,  0.2187],
        [ 0.7001, -0.3704,  1.6785,  0.3245, -0.5234, -0.0619,  0.8263,  0.1866],
        [ 0.9059, -0.2046,  1.4341, -1.0454, -0.3405, -1.1364,  0.4722,  0.2305],
        [ 0.4765, -0.4984,  1.7903, -0.3978, -0.5214,  0.2342,  0.6698,  0.2583],
        [ 0.7447, -0.3002,  1.2680, -1.0002, -0.2925, -1.2363,  0.4049,  0.2539],
        [ 0.6188, -0.3739,  1.7510, -0.1212, -0.6343, -0.6131,  0.1172,  0.2812],
        [-1.8595, -2.0222,  1.0496, -1.0688, -0.3478, -1.2907,  0.3034,  0.3780]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.3949e-01, -4.2132e-01,  1.7037e+00,  3.6228e-01, -4.3256e-01,
          -1.0731e-01,  6.5602e-01, -4.8817e-03],
         [ 6.0754e-01, -4.5138e-01,  1.8032e+00, -8.2167e-02, -5.0606e-01,
          -2.0228e-01,  6.2076e-01,  1.7788e-01],
         [ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [ 5.7962e-01, -3.8776e-01,  1.3688e+00, -1.0542e+00, -4.0947e-01,
          -1.1312e+00,  5.8938e-01,  1.9292e-01],
         [ 5.8857e-01, -4.2525e-01,  1.8654e+00, -3.4596e-01, -5.4804e-01,
           3.6228e-01,  6.5866e-01,  1.0054e-01],
         [ 5.9107e-01, -4.0805e-01,  1.2303e+00, -9.1563e-01, -3.2286e-01,
          -1.2851e+00,  4.5081e-01,  1.8522e-01],
         [ 5.4434e-01, -3.9938e-01,  1.7499e+00, -1.2271e-01, -6.1732e-01,
          -5.7691e-01,  4.8756e-03,  2.0706e-01],
         [-2.2859e+00, -2.2859e+00,  1.0712e+00, -1.2085e+00, -3.8060e-01,
          -1.3929e+00,  7.5520e-02,  2.0062e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0147, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0147, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2496287617832422
step:  46
running loss:  0.027165842647461788
Train Steps: 46/90  Loss: 0.0272 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6357, 0.4097, 0.9038, 0.3883, 0.4213, 0.2950, 0.6686, 0.5390],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6078, -0.4097,  1.7259, -0.0724, -0.5862, -0.7533,  0.3447,  0.1366],
        [ 0.5774, -0.4651,  1.8405, -0.4214, -0.6620, -0.7016,  0.6259,  0.1238],
        [ 0.5436, -0.4845,  1.7181, -0.5656, -0.4144, -0.8562,  0.7794,  0.1202],
        [ 0.5757, -0.4130,  1.6117,  0.2724, -0.5682, -0.5975,  0.3891,  0.3914],
        [ 0.5848, -0.4938,  1.6619, -1.2172,  0.1144, -1.1763,  1.1502,  0.1497],
        [ 0.5044, -0.4762,  1.2517, -0.6019, -0.6974, -0.6827,  0.2724,  0.4284],
        [ 0.3666, -0.5354,  1.0874, -0.8050, -0.0549, -1.2401,  0.2733,  0.4696],
        [-0.0309, -0.8409,  1.6236, -0.3864, -0.3763,  0.3611,  0.4533,  0.2188]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.6504, -0.3936,  1.8885, -0.4922, -0.3402, -0.9233,  0.8022,
           0.2035],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0190, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0190, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2686103787273169
step:  47
running loss:  0.026991710185687592
Train Steps: 47/90  Loss: 0.0270 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7934, -0.2449,  1.5154,  0.1089, -0.4596, -0.0577,  0.1022,  0.1616],
        [ 0.7675, -0.2803,  1.3185, -0.8539, -0.6104, -0.9508,  0.4776,  0.2612],
        [ 0.7659, -0.2658,  1.7689, -0.0246, -0.5172, -0.0341,  0.4878,  0.2810],
        [-1.6360, -1.8705,  1.5813, -0.9753,  0.1505, -1.2824,  1.0845,  0.4963],
        [ 0.7661, -0.2863,  1.3170, -0.9580, -0.6673, -0.7572,  0.3504,  0.1004],
        [ 1.1099, -0.0842,  1.4959, -0.8644, -0.0398, -1.5079,  0.7408,  0.0879],
        [ 0.8245, -0.2819,  1.6245,  0.2629, -0.2925,  0.0168,  0.4868,  0.1323],
        [-1.3622, -1.6601,  1.1851, -0.9392, -0.4514, -1.1801,  0.2310,  0.3086]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0482, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0482, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3167862426489592
step:  48
running loss:  0.027433046721853316

Train Steps: 48/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6029, -0.4274,  1.6532, -0.8771, -0.5784, -0.8858,  0.4872,  0.2820],
        [ 0.3579, -0.5499,  1.8201, -0.1189, -0.1082, -0.1930,  0.1005,  0.1570],
        [ 0.2582, -0.6223,  1.5448, -0.6216, -0.5208, -0.6415,  0.1641,  0.4178],
        [ 0.4707, -0.5316,  1.7071, -0.0668, -0.2033, -0.1684,  0.5052,  0.3034],
        [ 0.5893, -0.4368,  1.6961,  0.2884, -0.4750, -0.2678,  0.7490,  0.2008],
        [ 0.4832, -0.4854,  1.1430, -1.1649, -0.5456, -0.9242,  0.1531,  0.1965],
        [ 0.5110, -0.4910,  1.6933,  0.1101, -0.4684, -0.2975,  0.7455,  0.2333],
        [ 0.6602, -0.4004,  1.7785,  0.1148, -0.5072, -0.3808,  0.7389,  0.2826]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6801e-01, -4.3934e-01,  1.5920e+00, -6.6715e-01, -6.4527e-01,
          -5.4566e-01,  5.1492e-01,  1.7534e-01],
         [ 5.5155e-01, -4.2249e-01,  1.7788e+00, -5.3426e-02, -2.0162e-01,
           1.9292e-01,  1.5683e-01,  6.8210e-02],
         [ 5.3672e-01, -4.2941e-01,  1.5709e+00, -4.9992e-01, -6.6928e-01,
          -3.0747e-01,  2.4546e-01,  3.5585e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [ 5.3031e-01, -4.3841e-01,  1.0975e+00, -1.0542e+00, -6.9238e-01,
          -6.6159e-01,  1.5477e-01,  4.4164e-02],
         [ 6.2072e-01, -4.4656e-01,  1.7326e+00,  1.6212e-01, -5.4804e-01,
          -1.0731e-01,  9.7040e-01,  1.6077e-01],
         [ 6.5201e-01, -4.0323e-01,  1.8076e+00,  1.8522e-01, -5.7113e-01,
          -1.3811e-01,  7.8762e-01,  1.6077e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0196, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0196, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.336402228102088
step:  49
running loss:  0.027273514859226286
Train Steps: 49/90  Loss: 0.0273 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4697, -0.4949,  1.2264, -1.1615, -0.3115, -1.3537,  0.3968,  0.1538],
        [ 0.4581, -0.5103,  1.2444, -1.2177, -0.2020, -1.4147,  0.4720,  0.1634],
        [ 0.7304, -0.3405,  1.2307, -0.9687, -0.2543, -1.3712,  0.4215,  0.2137],
        [ 0.5282, -0.5000,  1.8005,  0.1556, -0.2945, -0.0716,  0.3245,  0.3234],
        [-0.5072, -1.1353,  0.9631, -1.1802, -0.3185, -1.3331,  0.3396,  0.2513],
        [ 0.3824, -0.5971,  1.8023,  0.2948, -0.4119,  0.2892,  1.0153,  0.3397],
        [ 0.5125, -0.4644,  1.8052, -0.4985, -0.6533, -0.4799,  0.4674,  0.3349],
        [ 0.4898, -0.4892,  1.6309, -0.3511, -0.6462, -0.5951,  0.1274,  0.1258]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0342, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0342, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.370650378987193
step:  50
running loss:  0.027413007579743864
Train Steps: 50/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5260, -0.4512,  1.5853, -0.1327, -0.3905,  0.0258,  0.3438,  0.2133],
        [ 0.7047, -0.3586,  1.7669, -0.6288, -0.3302, -0.8932,  0.9293,  0.2138],
        [ 0.6988, -0.2873,  1.4754, -0.5759, -0.5988, -0.5795,  0.3050,  0.4355],
        [ 0.7808, -0.3050,  1.6218,  0.2099, -0.4843, -0.3894,  0.3224,  0.0286],
        [ 0.6624, -0.3391,  1.5512, -0.4366, -0.5093, -0.2878,  0.2257,  0.2136],
        [ 0.5930, -0.4043,  1.6772, -0.0725, -0.2312, -0.2132,  0.0442, -0.0188],
        [ 0.5222, -0.4644,  1.6615, -0.3672, -0.5627, -0.3673,  0.6173,  0.2334],
        [-1.8953, -2.0281,  1.5608, -1.1411,  0.3558, -1.4730,  1.0002,  0.4625]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0200, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3906042091548443
step:  51
running loss:  0.027266749199114593
Train Steps: 51/90  Loss: 0.0273 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4308, -0.5393,  1.9275, -0.0703, -0.3942, -0.2634,  0.1682,  0.1026],
        [ 0.3524, -0.5766,  1.8549, -0.2104, -0.5534, -0.6176,  0.5192,  0.3368],
        [ 0.3679, -0.5808,  1.7765, -0.1534, -0.5801,  0.0536,  0.4781,  0.1789],
        [ 0.4266, -0.5153,  1.0804, -1.1756, -0.2470, -1.4130,  0.3684,  0.2618],
        [ 0.5300, -0.4728,  1.1145, -1.2576, -0.2983, -1.2850,  0.6322,  0.2698],
        [ 0.2888, -0.6171,  1.1986, -1.1513, -0.3956, -1.0440,  0.6077,  0.2181],
        [ 0.6086, -0.4195,  1.2452, -0.9810, -0.4951, -1.0781,  0.2751,  0.0469],
        [ 0.2659, -0.6734,  1.8575,  0.0737, -0.0717, -0.0615,  0.3565,  0.3574]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6634e-01, -3.9546e-01,  1.7788e+00, -2.3818e-01, -4.0370e-01,
          -2.6898e-01,  8.2802e-02, -2.1963e-02],
         [ 5.8799e-01, -3.8868e-01,  1.8423e+00, -3.3056e-01, -6.2309e-01,
          -5.2302e-01,  4.0462e-01,  1.5443e-01],
         [ 4.9740e-01, -4.4819e-01,  1.6633e+00, -3.3056e-01, -6.1732e-01,
           1.3133e-01,  2.9255e-01,  8.0947e-03],
         [ 5.8505e-01, -3.9246e-01,  1.0513e+00, -1.3467e+00, -3.5173e-01,
          -1.2620e+00,  4.7390e-01,  1.5443e-01],
         [ 5.7841e-01, -4.0847e-01,  1.0859e+00, -1.3929e+00, -4.0370e-01,
          -1.1158e+00,  5.6051e-01,  2.4681e-01],
         [ 5.8909e-01, -3.9369e-01,  1.1494e+00, -1.2390e+00, -5.0762e-01,
          -9.6952e-01,  4.7968e-01,  1.3903e-01],
         [ 4.9971e-01, -4.4465e-01,  1.1610e+00, -9.7721e-01, -6.0577e-01,
          -1.0311e+00,  1.4038e-01, -1.0312e-01],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0164, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0164, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4069728069007397
step:  52
running loss:  0.027057169363475762

Train Steps: 52/90  Loss: 0.0271 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6663, -0.3088,  1.6004,  0.0154, -0.4911, -0.6876,  0.0623,  0.3197],
        [ 0.8698, -0.2878,  1.8808, -0.0299, -0.4834, -0.4837,  0.6643,  0.0741],
        [ 0.7847, -0.2747,  1.7890, -0.5887, -0.5645, -0.3924,  0.5472,  0.3043],
        [ 0.5769, -0.4142,  1.6525, -0.7106, -0.5385,  0.0847,  0.6281,  0.2195],
        [-2.3713, -2.3257,  1.1043, -1.3198, -0.1935, -1.3207,  0.1519,  0.2115],
        [ 0.7094, -0.3830,  1.8119, -0.5825, -0.2013, -0.9141,  0.9488,  0.0407],
        [ 0.3497, -0.5628,  0.9207, -1.2847, -0.1244, -1.5964,  0.2215,  0.2328],
        [ 0.5139, -0.4596,  1.3448, -0.5620, -0.5908, -0.3688,  0.0872,  0.2178]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4172964449971914
step:  53
running loss:  0.026741442358437575
Train Steps: 53/90  Loss: 0.0267 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5588, -0.4190,  1.8389, -0.3034, -0.4850,  0.2965,  0.6388,  0.2382],
        [ 0.5971, -0.3907,  1.5570, -0.6910, -0.6359, -0.7238,  0.2675,  0.2644],
        [ 0.5777, -0.4140,  1.4146, -1.0344, -0.2636, -1.2908,  0.4869,  0.0262],
        [ 0.3478, -0.5392,  0.8901, -1.1096, -0.2750, -1.3271,  0.4063,  0.2873],
        [ 0.6769, -0.3749,  1.8106, -0.0091, -0.1602,  0.2302,  0.5604,  0.2009],
        [ 0.6794, -0.3695,  1.8073, -0.6632, -0.4131, -0.8047,  0.6484,  0.1249],
        [-1.6592, -1.8379,  1.3722, -0.7628, -0.4710, -1.0075, -0.0038,  0.1739],
        [ 0.3202, -0.5807,  1.1559, -1.1361, -0.2836, -1.1998,  0.3835,  0.2031]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0165, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4337830413132906
step:  54
running loss:  0.026551537802097975
Train Steps: 54/90  Loss: 0.0266 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5739, -0.4075,  1.0099, -1.2497, -0.4887, -1.0567,  0.4248,  0.2145],
        [ 0.6474, -0.3825,  1.8956,  0.0107, -0.5090,  0.2286,  0.5319,  0.0127],
        [-2.0089, -2.0760,  1.3973, -1.0495, -0.2714, -1.0593,  0.1613,  0.2091],
        [ 0.5967, -0.3914,  1.8916, -0.0790, -0.5793,  0.0853,  0.3931,  0.1261],
        [ 0.6433, -0.3461,  0.9987, -1.1937, -0.3592, -1.3822,  0.1790,  0.2450],
        [ 0.6662, -0.3432,  1.2133, -1.2991, -0.4466, -1.1694,  0.4190,  0.0401],
        [ 0.4311, -0.5357,  1.9630, -0.0693, -0.5812, -0.0296,  0.7530,  0.2171],
        [ 0.4983, -0.3966,  1.1779, -0.7674, -0.0606, -1.3045,  0.2264,  0.4292]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4424332054331899
step:  55
running loss:  0.026226058280603454
Train Steps: 55/90  Loss: 0.0262 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6346, 0.4086, 0.7938, 0.5500, 0.3962, 0.4867, 0.7343, 0.5702],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175],
        [0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4872, -0.4469,  1.7565, -0.5619, -0.4863,  0.3109,  0.5125,  0.2862],
        [-1.7611, -1.9040,  0.9830, -1.3490, -0.3156, -1.5371,  0.0834,  0.3199],
        [ 0.5838, -0.4097,  1.6127,  0.1440, -0.5238, -0.0731,  0.8983,  0.3705],
        [ 0.5559, -0.3909,  1.0559, -1.3005, -0.4127, -1.4387,  0.2621,  0.0786],
        [ 0.6276, -0.3755,  1.8506,  0.0234, -0.3498,  0.1800,  0.3969,  0.1361],
        [ 0.4281, -0.5543,  1.8947,  0.0836, -0.3881,  0.0256,  0.3248,  0.0540],
        [ 0.5170, -0.4141,  1.1629, -1.0955, -0.6339, -0.8938,  0.1307,  0.2361],
        [ 0.7367, -0.3005,  1.2420, -1.3779, -0.4522, -1.2652,  0.4379,  0.0683]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.6454, -0.3984,  1.3804,  0.2545, -0.4557, -0.0380,  1.1057,
           0.3478],
         [ 0.5465, -0.4214,  0.9300, -1.2620, -0.3921, -1.3852,  0.2062,
           0.1043],
         [ 0.5614, -0.4586,  1.7587,  0.0641, -0.2998,  0.1712,  0.4958,
           0.1170],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4570275181904435
step:  56
running loss:  0.026018348539115062

Train Steps: 56/90  Loss: 0.0260 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4687, -0.4761,  1.3885, -0.9022, -0.7235, -0.3510,  0.5231,  0.1867],
        [ 0.5900, -0.4263,  1.4820, -1.0055, -0.6282, -0.5480,  0.8535,  0.1611],
        [ 0.5019, -0.4647,  1.1006, -1.1980, -0.0975, -1.5659,  0.3672,  0.0922],
        [ 0.2821, -0.6068,  1.6277, -0.0317, -0.0875,  0.1353, -0.0203,  0.2949],
        [ 0.4712, -0.5273,  1.7103, -0.5717, -0.4082, -0.7752,  0.8000,  0.1014],
        [ 0.3002, -0.5729,  1.6020, -0.7157, -0.7064, -0.2938,  0.3533,  0.2870],
        [ 0.1574, -0.6228,  1.4466, -0.3927, -0.6264, -0.6890,  0.0769,  0.4375],
        [ 0.1880, -0.6467,  1.4838, -1.2031, -0.1930, -1.1545,  0.4361,  0.0573]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.5999, -0.4236,  1.2880, -1.4083, -0.0630, -1.6393,  0.4584,
          -0.0208],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0224, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0224, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4794276067987084
step:  57
running loss:  0.02595487029471418
Train Steps: 57/90  Loss: 0.0260 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5395, -0.4694,  1.7540, -0.6162, -0.3841, -0.6810,  0.9446,  0.2789],
        [ 0.5050, -0.4520,  1.3034, -1.0162, -0.6673, -0.7612,  0.3418,  0.0111],
        [ 0.4511, -0.4448,  1.5851, -0.2066, -0.5379, -0.8791,  0.2361,  0.2449],
        [ 0.3331, -0.6058,  1.6994, -0.1982, -0.0322,  0.0858,  0.1891,  0.1661],
        [ 0.4013, -0.5315,  1.5514, -0.8512, -0.5781,  0.1099,  0.5527,  0.2199],
        [ 0.5276, -0.4425,  1.3316, -1.2870, -0.3980, -1.1945,  0.4547,  0.0442],
        [ 0.3599, -0.5380,  1.4635, -0.6173, -0.6199, -0.5927,  0.3554,  0.4287],
        [ 0.3724, -0.5610,  1.7453, -0.5381, -0.5880, -0.0687,  0.4760,  0.2247]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.491361235268414
step:  58
running loss:  0.02571312474600714
Train Steps: 58/90  Loss: 0.0257 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.0428, -1.4417,  1.1209, -1.3021, -0.3286, -1.2498,  0.1953,  0.2366],
        [-0.5951, -1.1337,  0.8469, -1.3820, -0.3139, -1.3906,  0.1110,  0.3584],
        [ 0.7358, -0.2749,  1.8279, -0.0705, -0.3832,  0.1568,  0.2909,  0.1203],
        [ 0.6467, -0.3631,  1.2392, -1.4253, -0.4089, -1.1979,  0.4387,  0.0469],
        [ 0.7252, -0.3748,  1.8057,  0.2314, -0.5462, -0.1135,  0.6252,  0.0910],
        [ 0.7185, -0.2933,  1.6671, -0.7556, -0.6140, -0.6193,  0.4088,  0.1966],
        [ 0.6939, -0.3297,  1.2181, -1.2268, -0.5244, -0.8829,  0.6186,  0.3606],
        [ 0.6410, -0.4152,  1.8992, -0.1185, -0.5496,  0.0964,  0.7300,  0.1463]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0705, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0705, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5618963139131665
step:  59
running loss:  0.026472818879884178
Train Steps: 59/90  Loss: 0.0265 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6830, -0.3160,  1.5683, -0.4438, -0.5378, -0.1399,  0.1804,  0.0487],
        [ 0.6534, -0.3342,  1.1585, -1.1978, -0.4531, -0.9316,  0.6637,  0.5017],
        [ 0.7875, -0.2731,  1.6926, -0.7453, -0.5681,  0.1508,  0.7731,  0.1326],
        [ 0.4850, -0.4299,  1.6709, -0.0909, -0.1282, -0.1104,  0.3001,  0.3511],
        [ 0.7053, -0.2990,  1.6272,  0.0098, -0.5108, -0.6850,  0.4937,  0.1394],
        [ 0.7281, -0.3108,  1.7384, -0.3913, -0.5842, -0.4616,  0.5438, -0.0194],
        [-2.2420, -2.2402,  1.1993, -1.3444, -0.4029, -1.2837,  0.1392,  0.1897],
        [ 0.4973, -0.4148,  1.5378, -0.5538, -0.5770, -0.0541,  0.4557,  0.2367]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5718588447198272
step:  60
running loss:  0.026197647411997118

Train Steps: 60/90  Loss: 0.0262 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.9843, -1.3892,  1.0133, -1.2959, -0.4340, -1.2826,  0.1560,  0.2911],
        [-0.4680, -1.0566,  1.4186, -0.9007, -0.7730, -0.6571,  0.1447,  0.1514],
        [ 0.9725, -0.1446,  1.7648, -0.3390, -0.6778, -0.0703,  0.5688,  0.0236],
        [-1.6986, -1.8749,  0.8447, -1.3785, -0.2807, -1.4518,  0.1705,  0.4223],
        [ 0.9834, -0.1479,  1.6662, -0.1350, -0.1114,  0.1979,  0.4884,  0.2888],
        [ 1.0038, -0.0991,  1.7135, -0.3682, -0.5607,  0.4052,  0.5918,  0.2180],
        [ 0.6469, -0.3788,  1.8183, -0.9520, -0.1124, -1.1401,  0.9596,  0.2261],
        [ 1.1452, -0.0534,  1.6800, -0.5457, -0.5165, -0.8915,  0.6578,  0.0302]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5598, -0.4273,  1.7152, -0.1227, -0.0065,  0.1917,  0.5143,
           0.2853],
         [ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652]]], device='cuda:0')
loss_train_step before backward:  tensor(0.1461, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.1461, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7179200714454055
step:  61
running loss:  0.028162624122055828
Train Steps: 61/90  Loss: 0.0282 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290],
        [0.6226, 0.4103, 0.8575, 0.3450, 0.4388, 0.2067, 0.5787, 0.5383],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4069, -0.4887,  1.5738, -0.8161, -0.4371, -0.9213,  0.2029,  0.1648],
        [ 0.6786, -0.3535,  1.4581,  0.0995, -0.4370,  0.0541,  0.8146,  0.2342],
        [ 0.4607, -0.4850,  1.5293, -0.9322, -0.6656, -0.2563,  0.6008,  0.1711],
        [ 0.8734, -0.1844,  1.6444, -0.8083, -0.2172, -1.0457,  0.3793,  0.2408],
        [-2.2036, -2.2297,  1.0053, -1.3418, -0.4457, -1.3178,  0.0063,  0.2084],
        [ 0.6053, -0.4024,  1.7200, -0.1428, -0.5565, -0.3159,  0.4685,  0.1977],
        [ 0.6157, -0.4194,  1.7860, -0.4878, -0.5991, -0.3522,  0.7102,  0.1331],
        [ 0.4235, -0.4903,  1.1394, -1.3845, -0.5097, -0.8972,  0.5451,  0.3152]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576],
         [ 0.5898, -0.3908,  1.6748, -0.6924, -0.2594, -1.3313,  0.3873,
           0.2006],
         [-2.2859, -2.2859,  1.0712, -1.2085, -0.3806, -1.3929,  0.0755,
           0.2006],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7292997566983104
step:  62
running loss:  0.027891931559650168
Train Steps: 62/90  Loss: 0.0279 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4144, -0.4975,  1.6276, -0.0421, -0.2300,  0.1761,  0.1585,  0.3201],
        [ 0.0341, -0.7305,  1.5266, -0.5993, -0.6648, -0.6568,  0.3565,  0.5090],
        [ 0.5211, -0.4751,  1.5493, -1.3137, -0.4079, -1.2031,  0.6441,  0.0187],
        [ 0.1711, -0.6814,  1.3945, -1.2608, -0.5439, -1.0559,  0.4239,  0.1091],
        [ 0.6617, -0.3810,  1.2957, -1.4371, -0.2348, -1.3179,  0.5682,  0.2448],
        [ 0.4271, -0.5189,  1.6395, -0.2360, -0.3430,  0.0163,  0.2549,  0.3236],
        [ 0.4806, -0.5065,  1.6840,  0.0585, -0.6031, -0.1559,  0.5047,  0.0424],
        [ 0.3668, -0.6003,  1.7427, -0.1002, -0.6017, -0.3306,  0.8768,  0.1167]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4475e-01, -3.8383e-01,  1.7037e+00,  1.7752e-01, -1.4965e-01,
           1.4673e-01,  1.1283e-01,  2.4313e-01],
         [ 5.8942e-01, -3.5027e-01,  1.6402e+00, -3.6135e-01, -5.8268e-01,
          -7.9246e-01,  3.2379e-01,  3.2379e-01],
         [ 6.1316e-01, -4.1224e-01,  1.5478e+00, -1.0619e+00, -2.7090e-01,
          -1.4314e+00,  5.5000e-01, -5.8318e-02],
         [ 5.8851e-01, -4.4288e-01,  1.4266e+00, -9.9261e-01, -4.3834e-01,
          -1.2313e+00,  4.2276e-01,  1.1948e-01],
         [ 5.9076e-01, -3.8322e-01,  1.3804e+00, -1.2543e+00, -1.2695e-01,
          -1.4671e+00,  5.7206e-01,  2.2371e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 6.3355e-01, -4.1617e-01,  1.7499e+00,  3.0839e-01, -4.9607e-01,
          -2.4588e-01,  6.5236e-01, -1.0225e-02],
         [ 6.2730e-01, -4.2490e-01,  1.7095e+00,  1.1594e-01, -5.4804e-01,
          -4.3064e-01,  1.0910e+00,  1.9283e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0269, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0269, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7561887232586741
step:  63
running loss:  0.027876011480296416
Train Steps: 63/90  Loss: 0.0279 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6315, -0.3615,  1.5528, -0.9199, -0.7058, -0.4619,  0.3850,  0.2241],
        [ 0.3478, -0.5686,  1.4856, -0.6887, -0.6811, -0.5351,  0.2528,  0.0194],
        [ 0.2640, -0.5953,  1.5867,  0.0825, -0.2929, -0.1107,  0.1025,  0.2531],
        [ 0.5650, -0.4369,  1.6092,  0.0533, -0.3942,  0.1878,  1.0112,  0.3344],
        [-0.0204, -0.8140,  1.8506, -0.5604, -0.4599, -0.8181,  0.6399,  0.2778],
        [ 0.4338, -0.5079,  1.4570, -1.0512, -0.5840, -1.0056,  0.5227,  0.0549],
        [ 0.4230, -0.5198,  1.8174, -0.6804, -0.5331, -0.5642,  0.7121,  0.2244],
        [ 0.4962, -0.4371,  1.6423,  0.0260, -0.1258, -0.0331,  0.1809,  0.2964]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0206, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0206, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7767991842702031
step:  64
running loss:  0.027762487254221924

Train Steps: 64/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6203, 0.4056, 0.8942, 0.4086, 0.3643, 0.3617, 0.5917, 0.5482],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4024, -0.5408,  1.8413, -0.2530, -0.4907, -0.0938,  0.6912,  0.0739],
        [ 0.2597, -0.6268,  1.7614, -0.5272, -0.5981, -0.6706,  0.5482,  0.1919],
        [ 0.5895, -0.4250,  1.6090, -0.0598, -0.2045, -0.0404,  0.6184,  0.3056],
        [ 0.3920, -0.5026,  1.5573, -0.3926, -0.6188, -0.8363,  0.1831,  0.3305],
        [ 0.3983, -0.5696,  1.7242,  0.0177, -0.4467, -0.0459,  0.4527,  0.1228],
        [ 0.2151, -0.6292,  1.6645, -0.2897, -0.3916, -0.1674,  0.1652,  0.1324],
        [ 0.7846, -0.2886,  1.6542, -1.0929, -0.3467, -1.0930,  0.6925,  0.1557],
        [ 0.0871, -0.7089,  1.5407, -0.4913, -0.5601, -0.1321,  0.4519,  0.3129]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0751e-01, -4.1586e-01,  1.8654e+00, -1.4580e-01, -5.2494e-01,
           1.5858e-02,  6.3595e-01, -4.9015e-02],
         [ 5.7910e-01, -4.1270e-01,  1.8442e+00, -3.9854e-01, -6.0306e-01,
          -6.1538e-01,  4.4726e-01,  2.4636e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.6969e-01, -4.1132e-01,  1.7499e+00, -2.7667e-01, -6.4042e-01,
          -7.1547e-01,  1.5756e-01,  4.0319e-01],
         [ 5.7829e-01, -4.3634e-01,  1.7724e+00,  4.3211e-02, -5.1531e-01,
           8.7136e-02,  4.8401e-01,  6.6263e-02],
         [ 5.7079e-01, -4.0747e-01,  1.7961e+00, -2.3048e-01, -4.2102e-01,
          -9.9615e-02,  1.2187e-01,  8.9251e-02],
         [ 5.7904e-01, -4.0308e-01,  1.6915e+00, -9.5640e-01, -4.1518e-01,
          -1.1063e+00,  4.4251e-01,  2.5281e-01],
         [ 5.0266e-01, -4.2895e-01,  1.5478e+00, -4.2294e-01, -6.3464e-01,
          -3.0331e-02,  3.2234e-01,  3.1483e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7951224902644753
step:  65
running loss:  0.02761726908099193
Train Steps: 65/90  Loss: 0.0276 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6202, 0.4064, 0.7879, 0.2179, 0.4567, 0.1725, 0.5955, 0.5478],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.6338e-01, -5.2227e-01,  1.7455e+00,  1.4470e-01, -4.0361e-01,
         -9.9533e-03,  5.7737e-01,  2.0882e-01],
        [ 5.8856e-01, -4.1358e-01,  1.8907e+00, -1.4242e-01, -1.5540e-03,
         -1.9423e-01,  5.4205e-01,  3.0218e-01],
        [ 1.7223e-02, -7.4201e-01,  9.9789e-01, -9.9806e-01, -6.9489e-01,
         -9.9325e-01,  1.8740e-01,  3.3484e-01],
        [ 5.7928e-01, -4.4168e-01,  1.8534e+00, -2.0523e-01, -4.6537e-01,
          1.8911e-01,  5.8318e-01,  4.3507e-02],
        [ 2.2809e-01, -6.4014e-01,  1.8076e+00, -2.9703e-01, -4.9680e-01,
         -3.3525e-01,  1.6166e-01,  8.1175e-02],
        [ 5.3848e-01, -4.6859e-01,  1.8441e+00, -2.2687e-01, -6.5880e-01,
         -4.8382e-01,  6.1689e-01,  7.4508e-02],
        [ 5.3224e-01, -4.6670e-01,  1.2817e+00, -1.2365e+00, -2.9876e-01,
         -1.5286e+00,  5.0515e-01,  2.2926e-01],
        [ 1.9818e-01, -6.9324e-01,  1.7965e+00, -2.1564e-01, -5.4197e-01,
          4.7281e-02,  5.9085e-01,  1.7062e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5787, -0.4086,  1.3535, -1.2794, -0.1764, -1.4891,  0.4645,
           0.2442],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0180, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.813149274326861
step:  66
running loss:  0.027471958701922136
Train Steps: 66/90  Loss: 0.0275 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6128, 0.4116, 0.8450, 0.4583, 0.3675, 0.4867, 0.5337, 0.5446],
        [0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6317, 0.4038, 0.8287, 0.5900, 0.3800, 0.4717, 0.6295, 0.4986],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6237, -0.3526,  1.4897, -0.8053, -0.2185, -1.1974,  0.4056,  0.2007],
        [ 0.5143, -0.4223,  1.6992, -0.3952, -0.7517, -0.3259,  0.4469,  0.1026],
        [-2.5826, -2.4747,  1.1780, -1.1872, -0.4906, -1.2475,  0.2174,  0.1164],
        [ 0.4828, -0.4180,  1.6138, -0.1066, -0.5749, -0.0056,  0.3014,  0.1830],
        [ 0.1862, -0.6344,  1.5743, -1.1071, -0.3166, -1.1941,  0.6868,  0.2255],
        [ 0.8689, -0.2395,  1.6244,  0.4121, -0.6324,  0.0112,  0.6183,  0.0872],
        [ 0.6781, -0.3274,  1.6930,  0.1251, -0.3152,  0.2715,  0.3076,  0.0937],
        [ 0.8013, -0.2742,  1.6472, -1.0357,  0.1264, -1.3641,  0.7931,  0.2533]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.5444, -0.3846,  1.6171, -0.1689, -0.5885, -0.0380,  0.1791,
           0.2296],
         [ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.6320, -0.4206,  1.5420,  0.4393, -0.5307, -0.1073,  0.6216,
           0.0171],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0157, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0157, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8288374664261937
step:  67
running loss:  0.027296081588450653
Train Steps: 67/90  Loss: 0.0273 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3651, -0.5206,  1.6997,  0.1684, -0.4600, -0.2442,  0.4703,  0.4270],
        [ 0.7231, -0.3273,  1.6843,  0.2476, -0.3617,  0.2596,  0.3580,  0.2787],
        [ 0.2887, -0.6014,  1.3200, -1.1043, -0.6701, -0.5464,  0.3305,  0.1842],
        [ 0.5762, -0.4481,  1.7215, -0.9292, -0.2008, -1.3391,  0.6507,  0.1040],
        [ 0.5290, -0.4668,  1.7715, -0.5002, -0.5998, -0.8600,  0.4262,  0.1119],
        [ 0.3244, -0.6056,  1.7703, -0.1491, -0.4256,  0.0223,  0.7856,  0.1435],
        [ 0.4005, -0.5445,  1.8250, -0.1427, -0.1946,  0.0466,  0.0948,  0.0051],
        [ 0.4814, -0.5089,  1.8568,  0.1708, -0.5595, -0.5359,  0.4954, -0.0020]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.6257, -0.4273,  1.8365, -0.0688, -0.4672, -0.0611,  1.1715,
           0.1608],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.8417663387954235
step:  68
running loss:  0.027084799099932697

Train Steps: 68/90  Loss: 0.0271 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7885, -0.2755,  1.8507, -0.0734, -0.4111,  0.0235,  0.3560,  0.0462],
        [ 0.7404, -0.3294,  1.7126,  0.2041, -0.3258,  0.0337,  0.6419, -0.0222],
        [ 0.9415, -0.2172,  1.7814, -0.6563, -0.5288, -0.5494,  0.6929,  0.0388],
        [ 0.4125, -0.5422,  1.9219, -0.7111, -0.3666, -0.8003,  0.6918,  0.0999],
        [ 0.6063, -0.3980,  1.7486,  0.0841, -0.4291, -0.2599,  0.1080,  0.2190],
        [ 0.3537, -0.5790,  1.9364, -0.1108, -0.2992, -0.2235,  0.9382,  0.2877],
        [-1.0781, -1.4772,  1.3764, -0.8284, -0.6005, -0.8796, -0.0899,  0.0682],
        [ 0.6193, -0.3623,  1.5289,  0.2866, -0.4413, -0.5597,  0.1839,  0.4190]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.6010, -0.4321,  1.6517,  0.2160, -0.4210,  0.0774,  0.6356,
           0.0313],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5452, -0.4067,  1.7557,  0.0543, -0.4961, -0.3306,  0.1323,
           0.4306],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0728, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0728, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9145381338894367
step:  69
running loss:  0.027746929476658504
Train Steps: 69/90  Loss: 0.0277 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.1347, -0.8905,  1.3869, -1.0465, -0.3008, -1.1903,  0.5167,  0.1891],
        [ 0.5789, -0.4325,  1.7945,  0.1725, -0.3334,  0.1157,  0.6113,  0.0700],
        [ 0.1578, -0.6654,  1.5865, -0.2879, -0.4701, -0.9997,  0.2556,  0.2780],
        [ 0.3835, -0.5182,  1.2272, -0.7243, -0.6110, -0.6875,  0.1796,  0.2398],
        [ 0.6624, -0.3772,  2.0066, -0.3205, -0.2315, -1.2892,  0.5583,  0.0233],
        [ 1.0005, -0.1530,  1.7703,  0.2153, -0.3215, -0.0169,  0.2178,  0.0890],
        [ 0.5081, -0.4877,  1.9618, -0.1362, -0.5452, -0.0896,  0.5822,  0.0863],
        [ 0.6206, -0.3973,  1.8513,  0.1067, -0.3296,  0.4381,  0.6588,  0.0824]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390],
         [ 0.5990, -0.4256,  1.7499, -0.0380, -0.3979,  0.3315,  0.6529,
           0.1159]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0296, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0296, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9441209603101015
step:  70
running loss:  0.027773156575858594
Train Steps: 70/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6161, 0.4024, 0.8662, 0.4683, 0.4935, 0.5364, 0.6063, 0.5567],
        [0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6819, -0.3631,  1.7929,  0.0338, -0.1769, -0.1166,  0.2615,  0.2761],
        [ 0.2571, -0.6269,  1.4967, -0.7880, -0.6286, -0.9278,  0.4804,  0.0170],
        [ 0.1597, -0.7106,  1.8510, -0.6569, -0.5832, -0.9929,  0.5346,  0.0192],
        [ 0.6173, -0.4197,  1.6777,  0.3250, -0.4016,  0.1249,  0.7606,  0.0746],
        [ 0.7167, -0.3175,  1.7641, -0.0079, -0.6089, -0.2013,  0.5217,  0.2568],
        [ 0.8350, -0.2456,  1.8566, -0.0243, -0.0949, -0.0249,  0.4935,  0.2472],
        [ 0.5563, -0.4414,  1.8026,  0.2169, -0.5440, -0.1765,  0.2853,  0.0218],
        [ 0.5862, -0.4149,  1.7682, -0.0044, -0.1104, -0.1928,  0.2206,  0.2828]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.4769e-01, -4.4126e-01,  1.3688e+00, -8.7714e-01, -6.1155e-01,
          -8.7714e-01,  4.1039e-01,  4.6651e-02],
         [ 5.7991e-01, -4.3295e-01,  1.7210e+00, -7.6936e-01, -5.7113e-01,
          -8.7714e-01,  3.9885e-01,  7.7444e-02],
         [ 6.0425e-01, -4.2731e-01,  1.7198e+00,  2.1845e-01, -3.4783e-01,
           1.1492e-01,  8.0616e-01,  1.1755e-01],
         [ 5.7633e-01, -3.9630e-01,  1.7788e+00, -7.6520e-02, -6.5196e-01,
          -8.4219e-02,  4.6236e-01,  2.7760e-01],
         [ 5.5978e-01, -4.2731e-01,  1.7152e+00, -1.2271e-01, -6.4698e-03,
           1.9169e-01,  5.1432e-01,  2.8530e-01],
         [ 5.3262e-01, -4.3895e-01,  1.7557e+00,  8.5142e-02, -5.1917e-01,
          -9.1917e-02,  3.1801e-01,  6.2048e-02],
         [ 5.4319e-01, -4.3880e-01,  1.7557e+00, -3.0331e-02, -9.1917e-02,
          -1.1501e-01,  2.6993e-01,  3.0867e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9570787139236927
step:  71
running loss:  0.027564488928502714
Train Steps: 71/90  Loss: 0.0276 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6197, 0.3986, 0.8800, 0.4617, 0.4188, 0.4783, 0.5687, 0.5550],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2929, -0.6306,  1.3494, -1.0974, -0.2760, -1.2471,  0.5076,  0.1783],
        [ 0.5876, -0.4227,  1.8131, -0.3082, -0.5716,  0.0681,  0.6366,  0.1759],
        [ 0.4308, -0.4823,  1.2201, -0.8724, -0.5480, -0.7434,  0.4204,  0.2808],
        [ 0.5981, -0.4646,  1.8456,  0.3831, -0.3125,  0.1098,  0.6071, -0.0576],
        [ 0.3022, -0.6097,  1.5507, -0.6316, -0.4949, -1.1007,  0.2263,  0.1064],
        [ 0.7622, -0.3001,  1.7877, -0.3726, -0.3335, -1.0181,  0.2477,  0.1684],
        [ 0.6255, -0.4040,  1.8410,  0.0971, -0.3022,  0.0756,  0.4581,  0.1748],
        [ 0.5553, -0.4920,  1.8473,  0.2026, -0.5247, -0.4048,  0.5851,  0.1129]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5763, -0.4450,  1.7788, -0.1535, -0.3517, -0.0765,  0.3411,
           0.2776],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0202, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0202, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.9772933050990105
step:  72
running loss:  0.027462407015264034

Train Steps: 72/90  Loss: 0.0275 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.5583e-01, -3.7811e-01,  1.2696e+00, -7.9125e-01, -4.5153e-01,
         -8.8227e-01,  6.5653e-01,  3.0809e-01],
        [ 9.5700e-01, -1.8838e-01,  2.0054e+00, -3.3127e-02, -6.0763e-01,
         -4.2334e-01,  6.2569e-01,  8.3709e-02],
        [ 9.3682e-01, -2.0342e-01,  1.6857e+00, -6.1299e-01, -6.7221e-01,
         -5.1084e-01,  4.4851e-01,  6.2466e-02],
        [ 2.5737e-01, -6.2742e-01,  1.3201e+00, -9.9313e-01, -2.6889e-01,
         -1.3625e+00,  3.5545e-01,  1.6475e-01],
        [-1.3298e+00, -1.6522e+00,  1.0108e+00, -9.3262e-01, -3.8892e-01,
         -1.2307e+00,  3.4897e-01,  3.3487e-01],
        [ 3.9808e-01, -5.5571e-01,  1.6143e+00, -7.6801e-01, -4.6551e-01,
         -1.0459e+00,  3.7800e-01,  6.5839e-02],
        [ 6.9094e-01, -3.6286e-01,  1.8962e+00,  1.8539e-01, -2.5873e-01,
          7.2056e-02,  2.3904e-01,  1.9110e-02],
        [ 6.2867e-01, -4.1586e-01,  1.7483e+00,  5.4881e-01, -1.1541e-01,
         -1.4957e-03,  4.3051e-01,  1.5835e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.5798, -0.4156,  1.3977, -1.0388, -0.4672, -1.1004,  0.3469,
           0.1082],
         [ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0512, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0512, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.028471328318119
step:  73
running loss:  0.02778727847011122
Train Steps: 73/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6416, -0.3906,  1.7688, -0.7565, -0.0875, -1.1663,  0.7043,  0.1075],
        [ 0.7966, -0.2625,  1.7855,  0.4262, -0.6310, -0.1006,  0.5265,  0.2256],
        [-1.6472, -1.8579,  1.0097, -1.0127, -0.2529, -1.2835,  0.3738,  0.4171],
        [ 0.6535, -0.3692,  1.6415, -0.3841, -0.6620, -0.6364,  0.3850,  0.0625],
        [ 0.6294, -0.3894,  1.0214, -1.1424, -0.4673, -1.1836,  0.2044,  0.2154],
        [ 0.6398, -0.3967,  1.7436,  0.1655, -0.4967,  0.0448,  0.2775,  0.0594],
        [ 0.5993, -0.4317,  1.8031, -0.9034,  0.0458, -1.0696,  0.9169,  0.1342],
        [ 0.7419, -0.3240,  1.7888,  0.0059, -0.5461,  0.0415,  0.1476,  0.0034]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.056894328445196
step:  74
running loss:  0.027795869303313462
Train Steps: 74/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.8721e-01, -3.6603e-01,  1.6273e+00, -9.3910e-01, -2.3020e-01,
         -1.0608e+00,  8.1830e-01,  2.8156e-01],
        [ 2.6261e-01, -6.6006e-01,  1.7028e+00,  6.9278e-02, -5.0285e-01,
          6.1316e-02,  9.1670e-01,  9.0216e-02],
        [ 7.8071e-02, -7.5531e-01,  9.7520e-01, -1.1406e+00, -3.2744e-01,
         -1.3896e+00,  1.0609e-01,  2.5919e-01],
        [ 6.7547e-01, -3.5546e-01,  1.7788e+00, -4.9031e-02, -5.2201e-01,
         -2.5553e-01,  2.1430e-01,  1.6061e-01],
        [ 9.4422e-01, -1.8775e-01,  1.4252e+00, -7.5169e-01, -5.3062e-01,
         -8.7556e-01, -3.1819e-02,  1.9832e-01],
        [ 4.0847e-01, -5.7434e-01,  1.6866e+00,  2.0950e-01, -4.9814e-01,
          1.7580e-03,  7.6417e-01,  9.1559e-02],
        [ 6.3641e-01, -3.8298e-01,  1.7680e+00, -2.8971e-01, -5.1222e-01,
         -7.0556e-01,  4.5485e-01,  2.9442e-01],
        [ 4.7471e-01, -4.8755e-01,  1.7431e+00, -2.4426e-01, -4.8224e-01,
         -3.1786e-01,  1.0535e-01,  1.8711e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1742e-01, -3.9842e-01,  1.5975e+00, -9.9214e-01, -3.6328e-01,
          -9.9261e-01,  8.2047e-01,  2.0505e-01],
         [ 6.2730e-01, -4.3934e-01,  1.6402e+00,  1.3133e-01, -5.0762e-01,
           4.6651e-02,  1.1532e+00,  1.7146e-01],
         [ 5.5912e-01, -3.9900e-01,  9.0115e-01, -1.2313e+00, -3.9792e-01,
          -1.3852e+00,  8.0445e-02,  2.0706e-01],
         [ 5.5289e-01, -3.8106e-01,  1.7788e+00, -3.8029e-02, -5.3072e-01,
          -2.0739e-01,  7.2734e-02,  2.6568e-01],
         [ 5.4825e-01, -4.1045e-01,  1.4208e+00, -8.0015e-01, -6.0000e-01,
          -9.0023e-01,  5.1142e-02,  3.2204e-01],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 6.0162e-01, -3.6328e-01,  1.7152e+00, -2.2279e-01, -6.1155e-01,
          -6.3849e-01,  5.0277e-01,  2.6990e-01],
         [ 5.4405e-01, -3.9969e-01,  1.7326e+00, -2.2279e-01, -4.4411e-01,
          -2.9207e-01,  2.9551e-02,  2.4088e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.0743119940161705
step:  75
running loss:  0.02765749325354894

Train Steps: 75/90  Loss: 0.0277 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8649, -0.2485,  1.7574, -0.6191, -0.2934, -1.1843,  0.4251,  0.1032],
        [ 0.4361, -0.5190,  1.6486, -0.2521, -0.3616, -0.0664,  0.2143,  0.2285],
        [ 0.3731, -0.5932,  1.5713,  0.0356, -0.5071, -0.1149,  0.5145,  0.1103],
        [ 0.4553, -0.4569,  1.2745, -0.7047, -0.4934, -0.8180,  0.3275,  0.3119],
        [ 0.7047, -0.3546,  1.3248, -1.2568, -0.2380, -1.1344,  0.7567,  0.2289],
        [ 0.6938, -0.3485,  1.6413, -0.0666, -0.5683, -0.3663,  0.4046,  0.1990],
        [-0.3272, -1.0349,  1.8241, -0.5274, -0.2300, -0.9745,  0.7401,  0.2870],
        [ 0.7128, -0.3070,  1.5699, -0.2741, -0.6330, -0.5391,  0.0100,  0.2550]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0945, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0945, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.168797843158245
step:  76
running loss:  0.028536813725766382
Train Steps: 76/90  Loss: 0.0285 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5790, -0.4246,  1.7650, -0.0211, -0.2898,  0.0674,  0.4351,  0.2170],
        [ 0.7075, -0.3480,  1.0163, -1.1494, -0.3797, -1.5016,  0.1140,  0.3749],
        [ 0.5688, -0.4119,  1.2305, -0.8478, -0.4889, -1.1087,  0.3657,  0.4492],
        [ 0.5267, -0.4787,  1.4408, -0.9947, -0.4450, -1.2665,  0.3767,  0.1211],
        [ 0.5472, -0.4517,  1.7947, -0.1033, -0.2681,  0.1028,  0.4809,  0.2489],
        [ 0.4713, -0.5011,  1.2762, -1.1014, -0.4127, -1.2061,  0.4065,  0.3346],
        [ 0.3543, -0.5869,  1.7987, -0.0647, -0.3814,  0.2580,  0.5179,  0.1634],
        [ 0.3446, -0.6577,  1.8439, -0.3129, -0.6954, -0.6245,  0.6689,  0.0432]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.1782545149326324
step:  77
running loss:  0.028289019674449772
Train Steps: 77/90  Loss: 0.0283 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7530, -0.2939,  1.4046, -1.0338, -0.3590, -1.0755,  0.5026,  0.1979],
        [ 0.4401, -0.4800,  1.5502, -0.4485, -0.5286, -0.7753,  0.2494,  0.2087],
        [ 0.6913, -0.3143,  1.2940, -0.9489, -0.3650, -1.0523,  0.4405,  0.3707],
        [ 0.7265, -0.2805,  1.2429, -1.0236, -0.4281, -0.9581,  0.4826,  0.3433],
        [-1.5196, -1.7774,  1.3053, -0.7442, -0.5791, -0.8100,  0.3340,  0.2008],
        [ 0.4117, -0.5339,  1.6772, -0.1784, -0.2167,  0.0569,  0.6415,  0.2582],
        [ 0.5965, -0.3613,  1.5313, -0.4395, -0.3732, -1.0792,  0.1596,  0.1984],
        [ 0.6020, -0.4144,  1.7071, -0.4450, -0.5114, -0.7503,  0.4338,  0.1238]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7898e-01, -4.0793e-01,  1.5929e+00, -1.0630e+00, -4.7294e-01,
          -1.0725e+00,  4.1374e-01,  8.0707e-02],
         [ 5.3926e-01, -4.2941e-01,  1.6575e+00, -4.0754e-01, -6.6351e-01,
          -6.3079e-01,  3.2956e-01,  8.5142e-02],
         [ 5.8747e-01, -3.8876e-01,  1.3111e+00, -8.8483e-01, -4.6143e-01,
          -9.8491e-01,  5.2009e-01,  2.6220e-01],
         [ 5.9766e-01, -3.7916e-01,  1.2995e+00, -1.0311e+00, -5.1917e-01,
          -8.3865e-01,  5.8360e-01,  2.1601e-01],
         [-2.2859e+00, -2.2859e+00,  1.5478e+00, -8.3095e-01, -6.2887e-01,
          -7.2317e-01,  1.1982e-01,  1.1330e-01],
         [ 6.0087e-01, -4.1347e-01,  1.7651e+00, -1.0433e-01, -1.3233e-01,
           1.9292e-01,  5.6051e-01,  2.2371e-01],
         [ 5.4850e-01, -4.2094e-01,  1.6691e+00, -4.1524e-01, -5.2494e-01,
          -1.1081e+00,  7.2521e-02,  2.0831e-03],
         [ 5.8072e-01, -4.3780e-01,  1.8249e+00, -4.6913e-01, -6.2887e-01,
          -6.3849e-01,  4.1039e-01,  6.2048e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0242, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.202410016208887
step:  78
running loss:  0.028236025848831885
Train Steps: 78/90  Loss: 0.0282 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6203, 0.4021, 0.8780, 0.5031, 0.3667, 0.3882, 0.5842, 0.5405],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6716, -0.3651,  1.6848,  0.1993, -0.4682, -0.3016,  0.3698,  0.0878],
        [ 1.1126, -0.0634,  1.0590, -1.5005, -0.3099, -1.4083,  0.3902,  0.3436],
        [ 0.4396, -0.4931,  1.6367, -0.1527, -0.2727, -0.1796,  0.3804,  0.3029],
        [ 0.4806, -0.5013,  1.7506, -0.7712, -0.5522, -0.3615,  0.7104,  0.2110],
        [ 0.7517, -0.3017,  1.6676,  0.0399, -0.4713,  0.0236,  0.7962,  0.3514],
        [-1.4892, -1.7884,  1.1316, -1.2032, -0.4816, -1.2419,  0.0669,  0.3637],
        [ 0.8437, -0.2534,  1.7568, -0.0860, -0.5708, -0.6748,  0.2525,  0.1682],
        [ 0.6160, -0.3820,  1.7347, -0.3169, -0.5240, -0.3235,  0.1420,  0.2635]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.3949e-01, -4.2132e-01,  1.7037e+00,  3.6228e-01, -4.3256e-01,
          -1.0731e-01,  6.5602e-01, -4.8817e-03],
         [ 5.8614e-01, -3.9292e-01,  1.0570e+00, -1.4314e+00, -3.2864e-01,
          -1.1235e+00,  6.1824e-01,  1.8522e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.1083e-01, -4.2731e-01,  1.8711e+00, -6.6159e-01, -5.7691e-01,
          -1.9969e-01,  9.1557e-01,  1.5543e-01],
         [ 6.3554e-01, -4.0805e-01,  1.6113e+00,  1.8522e-01, -4.7298e-01,
           1.4673e-01,  9.9965e-01,  3.9055e-01],
         [-2.2859e+00, -2.2859e+00,  1.2030e+00, -1.0288e+00, -4.9607e-01,
          -1.1081e+00,  8.1293e-02,  3.1609e-01],
         [ 5.7910e-01, -4.2887e-01,  1.7694e+00,  3.7905e-02, -5.9233e-01,
          -4.9270e-01,  4.1265e-01,  2.1070e-01],
         [ 5.3684e-01, -4.4057e-01,  1.7730e+00, -1.7660e-01, -5.2494e-01,
          -5.3426e-02,  2.3141e-01,  3.4688e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0364, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0364, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2388419173657894
step:  79
running loss:  0.02833977110589607

Train Steps: 79/90  Loss: 0.0283 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6199, 0.4093, 0.7913, 0.2533, 0.4288, 0.2467, 0.5975, 0.5700],
        [0.6148, 0.4076, 0.8666, 0.4820, 0.4138, 0.5067, 0.5250, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4967, -0.4445,  1.6899, -0.5683, -0.6099, -0.5226,  0.4112,  0.2618],
        [ 0.5527, -0.3992,  1.2878, -0.9653, -0.5312, -0.8909,  0.4131,  0.3071],
        [ 0.5773, -0.3801,  1.1588, -1.2760, -0.3543, -1.0148,  0.4385,  0.3473],
        [ 0.3141, -0.5629,  1.6904, -0.2649, -0.3561, -1.0912,  0.3390,  0.2800],
        [ 0.3397, -0.5448,  1.3303, -1.0739, -0.2484, -1.2535,  0.4785,  0.2336],
        [ 0.5512, -0.4214,  1.4524, -1.0067, -0.4021, -1.0468,  0.4744,  0.1392],
        [ 0.3694, -0.5477,  1.2548, -1.1035, -0.3461, -1.0229,  0.5109,  0.2759],
        [-0.1604, -0.9095,  1.6600,  0.0585, -0.4307, -0.0445,  0.3925,  0.2854]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5771, -0.3955,  1.3688, -1.1158, -0.3055, -1.1466,  0.4739,
           0.3469],
         [ 0.5539, -0.4031,  1.7168, -0.0594, -0.3748,  0.0543,  0.1390,
           0.3777]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.260784700512886
step:  80
running loss:  0.028259808756411077
Train Steps: 80/90  Loss: 0.0283 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6127, 0.4066, 0.8550, 0.5567, 0.4662, 0.5141, 0.5070, 0.5412],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5515, -0.4324,  1.2522, -1.1974, -0.5468, -0.9399,  0.5127,  0.2591],
        [ 0.2839, -0.6032,  1.8354,  0.1435, -0.2102,  0.1414,  0.4120,  0.2700],
        [ 0.4407, -0.4859,  0.9970, -1.3051, -0.5360, -1.1848,  0.2556,  0.2368],
        [ 0.4679, -0.5184,  1.8603, -0.3844, -0.6523, -0.8006,  0.4449,  0.1568],
        [ 0.4220, -0.5166,  1.7469,  0.3429, -0.2708,  0.0341,  0.1857,  0.3391],
        [ 0.7520, -0.3054,  1.1945, -0.9319, -0.6896, -0.7861,  0.1203,  0.2432],
        [-0.0073, -0.8187,  1.6968, -1.1910,  0.0458, -1.4126,  1.0480,  0.3479],
        [ 0.5477, -0.4101,  1.0520, -1.3807, -0.5342, -1.2166,  0.3435,  0.2966]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5443, -0.4079,  1.6633,  0.2853, -0.1325,  0.0888,  0.0558,
           0.2138],
         [ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.281465532258153
step:  81
running loss:  0.028166241138989544
Train Steps: 81/90  Loss: 0.0282 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6111, 0.4033, 0.8300, 0.3267, 0.3588, 0.3333, 0.5444, 0.5637],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7174, -0.3203,  1.5432, -0.7647, -0.5346, -0.9745,  0.1499,  0.2596],
        [ 0.5553, -0.4361,  1.7861,  0.0788, -0.2853,  0.0368,  0.4463,  0.1984],
        [ 0.7145, -0.2997,  0.9637, -1.2829, -0.4113, -1.4868,  0.1665,  0.3214],
        [ 0.6634, -0.3140,  1.5424, -0.6475, -0.5232, -0.0573,  0.4547,  0.2503],
        [ 0.4377, -0.4985,  1.2757, -1.2660, -0.3435, -1.3296,  0.5275,  0.3440],
        [ 0.3779, -0.5464,  1.6157, -0.4544, -0.6177, -0.5650,  0.2407,  0.2846],
        [ 0.2344, -0.6762,  1.8225, -0.0604, -0.4420,  0.0151,  0.8304,  0.2047],
        [ 0.3008, -0.5890,  1.6560, -0.6949, -0.5658, -0.1531,  0.5472,  0.2596]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5366, -0.4232,  1.5478, -0.7771, -0.6289, -0.7463,  0.2288,
           0.3177],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5944, -0.4490,  1.8643, -0.0659, -0.5147,  0.1235,  0.7684,
           0.1004],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0148, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0148, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.2963146083056927
step:  82
running loss:  0.02800383668665479
Train Steps: 82/90  Loss: 0.0280 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6163, 0.4006, 0.8788, 0.4683, 0.3663, 0.4883, 0.5887, 0.5017],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1430, -0.7105,  1.6730, -1.2270,  0.1805, -1.4558,  0.9720,  0.2920],
        [ 0.5546, -0.4364,  1.8704, -0.0628, -0.5260,  0.0190,  0.3254,  0.1272],
        [-0.0603, -0.8157,  0.9096, -1.3470, -0.3919, -1.3662,  0.3169,  0.2475],
        [ 0.4587, -0.4335,  1.3221, -0.6188, -0.6190, -0.6014,  0.0964,  0.4070],
        [ 0.5745, -0.3822,  1.0003, -1.0263, -0.6209, -0.8339,  0.3180,  0.3165],
        [ 1.1199, -0.0309,  1.5450, -0.9909, -0.6218, -0.6417,  0.3637,  0.2202],
        [ 0.3321, -0.5572,  1.5391, -0.7018, -0.6428, -0.4123,  0.2566,  0.1486],
        [ 0.4968, -0.4762,  1.9318,  0.1283, -0.5195, -0.2110,  0.7342,  0.2339]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5609, -0.4354,  1.7730, -0.1227, -0.5942, -0.0303,  0.4335,
           0.0313],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3214387968182564
step:  83
running loss:  0.02796914213034044

Train Steps: 83/90  Loss: 0.0280 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.2269, -2.2273,  1.1713, -1.1375, -0.4127, -1.0421,  0.1625,  0.2478],
        [ 0.6665, -0.2975,  1.0809, -1.5144, -0.3767, -1.2959,  0.3798,  0.1838],
        [ 0.8967, -0.1623,  1.6080,  0.1411, -0.5546, -0.2800,  0.2731,  0.0371],
        [ 0.8213, -0.1644,  1.3793, -0.6185, -0.5996, -0.8791, -0.0651,  0.3671],
        [ 0.6198, -0.3447,  1.5878, -1.1289, -0.0898, -1.0752,  0.8322,  0.2534],
        [ 0.5938, -0.3939,  1.7633, -0.2117, -0.4702,  0.2779,  0.6836,  0.1326],
        [ 0.6316, -0.3298,  1.6066, -0.6564, -0.6365, -0.0327,  0.4298,  0.2297],
        [ 0.6697, -0.3118,  1.7474, -0.2772, -0.3892, -0.8977,  0.6521,  0.3015]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.342796679586172
step:  84
running loss:  0.027890436661740143
Train Steps: 84/90  Loss: 0.0279 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4093, 0.7913, 0.2533, 0.4288, 0.2467, 0.5975, 0.5700],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6180, 0.4064, 0.7200, 0.2467, 0.4275, 0.2367, 0.5963, 0.6217],
        [0.6275, 0.4157, 0.8337, 0.5800, 0.3763, 0.4200, 0.5547, 0.6125],
        [0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6604, -0.3537,  1.5051, -1.2975, -0.3695, -0.9548,  0.5446,  0.1394],
        [ 0.1555, -0.6838,  1.0384, -1.4719, -0.4375, -1.2605,  0.3670,  0.1280],
        [ 0.3765, -0.5204,  1.1939, -1.3233, -0.3674, -1.1210,  0.4890,  0.3674],
        [ 0.7508, -0.2881,  1.7318,  0.2697, -0.5587, -0.2539,  0.3189,  0.3947],
        [ 0.6070, -0.3943,  1.2620, -1.0188, -0.6195, -0.6756,  0.1259,  0.1423],
        [ 0.6287, -0.3404,  1.9525,  0.1932, -0.5037, -0.1270,  0.3228,  0.3000],
        [ 0.2278, -0.6186,  1.0869, -1.5289, -0.4159, -1.2903,  0.3593,  0.1703],
        [ 0.2406, -0.6494,  1.6878,  0.1533, -0.4699,  0.1824,  0.8549,  0.1438]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5771, -0.3955,  1.3688, -1.1158, -0.3055, -1.1466,  0.4739,
           0.3469],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5687, -0.4088,  1.0397, -1.1466, -0.3113, -1.1928,  0.4681,
           0.5855],
         [ 0.6124, -0.3658,  1.5651,  0.3931, -0.5480, -0.3460,  0.2761,
           0.5431],
         [ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5232, -0.4189,  0.9358, -1.4006, -0.3921, -1.3698,  0.2555,
           0.2906],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0225, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0225, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.365304049104452
step:  85
running loss:  0.02782710646005238
Train Steps: 85/90  Loss: 0.0278 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6135, 0.4115, 0.8838, 0.4667, 0.4288, 0.6050, 0.5778, 0.5097],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4752, -0.4915,  1.7250, -0.1743, -0.5882, -0.1805,  0.7140,  0.1793],
        [ 0.5620, -0.3887,  1.4668, -1.3343, -0.3144, -1.1160,  0.8748,  0.2578],
        [ 0.6195, -0.3832,  1.7568, -0.3389, -0.4534,  0.3030,  0.6783,  0.1351],
        [ 0.3791, -0.4708,  1.6688, -0.3477, -0.2809,  0.3300,  0.3379,  0.1553],
        [ 0.5733, -0.3845,  1.6611,  0.1772, -0.4800, -0.0565,  0.3584,  0.3798],
        [ 0.5504, -0.4220,  1.6632, -0.1711, -0.4728, -0.0582,  0.2567,  0.2242],
        [ 0.5528, -0.4051,  0.8821, -1.4736, -0.3661, -1.5189,  0.3338,  0.2473],
        [ 0.6205, -0.3280,  1.5286, -0.6112, -0.6699, -0.7295,  0.0736,  0.2279]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.5934, -0.4276,  1.8192, -0.1458, -0.4499,  0.3777,  0.6702,
           0.1082],
         [ 0.5477, -0.3851,  1.7961, -0.1304, -0.3055,  0.5085,  0.3830,
           0.0682],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.374746444635093
step:  86
running loss:  0.027613330751570853
Train Steps: 86/90  Loss: 0.0276 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3664, -0.5092,  1.3370, -1.0725, -0.5688, -0.9993,  0.1131,  0.0623],
        [ 0.6189, -0.3521,  1.7721, -0.1010, -0.5002, -0.3470,  0.6110,  0.1564],
        [ 0.2863, -0.5541,  1.6003, -0.9776, -0.1182, -1.1446,  0.6046,  0.1507],
        [ 0.2970, -0.5251,  0.9866, -1.2467, -0.2565, -1.2284,  0.3042,  0.3866],
        [ 0.7506, -0.2783,  1.5889, -0.8261, -0.6352,  0.0359,  0.5611,  0.2387],
        [ 0.5821, -0.3698,  1.6028,  0.0332, -0.5533, -0.3493,  0.1958,  0.3500],
        [ 0.2462, -0.6476,  1.4856,  0.0648, -0.5149,  0.1151,  0.7020,  0.1618],
        [ 0.6343, -0.3339,  1.3000, -1.2645, -0.3201, -1.0795,  0.7160,  0.1657]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.6289, -0.4393,  1.3977,  0.3777, -0.5134, -0.0457,  1.0984,
           0.1821],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.3958609933033586
step:  87
running loss:  0.027538632106935156

Train Steps: 87/90  Loss: 0.0275 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6260, 0.4153, 0.9000, 0.4533, 0.4025, 0.2633, 0.6223, 0.4967],
        [0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3245, -0.5463,  1.6416,  0.1805, -0.5145, -0.1114,  0.1358,  0.1085],
        [ 0.4553, -0.4918,  1.4523,  0.0928, -0.5212,  0.1824,  0.9054,  0.2236],
        [ 0.5183, -0.4307,  1.6151, -0.0479, -0.1344,  0.1879,  0.0953,  0.3011],
        [ 0.4604, -0.4627,  1.8237, -0.4227, -0.4729, -0.9072,  0.5547,  0.1219],
        [ 0.5760, -0.3800,  1.4301, -0.8783, -0.5904, -0.7605,  0.3787,  0.2626],
        [ 0.4793, -0.4195,  1.2977, -1.1489, -0.4808, -0.8817,  0.4595,  0.2736],
        [ 0.5724, -0.3816,  1.1668, -1.3779, -0.2650, -1.3689,  0.5275,  0.1317],
        [ 0.6453, -0.3177,  1.3266, -1.2657, -0.3371, -1.0873,  0.7413,  0.1793]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.6055, -0.3676,  1.8711, -0.1920, -0.4268, -1.0696,  0.5887,
           0.0081],
         [ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4076440930366516
step:  88
running loss:  0.027359591966325588
Train Steps: 88/90  Loss: 0.0274 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8967, -0.1894,  1.6235, -0.5461, -0.5360, -0.7694,  0.4593,  0.1840],
        [ 0.7258, -0.2661,  1.1216, -1.2929, -0.1953, -1.4731,  0.5593,  0.1530],
        [ 0.6065, -0.3242,  1.6106, -0.5376, -0.5609, -0.3627,  0.5166,  0.2849],
        [ 0.7895, -0.2600,  1.5678,  0.1344, -0.4056, -0.0342,  0.4855,  0.2049],
        [ 0.5367, -0.4251,  1.5836,  0.1638, -0.4319, -0.0222,  0.6117,  0.1143],
        [ 0.9586, -0.0897,  1.6710, -0.7051, -0.5443, -0.4784,  0.5907,  0.1210],
        [ 0.7902, -0.2370,  1.5886, -0.1792, -0.1250,  0.1207,  0.3287,  0.1890],
        [-1.6931, -1.8893,  1.3705, -0.9159, -0.5961, -0.7617,  0.1850,  0.1535]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.6009, -0.3710,  1.7961, -0.4691, -0.6289, -0.3075,  0.5605,
           0.1929],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.6077, -0.3965,  1.8480, -0.6539, -0.6231, -0.4537,  0.6216,
          -0.0220],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.4311892818659544
step:  89
running loss:  0.02731673350411185
Train Steps: 89/90  Loss: 0.0273 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5705, -0.3882,  1.6861, -0.0167, -0.5071, -0.7305,  0.5165,  0.0700],
        [ 0.6534, -0.3226,  1.5963, -0.2239, -0.1139,  0.3164,  0.3441,  0.1890],
        [ 0.5489, -0.3968,  1.0934, -1.3142, -0.5016, -1.0165,  0.5338,  0.1896],
        [ 0.3663, -0.4814,  1.4985, -0.4219, -0.5752, -0.7880,  0.2258,  0.3580],
        [ 0.4916, -0.5086,  1.8622, -0.3967, -0.3204, -0.9278,  0.9234,  0.0578],
        [ 0.3684, -0.5708,  1.8041, -0.3877, -0.3142, -0.5238,  0.8517,  0.3063],
        [ 0.8468, -0.2431,  1.6189, -0.1766, -0.1639,  0.3228,  0.4935,  0.1421],
        [ 0.5632, -0.3607,  1.5821, -0.5251, -0.6298, -0.4061,  0.1537,  0.2595]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  2.443223439157009
step:  90
running loss:  0.027146927101744545
Valid Steps: 10/10  Loss: nan 6.5902
--------------------------------------------------
Epoch: 7  Train Loss: 0.0271 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4112, 0.8475, 0.3717, 0.3550, 0.4350, 0.6063, 0.6083],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7039, -0.2916,  1.6499, -0.5477, -0.5646, -0.1249,  0.4112,  0.3280],
        [ 0.8252, -0.2680,  1.5895,  0.4821, -0.4184,  0.0452,  0.6871, -0.0390],
        [ 0.7905, -0.2879,  1.7602, -0.0484, -0.4769, -0.2194,  0.5950,  0.1834],
        [ 0.7472, -0.2969,  1.6772, -0.1715, -0.5247, -0.3710,  0.4660,  0.2601],
        [ 0.8241, -0.2370,  1.0809, -1.1172, -0.4864, -1.0178,  0.3043,  0.0526],
        [ 0.7743, -0.2381,  1.6707, -0.4007, -0.5739, -0.3339,  0.3342,  0.2430],
        [-1.4220, -1.7229,  1.8686, -0.8128,  0.0823, -1.1515,  0.7699,  0.2080],
        [ 0.5649, -0.4012,  1.3509, -1.1256, -0.2297, -1.2799,  0.5118,  0.0663]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5774, -0.3868,  1.6286, -0.5692, -0.6462, -0.2767,  0.5143,
           0.5239],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)

loss_train_step after backward:  tensor(0.0307, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.030708475038409233
step:  1
running loss:  0.030708475038409233
Train Steps: 1/90  Loss: 0.0307 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7814, -0.3283,  1.7350,  0.3717, -0.6610, -0.2527,  0.6901,  0.0986],
        [ 0.4466, -0.4523,  1.5270, -0.9148, -0.1701, -1.3227,  0.4904,  0.1241],
        [ 0.5207, -0.4192,  1.7305,  0.0228, -0.3488,  0.1860,  0.1492,  0.2329],
        [ 0.1713, -0.6661,  1.9103, -0.2153, -0.4411, -0.7909,  0.6483,  0.1719],
        [ 0.6538, -0.4094,  1.7988, -0.7230, -0.2640, -0.6816,  1.0283,  0.1449],
        [ 0.6401, -0.3794,  1.7304,  0.2279, -0.2252,  0.2746,  0.4670,  0.1517],
        [ 0.6683, -0.3525,  1.0400, -1.2745, -0.3444, -1.4572,  0.2691,  0.1660],
        [ 0.5483, -0.4067,  1.2148, -0.8755, -0.6606, -0.2426,  0.4862,  0.2548]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.6224, -0.4105,  1.9173, -0.7771, -0.1030, -0.7308,  1.1532,
           0.1875],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0126, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0126, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.043306597508490086
step:  2
running loss:  0.021653298754245043
Train Steps: 2/90  Loss: 0.0217 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5350, -0.4089,  1.6639, -0.7590, -0.2530, -1.2740,  0.3201,  0.0325],
        [ 0.6042, -0.3893,  1.6976, -0.0241, -0.5590,  0.0529,  0.2902,  0.2995],
        [ 0.5105, -0.4591,  1.2283, -1.1165, -0.2299, -1.4138,  0.3845,  0.1057],
        [ 0.5441, -0.4624,  1.8066, -0.1762, -0.5450, -0.5049,  0.5332,  0.1960],
        [ 0.2679, -0.5802,  1.7151, -0.9117, -0.2376, -1.0972,  0.5032,  0.1522],
        [ 0.6417, -0.3980,  1.3725,  0.3973, -0.4975,  0.1530,  0.8924,  0.2196],
        [ 0.7965, -0.3336,  1.8087, -0.2137, -0.5701,  0.3298,  0.9831,  0.1608],
        [ 0.3200, -0.5568,  1.6624, -0.7711, -0.0910, -1.2281,  0.5951,  0.1513]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0125, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0125, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.055825852788984776
step:  3
running loss:  0.01860861759632826
Train Steps: 3/90  Loss: 0.0186 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5987, -0.4661,  1.6236, -0.9908, -0.4434, -1.1789,  0.7196,  0.0251],
        [ 0.5112, -0.4525,  1.0903, -0.8345, -0.6445, -0.8166,  0.3535,  0.3133],
        [ 0.5388, -0.4309,  1.4379, -0.4941, -0.6618, -0.5530,  0.2934,  0.3137],
        [ 0.7562, -0.3317,  1.7788, -0.3304, -0.7112, -0.4528,  0.5880,  0.0941],
        [ 0.3007, -0.6169,  1.8800,  0.0517, -0.2237,  0.4643,  0.7065,  0.1734],
        [ 0.7015, -0.3517,  1.8053,  0.2233,  0.0085,  0.0399,  0.4138,  0.1027],
        [ 0.3611, -0.5971,  1.8793,  0.2300, -0.4435, -0.2307,  0.6075,  0.0287],
        [ 0.8464, -0.2693,  1.6988, -0.9977, -0.0583, -1.6439,  0.7758,  0.0953]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0153, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0153, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.07109592575579882
step:  4
running loss:  0.017773981438949704
Train Steps: 4/90  Loss: 0.0178 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7477, -0.3178,  1.2301, -0.7151, -0.6086, -0.7426,  0.3208,  0.1037],
        [-1.8269, -1.9756,  1.2389, -1.0472, -0.3977, -1.2951,  0.2191,  0.1287],
        [ 1.0299, -0.0680,  1.6474, -0.3865, -0.0985, -1.2672,  0.6018,  0.2814],
        [ 0.8511, -0.2321,  1.9707, -0.4202, -0.4431, -1.0457,  0.6645,  0.0311],
        [ 1.0978, -0.1226,  1.8701,  0.1610, -0.4615,  0.1962,  0.8286,  0.0466],
        [-1.8291, -1.9821,  1.4092, -1.0083, -0.3946, -1.1683,  0.3364,  0.0987],
        [ 0.9370, -0.1767,  1.8685,  0.0554, -0.0661,  0.2181,  0.7632,  0.1283],
        [ 1.0451, -0.1336,  1.0969, -0.9064, -0.4676, -1.1103,  0.4340,  0.2015]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0528, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.12389781419187784
step:  5
running loss:  0.02477956283837557

Train Steps: 5/90  Loss: 0.0248 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6276, 0.4120, 0.8738, 0.3133, 0.4225, 0.2217, 0.6203, 0.4892],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6250, 0.4146, 0.8838, 0.3933, 0.3588, 0.4283, 0.6162, 0.5367],
        [0.6129, 0.4069, 0.8750, 0.5067, 0.3875, 0.4233, 0.5235, 0.5881],
        [0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4496, -0.4924,  1.7601,  0.0577, -0.3639, -0.1169,  0.4771,  0.1180],
        [ 0.6491, -0.3763,  1.2254, -0.8365, -0.5457, -0.9526,  0.2617,  0.0583],
        [ 0.7002, -0.3444,  1.8390, -0.6355, -0.3098, -1.3207,  0.7930,  0.0159],
        [ 0.8954, -0.2209,  1.8416, -0.0108, -0.3952,  0.1701,  0.6371,  0.1106],
        [-2.1383, -2.1947,  1.1317, -1.1560, -0.4116, -1.2603,  0.1670,  0.1438],
        [ 0.7399, -0.3151,  1.7280, -0.3167, -0.5821, -0.4310,  0.7327,  0.2390],
        [ 0.7173, -0.3291,  1.7100,  0.2690, -0.4947, -0.3467,  0.2674,  0.3007],
        [ 0.7036, -0.3440,  1.5613, -1.0072,  0.0162, -1.4975,  0.7395,  0.0891]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7460e-01, -3.6231e-01,  1.7961e+00, -1.1501e-01, -3.6905e-01,
          -3.8029e-02,  2.2079e-01,  1.4394e-01],
         [ 5.2194e-01, -4.5504e-01,  1.1415e+00, -9.1962e-01, -6.4042e-01,
          -9.3872e-01,  1.8562e-01,  1.4106e-02],
         [ 6.1282e-01, -3.8283e-01,  1.7499e+00, -8.3865e-01, -3.3441e-01,
          -1.2620e+00,  5.7925e-01, -2.6256e-02],
         [ 5.7113e-01, -3.7875e-01,  1.8249e+00, -1.7660e-01, -4.6721e-01,
           2.1601e-01,  3.6246e-01,  7.4222e-02],
         [-2.2859e+00, -2.2859e+00,  1.0513e+00, -1.2851e+00, -4.4411e-01,
          -1.2313e+00,  2.2057e-01,  1.0729e-01],
         [ 6.0092e-01, -3.7098e-01,  1.7961e+00, -4.6913e-01, -6.2887e-01,
          -3.0747e-01,  5.6051e-01,  1.9292e-01],
         [ 5.4515e-01, -4.0670e-01,  1.7557e+00,  5.4350e-02, -4.9607e-01,
          -3.3056e-01,  1.3228e-01,  4.3063e-01],
         [ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0142, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.13813432399183512
step:  6
running loss:  0.02302238733197252
Train Steps: 6/90  Loss: 0.0230 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6234, 0.4023, 0.8888, 0.4633, 0.3975, 0.5767, 0.6400, 0.5183],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5177, -0.5142,  1.8768, -0.0287, -0.3660,  0.3563,  0.6098,  0.1759],
        [ 0.6169, -0.4642,  1.7793,  0.2798, -0.4347,  0.0232,  0.5844,  0.0657],
        [ 0.5446, -0.4551,  1.5762, -0.3746, -0.5773, -0.6849,  0.3518,  0.4858],
        [ 0.5052, -0.5054,  1.2804, -1.1753, -0.3175, -1.4387,  0.2268,  0.0866],
        [ 0.4783, -0.5226,  1.5799, -1.2029, -0.2695, -1.2095,  0.7283,  0.0610],
        [ 0.5183, -0.5346,  1.5911, -0.9976, -0.3980, -1.1554,  0.4931,  0.0675],
        [ 0.4365, -0.5086,  1.7467, -0.3318, -0.5918, -0.4954,  0.2639,  0.3172],
        [ 0.5277, -0.5272,  1.8241,  0.2649, -0.4634, -0.5806,  0.9055,  0.0354]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9336e-01, -4.2756e-01,  1.8192e+00, -1.4580e-01, -4.4988e-01,
           3.7768e-01,  6.7021e-01,  1.0824e-01],
         [ 5.9082e-01, -4.3664e-01,  1.7557e+00,  1.3903e-01, -5.1917e-01,
           1.3133e-01,  6.5289e-01,  2.3557e-02],
         [ 5.4376e-01, -4.2055e-01,  1.5189e+00, -4.5373e-01, -6.1155e-01,
          -6.2309e-01,  4.3649e-01,  5.4914e-01],
         [ 5.5978e-01, -4.2008e-01,  1.1898e+00, -1.3005e+00, -3.8060e-01,
          -1.3313e+00,  3.8730e-01,  7.7444e-02],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.0421e-01, -4.2248e-01,  1.5420e+00, -1.2082e+00, -4.7298e-01,
          -1.0311e+00,  6.3800e-01, -2.1963e-02],
         [ 5.7569e-01, -3.9169e-01,  1.7095e+00, -4.7683e-01, -6.3464e-01,
          -4.2294e-01,  3.9307e-01,  3.2379e-01],
         [ 6.2730e-01, -4.2490e-01,  1.7095e+00,  1.1594e-01, -5.4804e-01,
          -4.3064e-01,  1.0910e+00,  1.9283e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.14870771393179893
step:  7
running loss:  0.021243959133114134
Train Steps: 7/90  Loss: 0.0212 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5176, -0.4837,  1.0740, -1.1601, -0.4477, -1.2307,  0.2159,  0.1664],
        [ 0.6377, -0.4477,  1.5012, -1.2757, -0.1299, -1.4302,  0.5491, -0.0120],
        [ 0.5548, -0.4542,  1.6038,  0.3398, -0.4500,  0.0341,  0.0801,  0.2882],
        [-0.2789, -1.0308,  1.9276, -0.5532, -0.2452, -0.9053,  1.0819,  0.2952],
        [ 0.6326, -0.4496,  1.7682,  0.0528, -0.6594, -0.1615,  0.5851,  0.0823],
        [ 0.3568, -0.5675,  1.6265, -1.0354, -0.0946, -1.2957,  0.5937,  0.0173],
        [ 0.4348, -0.5392,  1.7455, -0.7572, -0.4726, -0.8393,  0.7825,  0.1674],
        [ 0.4264, -0.4988,  1.6926,  0.0959, -0.7095, -0.5125,  0.3129,  0.2892]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8505e-01, -3.9246e-01,  1.0513e+00, -1.3467e+00, -3.5173e-01,
          -1.2620e+00,  4.7390e-01,  1.5443e-01],
         [ 6.1264e-01, -4.0570e-01,  1.4439e+00, -1.3159e+00, -1.1501e-01,
          -1.5777e+00,  5.5366e-01, -5.2974e-02],
         [ 5.4527e-01, -4.0908e-01,  1.7499e+00,  1.3903e-01, -2.9400e-01,
          -9.9615e-02,  1.2997e-01,  4.2725e-01],
         [ 6.4871e-01, -3.7916e-01,  1.9346e+00, -6.5389e-01, -1.2079e-01,
          -7.8476e-01,  1.0143e+00,  4.8139e-01],
         [ 6.0754e-01, -4.5138e-01,  1.8032e+00, -8.2167e-02, -5.0606e-01,
          -2.0228e-01,  6.2076e-01,  1.7788e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 6.0260e-01, -4.0323e-01,  1.7326e+00, -7.7706e-01, -3.6905e-01,
          -8.6174e-01,  9.7040e-01,  3.0505e-01],
         [ 5.9024e-01, -3.4927e-01,  1.7961e+00, -7.2363e-03, -5.9423e-01,
          -5.6151e-01,  3.1801e-01,  3.1609e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0322, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0322, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18095311149954796
step:  8
running loss:  0.022619138937443495

Train Steps: 8/90  Loss: 0.0226 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3702, -0.6153,  1.9485,  0.0180, -0.6251, -0.1912,  0.5284,  0.1265],
        [ 0.3924, -0.5669,  1.9019,  0.1812, -0.2794,  0.3535,  0.4786,  0.1891],
        [ 0.4712, -0.5183,  1.9494, -0.0167, -0.5042, -0.3461,  0.3179,  0.1923],
        [ 0.0712, -0.7806,  1.0954, -1.0432, -0.4323, -1.4276,  0.1083,  0.2082],
        [ 0.5518, -0.4915,  1.3219, -1.1241, -0.4176, -1.2363,  0.5847,  0.1265],
        [ 0.8444, -0.3112,  1.2868, -1.1265, -0.3504, -1.2792,  0.7130,  0.1989],
        [ 0.5735, -0.4880,  1.4809, -1.0457, -0.1821, -1.5007,  0.5285,  0.0796],
        [ 0.3346, -0.6325,  1.4708, -0.8016, -0.6968, -0.4213,  0.6137,  0.1977]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5544, -0.4133,  0.8145, -1.2082, -0.4268, -1.3544,  0.1221,
           0.3446],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.5761, -0.4070,  1.2452, -1.2541, -0.1725, -1.4835,  0.4511,
           0.1545],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0257, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0257, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2066050637513399
step:  9
running loss:  0.022956118194593325
Train Steps: 9/90  Loss: 0.0230 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6202, 0.4066, 0.8746, 0.3376, 0.3717, 0.3090, 0.5842, 0.5165],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272],
        [0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6186, 0.4013, 0.8191, 0.3188, 0.4279, 0.2060, 0.5767, 0.5411]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2651, -0.6157,  1.2570, -1.0635, -0.5154, -0.8834,  0.6192,  0.2747],
        [ 0.5491, -0.4932,  1.5250,  0.1891, -0.4677,  0.1058,  0.6565,  0.1900],
        [ 0.3616, -0.5737,  1.6377, -0.7714, -0.6248, -0.9259,  0.4174,  0.1688],
        [ 0.2940, -0.6039,  1.6172, -1.1136, -0.1859, -1.2848,  0.6837,  0.0900],
        [ 0.3842, -0.5400,  1.5422, -0.7308, -0.4851, -1.1094,  0.1827,  0.2126],
        [ 0.5567, -0.4578,  1.6566, -0.1017, -0.2839,  0.2518,  0.5364,  0.2497],
        [ 0.4010, -0.5515,  1.8669, -0.6154, -0.2421, -1.3174,  0.5998,  0.1543],
        [ 0.3493, -0.5728,  1.4240, -0.8848, -0.3612, -1.3296,  0.3260,  0.1651]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5787, -0.4077,  1.7537, -0.7263, -0.5692, -0.8586,  0.4126,
           0.1000],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494],
         [ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5713, -0.4321,  1.4975, -0.8134, -0.3094, -1.3345,  0.3779,
           0.2134]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.22040296904742718
step:  10
running loss:  0.02204029690474272
Train Steps: 10/90  Loss: 0.0220 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6264, 0.3972, 0.8853, 0.4771, 0.3853, 0.4511, 0.6293, 0.5334],
        [0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5814, -0.4430,  1.4538, -1.1155, -0.4904, -1.2293,  0.2936, -0.0107],
        [-1.1313, -1.5455,  1.3149, -1.3389, -0.4164, -1.0452,  0.6576,  0.2857],
        [ 0.7803, -0.3256,  1.7643, -0.2083, -0.5666, -0.6007,  0.4089,  0.1928],
        [ 0.7986, -0.3300,  1.8533, -0.2059, -0.5074, -0.3374,  0.7314,  0.1213],
        [ 0.5316, -0.4786,  1.6618, -0.5652, -0.6384, -0.3324,  0.4430,  0.1096],
        [ 0.5207, -0.4637,  1.5275, -0.6416, -0.4408, -1.1248,  0.3544,  0.2698],
        [ 0.5309, -0.4870,  1.8894, -0.3099, -0.1636, -0.0802,  0.3456,  0.0679],
        [ 0.7446, -0.3162,  1.5247,  0.2188, -0.4249, -0.1904,  0.4876,  0.4739]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.6075, -0.4514,  1.8032, -0.0822, -0.5061, -0.2023,  0.6208,
           0.1779],
         [ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0416, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0416, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.26203702203929424
step:  11
running loss:  0.023821547458117657
Train Steps: 11/90  Loss: 0.0238 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6127, 0.4119, 0.8650, 0.5300, 0.4512, 0.5250, 0.5260, 0.5461],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6080, -0.3856,  1.7336, -0.8982, -0.5061, -1.2318,  0.4152,  0.1341],
        [ 0.4990, -0.4607,  1.6878, -0.4426, -0.1015,  0.0150,  0.4344,  0.2551],
        [ 0.6212, -0.4318,  1.8470, -0.4213, -0.5903, -0.3445,  0.9861,  0.1653],
        [ 0.5750, -0.4459,  1.7188, -0.4567, -0.6006, -0.5663,  0.4482,  0.2204],
        [ 0.3180, -0.5996,  1.5562,  0.1008, -0.2646, -0.2010,  0.1075,  0.1433],
        [ 0.6339, -0.4288,  1.7481, -0.3449, -0.6115, -0.3539,  0.6958,  0.1332],
        [ 0.5634, -0.4427,  1.6698, -0.0794, -0.2126, -0.0684,  0.2679,  0.2849],
        [ 0.5064, -0.4542,  1.6120, -0.4523, -0.6879, -0.7564,  0.0842,  0.3415]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.5443, -0.3831,  1.7095,  0.1621, -0.2016,  0.1390,  0.1437,
           0.2364],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2831164803355932
step:  12
running loss:  0.0235930400279661

Train Steps: 12/90  Loss: 0.0236 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6903, -0.3651,  1.6474, -0.8374, -0.6341, -0.9663,  0.3582,  0.1343],
        [ 0.7031, -0.3525,  1.8754, -0.3281, -0.5801, -0.0378,  0.9083,  0.2030],
        [ 0.4434, -0.4866,  1.6338, -0.1192, -0.5832, -0.6506,  0.1753,  0.3616],
        [ 0.3422, -0.5627,  1.6275,  0.1652, -0.3122, -0.0549,  0.3189,  0.1649],
        [ 0.5406, -0.4587,  1.6440, -0.0238, -0.5029, -0.2293,  0.4639,  0.0663],
        [ 0.3885, -0.5420,  1.1723, -1.5524, -0.3675, -1.4431,  0.3967,  0.1097],
        [ 0.6008, -0.3660,  1.6981, -0.7082, -0.4588, -0.9460,  0.3118,  0.4068],
        [ 0.5218, -0.4222,  1.7080, -0.3800, -0.1079,  0.0906,  0.3519,  0.2555]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0163, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0163, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.29939468391239643
step:  13
running loss:  0.02303036030095357
Train Steps: 13/90  Loss: 0.0230 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5391, -0.4051,  1.3651, -0.6155, -0.6337, -0.3972,  0.0932,  0.1569],
        [ 0.8467, -0.2399,  1.5689, -0.7761, -0.5896, -0.9227,  0.5025,  0.1898],
        [ 0.7796, -0.2896,  1.7108, -0.0121, -0.4627, -0.1891,  0.6232,  0.0323],
        [ 0.7671, -0.2283,  1.6868, -0.3612, -0.5792, -0.8732,  0.2958,  0.2853],
        [ 0.6036, -0.3718,  1.7765, -0.1932, -0.1691, -0.1180,  0.2454,  0.3723],
        [-2.3431, -2.3347,  0.9550, -1.3480, -0.4412, -1.4053,  0.1967,  0.3362],
        [ 0.7980, -0.2530,  1.7662, -0.1792, -0.2901,  0.0418,  0.4128,  0.0634],
        [ 0.7255, -0.2844,  1.7484,  0.0438, -0.4412,  0.1162,  0.4451,  0.2396]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.5614, -0.4586,  1.7587,  0.0641, -0.2998,  0.1712,  0.4958,
           0.1170],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0169, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0169, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3162560146301985
step:  14
running loss:  0.022589715330728462
Train Steps: 14/90  Loss: 0.0226 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6113, 0.4088, 0.6859, 0.2208, 0.4363, 0.1700, 0.5188, 0.5533],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.8744, -2.0117,  0.9690, -1.2382, -0.4163, -1.3135,  0.1242,  0.3034],
        [ 0.5949, -0.3956,  1.3967, -1.1633, -0.2750, -1.1070,  0.7447,  0.1486],
        [ 0.5934, -0.3800,  0.9055, -1.2207, -0.3371, -1.3213,  0.0684,  0.2919],
        [ 0.4608, -0.4651,  1.8125,  0.0842, -0.1831,  0.1602,  0.2000,  0.3755],
        [ 0.6010, -0.3735,  1.6042, -0.6678, -0.7322, -0.2244,  0.4141,  0.2086],
        [ 0.7164, -0.2757,  1.4874, -0.8664, -0.1305, -1.1824,  0.3852,  0.1847],
        [ 0.8126, -0.2737,  1.7947, -0.4520, -0.7088, -0.3828,  0.3791,  0.0978],
        [ 0.6742, -0.3727,  1.8206,  0.3258, -0.6526, -0.1677,  0.5933,  0.0655]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.5377, -0.3978,  0.8824, -1.2663, -0.2709, -1.5007,  0.1102,
           0.2699],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5783, -0.4216,  1.6847, -0.5078, -0.6732, -0.5377,  0.4752,
           0.0839],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.32841287832707167
step:  15
running loss:  0.021894191888471446
Train Steps: 15/90  Loss: 0.0219 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6738, -0.3040,  1.6709, -0.5974, -0.5665, -0.4662,  0.4484,  0.4006],
        [ 0.6564, -0.3728,  1.6862,  0.2819, -0.4988, -0.4484,  0.4865,  0.1666],
        [ 0.4000, -0.5246,  1.2383, -1.0922, -0.6371, -0.8293,  0.3081,  0.1241],
        [ 0.6967, -0.3275,  1.8110, -0.0835, -0.4345, -0.0513,  0.5109,  0.1657],
        [ 0.5529, -0.3873,  1.5040, -0.7385, -0.5744, -0.7136,  0.4337,  0.3210],
        [ 0.6056, -0.3954,  1.7734, -0.2286, -0.3551,  0.1743,  0.3885,  0.1289],
        [ 0.3163, -0.5174,  1.6173, -0.2200, -0.4569, -0.3970, -0.0269,  0.4105],
        [ 0.4139, -0.4945,  1.7536, -0.1140, -0.1944,  0.3604,  0.4320,  0.2440]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5598, -0.4032,  1.8249, -0.1304, -0.3806,  0.4470,  0.6067,
           0.1929]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0115, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0115, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3399082263931632
step:  16
running loss:  0.0212442641495727

Train Steps: 16/90  Loss: 0.0212 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6289, 0.4032, 0.8419, 0.5446, 0.4075, 0.5017, 0.6312, 0.5117],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7029, -0.2821,  1.0760, -1.2492, -0.3319, -1.2570,  0.1479,  0.1191],
        [ 0.7587, -0.2442,  1.6849, -0.0106, -0.3610,  0.4631,  0.6869,  0.2252],
        [ 0.5850, -0.3844,  1.6199,  0.0817, -0.3890,  0.0821,  0.4641,  0.0563],
        [ 0.7050, -0.2352,  1.3946, -0.2707, -0.4803, -0.7746,  0.0691,  0.4567],
        [ 0.6798, -0.3020,  1.7941,  0.0049, -0.3509, -0.4692,  0.7393,  0.2167],
        [ 0.6755, -0.2483,  1.5387, -0.4930, -0.5451, -0.6314,  0.1540,  0.3930],
        [ 0.6301, -0.3319,  1.7693, -0.2778, -0.5249, -0.2802,  0.2878,  0.1862],
        [-2.3278, -2.2892,  1.3048, -0.9943, -0.5037, -0.9370,  0.2053,  0.2479]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.6189, -0.4238,  1.6026,  0.2295, -0.4037,  0.0313,  0.6298,
           0.0774],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3556927992030978
step:  17
running loss:  0.020923105835476342
Train Steps: 17/90  Loss: 0.0209 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6203, 0.4096, 0.8862, 0.4267, 0.3538, 0.4117, 0.6025, 0.5650],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6595, -0.3308,  1.7053,  0.3498, -0.4550, -0.0557,  0.7336,  0.1286],
        [ 0.5503, -0.4199,  1.9664, -0.1062, -0.2386, -0.7404,  0.8984,  0.3366],
        [ 0.4786, -0.4499,  1.0389, -1.3838, -0.2911, -0.9671,  0.3889,  0.2742],
        [ 0.3249, -0.5281,  0.7924, -1.2884, -0.4708, -0.9557,  0.1264,  0.1307],
        [ 0.3706, -0.5244,  1.7032, -0.2031, -0.5283, -0.3190,  0.2407,  0.3382],
        [ 0.5839, -0.3540,  1.7904, -0.3297, -0.4904, -0.1844,  0.3168,  0.3530],
        [ 0.2467, -0.5829,  1.6835, -0.3035, -0.5309, -0.5152,  0.2587,  0.3660],
        [ 0.6686, -0.3094,  1.7843, -0.1293, -0.5499, -0.2107,  0.1485,  0.0952]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5790, -0.3940,  1.8076, -0.3152, -0.6520, -0.3844,  0.4970,
           0.3238],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3708633789792657
step:  18
running loss:  0.020603521054403648
Train Steps: 18/90  Loss: 0.0206 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6236, 0.3977, 0.8985, 0.4806, 0.3835, 0.5216, 0.6613, 0.5166],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6196, 0.4068, 0.7645, 0.2234, 0.4575, 0.1737, 0.5926, 0.5284],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6202, 0.4054, 0.8892, 0.4428, 0.3642, 0.3249, 0.5840, 0.5426]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3771, -0.5383,  1.7638, -0.0992, -0.5666,  0.2643,  0.5956,  0.2325],
        [ 0.7077, -0.2939,  1.6108, -1.1808,  0.1599, -1.2673,  0.9221,  0.3429],
        [ 0.5240, -0.3895,  1.0684, -1.2673, -0.2932, -1.2565,  0.1783,  0.2553],
        [ 0.3992, -0.4817,  1.6507,  0.1151, -0.2505,  0.2378,  0.2202,  0.2257],
        [ 0.4623, -0.4594,  1.6011,  0.3008, -0.5909,  0.1249,  0.5551,  0.2070],
        [ 0.6439, -0.3487,  1.6420,  0.2801, -0.6249, -0.1156,  0.3183,  0.2343],
        [ 0.3152, -0.5551,  1.8351, -0.2781, -0.6664, -0.0461,  0.4377,  0.0753],
        [ 0.6804, -0.2900,  1.7184, -0.2531, -0.6444, -0.5595,  0.2237,  0.3050]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.9436e-01, -4.4897e-01,  1.8643e+00, -6.5918e-02, -5.1472e-01,
           1.2348e-01,  7.6842e-01,  1.0043e-01],
         [ 6.3718e-01, -3.5749e-01,  1.6633e+00, -1.2082e+00,  2.1986e-01,
          -1.2467e+00,  1.1313e+00,  3.0505e-01],
         [ 5.7610e-01, -4.0701e-01,  1.2452e+00, -1.2541e+00, -1.7255e-01,
          -1.4835e+00,  4.5107e-01,  1.5453e-01],
         [ 5.7864e-01, -4.1409e-01,  1.7037e+00,  1.5443e-01, -1.8624e-01,
           7.3556e-02,  4.3926e-01,  8.5142e-02],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 5.7864e-01, -4.4627e-01,  1.6655e+00,  2.2157e-01, -5.1146e-01,
          -2.6752e-01,  4.2362e-01,  2.0749e-01],
         [ 6.0716e-01, -4.2055e-01,  1.8711e+00, -2.5358e-01, -6.1155e-01,
          -1.3041e-01,  6.8119e-01, -6.7050e-02],
         [ 5.7875e-01, -4.1347e-01,  1.8214e+00, -2.4075e-01, -6.0389e-01,
          -7.8543e-01,  4.1155e-01,  2.2033e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3869306379929185
step:  19
running loss:  0.020364770420679922
Train Steps: 19/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6332, 0.4128, 0.9200, 0.3517, 0.4400, 0.3833, 0.7461, 0.5494],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4445, -0.4425,  1.4694, -0.9243, -0.4568, -0.9045,  0.4037,  0.1216],
        [ 0.5492, -0.4187,  1.6414,  0.1282, -0.3174,  0.0859,  0.3000,  0.2823],
        [ 0.4324, -0.4828,  1.6951,  0.0454, -0.1453,  0.1048,  0.2725,  0.0768],
        [ 0.2279, -0.6074,  1.3656, -0.6036, -0.7623, -0.1955,  0.3766,  0.1503],
        [ 0.1854, -0.5919,  1.6488, -0.8114, -0.3160, -1.0299,  0.6023,  0.2372],
        [ 0.5083, -0.4121,  1.3570, -0.8879, -0.4907, -0.6800,  0.4704,  0.3468],
        [ 0.5510, -0.4482,  1.7670, -0.4521, -0.4118, -0.3523,  1.0814,  0.2116],
        [ 0.7426, -0.2122,  1.5960,  0.2323, -0.3715, -0.8716,  0.3507,  0.4529]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.6388, -0.3792,  1.9635, -0.6616, -0.2536, -0.5153,  1.1605,
           0.2516],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0167, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0167, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.40361075196415186
step:  20
running loss:  0.020180537598207593

Train Steps: 20/90  Loss: 0.0202 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [   nan,    nan, 0.8850, 0.2817, 0.5112, 0.2183, 0.7184, 0.5436],
        [0.6162, 0.4134, 0.6700, 0.2467, 0.3962, 0.2533, 0.5737, 0.5467],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6145, 0.4008, 0.8750, 0.5383, 0.3975, 0.4650, 0.5563, 0.5533],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3955, -0.4749,  1.3898, -0.9947, -0.2276, -1.1466,  0.4303,  0.2292],
        [-0.9126, -1.3647,  1.7853, -1.0556,  0.1312, -1.1487,  1.0912,  0.3533],
        [ 0.5603, -0.3804,  0.8494, -1.0202, -0.4774, -1.0772,  0.3581,  0.2918],
        [ 0.5956, -0.3725,  1.5091, -0.6703, -0.6470, -0.3083,  0.4570,  0.1711],
        [ 0.4852, -0.4004,  1.4856, -0.3499, -0.6665, -0.7114,  0.0906,  0.3698],
        [ 0.6508, -0.3468,  1.8328, -0.0150, -0.5481,  0.1108,  0.3329,  0.1858],
        [ 0.6672, -0.3458,  1.7533,  0.3656, -0.3711,  0.0669,  0.4311,  0.2554],
        [ 0.7912, -0.3052,  1.8702,  0.3306, -0.6130, -0.0232,  0.8078, -0.0553]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [-2.2859, -2.2859,  1.8018, -0.9849,  0.0755, -1.2774,  1.0326,
           0.2249],
         [ 0.5603, -0.3764,  0.8088, -1.1466, -0.4557, -1.1158,  0.3642,
           0.2391],
         [ 0.5886, -0.3784,  1.4554, -0.9079, -0.6577, -0.4845,  0.3440,
           0.0712],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.5526, -0.4347,  1.7557,  0.2006, -0.4499, -0.1381,  0.2834,
           0.2699],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0536, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0536, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.45722213480621576
step:  21
running loss:  0.021772482609819798
Train Steps: 21/90  Loss: 0.0218 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4032, -0.5113,  1.7258, -0.0226, -0.2910, -0.1014,  0.5768,  0.1624],
        [ 0.6011, -0.3635,  1.2942, -1.0630, -0.6989, -0.7143,  0.5331,  0.1748],
        [ 0.5156, -0.4315,  1.7901, -0.0675, -0.0420, -0.1152,  0.4514,  0.2772],
        [ 0.4480, -0.4534,  1.7835, -0.2277, -0.3825,  0.1414,  0.4593,  0.3638],
        [ 0.6085, -0.3451,  1.7743,  0.1849, -0.5596, -0.3062,  0.3344,  0.4080],
        [ 0.6167, -0.3827,  1.8204,  0.0671, -0.5119, -0.2906,  0.4843, -0.0131],
        [ 0.6249, -0.3598,  1.8184, -0.1034, -0.5868, -0.1451,  0.3213,  0.2177],
        [ 0.6213, -0.3791,  1.5676,  0.2199, -0.4263,  0.1815,  1.0220,  0.3422]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0053, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0053, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.46247611194849014
step:  22
running loss:  0.021021641452204098
Train Steps: 22/90  Loss: 0.0210 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6182, 0.3967, 0.8263, 0.3065, 0.3526, 0.4161, 0.6192, 0.5290]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4703, -0.4666,  1.7351, -1.2481,  0.1270, -1.5093,  1.1119,  0.2799],
        [ 0.5133, -0.4259,  0.8617, -1.3169, -0.4766, -1.3048,  0.2593,  0.1520],
        [ 0.2934, -0.5855,  1.6849,  0.3353, -0.5495,  0.0145,  0.3481,  0.2117],
        [ 0.6970, -0.3230,  1.6839,  0.4214, -0.3112,  0.0768,  0.3962,  0.3051],
        [ 0.5945, -0.3530,  1.7217,  0.2182, -0.2332,  0.1234,  0.2404,  0.2736],
        [ 0.4804, -0.4319,  1.8376, -0.0268, -0.4507, -0.0504,  0.3362,  0.2036],
        [ 0.5193, -0.4420,  1.8981,  0.0182, -0.6593, -0.2885,  0.9374,  0.2386],
        [ 0.4919, -0.4813,  1.6119, -0.7349, -0.7653, -0.3712,  0.6983,  0.1223]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5697, -0.4538,  1.5308, -0.8703, -0.6572, -0.3639,  0.5739,
           0.1576]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0083, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0083, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4708037283271551
step:  23
running loss:  0.02046972731857196
Train Steps: 23/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3197, -0.5203,  1.6434, -1.0400, -0.1443, -1.1808,  0.6363,  0.1232],
        [ 0.2566, -0.6155,  1.8100, -0.6931, -0.4654, -0.6712,  0.7653,  0.2250],
        [ 0.5813, -0.4408,  1.7087,  0.2765, -0.6172, -0.2340,  0.6644,  0.1122],
        [ 0.4842, -0.4296,  1.1465, -0.9483, -0.4555, -1.0081,  0.4722,  0.4620],
        [ 0.5570, -0.3612,  1.5991, -0.3948, -0.5087, -1.0276,  0.1089,  0.1086],
        [ 0.5946, -0.3962,  1.6840, -0.0339, -0.1180,  0.3206,  0.4458,  0.3277],
        [ 0.5608, -0.4686,  1.8304, -0.0690, -0.4417, -0.6189,  1.0276,  0.1999],
        [ 0.3944, -0.5490,  1.7384, -0.1617, -0.3495,  0.2295,  0.4583,  0.2216]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.5485, -0.4209,  1.6691, -0.4152, -0.5249, -1.1081,  0.0725,
           0.0021],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0093, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0093, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4800864914432168
step:  24
running loss:  0.020003603810134035

Train Steps: 24/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6200, 0.4070, 0.8938, 0.4183, 0.3538, 0.4567, 0.6175, 0.5400],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103],
        [0.6107, 0.4050, 0.8700, 0.4850, 0.4470, 0.4848, 0.5043, 0.5431]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2778, -0.6069,  1.9192, -0.2346, -0.2136, -0.9693,  1.0890,  0.4038],
        [ 0.6852, -0.3778,  1.5858,  0.2068, -0.3921, -0.0105,  1.0698,  0.2575],
        [ 0.4798, -0.4860,  1.8392, -0.2396, -0.4881, -0.8281,  0.6195,  0.1020],
        [ 0.6741, -0.3266,  1.7744, -0.3613, -0.5465, -0.4756,  0.5234,  0.2343],
        [ 0.3450, -0.5909,  1.8070, -0.4339, -0.5138, -0.2004,  0.6149,  0.1366],
        [ 0.2770, -0.5442,  1.5616, -0.4305, -0.5066, -0.8888,  0.0636,  0.2526],
        [ 0.6650, -0.3418,  1.4621, -0.8721, -0.5571, -0.4428,  0.4900,  0.1761],
        [ 0.5881, -0.3967,  1.6592, -0.0824, -0.1299,  0.0190,  0.0928,  0.1560]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.6148, -0.3918,  1.8942, -0.1920, -0.5423, -0.8002,  0.6414,
          -0.0156],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5778, -0.4061,  1.8423, -0.3537, -0.6520, -0.1766,  0.5663,
           0.2083],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5886, -0.3784,  1.4554, -0.9079, -0.6577, -0.4845,  0.3440,
           0.0712],
         [ 0.5351, -0.4153,  1.7326, -0.0457, -0.2214, -0.0466,  0.0434,
           0.2228]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.49067305121570826
step:  25
running loss:  0.01962692204862833
Train Steps: 25/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6417, -0.3648,  1.6992, -0.2418, -0.0921, -0.0855,  0.3235,  0.2546],
        [ 0.6611, -0.3901,  1.7823, -0.1001, -0.4637,  0.1033,  1.0566,  0.1444],
        [ 0.7788, -0.2877,  1.6923, -0.0969, -0.2912, -0.0103,  0.4486,  0.0481],
        [ 0.7775, -0.2282,  1.7290, -0.1277, -0.6033, -0.6896,  0.4119,  0.3582],
        [ 0.5787, -0.3499,  1.5670,  0.1464, -0.5430, -0.6805,  0.3149,  0.4437],
        [ 0.7507, -0.3013,  1.6025, -0.4169, -0.5600, -0.2327,  0.2022,  0.0216],
        [-1.5653, -1.8225,  1.9168, -1.0289, -0.1499, -1.0868,  1.0415,  0.2593],
        [ 0.8505, -0.2690,  1.6382,  0.1561, -0.4971, -0.1405,  0.8296,  0.0649]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5052e-01, -4.2071e-01,  1.7095e+00, -5.3426e-02, -5.0936e-02,
           1.0502e-01,  3.8730e-01,  3.0069e-01],
         [ 6.4212e-01, -3.6953e-01,  1.7788e+00,  2.3557e-02, -4.8453e-01,
           1.5443e-01,  1.1971e+00,  2.1955e-01],
         [ 5.6143e-01, -4.5860e-01,  1.7587e+00,  6.4079e-02, -2.9982e-01,
           1.7122e-01,  4.9584e-01,  1.1701e-01],
         [ 5.9024e-01, -3.4927e-01,  1.7961e+00, -7.2363e-03, -5.9423e-01,
          -5.6151e-01,  3.1801e-01,  3.1609e-01],
         [ 6.0554e-01, -3.3934e-01,  1.6575e+00,  2.5450e-01, -5.9423e-01,
          -5.4611e-01,  2.9492e-01,  4.7775e-01],
         [ 5.2448e-01, -4.3610e-01,  1.5940e+00, -2.9207e-01, -5.4804e-01,
          -9.1917e-02,  2.4319e-01,  5.0176e-02],
         [-2.2859e+00, -2.2859e+00,  1.8423e+00, -9.6952e-01, -1.3233e-01,
          -8.4634e-01,  1.1349e+00,  2.6764e-01],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0227, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0227, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5133614921942353
step:  26
running loss:  0.019744672776701357
Train Steps: 26/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6289, 0.4081, 0.8720, 0.3487, 0.3900, 0.3183, 0.6703, 0.5376],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4348, -0.5345,  1.8946, -0.7295, -0.4771, -0.7699,  0.7855,  0.1025],
        [ 0.5123, -0.4724,  1.6877, -0.4641, -0.6370, -0.5252,  0.5698,  0.2832],
        [ 0.5497, -0.4999,  1.5042,  0.1221, -0.5073, -0.1399,  0.8437,  0.0930],
        [ 0.3297, -0.5854,  1.5203,  0.3082, -0.4449, -0.1237,  0.4385,  0.4445],
        [ 0.6769, -0.3657,  1.7477, -0.1668, -0.0879,  0.0667,  0.3535,  0.1672],
        [ 0.7711, -0.3086,  1.7944, -0.5775, -0.4388, -0.8960,  0.9241,  0.1388],
        [ 0.2592, -0.5935,  1.7154, -0.2854, -0.5463, -0.3459,  0.0919,  0.3221],
        [ 0.2919, -0.5843,  1.6723, -1.1340, -0.0278, -1.4489,  0.6213,  0.0186]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0779e-01, -4.0570e-01,  1.8134e+00, -7.3087e-01, -4.4988e-01,
          -7.3857e-01,  6.2979e-01,  1.3903e-01],
         [ 5.7610e-01, -3.9661e-01,  1.6171e+00, -4.8453e-01, -6.3464e-01,
          -4.6913e-01,  4.7390e-01,  2.9299e-01],
         [ 6.2895e-01, -4.3934e-01,  1.3977e+00,  3.7768e-01, -5.1339e-01,
          -4.5727e-02,  1.0984e+00,  1.8214e-01],
         [ 6.1184e-01, -3.9831e-01,  1.5824e+00,  3.4688e-01, -4.2679e-01,
          -6.8822e-02,  3.4688e-01,  5.3934e-01],
         [ 5.5381e-01, -4.1386e-01,  1.7557e+00, -1.8430e-01, -4.5897e-02,
           1.2417e-01,  4.2194e-01,  2.8530e-01],
         [ 6.1907e-01, -4.0082e-01,  1.7420e+00, -6.7528e-01, -4.8453e-01,
          -8.1555e-01,  8.1006e-01,  1.9744e-01],
         [ 5.5525e-01, -3.9923e-01,  1.7557e+00, -2.6898e-01, -4.9030e-01,
          -2.6898e-01,  5.4227e-02,  4.1446e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5262837493792176
step:  27
running loss:  0.019491990717748802
Train Steps: 27/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.9047e-01, -4.3015e-01,  1.2829e+00, -8.2089e-01, -6.3280e-01,
         -8.4250e-01,  3.8176e-01, -1.2932e-03],
        [ 4.8052e-01, -4.9887e-01,  1.3317e+00, -1.0921e+00, -2.2815e-01,
         -1.4085e+00,  6.0268e-01,  1.1726e-01],
        [ 3.5900e-01, -5.5937e-01,  1.1690e+00, -1.2250e+00, -3.4386e-01,
         -1.1243e+00,  8.3362e-01,  2.8056e-01],
        [ 5.8892e-01, -4.3297e-01,  1.7712e+00,  4.5259e-01, -3.8018e-01,
          1.1718e-01,  3.4146e-01,  2.2360e-01],
        [-5.7707e-02, -8.8170e-01,  1.5893e+00, -9.8783e-01, -4.7708e-01,
         -9.3724e-01,  8.6913e-01,  4.6581e-02],
        [ 6.0177e-01, -4.4187e-01,  1.8321e+00,  1.1511e-01, -1.2282e-01,
          4.9209e-02,  3.9132e-01,  3.2597e-01],
        [ 3.7568e-01, -5.4407e-01,  1.9095e+00, -1.6609e-01, -6.2486e-01,
         -3.4410e-01,  4.6614e-01,  3.1886e-01],
        [ 8.9065e-01, -2.2668e-01,  1.8704e+00, -6.2750e-01, -2.4321e-01,
         -1.2563e+00,  6.0711e-01,  7.1932e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0293, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0293, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5556024992838502
step:  28
running loss:  0.019842946402994648

Train Steps: 28/90  Loss: 0.0198 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.9783, -0.1393,  1.6980, -0.1290, -0.5966, -0.2572,  0.4469,  0.3263],
        [ 1.0109, -0.1533,  1.7835,  0.1568, -0.2468,  0.1617,  0.6071,  0.1030],
        [ 1.0725, -0.1292,  1.8002, -0.4632, -0.6134, -0.8617,  0.7768,  0.0539],
        [ 1.0948, -0.0996,  1.6784,  0.3902, -0.3171, -0.0440,  0.3689,  0.1001],
        [-2.1774, -2.1930,  1.7331, -1.1181,  0.0143, -1.2074,  0.8685,  0.2866],
        [-2.1275, -2.1613,  0.9271, -1.1838, -0.4288, -1.2942,  0.1119,  0.3530],
        [ 1.1153, -0.1008,  1.8017,  0.0431, -0.3620,  0.0071,  0.4366, -0.0337],
        [ 0.8060, -0.2648,  1.0662, -1.2371, -0.4700, -1.2497,  0.5248,  0.1688]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.5924e-01, -3.9561e-01,  1.5543e+00, -2.4557e-01, -5.8845e-01,
          -1.6890e-01,  1.3922e-01,  3.9681e-01],
         [ 5.4496e-01, -4.7305e-01,  1.7420e+00,  1.3720e-01, -1.9186e-01,
           2.6139e-01,  4.9757e-01,  7.6435e-02],
         [ 5.7771e-01, -4.4157e-01,  1.7044e+00, -5.8275e-01, -5.9618e-01,
          -8.3610e-01,  4.8621e-01,  1.9626e-01],
         [ 5.1928e-01, -4.6990e-01,  1.5767e+00,  4.0077e-01, -2.4203e-01,
           7.7444e-02,  1.1776e-01, -6.1038e-02],
         [-2.2859e+00, -2.2859e+00,  1.7557e+00, -1.1466e+00,  8.7067e-02,
          -1.0773e+00,  1.1239e+00,  2.7833e-01],
         [-2.2859e+00, -2.2859e+00,  8.0331e-01, -1.1250e+00, -3.8637e-01,
          -1.3082e+00,  1.1262e-01,  4.5430e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 5.1853e-01, -4.2517e-01,  9.6467e-01, -1.2928e+00, -4.7875e-01,
          -1.2390e+00,  2.6170e-01,  2.5757e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0428, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0428, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5983591759577394
step:  29
running loss:  0.020633075033025496
Train Steps: 29/90  Loss: 0.0206 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5075, -0.5088,  1.7788, -0.1351, -0.1265, -0.0524,  0.2179,  0.0959],
        [-0.2226, -0.9488,  1.6794, -1.3423,  0.1735, -1.5009,  1.0534,  0.2728],
        [ 0.4128, -0.5544,  1.1306, -1.1477, -0.6543, -0.7419,  0.3301,  0.0285],
        [ 0.5527, -0.3928,  1.7188, -0.1665, -0.5780, -0.7781,  0.2299,  0.3728],
        [ 0.6418, -0.4208,  1.8075,  0.0507, -0.4922,  0.0938,  0.3359,  0.1123],
        [ 0.7886, -0.3359,  1.8696, -0.5041, -0.4656, -0.9213,  0.8079,  0.0993],
        [ 0.9940, -0.1880,  1.8234,  0.1831, -0.6006, -0.5426,  0.5605,  0.0328],
        [ 0.3124, -0.6318,  1.6706,  0.0678, -0.3578,  0.2999,  0.9073,  0.3424]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0240, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6223869854584336
step:  30
running loss:  0.020746232848614453
Train Steps: 30/90  Loss: 0.0207 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6339, 0.4081, 0.8425, 0.5417, 0.3850, 0.4833, 0.7335, 0.5760],
        [0.6226, 0.4103, 0.8575, 0.3450, 0.4388, 0.2067, 0.5787, 0.5383],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6163, 0.4006, 0.8788, 0.4683, 0.3663, 0.4883, 0.5887, 0.5017],
        [0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5228, -0.4469,  1.4481, -1.1311, -0.2062, -1.3879,  0.5930,  0.1343],
        [ 0.7055, -0.3875,  1.8804, -0.0432, -0.2867,  0.0243,  0.3167,  0.0265],
        [ 0.6936, -0.4046,  1.7164,  0.3293, -0.4862, -0.0240,  1.1612,  0.2557],
        [ 0.7628, -0.2640,  1.8340, -0.6504, -0.2326, -1.2022,  0.4564,  0.2166],
        [-0.6807, -1.2229,  1.4377, -0.8805, -0.5891, -0.6684,  0.4366,  0.2792],
        [ 0.5615, -0.4705,  1.7807,  0.2131, -0.3258,  0.1174,  0.3444,  0.0610],
        [ 0.6153, -0.4303,  1.8371, -0.0601, -0.5939, -0.0201,  0.5271,  0.1234],
        [ 0.4692, -0.5014,  1.0312, -1.2795, -0.2998, -1.5233,  0.2746,  0.1054]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.6421, -0.4008,  1.6055,  0.2160, -0.5076, -0.0534,  1.1020,
           0.3745],
         [ 0.5898, -0.3908,  1.6748, -0.6924, -0.2594, -1.3313,  0.3873,
           0.2006],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5609, -0.4354,  1.7730, -0.1227, -0.5942, -0.0303,  0.4335,
           0.0313],
         [ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0424, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0424, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6647640662267804
step:  31
running loss:  0.021444002136347756
Train Steps: 31/90  Loss: 0.0214 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6264, 0.4055, 0.8425, 0.2767, 0.4425, 0.2767, 0.7050, 0.5586],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4506, -0.5275,  1.7686, -0.2940, -0.5330, -0.4536,  0.3733,  0.2598],
        [ 0.5407, -0.5005,  1.7940,  0.1318, -0.0543,  0.2764,  0.6289,  0.1438],
        [ 0.3794, -0.5269,  1.5145, -0.7211, -0.1765, -1.1368,  0.3719,  0.3084],
        [ 0.4169, -0.5643,  1.6879, -0.9827, -0.1545, -1.1282,  0.9710,  0.1931],
        [ 0.3583, -0.5941,  1.9093, -0.4784, -0.4752, -0.8796,  0.5574,  0.1085],
        [ 0.6627, -0.3939,  1.6628, -0.2187, -0.5922, -0.3117,  0.2554,  0.1885],
        [ 0.7224, -0.3879,  1.3228, -1.0733, -0.4802, -1.0500,  0.5118, -0.1316],
        [ 0.6318, -0.4254,  1.6359, -0.5419, -0.6135, -0.3646,  0.5188,  0.1461]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.6075, -0.4129,  1.6055, -1.0080, -0.2420, -1.0080,  0.9704,
           0.2944],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0130, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6778084067627788
step:  32
running loss:  0.021181512711336836

Train Steps: 32/90  Loss: 0.0212 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7188, -0.3367,  1.8920, -0.6707, -0.4313, -1.0907,  0.6629,  0.0770],
        [ 0.6263, -0.4435,  1.7797,  0.0100, -0.4408, -0.1267,  0.4634, -0.0449],
        [ 0.7959, -0.2640,  1.6776,  0.2334, -0.4097, -0.1032,  0.5011,  0.1118],
        [ 0.5462, -0.4585,  1.5470, -1.0173, -0.4050, -1.0583,  0.4912, -0.0234],
        [ 0.5802, -0.4418,  0.9874, -1.2851, -0.3965, -1.1792,  0.4044,  0.1651],
        [ 0.6268, -0.4222,  1.7376, -0.0928, -0.1368,  0.0947,  0.3983,  0.1281],
        [-2.0925, -2.1734,  1.2965, -0.9992, -0.5074, -0.9629,  0.3409,  0.2234],
        [ 0.7433, -0.2898,  1.7182, -0.0200, -0.2876, -0.9544,  0.3056,  0.4590]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6841176045127213
step:  33
running loss:  0.020730836500385492
Train Steps: 33/90  Loss: 0.0207 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6255, -0.3592,  1.6984, -0.2594, -0.6196, -0.3773,  0.0322,  0.2342],
        [-1.9203, -2.0523,  1.4849, -1.2326,  0.1044, -1.1637,  0.8986,  0.2863],
        [ 0.6367, -0.3641,  1.5570, -1.0202, -0.1333, -1.3515,  0.3457,  0.0102],
        [ 0.5406, -0.4691,  1.7121, -0.8162, -0.1013, -0.9956,  0.8345,  0.1929],
        [ 0.6415, -0.4127,  1.3976,  0.2055, -0.5793,  0.0214,  0.5662,  0.1494],
        [ 0.6824, -0.3714,  1.7048,  0.0315, -0.4587,  0.4051,  0.4384,  0.1293],
        [ 0.6387, -0.3973,  1.3418, -1.1451, -0.2160, -1.4084,  0.4027,  0.0928],
        [ 0.6806, -0.3924,  1.7546, -0.0103, -0.6495, -0.3794,  0.3367,  0.0941]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0722e-01, -3.2394e-01,  1.8423e+00, -3.5366e-01, -4.9607e-01,
          -3.9215e-01,  2.0831e-01,  1.8522e-01],
         [-2.2859e+00, -2.2859e+00,  1.6517e+00, -1.2620e+00,  2.1409e-01,
          -1.1928e+00,  1.1166e+00,  2.4627e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 6.4048e-01, -3.6712e-01,  1.8249e+00, -1.0080e+00,  1.7783e-02,
          -9.6182e-01,  1.1422e+00,  2.7299e-01],
         [ 6.2895e-01, -4.3934e-01,  1.3977e+00,  3.7768e-01, -5.1339e-01,
          -4.5727e-02,  1.0984e+00,  1.8214e-01],
         [ 5.9902e-01, -4.2556e-01,  1.7499e+00, -3.8029e-02, -3.9792e-01,
           3.3149e-01,  6.5289e-01,  1.1594e-01],
         [ 6.0918e-01, -4.1432e-01,  1.4901e+00, -1.2467e+00, -1.2079e-01,
          -1.4006e+00,  6.5866e-01,  1.4673e-01],
         [ 6.3718e-01, -4.1286e-01,  1.8942e+00, -7.6520e-02, -6.1732e-01,
          -4.7683e-01,  6.9989e-01,  3.2524e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0209, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0209, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7050670147873461
step:  34
running loss:  0.020737265140804297
Train Steps: 34/90  Loss: 0.0207 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6093, 0.3990, 0.8400, 0.4333, 0.3688, 0.4633, 0.5560, 0.5656],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4029, -0.5921,  1.6903,  0.1829, -0.3016,  0.2530,  0.2826,  0.0848],
        [ 0.5061, -0.4869,  1.8188, -0.2548, -0.6397, -0.0794,  0.3478,  0.0932],
        [ 0.5058, -0.5134,  1.2198, -1.2538, -0.3336, -1.4177,  0.3494,  0.0629],
        [ 0.5262, -0.4614,  1.6594, -0.1469, -0.6424, -0.1302,  0.2515,  0.2958],
        [ 0.5180, -0.4978,  1.7588,  0.0278, -0.3378,  0.0622,  0.4041,  0.2559],
        [ 0.5641, -0.4334,  1.6918, -0.9860, -0.2200, -1.3162,  0.6009, -0.0315],
        [ 0.4836, -0.5410,  1.7605, -1.1247,  0.1414, -1.2232,  1.1395,  0.1591],
        [ 0.5724, -0.4363,  1.2401, -0.8151, -0.4982, -0.9966,  0.3776,  0.4530]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5283, -0.4429,  1.5940, -0.2844, -0.5827, -0.1458,  0.2823,
           0.3267],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0056, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0056, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7106758425943553
step:  35
running loss:  0.020305024074124437
Train Steps: 35/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7175, -0.3182,  1.5601, -1.1531, -0.1840, -1.2262,  0.5677, -0.0161],
        [ 0.7583, -0.3484,  1.7435,  0.2148, -0.4061,  0.0851,  0.4845, -0.0334],
        [ 0.7261, -0.2570,  1.2147, -0.6802, -0.0970, -1.2256,  0.2552,  0.4634],
        [-1.5970, -1.8209,  0.9663, -1.2563, -0.2124, -1.3566,  0.3545,  0.4310],
        [ 0.6751, -0.3353,  1.3610, -1.0378, -0.1904, -1.4201,  0.3632,  0.0626],
        [ 0.9350, -0.1898,  1.9036, -0.2485, -0.6079, -0.5402,  0.5454,  0.1273],
        [ 0.9440, -0.1748,  1.8448,  0.0834, -0.4474,  0.3213,  0.6020,  0.1024],
        [-1.9158, -2.0474,  1.1735, -1.1139, -0.5103, -1.0042,  0.2081,  0.2710]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0280, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0280, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7386775049380958
step:  36
running loss:  0.02051881958161377

Train Steps: 36/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7026, -0.3475,  1.7143, -0.5126, -0.6330, -0.2998,  0.4079,  0.1759],
        [ 0.4452, -0.4884,  1.7904, -0.2999, -0.4580, -0.4563,  0.1168,  0.2451],
        [ 0.8208, -0.2664,  1.4383, -1.0448, -0.6861, -0.8196,  0.1715,  0.0891],
        [ 0.6975, -0.3649,  1.3709,  0.1070, -0.4919, -0.1339,  0.7419,  0.1754],
        [ 0.6489, -0.3556,  1.5818,  0.2273, -0.1254, -0.3050,  0.1784,  0.2450],
        [ 0.7435, -0.3313,  1.8172, -0.2670, -0.4164, -0.4652,  0.8118,  0.1959],
        [ 0.4413, -0.4983,  1.7393, -0.3508, -0.1120, -0.1085,  0.3081,  0.1528],
        [-1.9452, -2.0874,  1.6159, -1.3266,  0.2288, -1.4092,  1.0428,  0.2691]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0191, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0191, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7578194118104875
step:  37
running loss:  0.02048160572460777
Train Steps: 37/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.1001, -2.2408,  1.2620, -1.2134, -0.3332, -1.1288,  0.4092,  0.1548],
        [ 0.6518, -0.3524,  1.6998, -0.3598, -0.2870,  0.3224,  0.6301,  0.1420],
        [ 0.7167, -0.2884,  1.6898, -0.2260, -0.4900, -0.6974,  0.2223,  0.3375],
        [ 0.6266, -0.3632,  1.8030, -0.1496, -0.3881, -1.0460,  0.4562,  0.1622],
        [ 0.4956, -0.4900,  1.2467, -1.3024, -0.3474, -1.1994,  0.6318,  0.1830],
        [ 0.4585, -0.5079,  1.7557, -0.2600, -0.0559,  0.1161,  0.5975,  0.2690],
        [ 0.6890, -0.3344,  1.5034, -0.6130, -0.4778, -1.0306,  0.1694,  0.3261],
        [ 0.6072, -0.4055,  1.6764, -0.5149, -0.5742, -0.4923,  0.5001,  0.1026]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0116, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7694539255462587
step:  38
running loss:  0.020248787514375227
Train Steps: 38/90  Loss: 0.0202 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3345, -0.5815,  1.6559, -0.2002, -0.0839, -0.0443,  0.3847,  0.3240],
        [ 0.6685, -0.3828,  1.5534, -1.0486, -0.4268, -0.9877,  0.7333,  0.1445],
        [ 0.6851, -0.3588,  1.4897, -1.1548, -0.4079, -1.0997,  0.4530,  0.0514],
        [ 0.4126, -0.5595,  1.6417, -0.2154, -0.5463, -0.0265,  0.4602,  0.1108],
        [ 0.5710, -0.4018,  1.6016, -0.0976, -0.4236, -0.0688,  0.2664,  0.2464],
        [ 0.6039, -0.3627,  1.6929, -0.2127, -0.5257, -0.8801,  0.3550,  0.1962],
        [-1.8773, -2.0152,  1.4880, -1.3270,  0.1654, -1.2752,  0.8369,  0.2394],
        [ 0.5513, -0.3570,  1.5899, -0.3356, -0.2179, -1.0885,  0.2876,  0.5012]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0153, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0153, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7847062242217362
step:  39
running loss:  0.020120672415941954
Train Steps: 39/90  Loss: 0.0201 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7944, -0.2597,  1.6941, -0.7817, -0.3957, -1.1214,  0.3668,  0.0797],
        [-1.2229, -1.5579,  1.2096, -0.8862, -0.5949, -0.8335,  0.0194,  0.3173],
        [-1.9269, -2.0668,  1.0180, -1.3759, -0.3612, -1.2341,  0.1503,  0.2716],
        [ 0.6871, -0.2951,  1.6941,  0.2017, -0.4402, -0.3049,  0.2864,  0.4204],
        [ 0.6057, -0.3936,  1.8279, -0.9332,  0.0218, -1.2719,  0.9551,  0.2071],
        [ 0.9779, -0.1799,  1.6772,  0.0201, -0.3361,  0.4483,  0.8435,  0.2974],
        [ 0.6400, -0.3831,  1.8871, -0.6828, -0.3191, -0.5734,  0.8844,  0.1991],
        [ 0.7648, -0.2619,  1.6307,  0.0055, -0.3844, -0.1027,  0.1083,  0.2771]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0405, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8252143119461834
step:  40
running loss:  0.020630357798654585

Train Steps: 40/90  Loss: 0.0206 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4041, 0.6975, 0.3167, 0.3513, 0.3383, 0.5153, 0.5319],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2722, -0.6165,  1.1779, -0.8024, -0.6699, -0.6848,  0.0763,  0.2715],
        [ 0.2924, -0.6367,  1.3922, -1.1740, -0.2910, -1.2150,  0.6039,  0.1700],
        [ 0.3281, -0.5799,  1.9128,  0.0207, -0.1557,  0.4681,  0.6649,  0.3074],
        [ 0.3481, -0.5868,  1.1737, -1.0323, -0.5273, -0.8910,  0.5458,  0.4523],
        [ 0.2317, -0.6822,  1.8328,  0.0113, -0.2837,  0.2063,  0.6388,  0.2003],
        [ 0.4696, -0.4915,  1.5757, -1.0361, -0.2425, -1.3144,  0.4999,  0.2187],
        [ 0.2441, -0.6215,  1.0434, -1.0948, -0.4172, -1.3396, -0.0088,  0.3534],
        [ 0.6824, -0.3667,  1.7853, -0.9849, -0.1111, -1.4141,  0.6500,  0.1578]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5359, -0.4193,  0.9358, -0.8232, -0.6635, -0.7232,  0.0943,
           0.1710],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.6088, -0.4015,  1.6113, -1.0696, -0.0861, -1.4545,  0.6051,
           0.1343]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.843462482560426
step:  41
running loss:  0.02057225567220551
Train Steps: 41/90  Loss: 0.0206 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4012, -0.5602,  1.1020, -1.4905, -0.3912, -1.1780,  0.3697,  0.3340],
        [ 0.3519, -0.6377,  1.8958, -0.1771, -0.4805, -0.0822,  0.7601,  0.2015],
        [ 0.7661, -0.3157,  1.7028, -0.8933, -0.5319, -0.5710,  0.5506,  0.2958],
        [ 0.3787, -0.5236,  1.8381,  0.0948, -0.3877, -0.3379,  0.4612,  0.4892],
        [ 0.3725, -0.5542,  0.9727, -1.3297, -0.2899, -1.4031,  0.1775,  0.5426],
        [ 0.1261, -0.7136,  1.7445,  0.1966, -0.3572, -0.2723,  0.2821,  0.1150],
        [ 0.5290, -0.4819,  1.8134,  0.0249, -0.4198,  0.0279,  0.8776,  0.1686],
        [ 0.4397, -0.5016,  1.8540, -0.5343, -0.5032, -0.5813,  0.1569,  0.1158]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.5814, -0.4003,  1.6575, -0.8694, -0.6289, -0.5692,  0.5374,
           0.2622],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0174, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.860898629296571
step:  42
running loss:  0.02049758641182312
Train Steps: 42/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.6744, -1.8164,  1.6428, -1.1464,  0.1531, -1.0890,  1.0504,  0.3297],
        [ 0.6633, -0.3424,  1.5168, -1.0733, -0.2207, -1.2959,  0.5642,  0.1678],
        [-2.1848, -2.1812,  1.1882, -1.0478, -0.5552, -0.9504,  0.1036,  0.2840],
        [ 0.5811, -0.4098,  1.1966, -1.0334, -0.6815, -0.6616,  0.3493,  0.1752],
        [ 0.7715, -0.2316,  1.6568,  0.3646, -0.2515,  0.0227,  0.3323,  0.3487],
        [ 0.6553, -0.3458,  1.7052,  0.3154, -0.5779, -0.2111,  0.3768,  0.2283],
        [ 0.7520, -0.3007,  1.2283, -1.2327, -0.4260, -1.1571,  0.4222,  0.2272],
        [ 0.6980, -0.3132,  1.0704, -1.2022, -0.4169, -1.3390,  0.2616,  0.2387]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [ 0.5465, -0.4214,  0.9300, -1.2620, -0.3921, -1.3852,  0.2062,
           0.1043]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8787088342942297
step:  43
running loss:  0.02043508916963325
Train Steps: 43/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0593, -0.7209,  1.4025, -0.7395, -0.5557, -1.0149, -0.0363,  0.1739],
        [ 0.2105, -0.6398,  0.9159, -0.9487, -0.5745, -1.0085,  0.1048,  0.4227],
        [ 0.5317, -0.4285,  1.8629, -0.3572, -0.4762,  0.0316,  0.7137,  0.3804],
        [ 0.4177, -0.4962,  1.5345, -0.5597, -0.5811, -0.9179,  0.0925,  0.3951],
        [ 0.6118, -0.4042,  1.9377, -0.8004, -0.4052, -0.8034,  0.7940,  0.1437],
        [ 0.0240, -0.7626,  1.1786, -1.3303, -0.2676, -1.4906,  0.2640,  0.2023],
        [ 0.5820, -0.4623,  1.8527,  0.0597, -0.4232,  0.3058,  1.2145,  0.1657],
        [ 0.2763, -0.6095,  1.8244,  0.0415, -0.1050, -0.0060,  0.3189,  0.3642]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0223, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0223, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9010163084603846
step:  44
running loss:  0.02047764337409965

Train Steps: 44/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8081, -0.2567,  1.7158, -0.0621, -0.3863,  0.1884,  0.6553,  0.2262],
        [ 0.3466, -0.5509,  0.7081, -1.3252, -0.4496, -1.2155,  0.2184,  0.2836],
        [-2.5157, -2.3895,  1.8121, -0.7981, -0.1205, -0.9275,  0.9323,  0.2574],
        [ 0.4411, -0.4603,  1.7228, -0.2251, -0.3915, -0.2788,  0.1090,  0.1176],
        [ 0.5141, -0.4182,  1.6298, -0.8154, -0.5195, -0.9728,  0.3624,  0.1820],
        [ 0.7026, -0.3435,  1.6917, -0.4188, -0.5994, -0.5678,  0.6849,  0.2348],
        [ 0.5526, -0.4045,  1.6131, -0.0275, -0.4721,  0.1363,  0.4688,  0.2287],
        [ 0.6117, -0.3064,  1.5351, -0.2352, -0.5716, -0.6021,  0.0366,  0.4231]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5799, -0.4329,  1.7210, -0.7694, -0.5711, -0.8771,  0.3988,
           0.0774],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0107, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0107, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9117077724076807
step:  45
running loss:  0.020260172720170683
Train Steps: 45/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6131, 0.4037, 0.6907, 0.2819, 0.3688, 0.2700, 0.5217, 0.5680],
        [0.6082, 0.4042, 0.6975, 0.1917, 0.4100, 0.1983, 0.5502, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3473, -0.5753,  1.5471, -1.2589, -0.0220, -1.4570,  0.6313,  0.0374],
        [ 0.3961, -0.5188,  1.5376, -1.2642, -0.3802, -1.0928,  0.6439,  0.0683],
        [ 0.5461, -0.3509,  1.9025,  0.1118, -0.6093, -0.2064,  0.1833,  0.4084],
        [ 0.5049, -0.4197,  1.1840, -1.0966, -0.3444, -1.0405,  0.4707,  0.5814],
        [ 0.3431, -0.6076,  1.5917,  0.3166, -0.5506,  0.0278,  0.8716,  0.1111],
        [ 0.4011, -0.5269,  1.8692, -0.4701, -0.7028, -0.4832,  0.3813,  0.0916],
        [-0.0361, -0.7732,  0.9775, -0.9902, -0.5846, -0.9177,  0.0684,  0.3048],
        [ 0.1723, -0.6870,  0.9510, -1.2858, -0.4434, -1.2211,  0.2540,  0.2577]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1241e-01, -4.0100e-01,  1.4381e+00, -1.3544e+00, -5.7275e-02,
          -1.5546e+00,  5.5732e-01, -3.6943e-02],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.1207e-01, -3.1378e-01,  1.8423e+00,  8.1601e-03, -6.4619e-01,
          -3.0747e-01,  3.4688e-01,  3.6228e-01],
         [ 5.7460e-01, -4.0208e-01,  1.0801e+00, -1.1312e+00, -3.2286e-01,
          -1.1081e+00,  4.8034e-01,  6.0842e-01],
         [ 6.2895e-01, -4.3934e-01,  1.3977e+00,  3.7768e-01, -5.1339e-01,
          -4.5727e-02,  1.0984e+00,  1.8214e-01],
         [ 5.7829e-01, -4.2163e-01,  1.6847e+00, -5.0778e-01, -6.7321e-01,
          -5.3774e-01,  4.7523e-01,  8.3916e-02],
         [ 5.4590e-01, -4.2148e-01,  9.0432e-01, -9.8382e-01, -5.8268e-01,
          -1.0388e+00,  1.2363e-01,  3.3782e-01],
         [ 5.2315e-01, -4.1886e-01,  9.3580e-01, -1.4006e+00, -3.9215e-01,
          -1.3698e+00,  2.5553e-01,  2.9064e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0213, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0213, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9329804559238255
step:  46
running loss:  0.020282183824430988
Train Steps: 46/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6246, 0.4028, 0.8738, 0.4867, 0.4088, 0.5667, 0.6362, 0.5200],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.4157e-01, -5.4580e-01,  1.7160e+00, -9.9776e-02, -5.3122e-01,
          1.0598e-01,  4.4080e-01,  7.4866e-02],
        [ 4.5865e-01, -4.6616e-01,  1.6395e+00, -8.6564e-01, -4.8457e-01,
         -8.4187e-01,  6.6704e-01,  2.8578e-01],
        [ 9.5002e-02, -7.0816e-01,  1.8023e+00, -5.4315e-01, -6.0169e-01,
         -1.0344e+00,  3.4626e-01,  5.6686e-02],
        [ 4.0714e-01, -5.0531e-01,  1.6999e+00, -8.3630e-02, -4.9261e-01,
          3.0629e-01,  5.2600e-01,  1.3596e-01],
        [ 7.4241e-01, -3.0988e-01,  1.2474e+00, -1.2521e+00, -2.4741e-01,
         -1.4120e+00,  4.0297e-01,  2.0329e-01],
        [ 4.5643e-01, -4.0569e-01,  1.1043e+00, -6.4953e-01, -7.8430e-01,
         -5.2145e-01, -1.3662e-03,  4.6987e-01],
        [ 4.2579e-01, -5.1258e-01,  1.6009e+00,  2.2429e-01, -5.5763e-01,
         -8.9889e-02,  2.6553e-01,  1.4516e-01],
        [ 1.9168e-01, -6.7445e-01,  1.6228e+00, -1.1956e+00,  1.8815e-01,
         -1.3783e+00,  1.0478e+00,  3.1273e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [ 0.5990, -0.4256,  1.7499, -0.0380, -0.3979,  0.3315,  0.6529,
           0.1159],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0230, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0230, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9559376635588706
step:  47
running loss:  0.02033909922465682
Train Steps: 47/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567],
        [0.6185, 0.4079, 0.8838, 0.4617, 0.4838, 0.5650, 0.6175, 0.5850],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6339, 0.4102, 0.8588, 0.3133, 0.4425, 0.2117, 0.6417, 0.5089],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.0754, -0.6728,  1.4005, -0.7200, -0.4994, -1.1253,  0.1119,  0.0342],
        [ 0.7075, -0.3032,  1.7789,  0.2578, -0.6072,  0.0754,  0.5373,  0.2307],
        [ 0.4886, -0.4103,  1.7513, -0.1235, -0.1657,  0.1917,  0.4897,  0.3107],
        [ 0.6213, -0.3726,  1.1898, -1.2564, -0.3196, -1.3608,  0.4322,  0.1022],
        [ 0.7552, -0.2970,  1.6800, -0.7415, -0.2835, -1.2006,  0.7921,  0.0721],
        [-2.7242, -2.5366,  0.9469, -1.2379, -0.4670, -1.2380,  0.2041,  0.1697],
        [ 0.4366, -0.4563,  0.9809, -0.8987, -0.6418, -0.8829,  0.1738,  0.2443],
        [ 0.6094, -0.3594,  1.1859, -1.1509, -0.5651, -0.9896,  0.5455,  0.2325]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.5770, -0.3918,  1.7961,  0.1544, -0.5480,  0.1467,  0.4450,
           0.2853],
         [ 0.5707, -0.4017,  1.7961, -0.1535, -0.0515,  0.3238,  0.5663,
           0.4162],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.6421, -0.3912,  1.6806, -0.8386, -0.2420, -1.3082,  0.6780,
           0.0646],
         [-2.2859, -2.2859,  0.7222, -1.4930, -0.3921, -1.3698,  0.1404,
           0.1343],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0158, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9717486617155373
step:  48
running loss:  0.02024476378574036

Train Steps: 48/90  Loss: 0.0202 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6296, 0.4060, 0.9100, 0.3267, 0.4726, 0.3367, 0.7446, 0.5355],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5644, -0.4089,  1.3489, -1.0632, -0.3554, -1.2604,  0.3068,  0.0804],
        [ 0.4687, -0.4830,  1.2589, -1.1416, -0.2557, -1.2853,  0.4649,  0.1626],
        [ 0.4234, -0.5423,  1.6914,  0.3361, -0.5816, -0.0057,  0.5142, -0.0243],
        [ 0.4425, -0.5201,  1.8059, -0.6999, -0.2962, -0.6888,  1.0130,  0.1350],
        [ 0.2810, -0.5907,  1.3972, -1.1654, -0.4216, -0.9874,  0.6505,  0.1130],
        [ 0.6097, -0.3620,  1.3889, -1.0538, -0.3057, -1.2302,  0.3695,  0.1679],
        [ 0.5667, -0.4004,  1.3944, -0.9263, -0.5386, -0.9340,  0.3893,  0.2306],
        [-0.0884, -0.7821,  1.0243, -0.7315, -0.6894, -0.8069,  0.1109,  0.4189]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.6224, -0.4105,  1.9173, -0.7771, -0.1030, -0.7308,  1.1532,
           0.1875],
         [ 0.6141, -0.4153,  1.4208, -1.2697, -0.2940, -1.0234,  0.8644,
           0.1715],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549],
         [ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0207, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9924390469677746
step:  49
running loss:  0.020253858101383155
Train Steps: 49/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3356, -0.6246,  1.6195,  0.2512, -0.6513, -0.3454,  0.5973,  0.0688],
        [ 0.6370, -0.3359,  1.3365, -1.0085, -0.1253, -1.4134,  0.3820,  0.2478],
        [ 0.4861, -0.4302,  1.6799, -0.2698, -0.5321, -0.0616,  0.5071,  0.2307],
        [ 0.3765, -0.4768,  1.6450, -0.1350, -0.4039, -0.1223,  0.2556,  0.1823],
        [ 0.5536, -0.4313,  0.9053, -1.4331, -0.4854, -1.2592,  0.2617,  0.0754],
        [ 0.6161, -0.3597,  1.4798, -1.0293, -0.3282, -1.1504,  0.4840,  0.1977],
        [ 0.4582, -0.4561,  1.7081, -0.8268, -0.5026, -0.7563,  0.6979,  0.2014],
        [ 0.6078, -0.3919,  1.8090, -0.2198, -0.5793, -0.0794,  0.6614,  0.0188]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0023726033978164
step:  50
running loss:  0.02004745206795633
Train Steps: 50/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4004, 0.8938, 0.4883, 0.3663, 0.5000, 0.6357, 0.4947],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7533, -0.3049,  1.7014, -0.1500, -0.6275, -0.0598,  0.6284, -0.0155],
        [ 0.7431, -0.2644,  1.7102, -0.3314, -0.3599,  0.0643,  0.5581,  0.1520],
        [ 0.8763, -0.1319,  1.6137, -0.1098, -0.3940, -1.0488,  0.3424,  0.4068],
        [ 0.5484, -0.3760,  1.6466, -0.0710, -0.1373,  0.0032,  0.3874,  0.1075],
        [-2.5872, -2.4539,  0.9287, -1.3730, -0.5087, -1.2914,  0.1816,  0.1541],
        [ 0.5824, -0.4260,  1.6279,  0.0228, -0.3571, -0.1051,  0.5001, -0.1236],
        [ 0.7043, -0.3324,  1.7657, -0.3025, -0.6113, -0.6340,  0.7717,  0.0398],
        [ 0.6638, -0.2967,  1.3242, -1.0323, -0.3195, -1.1665,  0.3938,  0.3216]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8031e-01, -4.3672e-01,  1.8423e+00, -3.0331e-02, -5.9423e-01,
           2.3557e-02,  6.5034e-01, -9.2270e-04],
         [ 5.9602e-01, -4.1016e-01,  1.8018e+00, -1.6120e-01, -3.3441e-01,
           1.1594e-01,  5.4896e-01,  2.3141e-01],
         [ 6.1386e-01, -3.2163e-01,  1.8134e+00,  3.1255e-02, -3.8637e-01,
          -1.0157e+00,  2.1441e-01,  5.7619e-01],
         [ 5.5635e-01, -3.8422e-01,  1.7268e+00,  1.0054e-01, -2.4997e-02,
           3.2255e-01,  2.6581e-01,  8.6245e-02],
         [-2.2859e+00, -2.2859e+00,  1.0361e+00, -1.2021e+00, -4.2102e-01,
          -1.3390e+00,  8.7067e-02,  3.2379e-01],
         [ 5.8643e-01, -4.6898e-01,  1.7268e+00,  1.4673e-01, -2.9400e-01,
           8.1601e-03,  4.7968e-01,  1.5858e-02],
         [ 6.2038e-01, -4.3356e-01,  1.8654e+00, -6.8822e-02, -6.0577e-01,
          -5.2302e-01,  6.5034e-01,  4.7170e-02],
         [ 5.9636e-01, -3.3795e-01,  1.4785e+00, -8.3865e-01, -2.4203e-01,
          -1.0619e+00,  3.2379e-01,  4.0077e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0161, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0185070815496147
step:  51
running loss:  0.01997072708920813
Train Steps: 51/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6142, 0.4127, 0.7575, 0.3067, 0.3438, 0.4383, 0.5778, 0.5207],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467],
        [0.6236, 0.4081, 0.8575, 0.3000, 0.3713, 0.3033, 0.5550, 0.5633],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5031, -0.4425,  1.2040, -0.7772, -0.5495, -0.3063,  0.4339,  0.1906],
        [ 0.3934, -0.5387,  1.4250, -0.7125, -0.5673, -0.3420,  0.6277,  0.2145],
        [ 0.7193, -0.3086,  1.8446, -0.8237, -0.1610, -1.2996,  0.7239,  0.0600],
        [ 0.5397, -0.4609,  1.6552, -0.6620, -0.5809, -0.4994,  0.7042,  0.1421],
        [ 0.8671, -0.2594,  1.1405, -1.1521, -0.4197, -1.0268,  0.5970,  0.0799],
        [ 0.6018, -0.3752,  1.6716, -0.6814, -0.4735, -0.9963,  0.3710,  0.0484],
        [ 0.2039, -0.6625,  1.6431, -0.2761, -0.5604, -0.3393,  0.3029,  0.1686],
        [ 0.6398, -0.3982,  1.2430, -1.0984, -0.1309, -1.4904,  0.4661,  0.0773]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5509, -0.3798,  1.2129, -0.8694, -0.6982, -0.2613,  0.3830,
           0.1193],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391],
         [ 0.5944, -0.4008,  1.6748, -0.9002, -0.5711, -0.8848,  0.2776,
           0.3161],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0147, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0147, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0332335312850773
step:  52
running loss:  0.019869875601636104

Train Steps: 52/90  Loss: 0.0199 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [0.6201, 0.4017, 0.8871, 0.4621, 0.3517, 0.4675, 0.5999, 0.5106],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6113, 0.4104, 0.8650, 0.4250, 0.3925, 0.5967, 0.5787, 0.5116],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.2992e-01, -3.0336e-01,  1.6313e+00, -1.1895e+00, -1.6060e-01,
         -1.5407e+00,  7.1356e-01, -1.1083e-04],
        [ 8.3763e-01, -2.4081e-01,  9.4407e-01, -1.0714e+00, -6.1049e-01,
         -1.1304e+00,  3.6978e-01,  2.8219e-01],
        [ 5.3184e-01, -4.5070e-01,  1.7964e+00, -2.1034e-01, -4.5707e-01,
          1.3236e-01,  5.4005e-01,  1.0987e-02],
        [ 4.1670e-01, -5.2252e-01,  1.7129e+00, -1.5120e-01, -3.7215e-01,
          7.9002e-02,  4.5440e-01,  2.4114e-01],
        [ 6.4734e-01, -3.8203e-01,  1.7813e+00, -1.8053e-01, -6.0651e-01,
         -2.4972e-01,  4.8176e-01,  1.4656e-01],
        [ 8.4762e-01, -2.9559e-01,  1.6944e+00, -8.0337e-01, -6.5135e-01,
         -8.4902e-01,  8.1033e-01, -2.9006e-02],
        [ 5.1166e-01, -4.3294e-01,  1.7072e+00, -3.1367e-01, -4.1504e-01,
          2.0122e-01,  4.7451e-01,  1.6525e-01],
        [ 5.3567e-01, -4.6310e-01,  1.7171e+00,  1.5583e-01,  6.1324e-03,
         -2.4901e-01,  2.7454e-01,  2.4279e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [ 0.5783, -0.4306,  1.8114, -0.1515, -0.6617, -0.1268,  0.4851,
           0.0727],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5376, -0.3903,  1.7095, -0.3229, -0.4730,  0.4701,  0.3871,
           0.0772],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0451941271312535
step:  53
running loss:  0.019720643908136857
Train Steps: 53/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6157, 0.3956, 0.8323, 0.4138, 0.3479, 0.4431, 0.5914, 0.5131],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6368, -0.3853,  1.6120, -0.5413, -0.6199, -0.2305,  0.5398,  0.0600],
        [ 0.5209, -0.4816,  1.6451,  0.1398, -0.3906, -0.1227,  0.5984,  0.0783],
        [ 0.9131, -0.1735,  1.7377, -0.3481, -0.4845, -0.1768,  0.5186,  0.2881],
        [ 0.6196, -0.3521,  1.8370, -0.8313, -0.1900, -1.2255,  0.7835,  0.2021],
        [ 0.6076, -0.3732,  1.5815, -0.3898, -0.5213, -0.1574,  0.3139,  0.2048],
        [ 0.6049, -0.3922,  1.6878,  0.0123, -0.1104,  0.0630,  0.2517,  0.1497],
        [ 0.7485, -0.2795,  1.5738, -0.0625, -0.4706, -0.1227,  0.3277,  0.2029],
        [ 0.6269, -0.3977,  1.9121, -0.6803, -0.4985, -1.1353,  0.7050, -0.0465]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5581, -0.4586,  1.5586, -0.3747, -0.6792, -0.2391,  0.4455,
           0.0840],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0568622411228716
step:  54
running loss:  0.019571522983756882
Train Steps: 54/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6203, 0.4076, 0.8611, 0.2878, 0.4050, 0.2554, 0.5907, 0.5496]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7829, -0.3401,  1.8872, -0.0882, -0.5316, -0.3178,  0.9825,  0.0237],
        [ 0.7225, -0.2570,  1.2862, -0.5971, -0.6629, -0.5322,  0.2681,  0.3659],
        [ 0.7286, -0.3055,  1.2713, -1.2098, -0.2073, -1.4156,  0.5210,  0.1292],
        [ 0.6605, -0.3209,  1.4038, -0.7051, -0.5712, -0.9730,  0.0354,  0.1156],
        [ 0.8193, -0.2439,  1.8907,  0.0371, -0.3015,  0.2836,  0.6148,  0.1104],
        [ 0.8284, -0.2746,  1.8211,  0.1799, -0.3628,  0.1998,  0.5393, -0.0055],
        [-1.1938, -1.5406,  1.1514, -1.2486, -0.3078, -1.3804,  0.1980,  0.1326],
        [ 0.6440, -0.3563,  1.7050, -0.9408, -0.3089, -0.9373,  0.5627,  0.1509]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [ 0.5778, -0.4389,  1.7107,  0.1192, -0.3921,  0.0815,  0.4741,
           0.0711],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.5790, -0.4031,  1.6915, -0.9564, -0.4152, -1.1063,  0.4425,
           0.2528]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0374, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0942944386042655
step:  55
running loss:  0.019896262520077555
Train Steps: 55/90  Loss: 0.0199 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5863, -0.4174,  1.1850, -1.1955, -0.2477, -1.3069,  0.3485,  0.1124],
        [ 0.7275, -0.3032,  1.7512, -0.7057, -0.5881, -0.3120,  0.4027,  0.2238],
        [ 0.7115, -0.3709,  1.8298, -0.0473, -0.5467, -0.2742,  0.4645,  0.0810],
        [ 0.7314, -0.3769,  1.9074, -0.1583, -0.5646, -0.3302,  0.7126,  0.0212],
        [ 0.6423, -0.3575,  0.8832, -1.2260, -0.3278, -1.3196,  0.0393,  0.2563],
        [ 0.6789, -0.3773,  1.8181, -0.6685, -0.3828, -0.8828,  0.6894,  0.0553],
        [ 0.6784, -0.3066,  1.7560, -0.0381, -0.5392, -0.4158,  0.2583,  0.3503],
        [ 0.5078, -0.5002,  1.7740, -0.0045, -0.3177,  0.4120,  0.7222,  0.1060]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1001434274949133
step:  56
running loss:  0.01964541834812345

Train Steps: 56/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.6910, -1.8692,  1.1434, -1.2963, -0.3648, -1.2930,  0.1842,  0.1635],
        [ 0.7451, -0.2723,  1.7204,  0.1904, -0.3997,  0.1187,  0.1519,  0.1289],
        [ 0.6097, -0.3337,  1.2839, -1.0808, -0.0696, -1.4428,  0.3928,  0.2679],
        [ 0.7237, -0.3450,  1.7572,  0.1803, -0.5939, -0.1386,  0.5070,  0.0829],
        [ 0.8000, -0.2632,  1.5401, -0.9677, -0.5274, -0.9060,  0.6557,  0.0595],
        [ 0.5654, -0.4025,  1.4035, -1.1105, -0.3297, -1.2302,  0.4009,  0.1177],
        [ 0.8601, -0.2298,  1.8324,  0.2251, -0.6189, -0.1713,  0.7841,  0.0564],
        [ 0.7536, -0.2819,  1.8000, -0.0206, -0.2430,  0.1234,  0.2688,  0.2988]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0204, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0204, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1205182750709355
step:  57
running loss:  0.019658215352121675
Train Steps: 57/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7240, -0.3128,  1.8758, -0.1588, -0.5622, -0.1100,  0.3184,  0.3145],
        [ 0.6164, -0.3884,  0.9456, -1.0949, -0.4927, -1.2268,  0.0999,  0.0704],
        [ 0.5727, -0.4196,  1.4462, -0.6541, -0.6380, -0.7790,  0.2244,  0.1123],
        [ 0.7500, -0.3441,  1.8785, -0.1390, -0.5367,  0.1114,  0.7222,  0.2040],
        [ 0.3065, -0.6051,  1.9755, -0.6526,  0.0485, -1.1576,  0.8616,  0.2635],
        [ 0.5309, -0.4451,  1.2675, -1.0254, -0.4772, -1.0516,  0.3530,  0.2737],
        [ 0.7435, -0.3372,  1.7588, -0.5859, -0.5617, -0.5718,  0.6055,  0.1405],
        [ 0.4607, -0.4934,  1.8087,  0.0506, -0.2326,  0.4321,  0.3402,  0.1789]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.134296880569309
step:  58
running loss:  0.01955684276843636
Train Steps: 58/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6055, -0.4108,  1.7864,  0.0511, -0.3500, -0.0902,  0.1680,  0.2737],
        [ 0.7388, -0.3232,  1.8136, -0.4222, -0.5589, -0.1588,  0.5349,  0.2467],
        [ 0.7091, -0.3533,  1.8356, -0.0353, -0.3907,  0.1420,  0.4466,  0.0463],
        [ 0.5975, -0.3956,  1.4275, -0.8469, -0.5958, -0.3813,  0.4986,  0.3251],
        [ 0.5958, -0.3976,  1.8374, -0.2642, -0.5575, -0.5204,  0.3262,  0.2197],
        [ 0.6485, -0.3895,  1.7882, -0.4670, -0.5247, -0.8635,  0.3813,  0.1579],
        [ 0.4192, -0.5455,  1.6479,  0.2483, -0.4039, -0.3421,  0.7505,  0.3025],
        [ 0.4611, -0.4840,  1.1231, -1.3008, -0.3819, -1.3606,  0.1314,  0.0664]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1419263114221394
step:  59
running loss:  0.01935468324444304
Train Steps: 59/90  Loss: 0.0194 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6222, 0.3957, 0.8838, 0.5017, 0.3937, 0.4600, 0.5900, 0.5017],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6168, 0.4029, 0.8523, 0.3417, 0.3588, 0.5000, 0.6125, 0.5400],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6053, 0.4035, 0.6897, 0.1916, 0.4000, 0.2117, 0.5440, 0.5168],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7460, -0.2874,  1.7264,  0.2952, -0.3615,  0.0596,  0.1324,  0.1865],
        [ 0.6967, -0.3833,  1.8552,  0.0737, -0.5081, -0.1024,  0.4197,  0.0161],
        [-1.7460, -1.9138,  1.3348, -0.9356, -0.5931, -0.9858,  0.2740,  0.2554],
        [ 0.8198, -0.2550,  1.6915, -0.6744, -0.5717,  0.0033,  0.7498,  0.2701],
        [ 0.5167, -0.4165,  1.8108, -0.7367, -0.2093, -1.3022,  0.3991,  0.0950],
        [ 0.5604, -0.4277,  0.9121, -1.2715, -0.3794, -1.3098,  0.3249,  0.1936],
        [ 0.7529, -0.2951,  1.8136,  0.2724, -0.5670, -0.5399,  0.4457,  0.1687],
        [ 0.4675, -0.4694,  1.3008, -1.0542, -0.3341, -1.1477,  0.4661,  0.2529]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5879, -0.4583,  1.7961,  0.0313, -0.4672, -0.1612,  0.4393,
           0.0313],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5631, -0.4249,  1.6509, -0.7078, -0.6289,  0.0236,  0.5432,
           0.2083],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5102, -0.4223,  0.8999, -1.4011, -0.4383, -1.3082,  0.2267,
           0.1013],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0150, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.156885642092675
step:  60
running loss:  0.01928142736821125

Train Steps: 60/90  Loss: 0.0193 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [0.6357, 0.4159, 0.8788, 0.5583, 0.3638, 0.4433, 0.6488, 0.5297],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3795, -0.5493,  1.2779, -1.1011, -0.6506, -0.7793,  0.3970,  0.1421],
        [ 0.4603, -0.4661,  1.3833, -0.7593, -0.6260, -0.9102, -0.0130,  0.1901],
        [ 0.6507, -0.3994,  1.7494,  0.2472, -0.6366, -0.2860,  0.6668,  0.0906],
        [ 0.6627, -0.3054,  1.7199, -0.0872, -0.2746, -0.9652,  0.2201,  0.4598],
        [ 0.6057, -0.4007,  1.7335, -0.2720, -0.6664, -0.7356,  0.3688,  0.2675],
        [ 0.3530, -0.5622,  1.7161, -0.2440, -0.1596,  0.1293,  0.3165,  0.1964],
        [ 0.3366, -0.5876,  1.3808, -0.9403, -0.6362, -0.8249,  0.4522,  0.1936],
        [ 0.4302, -0.5576,  1.7444, -1.1820,  0.1793, -1.0450,  1.0431,  0.2124]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [ 0.6504, -0.3647,  1.7730,  0.2930, -0.6058, -0.2382,  0.7109,
           0.1608],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822],
         [ 0.6016, -0.3633,  1.7152, -0.2228, -0.6115, -0.6385,  0.5028,
           0.2699],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1654705270193517
step:  61
running loss:  0.019106074213431995
Train Steps: 61/90  Loss: 0.0191 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6090, 0.4045, 0.7250, 0.2100, 0.4075, 0.2300, 0.5476, 0.5663],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.1501, -2.1734,  1.3345, -0.8381, -0.5983, -0.9237,  0.1402,  0.2465],
        [ 0.4663, -0.4732,  1.1043, -1.1138, -0.4635, -1.1531,  0.1945,  0.2410],
        [-1.5817, -1.7912,  0.9501, -1.3078, -0.3975, -1.2940,  0.0970,  0.2340],
        [ 0.9681, -0.1215,  1.7032,  0.3756, -0.5523, -0.0942,  0.4063,  0.1481],
        [ 0.9483, -0.1109,  1.8560,  0.1420, -0.6529, -0.2599,  0.2922,  0.3571],
        [ 0.8209, -0.2577,  1.7611, -1.0484,  0.1209, -0.9930,  1.0093,  0.2220],
        [ 0.9207, -0.2333,  1.6936,  0.2770, -0.5535, -0.0371,  0.5384,  0.0420],
        [ 0.7437, -0.2797,  1.4979, -0.9594, -0.3998, -1.1038,  0.4923,  0.1269]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5269, -0.4176,  1.0628, -1.3159, -0.4037, -1.2236,  0.2432,
           0.3297],
         [-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0272, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0272, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.192680740263313
step:  62
running loss:  0.019236786133279244
Train Steps: 62/90  Loss: 0.0192 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6289, 0.4024, 0.9088, 0.4567, 0.3937, 0.5633, 0.7058, 0.5609],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6339, 0.4112, 0.8838, 0.5067, 0.4000, 0.5433, 0.7549, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6573, -0.3446,  1.6966, -0.2443, -0.5200,  0.1686,  0.5751,  0.2832],
        [ 0.6415, -0.3198,  1.6393, -0.4346, -0.4965, -0.9133,  0.0875,  0.4190],
        [ 0.4149, -0.5455,  1.8838, -0.2986, -0.3281, -0.9900,  0.6586,  0.1507],
        [ 0.6257, -0.3637,  1.6404,  0.1075, -0.6028, -0.1368,  0.3381,  0.1363],
        [ 0.5099, -0.4514,  1.6478, -1.0770,  0.0905, -1.2842,  0.7178,  0.1467],
        [ 0.6812, -0.3321,  1.5995,  0.0378, -0.5077,  0.1190,  0.6594,  0.2596],
        [-2.2269, -2.2209,  1.0822, -1.1340, -0.4991, -1.3651, -0.0889,  0.1406],
        [ 0.5776, -0.4028,  1.6504, -0.0414, -0.5256,  0.1455,  0.5969,  0.2451]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6191, -0.4273,  1.9115, -0.1766, -0.4672,  0.3161,  0.9741,
           0.3050],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.6421, -0.3864,  1.7961,  0.0543, -0.4383,  0.2237,  1.2007,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0305, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0305, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2231627046130598
step:  63
running loss:  0.019415281025604123
Train Steps: 63/90  Loss: 0.0194 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6864, -0.2961,  1.5186, -0.5382, -0.5293, -0.7114,  0.4208,  0.5046],
        [ 0.9863, -0.1553,  1.5130,  0.3829, -0.4618, -0.3696,  0.4101,  0.2275],
        [ 0.8880, -0.2267,  1.6710, -0.8084, -0.3837, -0.4435,  1.0219,  0.2616],
        [-2.2763, -2.2673,  1.3555, -0.8581, -0.5137, -0.9928,  0.1230,  0.2752],
        [ 0.7329, -0.2929,  1.7610, -0.4323, -0.5493, -0.6349,  0.1989,  0.0026],
        [-1.8182, -1.9563,  0.9659, -1.3406, -0.3299, -1.3894,  0.0819,  0.2440],
        [ 0.8465, -0.2613,  1.7509,  0.2371, -0.4888, -0.1813,  0.6480,  0.0601],
        [ 0.8349, -0.2106,  1.8088, -0.2125, -0.3730,  0.0472,  0.5546,  0.3162]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4376e-01, -4.2055e-01,  1.5189e+00, -4.5373e-01, -6.1155e-01,
          -6.2309e-01,  4.3649e-01,  5.4914e-01],
         [ 5.6801e-01, -4.5619e-01,  1.5697e+00,  4.9469e-01, -4.9038e-01,
          -1.5026e-01,  3.5357e-01,  1.9563e-01],
         [ 6.1577e-01, -4.2490e-01,  1.8654e+00, -9.0023e-01, -3.2286e-01,
          -3.5366e-01,  9.6675e-01,  2.8902e-01],
         [-2.2859e+00, -2.2859e+00,  1.4006e+00, -8.1049e-01, -6.1155e-01,
          -8.2325e-01,  4.1889e-02,  2.8371e-01],
         [ 5.5953e-01, -3.9877e-01,  1.7672e+00, -4.4604e-01, -5.5381e-01,
          -5.3841e-01,  8.2802e-02, -3.0981e-02],
         [-2.2859e+00, -2.2859e+00,  8.5162e-01, -1.3112e+00, -4.3256e-01,
          -1.2851e+00,  7.5520e-02,  2.9299e-01],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [ 5.9677e-01, -3.7252e-01,  1.8423e+00, -1.3811e-01, -4.0370e-01,
           1.8522e-01,  6.0092e-01,  2.7760e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2426480515860021
step:  64
running loss:  0.019416375806031283

Train Steps: 64/90  Loss: 0.0194 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6339, 0.4102, 0.8588, 0.3133, 0.4425, 0.2117, 0.6417, 0.5089],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5682, -0.3837,  1.6764, -0.2138, -0.3883, -0.8902,  0.3701,  0.5147],
        [ 0.2831, -0.6369,  1.5697, -1.2638,  0.0999, -1.3712,  0.9089,  0.2294],
        [ 0.2783, -0.6375,  1.5955, -0.1216, -0.4374,  0.1521,  0.4283,  0.2186],
        [ 0.4816, -0.4981,  1.7127, -0.2116, -0.7235, -0.0632,  0.5347,  0.3418],
        [ 0.4290, -0.5700,  1.5273,  0.2132, -0.5799, -0.1178,  0.4299,  0.1792],
        [ 0.5207, -0.4917,  1.6541, -0.9631, -0.3377, -1.1652,  0.7063,  0.0927],
        [ 0.2865, -0.5891,  1.4471, -0.9866, -0.2524, -1.2922,  0.3699,  0.2180],
        [ 0.1956, -0.6708,  1.3196, -1.2192, -0.3199, -1.2378,  0.4614,  0.2082]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1742e-01, -3.1175e-01,  1.6402e+00, -2.0739e-01, -1.9584e-01,
          -1.0927e+00,  2.2674e-01,  5.8220e-01],
         [ 6.5036e-01, -3.8397e-01,  1.5940e+00, -1.1312e+00,  2.1409e-01,
          -1.5315e+00,  8.2052e-01,  2.9436e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.7633e-01, -3.9630e-01,  1.7788e+00, -7.6520e-02, -6.5196e-01,
          -8.4219e-02,  4.6236e-01,  2.7760e-01],
         [ 5.8915e-01, -4.5504e-01,  1.5132e+00,  3.5458e-01, -3.6905e-01,
          -1.5350e-01,  3.8152e-01,  1.4673e-01],
         [ 6.4212e-01, -3.9120e-01,  1.6806e+00, -8.3865e-01, -2.4203e-01,
          -1.3082e+00,  6.7795e-01,  6.4585e-02],
         [ 5.9107e-01, -3.8879e-01,  1.4727e+00, -9.5412e-01, -9.1917e-02,
          -1.4930e+00,  3.9885e-01,  2.0831e-01],
         [ 5.7679e-01, -4.0308e-01,  1.3838e+00, -1.1527e+00, -2.1876e-01,
          -1.4216e+00,  4.3790e-01,  1.8502e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0199, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0199, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2625863901339471
step:  65
running loss:  0.019424406002060725
Train Steps: 65/90  Loss: 0.0194 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6267, 0.4080, 0.8438, 0.2633, 0.4763, 0.1800, 0.6259, 0.5240],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5621, -0.4321,  1.7724, -0.4772, -0.5423, -0.1147,  0.8050,  0.2694],
        [ 0.5308, -0.4434,  1.6116, -1.1489, -0.1159, -1.5357,  0.5198,  0.1760],
        [ 0.5708, -0.3927,  1.7551, -0.3971, -0.4772,  0.0762,  0.3674,  0.0970],
        [ 0.3569, -0.5271,  1.7537, -0.2564, -0.2742,  0.1578,  0.5440,  0.2621],
        [ 0.5001, -0.4712,  1.6459,  0.1250, -0.5059, -0.5100,  0.7173,  0.2668],
        [ 0.5423, -0.4400,  1.6106,  0.2562, -0.5150, -0.2214,  0.4051,  0.1300],
        [ 0.4982, -0.4699,  1.4092,  0.0876, -0.4595, -0.2477,  0.7810,  0.3380],
        [-2.5799, -2.5101,  0.9946, -1.3201, -0.3054, -1.6528,  0.1075,  0.3432]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6088, -0.4015,  1.6113, -1.0696, -0.0861, -1.4545,  0.6051,
           0.1343],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0219, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2844528066925704
step:  66
running loss:  0.019461406162008643
Train Steps: 66/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6355, -0.3365,  1.7837,  0.2189, -0.3321, -0.7855,  0.6329,  0.4986],
        [ 0.6189, -0.3985,  1.1583, -1.1676, -0.5172, -0.9246,  0.6778,  0.2728],
        [ 0.4296, -0.5356,  1.8003, -0.0223, -0.1546,  0.1135,  0.4732,  0.0954],
        [ 0.2051, -0.6368,  1.1759, -1.1390, -0.3122, -1.3071,  0.3184,  0.2113],
        [ 0.2515, -0.6269,  1.0781, -1.1108, -0.3976, -1.3259,  0.3161,  0.0738],
        [-2.5323, -2.4686,  1.0653, -1.2045, -0.4495, -1.2806,  0.2355,  0.2090],
        [ 0.6640, -0.3917,  1.4862, -1.1260, -0.1107, -1.3607,  0.8365,  0.1686],
        [ 0.4217, -0.5376,  1.9231, -0.1483, -0.5415, -0.2629,  0.6584,  0.2839]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0230, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0230, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3074766951613128
step:  67
running loss:  0.019514577539721085
Train Steps: 67/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7521, -0.2619,  1.6282, -0.0429, -0.5543, -0.5445,  0.4366,  0.3235],
        [-2.1303, -2.1780,  1.7012, -1.1529,  0.1408, -1.2760,  0.8930,  0.4179],
        [ 0.7358, -0.3000,  1.6929,  0.0419, -0.5112, -0.0552,  0.5920,  0.1726],
        [-1.7605, -1.9247,  0.9663, -1.3456, -0.4302, -1.4783,  0.0266,  0.2209],
        [ 0.7053, -0.2838,  1.5613,  0.1993, -0.0641, -0.2609,  0.4373,  0.3980],
        [ 0.5957, -0.3948,  1.7999, -0.4406, -0.5199, -0.3977,  0.4966,  0.2283],
        [ 0.6119, -0.3963,  1.6988, -0.1708, -0.3118,  0.0706,  0.3834, -0.0591],
        [ 0.6916, -0.3560,  1.5536,  0.0555, -0.4908, -0.3907,  1.0764,  0.2408]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7771e-01, -3.9153e-01,  1.7961e+00,  1.6982e-01, -5.1917e-01,
          -5.3072e-01,  2.1409e-01,  3.3918e-01],
         [-2.2859e+00, -2.2859e+00,  1.8018e+00, -9.0023e-01,  1.9099e-01,
          -1.2467e+00,  1.1057e+00,  3.7986e-01],
         [ 5.6028e-01, -4.3195e-01,  1.7788e+00,  1.7752e-01, -5.5381e-01,
          -6.1124e-02,  4.7968e-01,  1.5443e-01],
         [-2.2859e+00, -2.2859e+00,  1.0712e+00, -1.2085e+00, -3.8060e-01,
          -1.3929e+00,  7.5520e-02,  2.0062e-01],
         [ 5.9590e-01, -3.5789e-01,  1.6055e+00,  3.6228e-01, -5.7275e-02,
          -2.0739e-01,  3.1224e-01,  4.5466e-01],
         [ 5.8320e-01, -4.2309e-01,  1.8423e+00, -3.6135e-01, -5.2494e-01,
          -3.1517e-01,  3.0647e-01,  2.9299e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 6.4212e-01, -3.6471e-01,  1.5940e+00,  3.0839e-01, -5.1917e-01,
          -3.6905e-01,  1.1057e+00,  3.6917e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.325725748669356
step:  68
running loss:  0.019495966892196414

Train Steps: 68/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5283, -0.5369,  1.9181, -0.6369, -0.4015, -0.9028,  0.8409, -0.0470],
        [ 0.2845, -0.6451,  1.9472, -0.3014, -0.4665, -0.3839,  0.4376,  0.1284],
        [ 0.5186, -0.4488,  1.4861, -0.1716, -0.4262, -0.8543,  0.4471,  0.4673],
        [ 0.3839, -0.5428,  1.3026, -1.1962, -0.0284, -1.3630,  0.4675,  0.3162],
        [ 0.1748, -0.7349,  1.7817, -0.0084, -0.4737, -0.1699,  0.6443,  0.3722],
        [ 0.4493, -0.5394,  1.7518,  0.1026, -0.4578, -0.4625,  0.4444,  0.3099],
        [ 0.4751, -0.5104,  1.9062, -0.2140, -0.2256,  0.3614,  0.8055,  0.2947],
        [ 0.3398, -0.6077,  0.9313, -1.0825, -0.4828, -0.9722,  0.4175,  0.3324]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0231, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3488060417585075
step:  69
running loss:  0.01954791364867402
Train Steps: 69/90  Loss: 0.0195 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6030, 0.3969, 0.7988, 0.3917, 0.3450, 0.3667, 0.5266, 0.4700],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7772, -0.2527,  1.6278,  0.0698, -0.3793, -0.1506,  0.2176,  0.2853],
        [-1.7345, -1.9180,  1.5621, -1.2114,  0.2351, -1.2765,  1.1004,  0.4288],
        [ 0.8021, -0.2626,  1.6834,  0.2813, -0.5456, -0.5102,  0.6018,  0.0368],
        [ 0.8277, -0.2241,  1.4681, -0.4764, -0.6223, -0.5843,  0.2276,  0.0560],
        [-1.8877, -2.0528,  1.1652, -1.0918, -0.5150, -1.0408,  0.1515,  0.2189],
        [ 0.8518, -0.1916,  1.7081, -0.0081, -0.2950,  0.3841,  0.5503,  0.2017],
        [ 0.8578, -0.2372,  1.6706,  0.0083, -0.5515, -0.4213,  0.4641,  0.1731],
        [-0.7118, -1.2511,  1.4998, -1.1039,  0.2474, -1.1877,  1.1366,  0.5582]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.4992, -0.4525,  1.4035, -0.4768, -0.6924, -0.5923,  0.1465,
          -0.1151],
         [-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0804, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0804, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.429237652104348
step:  70
running loss:  0.020417680744347827
Train Steps: 70/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6231, 0.3973, 0.8650, 0.3950, 0.3625, 0.3183, 0.5837, 0.5167],
        [0.6296, 0.4045, 0.9138, 0.4100, 0.4232, 0.4242, 0.7422, 0.5297]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4453, -0.4955,  1.0256, -1.3659, -0.3497, -1.3072,  0.4431,  0.1319],
        [ 0.5297, -0.4232,  1.5883, -0.5915, -0.5403, -0.8735,  0.1991,  0.1346],
        [ 0.4946, -0.4857,  1.7351, -0.2698, -0.5069, -0.1672,  0.6268,  0.2527],
        [-2.8201, -2.6383,  1.6262, -0.9551,  0.1732, -1.2972,  0.9966,  0.4400],
        [ 0.3718, -0.5021,  1.6190,  0.1805, -0.0066,  0.1725,  0.3168,  0.2959],
        [ 0.3578, -0.5493,  1.6804, -0.0961, -0.4836, -0.3701,  0.3286,  0.1494],
        [ 0.4327, -0.5074,  1.5830, -0.3938, -0.5189, -0.8052,  0.3056,  0.2072],
        [ 0.6953, -0.3807,  1.7009, -0.3156, -0.4463, -0.3204,  0.8906,  0.2495]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5564, -0.3842,  1.7268,  0.1005, -0.0250,  0.3225,  0.2658,
           0.0862],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5924, -0.4507,  1.7095, -0.4614, -0.6115, -0.8156,  0.4104,
           0.1005],
         [ 0.6224, -0.4177,  1.9346, -0.3921, -0.3314, -0.3264,  1.1422,
           0.1608]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0187, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4479092578403652
step:  71
running loss:  0.020393088138596693
Train Steps: 71/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6182, 0.3930, 0.8841, 0.3892, 0.3556, 0.4967, 0.6222, 0.5279],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4783, -0.4974,  1.6404, -0.4530, -0.5869, -0.5150,  0.2844,  0.1453],
        [ 0.3782, -0.5538,  0.8784, -0.8781, -0.4522, -1.1484,  0.3703,  0.4597],
        [ 0.4230, -0.5561,  2.0172, -0.3372, -0.3733, -0.6211,  0.8404,  0.1709],
        [ 0.3973, -0.5338,  1.6760, -0.0551, -0.4016, -0.2625,  0.2399,  0.4082],
        [ 0.4056, -0.5981,  1.8446, -0.3088, -0.4308, -0.1141,  0.7484,  0.1713],
        [ 0.4678, -0.5262,  1.4584, -0.9175, -0.4248, -1.0008,  0.6792,  0.2188],
        [ 0.0892, -0.7973,  1.9030,  0.0130, -0.0089, -0.0517,  0.2399,  0.0862],
        [ 0.2341, -0.6479,  1.8795, -0.4693, -0.4716, -0.5444,  0.6646,  0.3986]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968],
         [ 0.5697, -0.4706,  1.7976, -0.4884, -0.6433,  0.0081,  0.5878,
           0.1525],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.6040, -0.3614,  1.7672, -0.7001, -0.6404, -0.3768,  0.5778,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0253, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4732359643094242
step:  72
running loss:  0.02046161061540867

Train Steps: 72/90  Loss: 0.0205 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2125, -0.6521,  1.6035, -0.3375, -0.4940, -1.0512,  0.1700,  0.4392],
        [ 0.4755, -0.4858,  1.6933, -0.1396, -0.4665, -0.1380,  0.0999,  0.3121],
        [ 0.2651, -0.6861,  1.6333,  0.4201, -0.4264,  0.0603,  0.8666,  0.2789],
        [ 0.2776, -0.6162,  1.7169, -1.3630,  0.0578, -1.5248,  0.7481,  0.0741],
        [ 0.3534, -0.6021,  1.8435,  0.1591, -0.1584,  0.1252,  0.5831,  0.2369],
        [ 0.5017, -0.5179,  1.9070, -0.4184, -0.5838, -0.5517,  0.5219, -0.0068],
        [ 0.4388, -0.5183,  1.0337, -1.3808, -0.4962, -1.1296,  0.3308,  0.2330],
        [ 0.4061, -0.5370,  1.5350, -0.8161, -0.6444, -0.3295,  0.4475,  0.3008]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0192, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.4924231390468776
step:  73
running loss:  0.020444152589683254
Train Steps: 73/90  Loss: 0.0204 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6171, 0.4127, 0.8900, 0.4800, 0.4325, 0.5783, 0.5769, 0.5090],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4990, -0.3994,  1.8878,  0.1543, -0.1967,  0.2972,  0.2611,  0.1317],
        [-2.5539, -2.4791,  1.3508, -0.8933, -0.3324, -1.1283,  0.5128,  0.2438],
        [ 0.5593, -0.4488,  1.0732, -1.2685, -0.3754, -1.2378,  0.5518,  0.1295],
        [ 0.4449, -0.4705,  1.3463, -0.9438, -0.6151, -0.6301,  0.4881,  0.1498],
        [ 0.4011, -0.5055,  1.4918, -0.5525, -0.5540, -0.9145,  0.3074,  0.2244],
        [ 0.5259, -0.4571,  1.8694, -0.2454, -0.5995, -0.1364,  0.5221,  0.1358],
        [ 0.4467, -0.4976,  1.9176,  0.1158, -0.4520,  0.0610,  0.3982,  0.1398],
        [ 0.4622, -0.4492,  1.5167, -0.7024, -0.1878, -1.1792,  0.4206,  0.3888]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5645, -0.3797,  1.8249, -0.0688, -0.2882,  0.3854,  0.3789,
           0.0652],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0119, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5043019359000027
step:  74
running loss:  0.020328404539189226
Train Steps: 74/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7385, -0.2766,  1.7929, -0.4707, -0.3836, -0.8503,  0.2929,  0.5421],
        [ 0.4394, -0.5178,  1.7771,  0.1945, -0.5874, -0.4860,  0.1179,  0.1616],
        [ 0.5185, -0.4564,  1.5172, -0.9465, -0.5366, -0.9257,  0.4488,  0.1289],
        [ 0.4509, -0.5212,  1.7735, -0.5872, -0.6069, -0.7674,  0.4284,  0.1717],
        [ 0.3056, -0.6098,  1.1797, -1.4743, -0.5555, -1.1407,  0.5208,  0.0257],
        [ 0.5038, -0.4859,  1.7634,  0.1764, -0.2746,  0.2542,  0.7511,  0.2093],
        [-0.1378, -0.8732,  0.9934, -1.3726, -0.4818, -1.0837,  0.5299,  0.3079],
        [ 0.3289, -0.6140,  1.8338,  0.0409, -0.2576,  0.1750,  0.2668,  0.0221]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0075e-01, -3.2925e-01,  1.7037e+00, -5.4611e-01, -4.1524e-01,
          -8.3095e-01,  3.2339e-01,  3.9283e-01],
         [ 5.3788e-01, -4.3580e-01,  1.7326e+00,  1.8522e-01, -6.0577e-01,
          -5.4611e-01,  6.8408e-02, -3.0981e-02],
         [ 5.7806e-01, -4.1286e-01,  1.4142e+00, -9.0574e-01, -5.1146e-01,
          -9.9373e-01,  4.6205e-01,  1.0799e-01],
         [ 5.7771e-01, -4.4157e-01,  1.7044e+00, -5.8275e-01, -5.9618e-01,
          -8.3610e-01,  4.8621e-01,  1.9626e-01],
         [ 5.6184e-01, -3.8945e-01,  1.2129e+00, -1.4853e+00, -5.1339e-01,
          -1.0619e+00,  3.3778e-01,  7.7228e-02],
         [ 6.0425e-01, -4.2731e-01,  1.6920e+00,  1.8595e-01, -2.7171e-01,
           1.4059e-01,  7.9965e-01,  1.0043e-01],
         [ 6.1155e-01, -3.9238e-01,  1.0109e+00, -1.3005e+00, -4.3834e-01,
          -1.0619e+00,  5.2009e-01,  3.1609e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0201, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5244338628835976
step:  75
running loss:  0.020325784838447967
Train Steps: 75/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.2324, -2.2225,  1.6292, -1.1904,  0.0917, -1.4040,  1.1599,  0.2829],
        [ 0.7922, -0.2702,  1.3739,  0.1742, -0.5550, -0.2331,  0.7177,  0.3121],
        [ 0.7121, -0.2939,  0.9677, -1.1365, -0.5669, -1.3134,  0.0549,  0.2373],
        [ 0.8527, -0.2089,  1.8690, -0.2207, -0.6001,  0.2241,  0.3038, -0.0493],
        [ 0.7100, -0.3023,  1.7268,  0.1583, -0.4271,  0.0640,  0.1201,  0.0194],
        [ 0.7107, -0.2707,  1.5645, -0.6021, -0.6825,  0.0030,  0.3742,  0.1236],
        [-2.0439, -2.0895,  1.1987, -1.0126, -0.5981, -1.1250,  0.1630,  0.2282],
        [ 0.7303, -0.3029,  1.7606, -0.0840, -0.2595, -0.0316,  0.2301,  0.1367]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5448, -0.3859,  0.9242, -1.1466, -0.4152, -1.3005,  0.1910,
           0.2776],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0172, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0172, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5416146223433316
step:  76
running loss:  0.020284402925570152

Train Steps: 76/90  Loss: 0.0203 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6101, 0.3977, 0.8550, 0.5667, 0.3862, 0.4417, 0.5128, 0.4869],
        [0.6286, 0.4055, 0.9000, 0.4717, 0.3763, 0.4683, 0.7018, 0.5494],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6206, 0.4001, 0.8900, 0.3933, 0.3588, 0.3567, 0.5837, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-0.0093, -0.8159,  1.5997, -0.9410, -0.6810, -0.3697,  0.5364,  0.1780],
        [ 0.4972, -0.5001,  1.7852, -0.1670, -0.4175,  0.0122,  0.3248,  0.1241],
        [ 0.5981, -0.3969,  1.6569,  0.3041, -0.4702, -0.2394,  0.2030,  0.0229],
        [ 0.5747, -0.4492,  1.8774, -0.2422, -0.5260, -0.1429,  1.0017,  0.2354],
        [ 0.7515, -0.2731,  1.0945, -0.9634, -0.6238, -1.0175,  0.1457,  0.3325],
        [ 0.5947, -0.4267,  1.8414, -0.3665, -0.3415,  0.1742,  0.4117,  0.1350],
        [ 0.6684, -0.3270,  1.7121,  0.1320, -0.5190, -0.3264,  0.3048,  0.4452],
        [ 0.4449, -0.5292,  1.8183, -0.6192, -0.6611, -0.6690,  0.3456,  0.0433]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5320, -0.4488,  1.6633,  0.3315, -0.5018, -0.2459,  0.0828,
          -0.0370],
         [ 0.6174, -0.4129,  1.8711, -0.1073, -0.5480, -0.1227,  0.9558,
           0.2516],
         [ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [ 0.5807, -0.4378,  1.8249, -0.4691, -0.6289, -0.6385,  0.4104,
           0.0620]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0129, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5544648678041995
step:  77
running loss:  0.020187855426028564
Train Steps: 77/90  Loss: 0.0202 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7268, 0.2333, 0.4125, 0.1933, 0.5112, 0.5383],
        [0.6137, 0.4038, 0.8563, 0.4050, 0.3813, 0.2550, 0.5106, 0.4954],
        [0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.9846, -2.0517,  1.0544, -1.1034, -0.4659, -1.2181,  0.2361,  0.2311],
        [ 0.6813, -0.3112,  1.6636, -0.3705, -0.5481, -0.9216,  0.0807,  0.0184],
        [ 0.8089, -0.2280,  1.1881, -0.7429, -0.6169, -0.8958,  0.1599,  0.2940],
        [-1.8478, -1.9572,  0.9084, -1.2993, -0.4090, -1.2715,  0.3189,  0.2186],
        [ 0.6891, -0.3126,  1.0502, -1.2537, -0.5350, -0.9494,  0.4252,  0.2086],
        [ 0.7851, -0.2646,  1.7832,  0.0043, -0.2070,  0.1093,  0.2041,  0.1600],
        [ 0.7233, -0.3370,  1.8567,  0.0620, -0.4575,  0.3413,  0.8358,  0.1053],
        [ 0.7289, -0.2822,  1.9100, -0.5723, -0.6314, -0.3930,  0.5902,  0.0267]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  1.0712e+00, -1.2085e+00, -3.8060e-01,
          -1.3929e+00,  7.5520e-02,  2.0062e-01],
         [ 5.4850e-01, -4.2094e-01,  1.6691e+00, -4.1524e-01, -5.2494e-01,
          -1.1081e+00,  7.2521e-02,  2.0831e-03],
         [ 5.5484e-01, -3.9360e-01,  1.1634e+00, -8.1049e-01, -5.1917e-01,
          -1.0696e+00,  2.3718e-01,  3.9307e-01],
         [-2.2859e+00, -2.2859e+00,  7.2217e-01, -1.4930e+00, -3.9215e-01,
          -1.3698e+00,  1.4038e-01,  1.3434e-01],
         [ 5.3557e-01, -4.2171e-01,  1.0339e+00, -1.4776e+00, -5.0762e-01,
          -1.1081e+00,  4.2194e-01,  2.8530e-01],
         [ 5.3585e-01, -4.3703e-01,  1.7095e+00, -3.0331e-02, -8.0370e-02,
          -3.8029e-02,  1.0439e-01,  3.3918e-01],
         [ 5.9931e-01, -4.3453e-01,  1.7587e+00,  6.4079e-02, -3.9175e-01,
           2.0479e-01,  7.8274e-01,  8.5217e-02],
         [ 6.0774e-01, -3.9646e-01,  1.8480e+00, -6.5389e-01, -6.2309e-01,
          -4.5373e-01,  6.2155e-01, -2.1963e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0198, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0198, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5742266257293522
step:  78
running loss:  0.020182392637555797
Train Steps: 78/90  Loss: 0.0202 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6286, 0.4040, 0.8696, 0.3047, 0.3924, 0.2887, 0.6300, 0.5367],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808],
        [0.6304, 0.4029, 0.8413, 0.5217, 0.4125, 0.5617, 0.7089, 0.5679],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3673, -0.5634,  1.6359, -0.6539, -0.6386, -0.7926,  0.4197,  0.1037],
        [ 0.7273, -0.2814,  1.7136, -0.3755, -0.6066, -0.4177,  0.0784,  0.1788],
        [ 0.4522, -0.4597,  1.3317, -0.7944, -0.7027, -0.8624, -0.1578,  0.1287],
        [ 0.5168, -0.4615,  1.5470, -0.9493, -0.4533, -0.9150,  0.5691,  0.2001],
        [ 0.4989, -0.4498,  1.5476, -0.3193, -0.5839, -0.1889,  0.1756,  0.3494],
        [ 0.5740, -0.4453,  1.6434,  0.0708, -0.4044,  0.3415,  0.9822,  0.2546],
        [ 0.4685, -0.5086,  1.6151,  0.0564, -0.3354,  0.2027,  0.7280,  0.0913],
        [ 0.3415, -0.5573,  1.7585, -0.8527, -0.4933, -0.7010,  0.5609,  0.1285]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.6174, -0.4201,  1.7309, -0.8784, -0.4735, -0.9524,  0.6242,
           0.1931],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968],
         [ 0.6257, -0.4249,  1.5998,  0.1236, -0.3806,  0.3084,  0.9887,
           0.3371],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0083, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0083, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.5825061020441353
step:  79
running loss:  0.020031722810685257
Train Steps: 79/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4102, 0.7288, 0.2417, 0.4150, 0.2383, 0.6100, 0.5500],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6099, 0.4030, 0.8638, 0.5117, 0.4983, 0.4965, 0.5086, 0.5388]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6953, -0.3039,  1.0919, -1.2795, -0.5539, -1.2303,  0.4363,  0.1660],
        [ 0.6522, -0.3437,  1.6727, -0.4270, -0.6701, -0.1970,  0.1418, -0.0034],
        [ 0.4385, -0.5066,  1.6041,  0.0371, -0.4771,  0.1611,  1.0337,  0.2570],
        [ 0.6591, -0.3570,  1.7664, -0.3257, -0.6140, -0.1533,  0.2319,  0.1825],
        [-1.6271, -1.8176,  1.2880, -1.0241, -0.5292, -1.1064,  0.1217,  0.2967],
        [ 0.5874, -0.4156,  1.6548,  0.0828, -0.4626,  0.0553,  0.7523,  0.0670],
        [ 0.7439, -0.2793,  1.7456,  0.1186, -0.5632,  0.0915,  0.3984,  0.1757],
        [ 0.5422, -0.4143,  1.7436, -0.1030, -0.1236, -0.1744,  0.0474,  0.1065]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5784, -0.3913,  1.0801, -1.1697, -0.3691, -1.1851,  0.5316,
           0.2545],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.5309, -0.4246,  1.7037,  0.0774,  0.0158,  0.0075,  0.0635,
           0.2026]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0213, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0213, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.603833228815347
step:  80
running loss:  0.020047915360191838

Train Steps: 80/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6201, 0.4036, 0.8596, 0.3850, 0.3492, 0.3785, 0.5978, 0.5131],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3734, -0.5190,  1.1472, -0.9185, -0.5289, -0.9328,  0.3290,  0.5005],
        [ 0.1556, -0.7042,  1.3313, -1.2112, -0.4058, -0.9651,  0.7235,  0.1515],
        [ 0.7030, -0.3688,  1.7134, -0.4899, -0.7348, -0.4037,  0.3331,  0.0598],
        [ 0.4604, -0.5118,  1.8374, -0.4674, -0.5123, -0.5352,  0.8484,  0.2562],
        [ 0.7388, -0.3145,  1.3714, -1.0121, -0.5813, -1.0120,  0.1488,  0.0172],
        [ 0.5941, -0.3950,  1.7309, -0.0935, -0.3420,  0.1457,  0.3144,  0.1970],
        [ 0.5540, -0.4376,  1.6098,  0.0253, -0.2959,  0.2028,  0.3435,  0.1415],
        [ 0.2762, -0.6084,  1.4040, -0.9958, -0.4741, -1.0922,  0.3900,  0.0834]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6307e-01, -4.1286e-01,  1.2129e+00, -9.2333e-01, -4.1524e-01,
          -1.0311e+00,  4.5658e-01,  5.6243e-01],
         [ 6.1413e-01, -4.1527e-01,  1.4208e+00, -1.2697e+00, -2.9400e-01,
          -1.0234e+00,  8.6439e-01,  1.7146e-01],
         [ 5.7829e-01, -4.2163e-01,  1.6847e+00, -5.0778e-01, -6.7321e-01,
          -5.3774e-01,  4.7523e-01,  8.3916e-02],
         [ 6.1248e-01, -4.1527e-01,  1.8885e+00, -5.4611e-01, -5.1339e-01,
          -6.5389e-01,  9.8137e-01,  2.8902e-01],
         [ 5.7985e-01, -4.1555e-01,  1.3977e+00, -1.0388e+00, -4.6721e-01,
          -1.1004e+00,  3.4688e-01,  1.0824e-01],
         [ 5.6374e-01, -4.1432e-01,  1.7519e+00, -7.8656e-02, -3.0554e-01,
          -1.4935e-02,  3.7575e-01,  3.0839e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.8851e-01, -4.4288e-01,  1.4266e+00, -9.9261e-01, -4.3834e-01,
          -1.2313e+00,  4.2276e-01,  1.1948e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0144, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0144, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6182256652973592
step:  81
running loss:  0.01997809463330073
Train Steps: 81/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6293, 0.4097, 0.8800, 0.2517, 0.5262, 0.2600, 0.7430, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2903, -0.5904,  1.3713, -1.2827, -0.1585, -1.3888,  0.3519,  0.0815],
        [ 0.3774, -0.5230,  1.1499, -0.9511, -0.7478, -0.5249,  0.2670,  0.2296],
        [ 0.6424, -0.3445,  1.6242, -0.1800, -0.6430,  0.0166,  0.1866,  0.3549],
        [ 0.3907, -0.5244,  1.1680, -1.1063, -0.3419, -1.1686,  0.3648,  0.2469],
        [ 0.7197, -0.3552,  1.6134,  0.0642, -0.4562,  0.1645,  0.5280,  0.1403],
        [ 0.5325, -0.4282,  1.7349, -0.4375, -0.4583, -1.1334,  0.2133,  0.0699],
        [ 0.4556, -0.5406,  1.7986, -0.2391, -0.6904,  0.2913,  0.8318,  0.1297],
        [ 0.4897, -0.4823,  1.6821, -1.0455,  0.0482, -1.0562,  0.9698,  0.2569]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.6207, -0.3936,  1.7788, -1.1235,  0.1448, -1.0850,  1.1459,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6365177757106721
step:  82
running loss:  0.019957533850130146
Train Steps: 82/90  Loss: 0.0200 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6230, 0.4113, 0.7213, 0.1983, 0.4325, 0.2367, 0.6262, 0.5400],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8619, -0.2506,  1.5938,  0.1987, -0.4249,  0.2109,  0.7913,  0.0299],
        [ 0.8644, -0.2650,  1.7133, -0.0653, -0.5711, -0.0539,  0.4279, -0.0110],
        [ 0.7838, -0.2591,  1.1059, -1.2509, -0.3135, -1.1064,  0.5907,  0.2126],
        [ 0.8056, -0.2161,  1.6969,  0.2063, -0.5404, -0.2532,  0.2598,  0.3049],
        [-2.0843, -2.1210,  1.6906, -1.1510,  0.0211, -1.1015,  0.7819,  0.1954],
        [ 0.7208, -0.2959,  1.2570, -1.1981, -0.3980, -0.8894,  0.5388,  0.1905],
        [ 0.8011, -0.2003,  1.7396, -0.2197, -0.6043, -0.5010,  0.2048,  0.3001],
        [-1.8934, -1.9678,  0.8566, -1.1885, -0.4570, -1.1944,  0.0053,  0.2951]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5917, -0.3861,  1.0455, -1.3698, -0.2882, -1.1928,  0.6067,
           0.2083],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.6058, -0.3216,  1.8423, -0.2536, -0.5885, -0.6000,  0.3353,
           0.3777],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0177, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.654198335018009
step:  83
running loss:  0.019930100421903723
Train Steps: 83/90  Loss: 0.0199 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5667, -0.4106,  1.5669,  0.2542, -0.3283, -0.3381,  0.2532,  0.4962],
        [ 0.4737, -0.5161,  1.7973, -0.2878, -0.4420,  0.0469,  1.0790,  0.2255],
        [ 0.5542, -0.4182,  1.7720, -0.4122, -0.4295,  0.0192,  0.5208,  0.1936],
        [ 0.6322, -0.4009,  1.6925, -0.2425, -0.4987, -0.1369,  0.4719,  0.3256],
        [ 0.5740, -0.4672,  1.5395,  0.3276, -0.4665,  0.0108,  0.5626, -0.0387],
        [ 0.6924, -0.3483,  1.8122, -0.8088, -0.3993, -1.0986,  0.6015,  0.1548],
        [ 0.6318, -0.3645,  1.6522, -0.8129, -0.5442, -0.8673,  0.1077, -0.0085],
        [ 0.2982, -0.5549,  1.0625, -1.3172, -0.2534, -1.1064,  0.5091,  0.5923]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5763, -0.3963,  1.7788, -0.0765, -0.6520, -0.0842,  0.4624,
           0.2776],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6629118216224015
step:  84
running loss:  0.01979656930502859

Train Steps: 84/90  Loss: 0.0198 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6223, 0.4028, 0.8988, 0.4200, 0.3763, 0.5733, 0.6375, 0.5167],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617],
        [0.6083, 0.3957, 0.8638, 0.4950, 0.4363, 0.5083, 0.5346, 0.4980],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6178, -0.4126,  1.6719, -0.2266, -0.2874,  0.0123,  0.7712,  0.1822],
        [ 0.6737, -0.3681,  1.8302, -0.4825, -0.5582,  0.3299,  0.8426,  0.1744],
        [ 0.4683, -0.4485,  1.6903,  0.0651, -0.5430, -0.3624,  0.4358,  0.4397],
        [ 0.4677, -0.5152,  1.6872, -0.1683, -0.3159,  0.0394,  0.3376,  0.0098],
        [ 0.4362, -0.4553,  1.5300,  0.2041, -0.3977, -0.2993,  0.3835,  0.5141],
        [ 0.7591, -0.2939,  1.3000, -1.4181, -0.0185, -1.6864,  0.5949,  0.1079],
        [ 0.4794, -0.4698,  1.6591, -0.1646, -0.1904, -0.1011,  0.2546,  0.4571],
        [ 0.5885, -0.4134,  1.8501, -0.3274, -0.6333, -0.8266,  0.6597,  0.0587]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.8284e-01, -4.6823e-01,  1.7031e+00, -4.9668e-02, -2.4581e-01,
           8.1770e-02,  6.3811e-01,  1.4745e-01],
         [ 5.8857e-01, -4.2525e-01,  1.8654e+00, -3.4596e-01, -5.4804e-01,
           3.6228e-01,  6.5866e-01,  1.0054e-01],
         [ 5.8972e-01, -3.5273e-01,  1.8018e+00,  2.5450e-01, -5.3072e-01,
          -3.2286e-01,  3.1224e-01,  3.0839e-01],
         [ 5.2379e-01, -4.5797e-01,  1.7037e+00,  4.6189e-04, -2.7090e-01,
           6.2048e-02,  1.8356e-01,  1.4106e-02],
         [ 5.8360e-01, -3.6490e-01,  1.7210e+00,  3.8537e-01, -3.9792e-01,
          -2.9207e-01,  3.0647e-01,  4.4696e-01],
         [ 5.9994e-01, -4.2363e-01,  1.2880e+00, -1.4083e+00, -6.3048e-02,
          -1.6393e+00,  4.5840e-01, -2.0790e-02],
         [ 5.5000e-01, -4.0600e-01,  1.7326e+00,  2.3557e-02, -1.5543e-01,
          -2.2633e-02,  1.4385e-01,  4.1710e-01],
         [ 6.1484e-01, -3.9184e-01,  1.8942e+00, -1.9199e-01, -5.4226e-01,
          -8.0015e-01,  6.4140e-01, -1.5569e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.6722815376706421
step:  85
running loss:  0.019673900443184025
Train Steps: 85/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5126, -0.3980,  1.1951, -0.8997,  0.0626, -1.4429,  0.3967,  0.6447],
        [ 0.2296, -0.6835,  1.7541, -0.0746, -0.3331,  0.0221,  0.4547,  0.1091],
        [ 0.6355, -0.3560,  1.8110, -0.0143, -0.5147, -0.2400,  0.4765,  0.4517],
        [ 0.7565, -0.2948,  1.8072, -0.3907, -0.2909,  0.1811,  0.6384,  0.2877],
        [ 0.8373, -0.2884,  1.7138,  0.2233, -0.4457, -0.0877,  0.8785,  0.0349],
        [ 0.7473, -0.3367,  1.7696,  0.1339, -0.5059, -0.2661,  0.7932,  0.0021],
        [ 0.4635, -0.4734,  1.6943, -0.5987, -0.5666, -0.5225,  0.3460,  0.1546],
        [ 0.3809, -0.5535,  1.7622, -0.1957, -0.4246, -0.2758,  0.3063,  0.2153]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.5513, -0.4467,  1.7095, -0.0303, -0.4788, -0.2921,  0.1692,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.686103314626962
step:  86
running loss:  0.019605852495662348
Train Steps: 86/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7564, -0.2589,  1.8650, -0.5441, -0.1607, -1.1702,  0.7058,  0.0304],
        [ 0.8369, -0.2295,  1.6265,  0.1115, -0.1178,  0.0394,  0.4619,  0.3338],
        [ 0.8468, -0.2518,  1.6333, -0.1932, -0.5100, -0.3991,  0.6418,  0.2949],
        [-1.7919, -1.9164,  1.2644, -0.9980, -0.3826, -0.9792,  0.2770,  0.2354],
        [ 0.7303, -0.2999,  1.2405, -1.0710, -0.2661, -1.0750,  0.7384,  0.1537],
        [ 0.7327, -0.2754,  1.6966, -0.0502, -0.5937, -0.4542,  0.3500,  0.1744],
        [-2.0738, -2.0970,  1.5829, -1.1729,  0.1751, -1.2038,  0.8197,  0.2315],
        [ 0.7515, -0.2552,  1.3871, -0.7542, -0.4840, -0.8544,  0.2894,  0.1536]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7128123142756522
step:  87
running loss:  0.01968749786523738
Train Steps: 87/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6075, 0.4007, 0.8275, 0.4917, 0.4050, 0.5100, 0.5167, 0.5280],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.6286e-01, -4.0666e-01,  1.1249e+00, -9.1667e-01, -4.4478e-01,
         -9.4364e-01,  4.9949e-01,  3.6532e-01],
        [ 4.0523e-01, -5.1145e-01,  1.8993e+00,  9.8369e-02, -4.8307e-01,
         -4.0015e-01,  6.8296e-01,  2.3447e-01],
        [ 4.5955e-01, -4.7740e-01,  1.6666e+00, -1.6434e-02, -2.6750e-01,
          5.4508e-02,  3.1240e-01,  1.9984e-01],
        [ 2.8139e-01, -6.2768e-01,  2.0158e+00, -5.1398e-01, -2.0669e-01,
         -1.3062e+00,  6.4697e-01,  7.9610e-03],
        [ 5.3721e-01, -4.3750e-01,  1.7832e+00,  2.9688e-01, -2.3398e-01,
         -1.2247e-03,  2.8872e-01,  1.9452e-01],
        [ 6.6184e-01, -4.0100e-01,  1.3221e+00, -1.2418e+00, -4.3192e-01,
         -9.4730e-01,  6.9494e-01,  1.1958e-01],
        [ 5.3418e-01, -4.0369e-01,  1.3463e+00, -5.7753e-01, -5.9096e-01,
         -5.4382e-01,  4.0242e-01,  4.7178e-01],
        [ 5.9500e-01, -4.2295e-01,  1.4109e+00, -1.1970e+00, -6.6504e-02,
         -1.4813e+00,  6.5024e-01,  1.0265e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.5200, -0.4353,  1.5363, -0.0149, -0.4152,  0.0697,  0.1005,
           0.1530],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7306391117163002
step:  88
running loss:  0.019666353542230685

Train Steps: 88/90  Loss: 0.0197 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6031, 0.3986, 0.7462, 0.2833, 0.3638, 0.2717, 0.5253, 0.4726],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6304, 0.4024, 0.8925, 0.4800, 0.3937, 0.4817, 0.7485, 0.5297],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6136, -0.3292,  1.7236,  0.2335, -0.3311,  0.0264,  0.4263,  0.2954],
        [ 0.6881, -0.2870,  1.2374, -1.0072, -0.4346, -1.1297,  0.2528,  0.0145],
        [ 0.5846, -0.4008,  1.6797,  0.3026, -0.3951, -0.1516,  0.7463,  0.1915],
        [ 0.4226, -0.4940,  1.8812, -0.1699, -0.2164, -0.4229,  0.9591,  0.3326],
        [ 0.6220, -0.3374,  1.7867,  0.2923, -0.3024, -0.1980,  0.3742,  0.3229],
        [-2.1704, -2.2239,  1.4709, -0.8261, -0.5161, -0.9168,  0.2164,  0.1590],
        [ 0.6821, -0.3473,  1.7859, -0.0876, -0.3812, -0.1809,  0.9278,  0.1667],
        [ 0.6349, -0.3336,  1.7291, -0.1699, -0.1123, -0.1446,  0.1518,  0.0453]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7625e-01, -3.8397e-01,  1.7268e+00,  2.6220e-01, -4.2102e-01,
           1.3133e-01,  4.2771e-01,  3.0069e-01],
         [ 4.9971e-01, -4.4465e-01,  1.1610e+00, -9.7721e-01, -6.0577e-01,
          -1.0311e+00,  1.4038e-01, -1.0312e-01],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 6.4542e-01, -3.7194e-01,  1.9115e+00, -1.3041e-01, -5.0762e-01,
          -2.8437e-01,  1.0033e+00,  4.3864e-01],
         [ 5.8834e-01, -3.5935e-01,  1.7557e+00,  2.5450e-01, -4.1524e-01,
          -6.1124e-02,  3.3533e-01,  3.0069e-01],
         [-2.2859e+00, -2.2859e+00,  1.5767e+00, -7.5396e-01, -6.4042e-01,
          -7.3087e-01,  1.7534e-01,  8.9251e-02],
         [ 6.2566e-01, -4.2731e-01,  1.8365e+00, -6.8822e-02, -4.6721e-01,
          -6.1124e-02,  1.1715e+00,  1.6077e-01],
         [ 5.2494e-01, -4.4734e-01,  1.7326e+00, -9.1917e-02, -2.0162e-01,
           1.5443e-01,  1.7328e-01,  4.1158e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7420769152231514
step:  89
running loss:  0.019573897923855634
Train Steps: 89/90  Loss: 0.0196 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4671, -0.5049,  1.8774, -0.1466, -0.0864, -0.0608,  0.2093,  0.0941],
        [ 0.5628, -0.4053,  0.9370, -1.2464, -0.2642, -1.3898,  0.2510,  0.3911],
        [ 0.7089, -0.3867,  1.8857, -0.3630, -0.5566, -0.5843,  0.7402,  0.1295],
        [ 0.5594, -0.4493,  1.9432, -0.0785, -0.3768,  0.2006,  1.0250,  0.2871],
        [ 0.0606, -0.7394,  1.5011, -0.7235, -0.4577, -1.0457,  0.0626,  0.1358],
        [ 0.7851, -0.2815,  1.9567, -0.1113, -0.4422,  0.0439,  0.6305,  0.0925],
        [ 0.4946, -0.4309,  1.6859,  0.3787, -0.4591, -0.5892,  0.3183,  0.4996],
        [ 0.5189, -0.5028,  1.7568,  0.4543, -0.5045, -0.1441,  0.6245,  0.0330]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0123, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.7543703555129468
step:  90
running loss:  0.019493003950143854
Valid Steps: 10/10  Loss: nan 3.8413
--------------------------------------------------
Epoch: 8  Train Loss: 0.0195 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6140, -0.3871,  1.6023, -0.7491, -0.5414, -0.3933,  0.5851,  0.2746],
        [ 0.5138, -0.4631,  1.5303, -0.9427, -0.4560, -1.2151,  0.2397,  0.0554],
        [ 0.4892, -0.4673,  1.4873, -0.7423, -0.5505, -0.9114,  0.4542,  0.1094],
        [ 0.6205, -0.3850,  1.7838, -0.1074, -0.5529, -0.0047,  0.3428,  0.1468],
        [ 0.6016, -0.4252,  1.7565,  0.4326, -0.3560, -0.1970,  0.4493,  0.1951],
        [ 0.7335, -0.3303,  1.8009,  0.5891, -0.5046, -0.0271,  0.7923,  0.1182],
        [-0.4382, -1.0592,  1.7135, -1.0684,  0.3674, -1.3955,  0.8355,  0.2889],
        [ 0.4659, -0.4597,  1.1708, -0.8018, -0.5448, -0.9428,  0.1353,  0.3279]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7991e-01, -4.0985e-01,  1.5651e+00, -1.0465e+00, -5.8845e-01,
          -3.0747e-01,  6.4134e-01,  1.3903e-01],
         [ 5.7985e-01, -4.1555e-01,  1.3977e+00, -1.0388e+00, -4.6721e-01,
          -1.1004e+00,  3.4688e-01,  1.0824e-01],
         [ 5.4769e-01, -4.4126e-01,  1.3688e+00, -8.7714e-01, -6.1155e-01,
          -8.7714e-01,  4.1039e-01,  4.6651e-02],
         [ 4.9740e-01, -4.4819e-01,  1.6633e+00, -3.3056e-01, -6.1732e-01,
           1.3133e-01,  2.9255e-01,  8.0947e-03],
         [ 5.7800e-01, -4.5651e-01,  1.6221e+00,  2.5323e-01, -3.7281e-01,
          -1.7182e-01,  4.3570e-01,  2.0910e-01],
         [ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [ 6.4871e-01, -3.7916e-01,  1.6344e+00, -1.0850e+00,  2.6592e-01,
          -1.5397e+00,  8.0590e-01,  2.7299e-01],
         [ 5.4417e-01, -3.8545e-01,  1.0224e+00, -9.5412e-01, -6.1155e-01,
          -9.2333e-01,  1.7452e-01,  2.5215e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.035023126751184464
step:  1
running loss:  0.035023126751184464
Train Steps: 1/90  Loss: 0.0350 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6289, 0.4081, 0.8720, 0.3487, 0.3900, 0.3183, 0.6703, 0.5376]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.5893, -1.8049,  1.6660, -0.9662,  0.1232, -1.2444,  0.7696,  0.2287],
        [ 0.6649, -0.2618,  1.4795, -0.3987, -0.1274, -1.2144,  0.1891,  0.4023],
        [ 0.8279, -0.1916,  1.8551, -0.5088, -0.6687, -0.4753,  0.5482, -0.0837],
        [ 0.6262, -0.3445,  1.6581,  0.1843, -0.3398,  0.0883,  0.3233,  0.1184],
        [-2.2111, -2.2507,  0.9937, -1.0590, -0.2451, -1.3357,  0.2370,  0.3124],
        [ 0.7010, -0.3028,  1.0150, -1.1334, -0.4862, -1.0880,  0.4025,  0.2193],
        [ 0.6674, -0.3327,  1.6469,  0.4851, -0.5619,  0.0573,  0.2066,  0.0539],
        [ 0.6414, -0.3664,  1.7301, -0.4614, -0.4897, -0.7804,  0.7746,  0.1199]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  1.7210e+00, -9.7721e-01,  1.8522e-01,
          -1.3698e+00,  7.9859e-01,  3.1039e-01],
         [ 6.2367e-01, -2.9831e-01,  1.3919e+00, -4.6913e-01, -4.5727e-02,
          -1.2313e+00,  2.4525e-01,  5.8821e-01],
         [ 6.0774e-01, -3.9646e-01,  1.8480e+00, -6.5389e-01, -6.2309e-01,
          -4.5373e-01,  6.2155e-01, -2.1963e-02],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [-2.2859e+00, -2.2859e+00,  7.1062e-01, -1.4468e+00, -2.8822e-01,
          -1.4237e+00,  2.4296e-01,  3.6228e-01],
         [ 5.7182e-01, -3.9053e-01,  1.0053e+00, -1.3305e+00, -4.6143e-01,
          -1.1235e+00,  4.4503e-01,  3.3918e-01],
         [ 5.0785e-01, -4.7144e-01,  1.6575e+00,  2.2371e-01, -4.9607e-01,
           7.7444e-02,  1.4655e-01, -1.0613e-01],
         [ 6.1907e-01, -4.0082e-01,  1.7420e+00, -6.7528e-01, -4.8453e-01,
          -8.1555e-01,  8.1006e-01,  1.9744e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0246, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.05961088836193085
step:  2
running loss:  0.029805444180965424

Train Steps: 2/90  Loss: 0.0298 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6141, 0.4038, 0.8650, 0.4833, 0.4839, 0.5176, 0.5787, 0.5600],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6113, 0.4006, 0.8700, 0.5350, 0.3638, 0.3767, 0.5097, 0.4882]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3977, -0.5190,  1.6397,  0.2275, -0.4261,  0.0427,  0.1332,  0.2363],
        [ 0.5997, -0.4350,  1.6313,  0.4328, -0.5913, -0.0857,  0.5645, -0.0069],
        [ 0.7061, -0.3038,  1.7128, -0.8875, -0.1318, -1.3337,  0.5031,  0.0823],
        [ 0.4596, -0.4776,  1.4336, -1.1474, -0.1885, -1.2794,  0.5792,  0.2321],
        [ 0.5913, -0.3999,  1.4971, -0.7091, -0.7462, -0.3909,  0.3259,  0.3171],
        [ 0.2882, -0.5980,  1.6730, -0.0155, -0.1775,  0.0260,  0.2027,  0.3243],
        [ 0.4600, -0.5590,  1.9039, -0.2497, -0.3810, -0.9030,  1.0014,  0.1673],
        [ 0.2536, -0.6194,  1.6788,  0.1859, -0.7088, -0.5439,  0.0605,  0.0532]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5505, -0.4207,  1.7095, -0.0534, -0.0509,  0.1050,  0.3873,
           0.3007],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.5379, -0.4358,  1.7326,  0.1852, -0.6058, -0.5461,  0.0684,
          -0.0310]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.06913623213768005
step:  3
running loss:  0.023045410712560017
Train Steps: 3/90  Loss: 0.0230 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7372, -0.2586,  1.7167,  0.3747, -0.4748, -0.1449,  0.4796,  0.0674],
        [ 0.8608, -0.2171,  1.2050, -1.0956, -0.1502, -1.5177,  0.4047,  0.2153],
        [ 0.5684, -0.3655,  1.4035, -0.4764, -0.7140, -0.4578,  0.2291,  0.2330],
        [-1.4736, -1.7437,  1.6607, -1.0372,  0.2038, -1.3720,  0.9044,  0.2716],
        [-2.0843, -2.1717,  1.3421, -0.6876, -0.6274, -0.8590,  0.1328,  0.2106],
        [ 0.6394, -0.3625,  1.4053, -0.7157, -0.6669, -0.7526,  0.3336,  0.1017],
        [ 0.7157, -0.3242,  1.5919,  0.4262, -0.4433, -0.1878,  0.3655,  0.0658],
        [ 0.7816, -0.2302,  1.8276, -0.3053, -0.6136, -0.1140,  0.3521,  0.0361]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.5444, -0.3852,  1.3786, -0.5409, -0.6924, -0.4229,  0.1791,
           0.2341],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5891, -0.4550,  1.5132,  0.3546, -0.3691, -0.1535,  0.3815,
           0.1467],
         [ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0222, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.0913512222468853
step:  4
running loss:  0.022837805561721325
Train Steps: 4/90  Loss: 0.0228 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6332, 0.4128, 0.9200, 0.3517, 0.4400, 0.3833, 0.7461, 0.5494],
        [0.6182, 0.3998, 0.8793, 0.4191, 0.3552, 0.4285, 0.6038, 0.5312]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3963, -0.5111,  1.5654, -0.2544, -0.6555, -0.8049, -0.0029,  0.2036],
        [ 0.6896, -0.3829,  1.4768, -0.9736, -0.0825, -1.4334,  0.5826,  0.1867],
        [ 0.5362, -0.5103,  1.6700,  0.3681, -0.4911, -0.0497,  0.4941,  0.1507],
        [ 0.2169, -0.6776,  1.1213, -0.8193, -0.6600, -0.8720,  0.0790,  0.0277],
        [ 0.5976, -0.4572,  1.3894, -1.2061, -0.0525, -1.4916,  0.4835,  0.0843],
        [ 0.4290, -0.4816,  1.7752, -0.1858, -0.6380, -0.3565,  0.2010,  0.2168],
        [ 0.3762, -0.6093,  1.8550, -0.4568, -0.4097, -0.4039,  1.0037,  0.2467],
        [ 0.5470, -0.4521,  1.7105, -0.2674, -0.6784, -0.2623,  0.4499,  0.1900]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.6388, -0.3792,  1.9635, -0.6616, -0.2536, -0.5153,  1.1605,
           0.2516],
         [ 0.5697, -0.4393,  1.7754, -0.3503, -0.6453, -0.3067,  0.5028,
           0.1677]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.10337931476533413
step:  5
running loss:  0.020675862953066827
Train Steps: 5/90  Loss: 0.0207 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6209, 0.3920, 0.8650, 0.5367, 0.4400, 0.5067, 0.6025, 0.4950]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5466, -0.4835,  1.6164, -0.6194, -0.7410, -0.6682,  0.3838,  0.1722],
        [ 0.4471, -0.5391,  1.2867, -0.9394, -0.5697, -1.0218,  0.1520,  0.2237],
        [ 0.1865, -0.6866,  0.8140, -1.0698, -0.4618, -1.3994, -0.0308,  0.2866],
        [ 0.4823, -0.4738,  1.8417, -0.0641, -0.4494,  0.1759,  0.4307,  0.3456],
        [ 0.5742, -0.4413,  1.7019, -0.8798, -0.3884, -1.1352,  0.6841,  0.1134],
        [ 0.5016, -0.4895,  1.7512,  0.0568, -0.5928,  0.0645,  0.3931,  0.1011],
        [ 0.5847, -0.4574,  1.7197, -0.7646, -0.0677, -1.3968,  0.8645,  0.1314],
        [ 0.3921, -0.5961,  1.7098,  0.3133, -0.3360,  0.0101,  0.3127, -0.0480]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6801e-01, -4.3934e-01,  1.5920e+00, -6.6715e-01, -6.4527e-01,
          -5.4566e-01,  5.1492e-01,  1.7534e-01],
         [ 5.3204e-01, -4.1886e-01,  1.3053e+00, -1.0773e+00, -5.7113e-01,
          -9.8491e-01,  2.2674e-01,  3.2370e-01],
         [ 5.5445e-01, -4.1332e-01,  8.1455e-01, -1.2082e+00, -4.2679e-01,
          -1.3544e+00,  1.2208e-01,  3.4458e-01],
         [ 5.7719e-01, -3.9130e-01,  1.8480e+00, -2.4588e-01, -4.3256e-01,
           1.9292e-01,  5.3741e-01,  4.7005e-01],
         [ 6.0837e-01, -4.0762e-01,  1.6806e+00, -9.6182e-01, -2.9977e-01,
          -9.6952e-01,  6.3557e-01,  1.4673e-01],
         [ 5.4660e-01, -4.7064e-01,  1.7198e+00, -9.0292e-02, -5.7125e-01,
           1.2613e-01,  4.7328e-01,  6.8827e-02],
         [ 6.5201e-01, -3.9120e-01,  1.7095e+00, -9.0793e-01, -2.8406e-02,
          -1.3621e+00,  8.0956e-01,  2.3558e-01],
         [ 5.8199e-01, -4.7544e-01,  1.7095e+00,  1.9292e-01, -2.5358e-01,
           5.4350e-02,  4.9700e-01,  4.6189e-04]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.11402785126119852
step:  6
running loss:  0.01900464187686642

Train Steps: 6/90  Loss: 0.0190 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5891, -0.3890,  1.6729,  0.2073, -0.4570, -0.8302,  0.3594,  0.4329],
        [ 0.4704, -0.4707,  1.7011, -0.0808, -0.2426, -0.0565,  0.0563,  0.1839],
        [ 0.4041, -0.5540,  1.0145, -1.2279, -0.3703, -1.4565,  0.2284, -0.0221],
        [ 0.5034, -0.4659,  1.5339, -0.5810, -0.6889, -0.4715,  0.2772,  0.1573],
        [ 0.5466, -0.4884,  1.7959, -0.1409, -0.5534, -0.4282,  0.8416,  0.0456],
        [ 0.6808, -0.3508,  1.6525, -0.6522, -0.6313, -0.4027,  0.3507,  0.0792],
        [-2.1821, -2.2742,  1.3833, -0.8228, -0.5880, -1.0219,  0.2936,  0.2045],
        [ 0.6380, -0.4148,  1.7247, -0.0332, -0.2073,  0.0171,  0.6617,  0.0978]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0065, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0065, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.12055541574954987
step:  7
running loss:  0.017222202249935696
Train Steps: 7/90  Loss: 0.0172 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6135, 0.3994, 0.7913, 0.3050, 0.3625, 0.3050, 0.5837, 0.5050],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6198, 0.4130, 0.8762, 0.4117, 0.3650, 0.4900, 0.5707, 0.5103]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6121, -0.4770,  1.8885,  0.0605, -0.6429, -0.2336,  0.6899,  0.0278],
        [ 0.7454, -0.3639,  1.0604, -1.3949, -0.4047, -1.2772,  0.4862,  0.2483],
        [ 0.2872, -0.6198,  1.6279, -0.3692, -0.5507, -0.2969,  0.1379,  0.3256],
        [ 0.3327, -0.6100,  1.4320, -0.9929, -0.6452, -0.9560,  0.4174,  0.0762],
        [ 0.7374, -0.3535,  1.6367,  0.2674, -0.6135, -0.4852,  0.2430,  0.1632],
        [ 0.5788, -0.5004,  1.6847,  0.2857, -0.3745, -0.2482,  0.4787,  0.2059],
        [ 0.5147, -0.4656,  1.8758, -0.2675, -0.1389,  0.0108,  0.3955,  0.3097],
        [ 0.5872, -0.4207,  1.8811, -0.4503, -0.5698, -0.2127,  0.3556,  0.0867]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.5477, -0.4413,  1.3688, -0.8771, -0.6115, -0.8771,  0.4104,
           0.0467],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5771, -0.3784,  1.7614, -0.3844, -0.6000, -0.0226,  0.3501,
           0.0712]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1300251130014658
step:  8
running loss:  0.016253139125183225
Train Steps: 8/90  Loss: 0.0163 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5256, -0.4524,  1.7984,  0.1450, -0.4289, -0.0788,  0.2589,  0.3393],
        [ 0.4977, -0.4804,  1.3995, -1.0820, -0.5870, -1.0135,  0.3227,  0.1081],
        [ 0.6630, -0.3975,  1.3779, -1.1074, -0.6264, -1.1621,  0.1380, -0.0220],
        [ 0.5724, -0.4312,  1.7310, -0.1963, -0.0846, -0.1130,  0.1525,  0.2617],
        [ 0.7592, -0.3167,  1.5519,  0.1764, -0.6423, -0.4017,  0.1510,  0.1811],
        [ 0.4704, -0.5583,  1.8519, -0.4481, -0.4448, -0.6366,  0.9631,  0.3323],
        [ 0.4849, -0.5122,  1.7827, -0.0995, -0.3785,  0.1170,  0.3145,  0.1204],
        [ 0.3807, -0.6192,  1.7006,  0.0377, -0.5237,  0.0271,  0.9367,  0.1956]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.14171226508915424
step:  9
running loss:  0.015745807232128248
Train Steps: 9/90  Loss: 0.0157 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402],
        [0.6100, 0.4071, 0.7601, 0.3444, 0.3400, 0.4117, 0.5625, 0.5617],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6118, 0.4052, 0.8463, 0.3917, 0.3538, 0.3450, 0.5053, 0.5593],
        [0.6317, 0.4038, 0.8287, 0.5900, 0.3800, 0.4717, 0.6295, 0.4986]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5621, -0.4350,  1.8083, -0.7072, -0.6060, -0.3735,  0.3713,  0.1477],
        [-0.2548, -0.9666,  0.9694, -1.2713, -0.2514, -1.5026,  0.2285,  0.4129],
        [ 0.5501, -0.4866,  1.7867,  0.1286, -0.3355, -0.1685,  0.5161,  0.1942],
        [ 0.5518, -0.4300,  1.3952, -0.7849, -0.7246, -0.3439,  0.2739,  0.2838],
        [ 0.6204, -0.4182,  1.1728, -1.2457, -0.4112, -1.0753,  0.5919,  0.3851],
        [ 0.7153, -0.3850,  1.8950,  0.1854, -0.4805, -0.2747,  0.6471, -0.0912],
        [ 0.5189, -0.4356,  1.7161, -0.5475, -0.5983, -0.7178, -0.0889,  0.2347],
        [ 0.6597, -0.4147,  1.7465,  0.3388, -0.5111, -0.1052,  0.6238,  0.0331]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091],
         [ 0.5318, -0.4056,  1.2249, -0.6949, -0.7155, -0.3844,  0.3122,
           0.3084],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.5399, -0.4142,  1.6229, -0.4768, -0.6520, -0.6924,  0.0481,
           0.2972],
         [ 0.6320, -0.4206,  1.5420,  0.4393, -0.5307, -0.1073,  0.6216,
           0.0171]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.16252397932112217
step:  10
running loss:  0.016252397932112216

Train Steps: 10/90  Loss: 0.0163 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6257, 0.4060, 0.8300, 0.2333, 0.4688, 0.2583, 0.7050, 0.5633],
        [0.6022, 0.3994, 0.8025, 0.3350, 0.3350, 0.4400, 0.5565, 0.5025],
        [0.6289, 0.4081, 0.8720, 0.3487, 0.3900, 0.3183, 0.6703, 0.5376],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4952, -0.5065,  1.6989, -1.0779, -0.1564, -1.1010,  0.9690,  0.3485],
        [ 0.2338, -0.6378,  1.5139, -0.6089, -0.7161, -0.2372,  0.2462,  0.1252],
        [ 0.4851, -0.5297,  1.8211, -0.5048, -0.4673, -0.7272,  0.9266,  0.2146],
        [ 0.4475, -0.4619,  1.8858, -0.2298, -0.6026, -0.3046,  0.2469,  0.2047],
        [ 0.6366, -0.3988,  1.3170, -1.0641, -0.1947, -1.3048,  0.4453,  0.1899],
        [ 0.4931, -0.4868,  1.0749, -1.0042, -0.5348, -0.9385,  0.0530,  0.0562],
        [ 0.4666, -0.4832,  1.4160, -1.0601, -0.1922, -1.2653,  0.4001,  0.2308],
        [ 0.6729, -0.3513,  0.8831, -1.0201, -0.5309, -0.9789,  0.1976,  0.2888]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6042, -0.4105,  1.5478, -1.2082, -0.1208, -1.0927,  0.9704,
           0.3157],
         [ 0.4956, -0.4413,  1.4208, -0.7386, -0.7386, -0.2536,  0.2843,
           0.0351],
         [ 0.6191, -0.4008,  1.7420, -0.6753, -0.4845, -0.8156,  0.8101,
           0.1974],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0092, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0092, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1717460323125124
step:  11
running loss:  0.015613275664773855
Train Steps: 11/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.1810, -2.2031,  0.8995, -1.0844, -0.4663, -1.2910,  0.0934,  0.3814],
        [ 0.4687, -0.4924,  1.8094, -0.1270, -0.4819,  0.2563,  0.5449,  0.1873],
        [ 0.4851, -0.4925,  1.7876, -0.3265, -0.6856, -0.1683,  0.4772,  0.1175],
        [ 0.7273, -0.2978,  0.9829, -1.2828, -0.4788, -1.0173,  0.3975,  0.2628],
        [ 0.4733, -0.5219,  1.8115, -0.5131, -0.3404, -0.8316,  0.9798,  0.1113],
        [ 0.9110, -0.2001,  1.4314, -1.2082, -0.0286, -1.5178,  0.5554,  0.0304],
        [ 0.4506, -0.4711,  1.7314,  0.1099, -0.3668, -0.0410,  0.1666,  0.2598],
        [ 0.4830, -0.4528,  1.1680, -0.8904, -0.5668, -0.7985,  0.3129,  0.1844]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18051145039498806
step:  12
running loss:  0.015042620866249004
Train Steps: 12/90  Loss: 0.0150 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4034, 0.7757, 0.2347, 0.3733, 0.2919, 0.5930, 0.4926],
        [0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6296, 0.4045, 0.9138, 0.4100, 0.4232, 0.4242, 0.7422, 0.5297],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6286, 0.4060, 0.9188, 0.4333, 0.3675, 0.4167, 0.7034, 0.5528],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5929, -0.3831,  1.1603, -1.3763, -0.5561, -0.9755,  0.1903,  0.0160],
        [ 0.5210, -0.4703,  1.7357, -0.5514, -0.6131, -0.5008,  0.5070,  0.1872],
        [ 0.7239, -0.3509,  1.8028, -0.5375, -0.4470, -0.3079,  0.8961,  0.2300],
        [ 0.6579, -0.3626,  1.6936,  0.0632, -0.4777,  0.0678,  0.5938,  0.2176],
        [ 0.5153, -0.4594,  1.7896, -0.2423, -0.6064, -0.4672,  0.4889,  0.1511],
        [ 0.6139, -0.3908,  1.5405,  0.1031, -0.4729, -0.2208,  0.2265,  0.2722],
        [ 0.6588, -0.3622,  1.8513, -0.3756, -0.4461, -0.3094,  0.7993,  0.3618],
        [ 0.6246, -0.3740,  1.5466,  0.2366, -0.1276,  0.0130,  0.1270,  0.3720]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4225,  1.2968, -1.2019, -0.5615, -0.9374,  0.4533,
          -0.0108],
         [ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.6224, -0.4177,  1.9346, -0.3921, -0.3314, -0.3264,  1.1422,
           0.1608],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.6372, -0.4129,  1.8942, -0.0765, -0.6173, -0.4768,  0.6999,
           0.0325],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.6174, -0.4105,  1.9577, -0.2844, -0.5885, -0.3614,  0.9631,
           0.2676],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.19325176812708378
step:  13
running loss:  0.01486552062516029
Train Steps: 13/90  Loss: 0.0149 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6249, 0.4138, 0.9038, 0.4517, 0.3862, 0.4917, 0.6138, 0.5333],
        [0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6350, 0.4144, 0.9250, 0.4100, 0.4125, 0.3750, 0.7129, 0.5945],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6185, -0.3156,  1.8265, -0.3126, -0.4726,  0.0292,  0.3994,  0.2266],
        [ 0.5336, -0.3887,  0.9285, -1.1986, -0.5366, -0.9300,  0.0476,  0.2809],
        [ 0.6409, -0.3765,  1.4790,  0.1583, -0.4156, -0.0975,  0.8417,  0.2170],
        [ 0.4891, -0.4365,  1.8433, -0.1204, -0.5106, -0.2830,  0.4545,  0.1341],
        [ 0.7050, -0.3099,  1.9224, -0.4509, -0.2300, -0.5580,  0.9066,  0.3912],
        [ 0.6713, -0.3561,  1.7889,  0.0174, -0.5189, -0.1541,  0.5659,  0.0518],
        [ 0.6875, -0.3242,  1.5716,  0.2427, -0.3745,  0.0493,  0.6705,  0.1036],
        [-1.9622, -2.0539,  1.0842, -1.0704, -0.5110, -1.1750, -0.0437,  0.3613]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6003, -0.3747,  1.8885, -0.1997, -0.5018, -0.0149,  0.5490,
           0.1775],
         [ 0.5049, -0.4428,  0.8692, -0.9581, -0.6693, -0.8386,  0.0897,
           0.2589],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.6096, -0.4046,  1.8249, -0.0072, -0.6115, -0.3537,  0.6182,
           0.0928],
         [ 0.6471, -0.3719,  1.9866, -0.3921, -0.3806, -0.5538,  1.0070,
           0.4600],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.6569, -0.3960,  1.5651,  0.4162, -0.4614,  0.0774,  0.7438,
           0.1447],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.20368763711303473
step:  14
running loss:  0.014549116936645337

Train Steps: 14/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5511, -0.4068,  1.7669, -0.1467, -0.6737, -0.4046,  0.2705,  0.1262],
        [ 0.6452, -0.3602,  1.3157, -1.0661, -0.3160, -1.2657,  0.7119,  0.1955],
        [ 0.4112, -0.5618,  1.8742, -0.2422, -0.5652,  0.0540,  1.0783,  0.2086],
        [ 0.6926, -0.3282,  1.0094, -1.2379, -0.4402, -1.1454,  0.4859,  0.2555],
        [ 0.5699, -0.3966,  1.7770, -0.0380, -0.3195,  0.3987,  0.6858,  0.2068],
        [ 0.6017, -0.3589,  1.3299, -1.0885, -0.2723, -1.3584,  0.3951,  0.2467],
        [ 0.4981, -0.4629,  1.3449, -0.8999, -0.6521, -0.7340,  0.4934,  0.2876],
        [ 0.5636, -0.4064,  1.6784,  0.0822, -0.1191,  0.0233,  0.1590,  0.1523]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.20982471108436584
step:  15
running loss:  0.013988314072291057
Train Steps: 15/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6261, 0.4131, 0.8938, 0.3550, 0.4000, 0.2683, 0.6188, 0.5283],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6314, 0.4050, 0.8227, 0.5431, 0.4150, 0.5517, 0.7121, 0.5690],
        [0.6092, 0.4001, 0.8638, 0.4867, 0.4288, 0.5367, 0.5484, 0.5064],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6161, 0.4055, 0.8675, 0.3867, 0.3713, 0.4033, 0.5195, 0.5162]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6932, -0.3002,  0.9223, -1.2076, -0.4446, -1.2456,  0.4461,  0.3540],
        [ 0.7345, -0.2983,  1.7527, -0.1153, -0.1353,  0.1659,  0.6014,  0.3645],
        [ 0.7010, -0.3145,  1.8317, -0.7354, -0.5536, -1.0791,  0.7113,  0.1254],
        [ 0.5710, -0.4561,  1.6580,  0.2129, -0.4870, -0.0747,  0.8136,  0.0383],
        [ 0.5815, -0.4396,  1.5620,  0.1961, -0.4041,  0.2234,  1.1959,  0.3494],
        [ 0.4783, -0.4605,  1.6568, -0.0696, -0.3142,  0.1620,  0.2832,  0.1092],
        [ 0.4819, -0.4050,  1.6976, -0.2870, -0.5468, -0.2685,  0.1350,  0.3684],
        [ 0.4149, -0.4674,  1.7142, -0.4944, -0.6656, -0.4889,  0.2146,  0.0351]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.6062, -0.3778,  1.8423, -0.6462, -0.4383, -1.0465,  0.5721,
           0.1544],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.6306, -0.4153,  1.5141,  0.2224, -0.3691,  0.2622,  1.0033,
           0.3425],
         [ 0.5278, -0.4377,  1.7037, -0.0380, -0.3055,  0.1929,  0.2473,
           0.0532],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5598, -0.4129,  1.7210, -0.4999, -0.5711, -0.4229,  0.1136,
           0.0983]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.21596113871783018
step:  16
running loss:  0.013497571169864386
Train Steps: 16/90  Loss: 0.0135 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301],
        [0.6274, 0.4003, 0.8638, 0.5967, 0.3688, 0.4900, 0.6108, 0.4661],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.4391e+00, -1.7195e+00,  1.6965e+00, -8.3241e-01, -7.4165e-03,
         -1.2388e+00,  9.2158e-01,  4.8889e-01],
        [ 6.7004e-01, -2.8881e-01,  1.7075e+00, -1.5896e-01, -6.4548e-01,
         -2.0172e-01,  4.7335e-01,  2.4208e-01],
        [ 5.9918e-01, -3.3162e-01,  1.6278e+00, -2.1823e-01, -2.4393e-01,
          1.9002e-01,  4.4332e-01,  2.2739e-01],
        [ 6.2093e-01, -3.1903e-01,  1.6007e+00, -6.1591e-01, -6.5189e-01,
         -1.0654e-01,  3.2741e-01,  1.7108e-01],
        [ 6.0972e-01, -3.6531e-01,  1.7034e+00,  2.6776e-03, -4.8217e-01,
         -6.0080e-01,  8.8999e-01,  2.6616e-01],
        [ 5.8475e-01, -4.0440e-01,  1.6300e+00, -1.0673e-01, -3.9924e-01,
         -6.8137e-02,  7.1257e-01,  1.2286e-01],
        [ 7.6503e-01, -2.8282e-01,  1.5378e+00,  3.3768e-01, -5.7958e-01,
         -9.7698e-02,  6.3861e-01,  9.1715e-04],
        [ 5.7975e-01, -3.8051e-01,  1.5980e+00,  9.9984e-03, -2.3316e-01,
          1.7962e-01,  4.1097e-01,  9.1926e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.8192, -0.8540,  0.1448, -0.9849,  1.0143,
           0.4867],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627],
         [ 0.6120, -0.4371,  1.7037,  0.4701, -0.5827, -0.0226,  0.5354,
          -0.1331],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0266, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0266, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.24258825462311506
step:  17
running loss:  0.014269897330771475
Train Steps: 17/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [0.6246, 0.4008, 0.8757, 0.5088, 0.4101, 0.5392, 0.6644, 0.5133],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6090, 0.4045, 0.7250, 0.2100, 0.4075, 0.2300, 0.5476, 0.5663],
        [0.6236, 0.4081, 0.8575, 0.3000, 0.3713, 0.3033, 0.5550, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7508, -0.2604,  1.7657, -0.0488, -0.5387, -0.0755,  0.5828,  0.2377],
        [-1.1455, -1.5244,  1.9091, -0.5219, -0.2446, -1.0815,  0.7982,  0.3013],
        [ 0.7796, -0.2696,  1.9089, -0.1851, -0.3437, -0.8657,  1.0811,  0.2547],
        [ 0.5238, -0.3978,  1.2088, -0.5805, -0.6452, -0.2787,  0.2464,  0.2178],
        [ 0.7354, -0.3332,  1.7281,  0.0586, -0.3375,  0.3449,  0.9514,  0.0944],
        [ 0.6988, -0.3625,  1.6217,  0.1694, -0.3268,  0.1545,  0.4640,  0.0219],
        [ 0.4548, -0.4465,  0.9776, -1.3111, -0.4202, -1.1218,  0.3172,  0.2431],
        [ 0.5979, -0.3529,  1.5608, -0.8263, -0.5420, -0.7747,  0.3924,  0.1048]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [ 0.5993, -0.4345,  1.7587,  0.0641, -0.3917,  0.2048,  0.7827,
           0.0852],
         [ 0.5767, -0.4396,  1.6782,  0.1905, -0.3844,  0.0308,  0.4588,
           0.0855],
         [ 0.5269, -0.4176,  1.0628, -1.3159, -0.4037, -1.2236,  0.2432,
           0.3297],
         [ 0.5944, -0.4008,  1.6748, -0.9002, -0.5711, -0.8848,  0.2776,
           0.3161]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0362, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0362, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2787413029000163
step:  18
running loss:  0.015485627938889794

Train Steps: 18/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6189, 0.4033, 0.8650, 0.5267, 0.4487, 0.5150, 0.5925, 0.5050]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5391, -0.4250,  1.5793, -0.5507, -0.5772, -0.7345,  0.5866,  0.2346],
        [ 0.6453, -0.3269,  1.6569, -0.9600, -0.3731, -0.8979,  0.7733,  0.1688],
        [ 0.6124, -0.4489,  1.7579,  0.1917, -0.4467,  0.1514,  0.9555,  0.0758],
        [ 0.4832, -0.4268,  1.5981, -0.4180, -0.6525, -0.4576,  0.0383,  0.2399],
        [ 0.6428, -0.4099,  1.9707, -0.5950, -0.3578, -0.4111,  1.2218,  0.2484],
        [ 0.4976, -0.4160,  0.9908, -1.2584, -0.3256, -1.3835,  0.4925,  0.2604],
        [ 0.6152, -0.4093,  1.6455,  0.1106, -0.3446,  0.0551,  0.3082,  0.1433],
        [ 0.5605, -0.4519,  1.6999,  0.1790, -0.2418,  0.2339,  0.5199,  0.1525]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5726, -0.4230,  1.7095,  0.1467, -0.2132,  0.0928,  0.4508,
           0.0467]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0069, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0069, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2856500316411257
step:  19
running loss:  0.015034212191638193
Train Steps: 19/90  Loss: 0.0150 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6118, 0.4052, 0.8463, 0.3917, 0.3538, 0.3450, 0.5053, 0.5593],
        [0.6215, 0.4119, 0.7688, 0.2300, 0.4200, 0.2283, 0.5925, 0.5317]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6642, -0.3373,  1.6242, -0.4397, -0.5543, -0.7999,  0.5567,  0.2802],
        [ 0.3577, -0.5237,  1.7865,  0.0304, -0.3552, -0.8476,  0.5982,  0.5128],
        [ 0.7060, -0.3369,  1.3578, -1.1410, -0.2806, -1.2913,  0.6984,  0.0911],
        [ 0.4874, -0.5204,  1.7267,  0.1068, -0.1824,  0.2917,  0.4077,  0.1674],
        [ 0.6098, -0.4015,  1.1021, -1.3660, -0.4870, -1.1326,  0.5583, -0.0315],
        [ 0.5276, -0.4831,  1.8539, -0.0930, -0.3060,  0.1485,  0.5581,  0.2284],
        [ 0.2133, -0.6280,  1.6494, -0.4383, -0.6503, -0.4903,  0.2719,  0.2101],
        [ 0.6117, -0.4047,  1.2955, -1.1935, -0.3856, -0.9915,  0.8060,  0.1934]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5399, -0.4142,  1.6229, -0.4768, -0.6520, -0.6924,  0.0481,
           0.2972],
         [ 0.5849, -0.3836,  1.2649, -1.2236, -0.3460, -1.2313,  0.4508,
           0.1698]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.31217335909605026
step:  20
running loss:  0.015608667954802513
Train Steps: 20/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6227, 0.4083, 0.8938, 0.4800, 0.3800, 0.2950, 0.5737, 0.5350],
        [   nan,    nan, 0.7240, 0.2722, 0.3900, 0.2567, 0.5168, 0.5933],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8436, -0.2661,  1.7293,  0.3506, -0.4195, -0.0204,  0.8849, -0.0659],
        [ 0.7133, -0.2538,  1.7154, -0.3090, -0.4786, -0.2038,  0.2791,  0.3428],
        [ 0.8705, -0.2223,  1.6207, -0.7515, -0.6418, -0.4919,  0.7847,  0.1622],
        [ 0.7293, -0.2986,  1.6384, -0.3508, -0.5085, -0.0364,  0.4600,  0.0077],
        [ 0.8734, -0.1393,  1.8251, -0.0868, -0.4825, -0.8209,  0.6283,  0.1497],
        [-2.1821, -2.1859,  1.0531, -1.0705, -0.4182, -1.0759,  0.1864,  0.3801],
        [-1.7686, -1.9233,  1.2301, -1.1572, -0.3819, -0.9255,  0.5486,  0.3583],
        [ 0.7109, -0.2645,  1.6211,  0.3448, -0.0315, -0.1749,  0.4552,  0.3760]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5901, -0.4000,  1.8423, -0.0688, -0.5307, -0.9233,  0.3642,
           0.1852],
         [-2.2859, -2.2859,  1.0580, -1.0288, -0.4845, -1.1004,  0.1011,
           0.4543],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0208, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.33298695273697376
step:  21
running loss:  0.015856521558903512
Train Steps: 21/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [0.6165, 0.4106, 0.7575, 0.1733, 0.3838, 0.2650, 0.5680, 0.5116],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5701, -0.3610,  1.1925, -0.5998, -0.3476, -1.1460,  0.3494,  0.4502],
        [ 0.5325, -0.4449,  1.5287, -0.8693, -0.5007, -0.7125,  0.5934,  0.2793],
        [ 0.4868, -0.4511,  1.6993,  0.1740, -0.1953,  0.0165,  0.2025,  0.3025],
        [ 0.3532, -0.5528,  1.6190, -0.0188, -0.5111,  0.0868,  0.3957,  0.1781],
        [ 0.5768, -0.4132,  1.2803, -1.2153, -0.5702, -1.0083,  0.5767, -0.0181],
        [-2.8392, -2.6520,  0.9217, -1.1096, -0.4011, -1.2152,  0.2435,  0.3523],
        [ 0.8260, -0.2496,  1.7667, -1.0595,  0.0952, -1.3712,  1.0684,  0.1354],
        [ 0.4822, -0.4867,  1.8582,  0.0209, -0.5483,  0.1714,  0.6321,  0.0669]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6077, -0.3226,  0.9993, -0.6462, -0.2651, -1.3082,  0.2946,
           0.5401],
         [ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [ 0.5618, -0.3895,  1.2129, -1.4853, -0.5134, -1.0619,  0.3378,
           0.0772],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3522569965571165
step:  22
running loss:  0.016011681661687115

Train Steps: 22/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4190, -0.5163,  1.2306, -1.3445, -0.2406, -1.4644,  0.4430,  0.0780],
        [-2.6366, -2.5332,  1.1538, -1.0783, -0.4702, -1.0118,  0.2247,  0.2517],
        [ 0.5058, -0.4009,  1.6188,  0.4193, -0.4515, -0.2694,  0.3354,  0.4193],
        [ 0.4812, -0.4535,  1.7116, -0.0511, -0.2676,  0.2715,  0.4280,  0.3389],
        [ 0.3823, -0.4933,  1.4640, -1.0505, -0.2502, -1.2271,  0.5584,  0.2454],
        [ 0.5660, -0.4228,  1.7460, -0.1628, -0.4159,  0.1009,  0.4308,  0.1760],
        [ 0.6304, -0.3654,  1.6921,  0.3137, -0.4992,  0.1335,  0.4860,  0.2379],
        [ 0.4978, -0.4602,  1.4664, -1.0301, -0.3268, -1.2302,  0.7269,  0.1300]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.36108022555708885
step:  23
running loss:  0.01569914024161256
Train Steps: 23/90  Loss: 0.0157 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6176, 0.4017, 0.8788, 0.5100, 0.4075, 0.5250, 0.5913, 0.5033],
        [0.6260, 0.4120, 0.8013, 0.2350, 0.4888, 0.1533, 0.6281, 0.4895],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.3397e-01, -4.4429e-01,  1.6449e+00,  3.7041e-01, -4.7376e-01,
         -5.6033e-01,  1.8569e-01,  5.2465e-01],
        [ 4.3509e-01, -5.2979e-01,  1.8832e+00, -7.4444e-01, -4.3511e-01,
         -6.0733e-01,  6.5849e-01,  1.9896e-01],
        [ 6.8811e-01, -3.3548e-01,  9.0652e-01, -1.1236e+00, -4.8432e-01,
         -1.0859e+00,  2.8385e-01,  3.4144e-01],
        [ 2.5779e-01, -7.2311e-01,  1.8132e+00,  1.1183e-01, -3.2180e-01,
          2.0947e-01,  4.4570e-01,  1.2317e-01],
        [ 1.6847e-01, -7.1877e-01,  1.4626e+00, -1.2881e+00,  1.9532e-02,
         -1.5018e+00,  6.9486e-01,  1.8900e-01],
        [ 5.0582e-01, -4.5344e-01,  1.3273e+00, -6.3100e-01, -6.1505e-01,
         -5.4265e-01,  1.8403e-01,  2.8166e-01],
        [-1.5590e-03, -8.3832e-01,  1.8570e+00, -6.9928e-01, -4.9101e-01,
         -7.3952e-01,  5.2433e-01,  3.0981e-01],
        [ 6.4362e-01, -3.8651e-01,  1.5309e+00, -1.0483e+00, -3.1909e-01,
         -1.2067e+00,  4.5029e-01,  1.2443e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5668, -0.4306,  1.7730,  0.0697, -0.4037,  0.1390,  0.4450,
           0.0390],
         [ 0.6053, -0.3830,  1.4150, -1.2005, -0.0284, -1.5777,  0.6154,
          -0.0250],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0212, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0212, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.38229384645819664
step:  24
running loss:  0.015928910269091528
Train Steps: 24/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6175, 0.4013, 0.8900, 0.4500, 0.4375, 0.5850, 0.6175, 0.5383],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6336, 0.4086, 0.8900, 0.3950, 0.3900, 0.2950, 0.6504, 0.5066],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5587, -0.4226,  1.6160, -0.5043, -0.5054, -1.1615,  0.1804,  0.3907],
        [ 0.5253, -0.4484,  1.8616,  0.1801, -0.5132, -0.3568,  0.1869,  0.3852],
        [ 0.4857, -0.4937,  1.0900, -1.4514, -0.3567, -1.3147,  0.4973,  0.2626],
        [ 0.3560, -0.5321,  1.2411, -0.6366, -0.6568, -0.6283,  0.1718,  0.4453],
        [ 0.4202, -0.5697,  1.8400, -0.1959, -0.2509,  0.3437,  0.5042,  0.1765],
        [ 0.6044, -0.4654,  1.8214, -0.0966, -0.1333,  0.1111,  0.4976,  0.2188],
        [ 0.5153, -0.4811,  1.9231, -0.4981, -0.4574, -1.0707,  0.7030,  0.0785],
        [ 0.4016, -0.6046,  1.7845, -0.0465, -0.3021, -0.1544,  0.2956,  0.2958]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.5664, -0.4321,  1.8249, -0.2074, -0.2651,  0.4162,  0.5663,
           0.2006],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.6405, -0.3984,  1.8249, -0.4614, -0.4845, -0.9233,  0.7182,
           0.0539],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.38968273205682635
step:  25
running loss:  0.015587309282273054
Train Steps: 25/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6263, 0.4030, 0.9000, 0.4767, 0.3800, 0.5167, 0.6415, 0.4771],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.1355, -0.7047,  1.0245, -1.2254, -0.2885, -1.5247,  0.0463,  0.1693],
        [ 0.5920, -0.4166,  1.6155, -1.0675,  0.1942, -1.4872,  0.6072,  0.3212],
        [ 0.5402, -0.4191,  1.1201, -1.1080, -0.5136, -0.9845,  0.2833,  0.4162],
        [ 0.3849, -0.5270,  1.8260, -0.2820, -0.6391, -0.4763,  0.2228,  0.3612],
        [ 0.4151, -0.5447,  1.8440,  0.0276, -0.4044,  0.1932,  0.3751,  0.2620],
        [ 0.3779, -0.5567,  1.8440,  0.0828, -0.5188, -0.7754,  0.3708,  0.2907],
        [ 0.4404, -0.5536,  1.8745, -0.0533, -0.5073,  0.0109,  0.4361,  0.1189],
        [ 0.6545, -0.3770,  1.2548, -1.1872, -0.2788, -1.2400,  0.5030,  0.2161]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.6072, -0.4247,  1.8711, -0.0842, -0.5307,  0.1005,  0.6771,
          -0.0821],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0168, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0168, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4064830797724426
step:  26
running loss:  0.015633964606632408

Train Steps: 26/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6069, 0.3975, 0.8625, 0.5083, 0.4388, 0.5483, 0.5650, 0.4967],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6265, 0.4091, 0.8950, 0.3533, 0.3600, 0.3967, 0.6295, 0.4901],
        [0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.7468e-01, -4.2405e-01,  1.7528e+00, -2.6740e-01, -3.7613e-01,
         -1.1936e+00,  2.4123e-01,  2.4698e-01],
        [ 7.2586e-01, -3.2563e-01,  1.5593e+00,  8.7796e-02, -1.8891e-01,
          8.3703e-02,  2.8491e-02,  2.2675e-01],
        [ 5.2334e-01, -4.4256e-01,  1.7059e+00, -2.4735e-01, -4.9585e-01,
         -5.1626e-01,  2.3367e-01,  1.9561e-01],
        [ 6.6523e-01, -3.2866e-01,  1.7513e+00, -6.5725e-01, -5.1157e-01,
         -6.0597e-01,  5.1856e-01,  2.0810e-01],
        [ 7.9341e-01, -2.9291e-01,  1.7165e+00, -1.9395e-01, -4.3940e-01,
         -2.4226e-03,  4.1576e-01,  2.1084e-01],
        [ 4.6099e-01, -4.5544e-01,  1.2891e+00, -1.0755e+00, -5.3392e-01,
         -7.8686e-01,  2.7304e-01,  1.8630e-01],
        [ 3.8093e-01, -5.4834e-01,  1.8468e+00, -3.5344e-01, -2.1268e-01,
         -1.0234e+00,  6.6850e-01,  4.1560e-01],
        [-2.5304e+00, -2.3983e+00,  9.7836e-01, -1.2369e+00, -2.7478e-01,
         -1.2620e+00,  2.4886e-01,  3.5089e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6116, -0.3898,  1.8654, -0.1997, -0.4788, -1.1081,  0.4367,
          -0.0637],
         [ 0.5174, -0.4497,  1.6979,  0.0620, -0.2594,  0.2468,  0.3238,
           0.0082],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.6077, -0.3965,  1.8480, -0.6539, -0.6231, -0.4537,  0.6216,
          -0.0220],
         [ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0215, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0215, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.427944693248719
step:  27
running loss:  0.015849803453656258
Train Steps: 27/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4570, -0.5229,  1.7586, -0.0554, -0.5715, -0.5387,  0.2527,  0.4641],
        [ 0.6345, -0.3882,  1.7560,  0.2261, -0.4069, -0.0963,  0.2293,  0.2826],
        [ 0.6074, -0.4412,  1.6149,  0.2421, -0.3680, -0.4795,  0.1157,  0.2424],
        [ 0.6530, -0.3447,  1.7055,  0.0860, -0.1344, -0.2192, -0.1011,  0.2670],
        [ 0.4935, -0.5104,  1.8558, -0.0979, -0.4405, -0.0116,  0.3747,  0.1274],
        [ 0.2789, -0.6232,  1.3619, -1.4057, -0.5798, -1.1723,  0.3074,  0.1082],
        [ 0.5152, -0.4956,  1.8940, -0.1752, -0.4296, -0.0322,  0.8230,  0.2762],
        [ 0.9435, -0.1969,  1.7871, -0.7499, -0.3294, -0.5972,  0.8296,  0.2128]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.5891, -0.4550,  1.5132,  0.3546, -0.3691, -0.1535,  0.3815,
           0.1467],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0249, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0249, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4528018026612699
step:  28
running loss:  0.01617149295218821
Train Steps: 28/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6100, 0.4016, 0.8600, 0.5067, 0.4612, 0.5233, 0.5086, 0.5519],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7551, -0.2866,  1.7308, -0.2989, -0.4932,  0.0477,  0.4730,  0.0802],
        [-2.5839, -2.4586,  1.5701, -1.1338,  0.0178, -1.2622,  0.7895,  0.2292],
        [ 0.4940, -0.4422,  1.4511, -1.0838, -0.1897, -1.4387,  0.3430,  0.1239],
        [ 0.6857, -0.3570,  1.8496, -0.0496, -0.4596,  0.0302,  0.8218,  0.1607],
        [ 0.3040, -0.5759,  1.3551, -0.7724, -0.6065, -0.6449,  0.2698,  0.4399],
        [ 0.7371, -0.2424,  1.7519,  0.0958, -0.6039, -0.7225,  0.1211,  0.2988],
        [ 0.6786, -0.3373,  1.6232,  0.1325, -0.1826, -0.1288, -0.1010,  0.1699],
        [ 0.4422, -0.4763,  1.2160, -1.1084, -0.4471, -1.0021,  0.4260,  0.1637]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5318, -0.4310,  1.6864,  0.0543, -0.1554,  0.1313,  0.0635,
           0.2634],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0203, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.47314505791291595
step:  29
running loss:  0.01631534682458331
Train Steps: 29/90  Loss: 0.0163 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6280, 0.4055, 0.8600, 0.5317, 0.3800, 0.4700, 0.6275, 0.5133],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6179, 0.3961, 0.8347, 0.6020, 0.3887, 0.4624, 0.5714, 0.5373],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6479, -0.3862,  1.7959, -0.6655, -0.4468,  0.0505,  0.8091,  0.0969],
        [ 0.6897, -0.3558,  1.7876,  0.1890, -0.4869, -0.1190,  0.6193,  0.0967],
        [ 0.6158, -0.3547,  1.7291,  0.0648, -0.5078, -0.6661,  0.3796,  0.2100],
        [ 0.7697, -0.3150,  1.5880,  0.3262, -0.4156, -0.3101,  0.4204,  0.1966],
        [-2.2058, -2.1965,  1.4134, -1.0115, -0.5480, -0.8214,  0.3142,  0.1668],
        [ 0.5060, -0.3896,  1.7413, -0.3907, -0.4397, -0.3701,  0.1312,  0.3688],
        [ 0.6487, -0.3205,  1.4211, -0.8362, -0.5193, -0.9339,  0.0720,  0.2005],
        [ 0.5592, -0.4004,  1.3866, -1.2150, -0.0363, -1.5537,  0.4363,  0.0868]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.6148, -0.4130,  1.6864,  0.1698, -0.5307, -0.1150,  0.6125,
           0.0851],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.5680, -0.4562,  1.5697,  0.4947, -0.4904, -0.1503,  0.3536,
           0.1956],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0082, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0082, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.48136191023513675
step:  30
running loss:  0.016045397007837893

Train Steps: 30/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.4175, 0.7300, 0.2883, 0.4338, 0.2167, 0.5698, 0.5773],
        [0.6200, 0.4049, 0.8638, 0.5617, 0.4125, 0.5100, 0.6013, 0.5317],
        [0.6268, 0.4029, 0.8500, 0.2683, 0.3937, 0.3500, 0.6860, 0.5297],
        [0.6136, 0.4060, 0.8025, 0.3217, 0.3650, 0.3000, 0.5060, 0.5646],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5437, -0.4190,  1.2397, -0.9936, -0.2858, -1.3147,  0.3011,  0.3873],
        [ 0.4616, -0.5160,  1.8487,  0.2746, -0.3216,  0.0470,  0.4399,  0.0933],
        [ 0.7601, -0.3446,  1.7578, -1.0177, -0.4505, -0.7159,  0.8616,  0.0667],
        [ 0.6262, -0.3732,  1.5641, -0.8014, -0.5630, -0.9078,  0.0116,  0.1624],
        [ 0.4152, -0.5154,  1.2256, -1.0323, -0.5391, -0.9245,  0.1490,  0.2274],
        [ 0.7800, -0.3039,  1.8411, -0.6873, -0.4801, -0.6690,  0.4628,  0.2354],
        [ 0.6368, -0.4049,  1.9289,  0.1807, -0.4706, -0.0622,  0.4105,  0.1088],
        [ 0.6706, -0.3962,  1.6757,  0.2004, -0.4664, -0.1117,  0.8264,  0.1407]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.3574,  1.0859, -0.9541, -0.2824, -1.2851,  0.3460,
           0.3808],
         [ 0.5776, -0.4159,  1.7037,  0.3084, -0.3806,  0.0697,  0.4912,
           0.1698],
         [ 0.6092, -0.4249,  1.6402, -1.0465, -0.4672, -0.6693,  0.8827,
           0.1608],
         [ 0.5483, -0.4105,  1.4208, -0.8002, -0.6000, -0.9002,  0.0511,
           0.3220],
         [ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522],
         [ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0089, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0089, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.49028233671560884
step:  31
running loss:  0.015815559248890606
Train Steps: 31/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5666, -0.4195,  1.8396, -1.0422, -0.1928, -1.2118,  0.5643,  0.1019],
        [ 0.6211, -0.3755,  1.3698, -0.6980, -0.6557, -0.4697,  0.1725,  0.2209],
        [ 0.5803, -0.4509,  1.9152, -0.6383, -0.3041, -0.8855,  0.8861,  0.0336],
        [ 0.7501, -0.3202,  1.8613, -0.1640, -0.4751,  0.0098,  0.5408,  0.0257],
        [ 0.6964, -0.3375,  1.5899,  0.3226, -0.3722, -0.0324,  0.4169,  0.4082],
        [ 0.4888, -0.4642,  1.5771, -0.5611, -0.5993, -0.5054,  0.4021,  0.4605],
        [ 0.7757, -0.3521,  1.8301,  0.2087, -0.5843, -0.1622,  0.5861,  0.0187],
        [ 0.6856, -0.3810,  1.8420, -0.0025, -0.4428, -0.0025,  0.2644,  0.1522]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6089, -0.3948,  1.7383, -0.8617, -0.2536, -1.2390,  0.6009,
           0.1159],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0072, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0072, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.49751824559643865
step:  32
running loss:  0.015547445174888708
Train Steps: 32/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6357, 0.4118, 0.8400, 0.2500, 0.5413, 0.1633, 0.6725, 0.5586],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7685, -0.2554,  1.8790, -0.0951, -0.5094,  0.1064,  0.3453,  0.0740],
        [ 0.2122, -0.6466,  1.1111, -1.1771, -0.4408, -1.2101,  0.1642,  0.2664],
        [ 0.5185, -0.4993,  1.5777, -1.2015, -0.3875, -1.1538,  0.6529,  0.0108],
        [ 0.6000, -0.4405,  1.6702,  0.3551, -0.3816,  0.2087,  0.2137, -0.0261],
        [ 0.5316, -0.4604,  1.7136, -1.2135,  0.0900, -1.4193,  0.7995,  0.1499],
        [ 0.7085, -0.3692,  1.4491,  0.1493, -0.6077,  0.0302,  0.9614,  0.2498],
        [ 0.6815, -0.3494,  1.7495, -0.4778, -0.7476, -0.3255,  0.4961,  0.2621],
        [ 0.6221, -0.3105,  1.7768, -0.2247, -0.3396, -0.9656,  0.3741,  0.4538]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.6504, -0.3840,  1.5940, -1.1312,  0.2141, -1.5315,  0.8205,
           0.2944],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.6174, -0.3118,  1.6402, -0.2074, -0.1958, -1.0927,  0.2267,
           0.5822]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0149, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0149, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5123806581832469
step:  33
running loss:  0.01552668661161354
Train Steps: 33/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6042, 0.3990, 0.6831, 0.2875, 0.3500, 0.3133, 0.5143, 0.5510],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6236, 0.4081, 0.8575, 0.3000, 0.3713, 0.3033, 0.5550, 0.5633],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6101, -0.3861,  1.0465, -1.0171, -0.5287, -0.9288,  0.1636,  0.3035],
        [ 0.7595, -0.3106,  1.5950,  0.3544, -0.4964, -0.0664,  0.8690,  0.1603],
        [ 0.5309, -0.4411,  1.7549, -0.7236, -0.5169, -0.8883,  0.3679,  0.1458],
        [ 0.7765, -0.3054,  1.7333,  0.3088, -0.3553,  0.1623,  0.7348,  0.0983],
        [ 0.6907, -0.3104,  1.9679, -0.2774, -0.5666, -0.0387,  0.7282,  0.2893],
        [ 0.5866, -0.3977,  1.7523,  0.0307, -0.5445, -0.1638,  0.2781,  0.1210],
        [ 0.5182, -0.4533,  1.4693, -0.9037, -0.5433, -0.7623,  0.4990,  0.2418],
        [ 0.3984, -0.5048,  1.4839, -1.1185, -0.1541, -1.3903,  0.4739,  0.2252]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5049, -0.4428,  0.8692, -0.9581, -0.6693, -0.8386,  0.0897,
           0.2589],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.5944, -0.4008,  1.6748, -0.9002, -0.5711, -0.8848,  0.2776,
           0.3161],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5212206044234335
step:  34
running loss:  0.01533001777715981

Train Steps: 34/90  Loss: 0.0153 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6226, 0.4103, 0.8575, 0.3450, 0.4388, 0.2067, 0.5787, 0.5383],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7662, -0.2341,  1.5781, -0.2909, -0.6309, -0.7669,  0.4134,  0.3638],
        [-1.5719, -1.7703,  1.2770, -0.8794, -0.4331, -1.0268,  0.3747,  0.3496],
        [ 0.7161, -0.3501,  1.6823,  0.1277, -0.5211, -0.0683,  0.6721,  0.1472],
        [ 0.6450, -0.3428,  1.7448,  0.0048, -0.3701,  0.0794,  0.4939,  0.2061],
        [ 0.6709, -0.3055,  1.6780, -0.6860, -0.2785, -1.2521,  0.4511,  0.2015],
        [ 0.6167, -0.3962,  1.6691,  0.1726, -0.2480,  0.1969,  0.6600,  0.0819],
        [ 0.7405, -0.2789,  1.8078,  0.0298, -0.4354,  0.2576,  0.7490,  0.0836],
        [ 0.5992, -0.3914,  1.5422, -0.4336, -0.6631, -0.2964,  0.3682,  0.2405]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5898, -0.3908,  1.6748, -0.6924, -0.2594, -1.3313,  0.3873,
           0.2006],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5407532160170376
step:  35
running loss:  0.015450091886201075
Train Steps: 35/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [0.6034, 0.4011, 0.7350, 0.2533, 0.3438, 0.3367, 0.5516, 0.5084],
        [0.6273, 0.4100, 0.7137, 0.2133, 0.4000, 0.2650, 0.6075, 0.5633],
        [   nan,    nan, 0.7192, 0.2346, 0.4037, 0.2050, 0.5138, 0.5650],
        [0.6286, 0.4097, 0.8107, 0.2414, 0.4425, 0.2483, 0.6745, 0.5385],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6219, 0.3934, 0.8688, 0.5267, 0.4313, 0.4967, 0.5988, 0.4983],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5688, -0.4102,  1.3362, -1.0214, -0.2337, -1.2387,  0.5933,  0.2205],
        [ 0.5588, -0.4107,  1.1360, -0.9133, -0.6114, -0.6363,  0.2814,  0.1120],
        [ 0.4255, -0.4792,  1.0315, -1.0336, -0.4536, -1.0128,  0.4469,  0.3514],
        [-2.0111, -2.0337,  1.0375, -1.0228, -0.4102, -1.0963,  0.2566,  0.2898],
        [ 0.5824, -0.3836,  1.4738, -0.8859, -0.2546, -1.1444,  0.8461,  0.2488],
        [ 0.6641, -0.3520,  1.6249, -0.4234, -0.6472, -0.4652,  0.5174,  0.2492],
        [ 0.7156, -0.3546,  1.7393,  0.3704, -0.3914,  0.1171,  0.5668, -0.0235],
        [ 0.6197, -0.3639,  1.9170, -0.2692, -0.5723, -0.3346,  0.6970,  0.2217]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6158, -0.4225,  1.3307, -1.3253, -0.1924, -1.3252,  0.6721,
           0.1727],
         [ 0.5009, -0.4333,  1.1090, -1.1158, -0.6982, -0.7309,  0.2617,
           0.0622],
         [ 0.6115, -0.3924,  1.0109, -1.3005, -0.4383, -1.0619,  0.5201,
           0.3161],
         [-2.2859, -2.2859,  1.0361, -1.2021, -0.4210, -1.3390,  0.0871,
           0.3238],
         [ 0.6174, -0.3936,  1.4586, -1.1709, -0.2420, -1.1389,  0.8296,
           0.2012],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.5864, -0.4690,  1.7268,  0.1467, -0.2940,  0.0082,  0.4797,
           0.0159],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0145, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0145, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5552862132899463
step:  36
running loss:  0.015424617035831843
Train Steps: 36/90  Loss: 0.0154 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6336, 0.4191, 0.8938, 0.5167, 0.3937, 0.3517, 0.7343, 0.5748],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6712, -0.3344,  0.8852, -0.8259, -0.5781, -0.8849,  0.2836,  0.4461],
        [ 0.6448, -0.3840,  1.7873,  0.1943, -0.3306, -0.5015,  0.9702,  0.3116],
        [ 0.6883, -0.3586,  1.1804, -1.1055, -0.3317, -1.3468,  0.3378,  0.1692],
        [ 0.6501, -0.3811,  1.7949,  0.0383, -0.4651,  0.4288,  0.6228,  0.0843],
        [ 0.5457, -0.4620,  1.6727, -0.5455, -0.5818, -0.7265,  0.4503,  0.1704],
        [ 0.5400, -0.4457,  1.6360, -0.1206, -0.5851, -0.3272,  0.2805,  0.3501],
        [ 0.6369, -0.3821,  1.8384, -0.0908, -0.4472,  0.3384,  1.0631,  0.2493],
        [ 0.4643, -0.4946,  1.4443, -0.9013, -0.4899, -0.8918,  0.3928,  0.1161]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.6405, -0.3503,  1.8423,  0.1005, -0.4672, -0.6616,  1.1057,
           0.3692],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0055, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0055, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5607698620297015
step:  37
running loss:  0.015155942217018959
Train Steps: 37/90  Loss: 0.0152 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6256, 0.4199, 0.8638, 0.5800, 0.3987, 0.4383, 0.5600, 0.5950],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6275, 0.4081, 0.8063, 0.2017, 0.4825, 0.1583, 0.6156, 0.4869],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6308, 0.3990, 0.8688, 0.5183, 0.3950, 0.4983, 0.6388, 0.5133],
        [0.6127, 0.4115, 0.7163, 0.2883, 0.3625, 0.2950, 0.5327, 0.5495]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5668, -0.4175,  1.6320,  0.0660, -0.1801, -0.0683,  0.3313,  0.2419],
        [ 0.5908, -0.3833,  1.6107,  0.3380, -0.5683, -0.2802,  0.4929,  0.5329],
        [ 0.4183, -0.5385,  1.5019,  0.3227, -0.3926,  0.0037,  0.3500,  0.1237],
        [ 0.6590, -0.4055,  1.4546, -1.4122, -0.1601, -1.6383,  0.7569,  0.0479],
        [ 0.5319, -0.4480,  1.6853, -0.0332, -0.2487, -0.0303,  0.4169,  0.3119],
        [ 0.5453, -0.4142,  1.7662, -0.3417, -0.5738,  0.2874,  0.7600,  0.2159],
        [ 0.5614, -0.4496,  1.7109,  0.0886, -0.5932, -0.0110,  0.9051,  0.1374],
        [ 0.5893, -0.4026,  1.0282, -1.0175, -0.7196, -0.9125,  0.2854,  0.3452]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.6038, -0.3464,  1.7037,  0.3931, -0.4441, -0.2613,  0.3007,
           0.4624],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.6124, -0.4010,  1.4381, -1.3544, -0.0573, -1.5546,  0.5573,
          -0.0369],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.6275, -0.4430,  1.7268,  0.1082, -0.4614,  0.0159,  0.6644,
           0.0851],
         [ 0.5442, -0.3855,  1.0224, -0.9541, -0.6115, -0.9233,  0.1745,
           0.2522]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5724910940043628
step:  38
running loss:  0.01506555510537797

Train Steps: 38/90  Loss: 0.0151 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6274, 0.4117, 0.8100, 0.5801, 0.4000, 0.4583, 0.5582, 0.6118],
        [0.6193, 0.4050, 0.7313, 0.2433, 0.4075, 0.2117, 0.5649, 0.5656],
        [0.6226, 0.4125, 0.8800, 0.4900, 0.4512, 0.5600, 0.6275, 0.5517],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5787, -0.4111,  1.6932,  0.0974, -0.2177,  0.0952,  0.3047,  0.1366],
        [ 0.3868, -0.5064,  1.4697,  0.3451, -0.5825, -0.1846,  0.5391,  0.5011],
        [ 0.5121, -0.4486,  1.0925, -1.1847, -0.4936, -1.2274,  0.4309,  0.2811],
        [ 0.5534, -0.3974,  1.7306, -0.0548, -0.2913,  0.2534,  0.6129,  0.3512],
        [ 0.6356, -0.4325,  1.4172, -1.2141, -0.2466, -1.5455,  0.7136,  0.1865],
        [ 0.6097, -0.4405,  1.6402,  0.2651, -0.5443, -0.1034,  0.6511,  0.1993],
        [ 0.5489, -0.4402,  1.6364, -0.2779, -0.5507,  0.0573,  0.3002,  0.0735],
        [ 0.5650, -0.4668,  1.2234, -1.2461, -0.3808, -1.2864,  0.7092,  0.1740]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.6121, -0.3844,  1.4556,  0.3936, -0.4383, -0.1689,  0.2925,
           0.5401],
         [ 0.5746, -0.4153,  1.0917, -1.1620, -0.4037, -1.3082,  0.3234,
           0.3267],
         [ 0.5897, -0.3804,  1.7788, -0.0226, -0.2016,  0.3007,  0.6125,
           0.2622],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0072, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0072, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5796950873918831
step:  39
running loss:  0.014863976599791875
Train Steps: 39/90  Loss: 0.0149 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6110, 0.3984, 0.8750, 0.4933, 0.4625, 0.4950, 0.5578, 0.5676],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [0.6203, 0.4078, 0.8800, 0.5083, 0.3900, 0.5000, 0.6100, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4518, -0.5226,  1.5759,  0.0545, -0.5464, -0.0713,  0.5453,  0.1484],
        [ 0.5803, -0.3962,  1.6064, -0.1914, -0.6144, -0.1679,  0.5165,  0.2878],
        [ 0.5458, -0.4359,  1.6392, -0.9572, -0.1208, -1.4111,  0.6136,  0.1508],
        [ 0.5890, -0.4114,  1.5700, -0.1026, -0.1931,  0.0397,  0.3496,  0.4049],
        [ 0.5104, -0.4378,  1.5383, -0.0344, -0.4701, -0.0894,  0.2003,  0.3153],
        [ 0.5813, -0.4163,  1.6899, -0.3295, -0.5267, -1.1116,  0.5762,  0.1261],
        [ 0.4640, -0.5030,  1.4995,  0.0286, -0.2245,  0.1700,  0.5783,  0.2438],
        [ 0.5282, -0.4285,  1.5917, -0.0356, -0.4829,  0.0265,  0.5645,  0.2748]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7725e-01, -4.3156e-01,  1.7399e+00,  1.2871e-01, -5.1531e-01,
          -8.1749e-02,  4.3131e-01,  9.1941e-02],
         [ 5.8655e-01, -3.9731e-01,  1.8423e+00, -6.8822e-02, -5.1917e-01,
          -2.3048e-01,  4.1617e-01,  1.1594e-01],
         [ 6.0520e-01, -3.6628e-01,  1.7845e+00, -8.1555e-01, -8.0370e-02,
          -1.4237e+00,  5.8660e-01,  5.0889e-03],
         [ 5.3637e-01, -4.4573e-01,  1.7557e+00, -7.2363e-03, -1.4965e-01,
           4.6189e-04,  2.9049e-01,  3.3573e-01],
         [ 5.3343e-01, -4.2517e-01,  1.7499e+00, -2.2633e-02, -3.9792e-01,
          -1.9199e-01,  5.5769e-02,  2.5891e-01],
         [ 6.1161e-01, -3.8976e-01,  1.8654e+00, -1.9969e-01, -4.7875e-01,
          -1.1081e+00,  4.3668e-01, -6.3661e-02],
         [ 5.5484e-01, -4.6823e-01,  1.7309e+00,  9.6578e-02, -1.3942e-01,
           1.7573e-01,  5.0451e-01,  9.4188e-02],
         [ 5.7939e-01, -4.0231e-01,  1.7788e+00,  6.2048e-02, -4.8453e-01,
           2.3557e-02,  5.3164e-01,  2.9299e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0105, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0105, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5902246865443885
step:  40
running loss:  0.014755617163609713
Train Steps: 40/90  Loss: 0.0148 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456],
        [   nan,    nan, 0.6935, 0.1930, 0.4150, 0.2250, 0.5450, 0.5650],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6203, 0.4073, 0.8189, 0.2398, 0.4400, 0.2054, 0.5929, 0.5501]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6170, -0.4152,  1.4426, -0.9766, -0.4147, -0.9239,  0.6348,  0.1055],
        [ 0.6492, -0.3891,  1.0826, -1.1782, -0.4910, -1.1525,  0.3329, -0.0206],
        [ 0.5339, -0.4025,  1.6845,  0.1729, -0.3956,  0.3507,  0.3930,  0.1802],
        [-1.7459, -1.8893,  1.0771, -1.0959, -0.2213, -1.1079,  0.4450,  0.2548],
        [ 0.4224, -0.4749,  1.6062, -0.3164, -0.6632, -0.3488,  0.2345,  0.2554],
        [ 0.5959, -0.3686,  1.0819, -0.8909, -0.2060, -1.2524,  0.4956,  0.3669],
        [ 0.4865, -0.4776,  1.0770, -1.1057, -0.3190, -1.2749,  0.5400,  0.2507],
        [ 0.5668, -0.4227,  1.4136, -0.9592, -0.2372, -1.2127,  0.6334,  0.2023]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341],
         [-2.2859, -2.2859,  0.9175, -1.3947, -0.3691, -1.2467,  0.2314,
           0.3238],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161],
         [ 0.5792, -0.4048,  1.4965, -1.1781, -0.2534, -1.3371,  0.4528,
           0.2549]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0225, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0225, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6126899658702314
step:  41
running loss:  0.014943657704151986
Train Steps: 41/90  Loss: 0.0149 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4098, 0.8237, 0.2917, 0.4012, 0.2967, 0.6000, 0.5683],
        [0.6125, 0.4010, 0.8650, 0.4567, 0.3663, 0.3900, 0.5600, 0.5567],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6204, 0.4110, 0.7913, 0.2667, 0.4062, 0.2500, 0.6225, 0.5367],
        [0.6197, 0.3930, 0.8793, 0.4736, 0.4152, 0.5464, 0.6308, 0.5235]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7854, -0.2991,  1.3389, -0.9233, -0.3140, -0.9295,  0.4933,  0.3211],
        [ 0.4851, -0.4815,  1.5754, -0.1447, -0.5025, -0.4698,  0.2705,  0.3721],
        [ 0.4202, -0.5532,  1.6440, -0.7332, -0.4721, -0.9302,  0.4453,  0.0863],
        [ 0.5706, -0.4244,  1.7125, -0.0341, -0.3242,  0.3171,  0.8492,  0.1820],
        [ 0.4740, -0.5121,  1.3715, -1.0159, -0.2918, -1.2467,  0.4170,  0.1064],
        [ 0.6055, -0.4053,  1.6585,  0.0100, -0.4876, -0.3127,  0.2278,  0.2346],
        [ 0.6458, -0.3923,  1.3370, -1.0757, -0.2966, -1.1584,  0.5205,  0.1678],
        [ 0.4434, -0.5174,  1.6545, -0.0345, -0.2625,  0.2169,  0.5201,  0.1693]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.3930,  1.5189, -0.9387, -0.4326, -0.9156,  0.4855,
           0.3392],
         [ 0.5432, -0.4336,  1.7095, -0.1766, -0.5942, -0.4845,  0.3007,
           0.2853],
         [ 0.5799, -0.4329,  1.7210, -0.7694, -0.5711, -0.8771,  0.3988,
           0.0774],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.5796, -0.3878,  1.3688, -1.0542, -0.4095, -1.1312,  0.5894,
           0.1929],
         [ 0.5762, -0.4706,  1.7754, -0.0984, -0.3680,  0.2380,  0.6277,
           0.1322]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0071, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0071, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6198296854272485
step:  42
running loss:  0.014757849653029726

Train Steps: 42/90  Loss: 0.0148 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6620, -0.3627,  0.8645, -0.8953, -0.4624, -1.0615,  0.2567,  0.4448],
        [ 0.5483, -0.4709,  1.3646, -0.9783, -0.4312, -0.9092,  0.4041,  0.2567],
        [ 0.4148, -0.5180,  1.6699, -0.6309, -0.4510, -0.0706,  0.5017,  0.2699],
        [ 0.6890, -0.3866,  1.6303,  0.5067, -0.3901, -0.0298,  0.3656, -0.0725],
        [ 0.2361, -0.6919,  2.0030, -0.9078,  0.1716, -1.4575,  1.0266,  0.2301],
        [ 0.6916, -0.4029,  1.8254,  0.1274, -0.4539, -0.1698,  0.5178, -0.0051],
        [ 0.3982, -0.5432,  1.5778, -0.5003, -0.5175, -0.3889,  0.1091,  0.2928],
        [ 0.6824, -0.3615,  1.3945, -0.8919, -0.4078, -0.7204,  0.3479,  0.2505]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.6108, -0.4201,  1.8711, -0.7848, -0.0053, -1.2236,  1.0362,
           0.2142],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.632617355324328
step:  43
running loss:  0.014712031519170417
Train Steps: 43/90  Loss: 0.0147 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6357, 0.4139, 0.8450, 0.5883, 0.3775, 0.4950, 0.6488, 0.5297],
        [0.6211, 0.4069, 0.8750, 0.5117, 0.4150, 0.4900, 0.5875, 0.5167],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3379, -0.5900,  1.6437,  0.3095, -0.4413, -0.1503,  0.5774,  0.1200],
        [ 0.3663, -0.5576,  1.8159, -0.0059, -0.3329, -0.1042,  0.3667,  0.1079],
        [ 0.6056, -0.3637,  1.8744, -0.2903, -0.3508,  0.0614,  0.2247,  0.1056],
        [ 0.6311, -0.4130,  1.2440, -1.1452, -0.4054, -1.1107,  0.4740,  0.3398],
        [ 0.5598, -0.4292,  1.7782, -0.1508, -0.1658, -0.0379,  0.0746, -0.0257],
        [ 0.6271, -0.3747,  1.7128, -0.3489, -0.4974, -0.8574,  0.3628,  0.2517],
        [ 0.6131, -0.4009,  0.8760, -0.9219, -0.4928, -1.0583,  0.2549,  0.4428],
        [ 0.4163, -0.5562,  1.5630, -0.9899, -0.1836, -1.1978,  0.7956,  0.2543]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.5036e-01, -3.7434e-01,  1.6171e+00,  4.3156e-01, -5.4226e-01,
           4.6189e-04,  7.1085e-01,  1.6077e-01],
         [ 5.8279e-01, -4.0662e-01,  1.7557e+00,  7.7444e-02, -3.6905e-01,
          -2.2633e-02,  4.2771e-01,  1.0054e-01],
         [ 5.7113e-01, -3.7875e-01,  1.8249e+00, -1.7660e-01, -4.6721e-01,
           2.1601e-01,  3.6246e-01,  7.4222e-02],
         [ 5.9151e-01, -3.6821e-01,  1.2187e+00, -1.2313e+00, -4.3256e-01,
          -9.5412e-01,  5.7783e-01,  3.7768e-01],
         [ 5.2494e-01, -4.4734e-01,  1.7326e+00, -9.1917e-02, -2.0162e-01,
           1.5443e-01,  1.7328e-01,  4.1158e-02],
         [ 6.0162e-01, -3.6328e-01,  1.7152e+00, -2.2279e-01, -6.1155e-01,
          -6.3849e-01,  5.0277e-01,  2.6990e-01],
         [ 5.6143e-01, -4.0805e-01,  7.7413e-01, -8.8483e-01, -5.4226e-01,
          -9.1563e-01,  3.5843e-01,  4.0847e-01],
         [ 6.1742e-01, -3.9842e-01,  1.5975e+00, -9.9214e-01, -3.6328e-01,
          -9.9261e-01,  8.2047e-01,  2.0505e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6447693314403296
step:  44
running loss:  0.014653848441825672
Train Steps: 44/90  Loss: 0.0147 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6186, 0.4154, 0.6825, 0.2633, 0.4150, 0.2300, 0.5713, 0.5517],
        [0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6257, 0.4024, 0.8612, 0.5352, 0.4361, 0.5253, 0.6680, 0.5166],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6268, 0.4061, 0.8350, 0.2433, 0.4575, 0.2283, 0.6350, 0.5300],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6149, -0.3487,  1.7814, -0.2349, -0.4272,  0.1006,  0.3636,  0.1894],
        [-2.3590, -2.3096,  1.0946, -1.1491, -0.4777, -1.3035,  0.0823,  0.1859],
        [ 0.5637, -0.4276,  0.9312, -1.0148, -0.4159, -1.2547,  0.2622,  0.2948],
        [ 0.5444, -0.4137,  1.1649, -0.9891, -0.6327, -0.5801,  0.3558,  0.2762],
        [ 0.5295, -0.4331,  1.6803,  0.1782, -0.3518,  0.1204,  0.6046,  0.0747],
        [ 0.5971, -0.4446,  1.7483, -0.9914, -0.0197, -1.3498,  0.8464,  0.0536],
        [ 0.6495, -0.3742,  1.5860, -1.0997, -0.2983, -1.3387,  0.5325,  0.0691],
        [ 0.3837, -0.5090,  1.7551, -0.1794, -0.0704, -0.0786,  0.2862,  0.2237]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5713, -0.3671,  0.8665, -1.0696, -0.3691, -1.2236,  0.3527,
           0.2622],
         [ 0.5747, -0.3886,  1.1494, -1.0388, -0.6000, -0.5846,  0.5952,
           0.3546],
         [ 0.6042, -0.4273,  1.6920,  0.1860, -0.2717,  0.1406,  0.7997,
           0.1004],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.6093, -0.4104,  1.5709, -1.1620, -0.1727, -1.2313,  0.6471,
           0.1621],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.652790330350399
step:  45
running loss:  0.014506451785564423
Train Steps: 45/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4055, 0.7717, 0.1919, 0.4250, 0.2079, 0.5871, 0.5044],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6284, 0.4093, 0.8900, 0.4700, 0.3650, 0.3850, 0.6212, 0.5167],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4966, -0.4927,  1.2699, -1.3492, -0.2894, -1.4053,  0.3474,  0.0317],
        [ 0.7391, -0.3165,  1.2395, -1.1042, -0.4034, -1.0465,  0.4538,  0.3428],
        [ 0.3934, -0.5337,  1.5320, -1.0319, -0.4831, -0.3558,  0.4587,  0.2339],
        [ 0.6288, -0.3821,  1.3381, -1.0664, -0.5571, -0.4490,  0.3945,  0.2473],
        [ 0.5720, -0.4417,  1.6718,  0.1874, -0.2753, -0.1033,  0.4886,  0.1259],
        [ 0.5163, -0.4307,  1.8413,  0.3058, -0.3082, -0.0951,  0.2531,  0.2563],
        [ 0.4386, -0.5311,  1.9441, -0.1007, -0.5351, -0.5640,  0.4021,  0.0828],
        [ 0.6740, -0.3230,  1.7757,  0.1000, -0.4700, -0.4806,  0.4102,  0.2311]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5785, -0.4129,  1.2785, -1.3996, -0.3227, -1.3259,  0.4258,
           0.0438],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.6164, -0.3956,  1.8249, -0.1150, -0.6000, -0.5076,  0.5836,
           0.1005],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6602126411162317
step:  46
running loss:  0.01435244871991808

Train Steps: 46/90  Loss: 0.0144 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6260, 0.4106, 0.8025, 0.2583, 0.4550, 0.1867, 0.6281, 0.4869],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3742, -0.5066,  1.7244,  0.3687, -0.0828, -0.2045,  0.3595,  0.3976],
        [ 0.5415, -0.4194,  1.6979, -0.4614, -0.7064, -0.5221, -0.0144,  0.2012],
        [ 0.8284, -0.2728,  0.9806, -1.3618, -0.4925, -1.1502,  0.3888,  0.2431],
        [ 0.6283, -0.4036,  2.0047, -0.3204, -0.6244, -0.0814,  0.6591, -0.0324],
        [ 0.4902, -0.4794,  0.9705, -1.2138, -0.4393, -1.3999,  0.1626,  0.1567],
        [ 0.3520, -0.5710,  1.1238, -1.1896, -0.5240, -0.9904,  0.5083,  0.3460],
        [ 0.6551, -0.3947,  1.5409, -1.1691, -0.2441, -1.3841,  0.6094, -0.0491],
        [ 0.4091, -0.5144,  1.8871, -0.2143, -0.0562, -0.0024,  0.4478,  0.2442]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.6058, -0.3892,  1.4208, -1.0927, -0.1843, -1.4237,  0.6154,
          -0.0370],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.66893858788535
step:  47
running loss:  0.014232735912454254
Train Steps: 47/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6346, 0.4165, 0.9138, 0.3983, 0.3875, 0.4317, 0.7469, 0.5471],
        [0.6226, 0.4098, 0.8912, 0.4100, 0.4025, 0.2383, 0.5763, 0.5367],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6188, 0.4099, 0.7400, 0.2433, 0.3962, 0.2750, 0.6162, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4051, -0.5136,  1.8833, -0.4045, -0.3325, -0.2155,  0.8739,  0.2710],
        [ 0.6273, -0.3338,  1.7346, -0.3649, -0.3575, -1.0852,  0.2452,  0.2073],
        [ 0.7074, -0.3350,  1.1613, -1.3132, -0.2587, -1.1944,  0.5886,  0.1082],
        [ 0.5802, -0.3619,  1.6835, -0.1829, -0.4105, -0.0615, -0.0204,  0.1170],
        [ 0.7498, -0.3204,  1.7780,  0.1821, -0.5136, -0.1024,  0.6707,  0.1807],
        [-2.0482, -2.0954,  1.0732, -1.2049, -0.3920, -1.2881,  0.1151,  0.2374],
        [ 0.6764, -0.3235,  1.8600, -0.5183, -0.5283, -0.4335,  0.4900,  0.1452],
        [ 0.7032, -0.3257,  1.0644, -1.2792, -0.4724, -0.9075,  0.4405,  0.1871]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6454, -0.3623,  1.9346, -0.4460, -0.4961, -0.2921,  1.1642,
           0.2409],
         [ 0.5900, -0.3932,  1.8307, -0.3921, -0.4268, -1.1851,  0.3758,
           0.1929],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.6520, -0.4032,  1.8076,  0.1852, -0.5711, -0.1381,  0.7876,
           0.1608],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5725, -0.3926,  1.1321, -1.1620, -0.4557, -1.0157,  0.5605,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0102, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0102, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6791246416978538
step:  48
running loss:  0.014148430035371954
Train Steps: 48/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.4076, 0.8400, 0.5583, 0.3700, 0.4367, 0.6876, 0.5494],
        [0.6200, 0.3978, 0.8900, 0.4550, 0.3775, 0.5200, 0.6150, 0.5367],
        [0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6120, 0.4014, 0.6863, 0.2817, 0.3700, 0.2783, 0.5513, 0.5667],
        [0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6302, 0.4007, 0.8850, 0.5500, 0.3613, 0.4517, 0.6335, 0.5012],
        [0.6124, 0.4069, 0.8314, 0.5001, 0.3738, 0.4650, 0.5167, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6016, -0.4220,  1.7538,  0.1703, -0.5186, -0.2837,  0.8657,  0.1236],
        [ 0.4566, -0.5206,  1.9691, -0.3438, -0.5333,  0.1213,  0.4083,  0.1729],
        [ 0.6168, -0.3684,  1.7965,  0.0535, -0.2900, -0.0179,  0.1753,  0.3332],
        [ 0.4819, -0.4374,  1.2815, -1.2242, -0.1292, -1.3188,  0.3799,  0.3378],
        [ 0.5563, -0.3974,  1.0200, -1.2427, -0.5874, -0.9715,  0.2051,  0.2670],
        [ 0.6416, -0.3941,  1.8055, -0.1221, -0.4340, -0.1021,  0.5248,  0.1909],
        [ 0.6706, -0.4074,  1.8877,  0.1244, -0.5731, -0.2325,  0.6664,  0.0643],
        [ 0.6742, -0.3256,  1.6654, -0.1106, -0.4677, -0.1163,  0.1835,  0.2330]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6224, -0.4032,  1.5940,  0.2930, -0.5769, -0.2690,  0.8900,
           0.2516],
         [ 0.5776, -0.4484,  1.8249, -0.1843, -0.5423,  0.1159,  0.5547,
           0.1929],
         [ 0.5453, -0.4091,  1.7499,  0.1390, -0.2940, -0.0996,  0.1300,
           0.4272],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5410, -0.4321,  0.8838, -0.9849, -0.5769, -1.0003,  0.2603,
           0.3315],
         [ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.6249, -0.4352,  1.8018,  0.2545, -0.6173, -0.1997,  0.6401,
           0.0291],
         [ 0.5425, -0.4067,  1.5543,  0.0241, -0.5596, -0.1381,  0.1005,
           0.2093]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6867347755469382
step:  49
running loss:  0.01401499541932527
Train Steps: 49/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6333, 0.4037, 0.8638, 0.5733, 0.4012, 0.4717, 0.6369, 0.4938],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283],
        [0.6190, 0.4135, 0.8000, 0.4883, 0.3566, 0.3647, 0.5613, 0.5900],
        [   nan,    nan, 0.7512, 0.2117, 0.4288, 0.2000, 0.5600, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5894, -0.3801,  1.6447,  0.1531, -0.4084,  0.0639,  0.3153,  0.1972],
        [ 0.6713, -0.3791,  1.7616,  0.0157, -0.3227,  0.1243,  0.4278,  0.0049],
        [ 0.6451, -0.3785,  1.8642, -0.5306, -0.5431, -0.1355,  0.8136,  0.2384],
        [ 0.7246, -0.3287,  1.7098,  0.2364, -0.4094, -0.0973,  0.7035,  0.0385],
        [ 0.7551, -0.2297,  1.7543, -0.4982, -0.5698, -0.4273,  0.2666,  0.2370],
        [ 0.6142, -0.3619,  1.7747,  0.0742, -0.4392, -0.0329,  0.5170,  0.2477],
        [ 0.6024, -0.3271,  1.5167, -0.2986, -0.5872, -0.5988,  0.2826,  0.4324],
        [-2.1414, -2.1944,  1.1244, -1.3578, -0.3550, -1.3435,  0.2133,  0.2454]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.6395, -0.4213,  1.7037,  0.3623, -0.4326, -0.1073,  0.6560,
          -0.0049],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544],
         [ 0.5732, -0.3761,  1.4092, -0.0303, -0.6388, -0.6012,  0.3065,
           0.4393],
         [-2.2859, -2.2859,  1.1841, -1.3082, -0.3055, -1.3621,  0.3007,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6954759764485061
step:  50
running loss:  0.013909519528970122

Train Steps: 50/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6208, 0.4082, 0.8538, 0.3067, 0.3588, 0.3717, 0.6112, 0.5517],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6259, 0.4133, 0.8200, 0.2317, 0.5025, 0.1533, 0.6250, 0.4947],
        [0.6128, 0.4115, 0.7934, 0.3778, 0.3450, 0.4033, 0.5337, 0.5456]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.0417, -2.1145,  0.9707, -1.2916, -0.5134, -1.1903,  0.1369,  0.1892],
        [ 0.6440, -0.3374,  1.2099, -1.0695, -0.4862, -0.8650,  0.6079,  0.3799],
        [ 0.6411, -0.3589,  1.8196, -0.0150, -0.5245,  0.0290,  0.5910,  0.1434],
        [ 0.5620, -0.3825,  1.6482, -0.7810, -0.0810, -1.1873,  0.6928,  0.2009],
        [ 0.5983, -0.3833,  1.6245, -0.7267, -0.6526, -0.4460,  0.5589,  0.2570],
        [ 0.3943, -0.4981,  1.0297, -1.1695, -0.4064, -1.2838,  0.2265,  0.0506],
        [ 0.5851, -0.3882,  1.4568, -1.1265, -0.0250, -1.3781,  0.6049,  0.1001],
        [ 0.5941, -0.3497,  1.4244, -0.4968, -0.6755, -0.3567,  0.3419,  0.2971]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859e+00, -2.2859e+00,  1.0513e+00, -1.2851e+00, -4.4411e-01,
          -1.2313e+00,  2.2057e-01,  1.0729e-01],
         [ 5.9151e-01, -3.6821e-01,  1.2187e+00, -1.2313e+00, -4.3256e-01,
          -9.5412e-01,  5.7783e-01,  3.7768e-01],
         [ 5.6801e-01, -4.4175e-01,  1.8365e+00, -7.4042e-02, -4.9414e-01,
          -2.2653e-02,  5.0451e-01,  1.5252e-01],
         [ 6.5365e-01, -3.7194e-01,  1.6979e+00, -8.6174e-01, -1.6859e-02,
          -1.3621e+00,  6.9257e-01,  1.5008e-01],
         [ 5.8135e-01, -4.0031e-01,  1.6575e+00, -8.6944e-01, -6.2887e-01,
          -5.6921e-01,  5.3741e-01,  2.6220e-01],
         [ 5.1085e-01, -4.3164e-01,  1.1436e+00, -1.3467e+00, -3.8637e-01,
          -1.4160e+00,  1.2393e-01, -5.8033e-02],
         [ 6.0514e-01, -3.7714e-01,  1.5016e+00, -1.2159e+00,  3.5104e-02,
          -1.5777e+00,  6.0099e-01, -9.2270e-04],
         [ 5.4440e-01, -3.8522e-01,  1.3786e+00, -5.4087e-01, -6.9238e-01,
          -4.2294e-01,  1.7915e-01,  2.3412e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7030893294140697
step:  51
running loss:  0.013786065282628816
Train Steps: 51/90  Loss: 0.0138 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6159, 0.4085, 0.6900, 0.2283, 0.4088, 0.1950, 0.5123, 0.5397],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6364, 0.4144, 0.8625, 0.3083, 0.4913, 0.2000, 0.6448, 0.5274],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6275, 0.4024, 0.7722, 0.2080, 0.4392, 0.2234, 0.6435, 0.5290]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6494, -0.3643,  1.7888, -0.1043, -0.6878, -0.2725,  0.3839,  0.0475],
        [ 0.5098, -0.4389,  1.2404, -1.0108, -0.3349, -1.3609,  0.3059,  0.1627],
        [ 0.3660, -0.5140,  0.8387, -1.1964, -0.4575, -1.3360,  0.0789,  0.2320],
        [ 0.6436, -0.3578,  1.8885, -0.4588, -0.6509, -0.4069,  0.5721,  0.1984],
        [ 0.5306, -0.4581,  1.7036,  0.0555, -0.3979,  0.1843,  0.7566,  0.2434],
        [ 0.4884, -0.4214,  1.6386, -0.8014, -0.1471, -1.2295,  0.6100,  0.2176],
        [ 0.5705, -0.3704,  1.7832, -0.1546, -0.3066,  0.3843,  0.5200,  0.3995],
        [ 0.5586, -0.4240,  1.1823, -1.2662, -0.3523, -1.1681,  0.6554,  0.1749]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.5591, -0.3990,  0.9012, -1.2313, -0.3979, -1.3852,  0.0804,
           0.2071],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.6537, -0.3719,  1.6979, -0.8617, -0.0169, -1.3621,  0.6926,
           0.1501],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.6125, -0.4273,  1.2807, -1.3253, -0.2574, -1.2542,  0.6864,
           0.1575]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7088540904223919
step:  52
running loss:  0.013631809431199845
Train Steps: 52/90  Loss: 0.0136 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6197, 0.4091, 0.8800, 0.4783, 0.3538, 0.4767, 0.5950, 0.5550],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6867, -0.3530,  1.8893, -0.0427, -0.6081, -0.0703,  0.5564,  0.2224],
        [ 0.6031, -0.4232,  1.8380, -0.0181, -0.3122,  0.0297,  0.3452,  0.1512],
        [ 0.5968, -0.4435,  1.6900,  0.2695, -0.5246, -0.3441,  1.0880,  0.1359],
        [ 0.5225, -0.4026,  1.1519, -1.2220, -0.3218, -1.0692,  0.5546,  0.5218],
        [ 0.4358, -0.4869,  1.6258, -1.2949, -0.0756, -1.2650,  0.5801, -0.0843],
        [ 0.5571, -0.4031,  1.5258, -0.5435, -0.6655, -0.8282,  0.1144,  0.2918],
        [ 0.5077, -0.4292,  1.0523, -0.9469, -0.5805, -0.9220,  0.1200,  0.1878],
        [ 0.4917, -0.4569,  1.0927, -1.1920, -0.5139, -0.9124,  0.5999,  0.2974]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5763, -0.3963,  1.7788, -0.0765, -0.6520, -0.0842,  0.4624,
           0.2776],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0067, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0067, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7155375052243471
step:  53
running loss:  0.013500707645742398
Train Steps: 53/90  Loss: 0.0135 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6236, 0.4081, 0.8575, 0.3000, 0.3713, 0.3033, 0.5550, 0.5633],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695],
        [0.6163, 0.4114, 0.7650, 0.2017, 0.3763, 0.2867, 0.5631, 0.5071],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6952, -0.2909,  1.5572, -0.7564, -0.6099, -0.5721,  0.5670,  0.2324],
        [ 1.0167, -0.1225,  1.6744,  0.3887, -0.4468,  0.1252,  0.6714,  0.2086],
        [-1.5770, -1.8032,  1.3967, -0.9103, -0.6525, -0.7907,  0.2326,  0.1734],
        [ 0.7683, -0.2966,  1.9082, -0.1257, -0.2844, -0.8902,  1.1414,  0.2348],
        [ 0.6591, -0.3276,  1.5648, -0.8208, -0.4872, -0.8877,  0.3777,  0.1544],
        [ 0.7440, -0.2497,  0.8397, -1.2438, -0.3175, -1.3303,  0.1661,  0.2908],
        [ 0.8056, -0.2475,  1.1913, -1.2971, -0.4608, -0.9584,  0.5213,  0.0536],
        [-1.8084, -1.9542,  1.1200, -1.2545, -0.4184, -1.0982,  0.2681,  0.2478]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5944, -0.4008,  1.6748, -0.9002, -0.5711, -0.8848,  0.2776,
           0.3161],
         [ 0.5544, -0.4133,  0.8145, -1.2082, -0.4268, -1.3544,  0.1221,
           0.3446],
         [ 0.5606, -0.3856,  1.2476, -1.3544, -0.5480, -0.9618,  0.3152,
           0.0562],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0291, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0291, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7446684222668409
step:  54
running loss:  0.013790155967904462

Train Steps: 54/90  Loss: 0.0138 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6176, 0.4030, 0.8850, 0.4850, 0.3688, 0.4050, 0.5312, 0.5783],
        [0.6192, 0.3980, 0.7078, 0.2750, 0.4250, 0.2100, 0.5450, 0.5783],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6137, 0.4035, 0.8850, 0.4417, 0.3900, 0.4283, 0.5449, 0.5617],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954],
        [0.6162, 0.4014, 0.8800, 0.5333, 0.3750, 0.4817, 0.5988, 0.5283]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 7.3151e-01, -3.2304e-01,  1.8139e+00, -4.3675e-01, -6.3154e-01,
         -1.5793e-01,  7.0981e-01,  2.7233e-01],
        [ 7.2082e-01, -3.2855e-01,  1.7849e+00,  1.5959e-03, -5.5553e-01,
         -3.2249e-01,  3.4367e-01,  2.8201e-01],
        [-1.0985e+00, -1.4875e+00,  1.0323e+00, -1.1355e+00, -2.6686e-01,
         -1.3477e+00,  3.6026e-01,  3.8651e-01],
        [ 7.9492e-01, -3.2222e-01,  1.8341e+00,  2.6112e-01, -5.6936e-01,
         -1.4523e-01,  8.4170e-01,  6.2565e-02],
        [ 7.0293e-01, -3.1763e-01,  1.8348e+00, -1.5597e-01, -4.7494e-01,
         -2.8655e-01,  4.0996e-01,  2.7960e-01],
        [ 5.9462e-01, -3.7201e-01,  8.9894e-01, -1.3596e+00, -4.7997e-01,
         -1.1826e+00,  4.1370e-01,  1.1764e-01],
        [ 5.3425e-01, -4.5420e-01,  1.7221e+00, -1.7401e-01, -5.0341e-01,
         -2.0689e-02,  3.2310e-01,  3.1694e-02],
        [ 5.7662e-01, -4.1861e-01,  1.7637e+00,  2.6550e-01, -4.6343e-01,
         -2.3559e-02,  5.5708e-01,  2.2800e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5667, -0.4246,  1.8018, -0.0457, -0.5827, -0.4152,  0.1679,
           0.3854],
         [ 0.5742, -0.4474,  0.9834, -1.0159, -0.3229, -1.3159,  0.2314,
           0.3854],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5488, -0.4221,  1.8018, -0.2459, -0.4845, -0.3075,  0.2309,
           0.3087],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5227, -0.4615,  1.6575, -0.1304, -0.5076, -0.0149,  0.1815,
           0.0021],
         [ 0.5603, -0.4319,  1.7788,  0.1775, -0.5538, -0.0611,  0.4797,
           0.1544]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0676, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0676, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8122478108853102
step:  55
running loss:  0.01476814201609655
Train Steps: 55/90  Loss: 0.0148 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6197, 0.3986, 0.8800, 0.4617, 0.4188, 0.4783, 0.5687, 0.5550],
        [0.6198, 0.4076, 0.7945, 0.2453, 0.4475, 0.1871, 0.5897, 0.5350],
        [0.6205, 0.4016, 0.8350, 0.2717, 0.3987, 0.2550, 0.5787, 0.5133],
        [0.6227, 0.4193, 0.8838, 0.4933, 0.3663, 0.3733, 0.5637, 0.5633],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6733, -0.3537,  1.3374, -1.3534, -0.3475, -1.1263,  0.9403,  0.1226],
        [ 0.4557, -0.5294,  1.6551, -0.3730, -0.5073,  0.0383,  0.2753,  0.0239],
        [ 0.4782, -0.5015,  1.6879, -0.2401, -0.4075, -0.0528,  0.4632,  0.2047],
        [ 0.5682, -0.3980,  1.3429, -1.2565, -0.1921, -1.4071,  0.6248,  0.1764],
        [ 0.6195, -0.3795,  1.5597, -1.1509, -0.4353, -1.0833,  0.5308,  0.0891],
        [ 0.5529, -0.4028,  1.6849, -0.0855, -0.6844, -0.5984,  0.4197,  0.4058],
        [ 0.5639, -0.4079,  1.6461,  0.3015, -0.4696, -0.1384,  0.3921,  0.3661],
        [ 0.4199, -0.5031,  1.5452,  0.2457, -0.6153, -0.5789,  0.3617,  0.4921]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6141, -0.4153,  1.4208, -1.2697, -0.2940, -1.0234,  0.8644,
           0.1715],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5763, -0.4450,  1.7788, -0.1535, -0.3517, -0.0765,  0.3411,
           0.2776],
         [ 0.5768, -0.4031,  1.3838, -1.1527, -0.2188, -1.4216,  0.4379,
           0.1850],
         [ 0.5800, -0.4312,  1.5709, -1.0311, -0.4441, -1.1081,  0.3873,
           0.0851],
         [ 0.5902, -0.3493,  1.7961, -0.0072, -0.5942, -0.5615,  0.3180,
           0.3161],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0060, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0060, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8182361843064427
step:  56
running loss:  0.01461136043404362
Train Steps: 56/90  Loss: 0.0146 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [0.6246, 0.4126, 0.8850, 0.4833, 0.4200, 0.5350, 0.6112, 0.5250],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5556, -0.4120,  1.6844, -0.5043, -0.7045, -0.3261,  0.6481,  0.2448],
        [ 0.5690, -0.3721,  1.1256, -1.0251, -0.6030, -1.0134,  0.4253,  0.1987],
        [-2.3533, -2.3378,  1.6712, -0.8950,  0.0409, -1.2024,  1.0081,  0.3700],
        [ 0.5131, -0.4205,  1.6990, -0.0872, -0.4344,  0.0332,  0.6334,  0.1912],
        [ 0.4841, -0.4213,  1.5142, -0.6901, -0.7282, -0.4796,  0.3208,  0.1235],
        [ 0.6184, -0.3216,  1.5878, -0.5615, -0.4717, -0.9574,  0.4515,  0.4288],
        [ 0.4499, -0.4935,  1.6163, -0.1788, -0.1629, -0.1551,  0.3060,  0.1087],
        [ 0.5053, -0.4721,  1.4499,  0.3496, -0.3156, -0.0978,  0.2096,  0.0571]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335],
         [-2.2859, -2.2859,  1.8192, -0.8540,  0.1448, -0.9849,  1.0143,
           0.4867],
         [ 0.5991, -0.3803,  1.8018, -0.0534, -0.3460,  0.1852,  0.5374,
           0.1390],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8277576519176364
step:  57
running loss:  0.014522064068730463
Train Steps: 57/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [0.6199, 0.4071, 0.7600, 0.2117, 0.4037, 0.2767, 0.6138, 0.5550],
        [0.6200, 0.3998, 0.8850, 0.3950, 0.3500, 0.4650, 0.6138, 0.5400],
        [0.6307, 0.4029, 0.8650, 0.5200, 0.3763, 0.4017, 0.7311, 0.5366],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6206, 0.4123, 0.7175, 0.2400, 0.3887, 0.2933, 0.6225, 0.5750]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3653, -0.5301,  1.4886, -0.5390, -0.5928,  0.0507,  0.2721,  0.2364],
        [ 0.5125, -0.4335,  1.2703, -1.2746, -0.3055, -1.0842,  0.5741,  0.3149],
        [ 0.4835, -0.5004,  1.7939, -0.4004, -0.6551, -0.2711,  0.3656,  0.2429],
        [ 0.5630, -0.4785,  1.7487,  0.2648, -0.5154, -0.5629,  0.8131,  0.0676],
        [ 0.5086, -0.5020,  1.8854, -0.2616, -0.4566, -0.1313,  0.9231,  0.2956],
        [ 0.6456, -0.3688,  1.2962, -1.1110, -0.1280, -1.6545,  0.3240,  0.0716],
        [ 0.6136, -0.3784,  1.8307,  0.0766, -0.5950, -0.2757,  0.2350,  0.2931],
        [ 0.6073, -0.3740,  1.0229, -1.0454, -0.4761, -1.0501,  0.4470,  0.4177]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [ 0.5775, -0.4054,  1.2245, -1.3082, -0.4210, -1.0080,  0.5490,
           0.2776],
         [ 0.5778, -0.4393,  1.8018, -0.4614, -0.6693, -0.1381,  0.5490,
           0.2083],
         [ 0.6273, -0.4249,  1.7095,  0.1159, -0.5480, -0.4306,  1.0910,
           0.1928],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5805, -0.3818,  1.0282, -1.1774, -0.4903, -0.9310,  0.5894,
           0.3700]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8395349802449346
step:  58
running loss:  0.014474741038705769

Train Steps: 58/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567],
        [0.6133, 0.4066, 0.6787, 0.2617, 0.3800, 0.2433, 0.5147, 0.5358],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6151, 0.4125, 0.8738, 0.4417, 0.3575, 0.3783, 0.5138, 0.5483],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4477, -0.5367,  1.7819,  0.2281, -0.5142,  0.0859,  0.5084,  0.3027],
        [ 0.6758, -0.3454,  0.9215, -1.0019, -0.4842, -1.2423,  0.1739,  0.2234],
        [ 0.5677, -0.3958,  1.6321, -0.6215, -0.5877, -0.8491,  0.4111,  0.2329],
        [ 0.5721, -0.4261,  1.8749, -0.1511, -0.4139,  0.1686,  0.4451,  0.1869],
        [ 0.5606, -0.4834,  1.8408, -0.0444, -0.3999,  0.0658,  0.7831,  0.1033],
        [ 0.5758, -0.4490,  1.2640, -1.3102, -0.1981, -1.5140,  0.5301,  0.1225],
        [ 0.4960, -0.4478,  1.6744, -0.1980, -0.6295, -0.6053,  0.1823,  0.3388],
        [ 0.3174, -0.5879,  1.6093, -0.2038, -0.5482, -0.2282,  0.3039,  0.4434]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5770, -0.3918,  1.7961,  0.1544, -0.5480,  0.1467,  0.4450,
           0.2853],
         [ 0.5470, -0.4081,  0.8492, -1.0773, -0.5307, -1.1620,  0.0912,
           0.1890],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5711, -0.3788,  1.8249, -0.1766, -0.4672,  0.2160,  0.3625,
           0.0742],
         [ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5551, -0.3807,  1.7499, -0.2459, -0.6346, -0.5384,  0.0871,
           0.2468],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8468739879317582
step:  59
running loss:  0.01435379640562302
Train Steps: 59/90  Loss: 0.0144 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6264, 0.4035, 0.8888, 0.4883, 0.4050, 0.5217, 0.6361, 0.4791],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5716, -0.4683,  1.6745,  0.2683, -0.6068, -0.3342,  0.6065,  0.1156],
        [ 0.6136, -0.3583,  1.5699, -0.5214, -0.5876, -0.8559,  0.1447,  0.3616],
        [ 0.3707, -0.5752,  1.5958, -0.3524, -0.5343, -0.1191,  0.1477,  0.1774],
        [ 0.6514, -0.3415,  1.3220, -0.9513, -0.3702, -1.1556,  0.1929,  0.4177],
        [ 0.5917, -0.4493,  1.7983, -0.0735, -0.4208,  0.0744,  0.7328,  0.0889],
        [ 0.4227, -0.5170,  1.7463,  0.0612, -0.0829,  0.3032,  0.4088,  0.2015],
        [ 0.4966, -0.4800,  1.8956, -0.3544, -0.4724, -0.7064,  0.7027,  0.3024],
        [ 0.4521, -0.4958,  1.6725, -0.5166, -0.7062, -0.4615,  0.4067,  0.1989]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.6074, -0.4223,  1.8192, -0.0303, -0.4152,  0.1236,  0.6524,
          -0.0731],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8542463732883334
step:  60
running loss:  0.014237439554805557
Train Steps: 60/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.4108, 0.7438, 0.2700, 0.3650, 0.3683, 0.6238, 0.5717],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6350, 0.4043, 0.8738, 0.5650, 0.3850, 0.4750, 0.6401, 0.4950],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6267, 0.4094, 0.8712, 0.3083, 0.4400, 0.2267, 0.6250, 0.5200]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4369, -0.4964,  1.1146, -1.0326, -0.6546, -0.4766,  0.3411,  0.4066],
        [ 0.6392, -0.3629,  1.1748, -1.1745, -0.2520, -1.3513,  0.2541,  0.2668],
        [ 0.3895, -0.5462,  1.7361, -0.3636, -0.5520,  0.3711,  0.4176,  0.3004],
        [ 0.4097, -0.5550,  1.7841,  0.0594, -0.5848, -0.4577,  0.3989,  0.0598],
        [ 0.4349, -0.5610,  1.6784,  0.2591, -0.5321,  0.0387,  0.3806,  0.0563],
        [ 0.5784, -0.4637,  1.9492, -0.3301, -0.2924, -0.8105,  0.9900,  0.2359],
        [ 0.6130, -0.4002,  1.7304, -0.6834, -0.4741, -1.0336,  0.3487,  0.0620],
        [ 0.6742, -0.3106,  1.7169, -0.9077, -0.2364, -1.1439,  0.4729,  0.2411]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7471e-01, -3.8861e-01,  1.1494e+00, -1.0388e+00, -6.0000e-01,
          -5.8460e-01,  5.9515e-01,  3.5458e-01],
         [ 5.7841e-01, -4.1532e-01,  1.2972e+00, -1.2541e+00, -2.2647e-01,
          -1.4553e+00,  4.7413e-01,  2.2033e-01],
         [ 5.6143e-01, -4.0323e-01,  1.7961e+00, -3.8445e-01, -5.7113e-01,
           2.7760e-01,  5.9515e-01,  1.8522e-01],
         [ 6.2730e-01, -4.1045e-01,  1.8480e+00,  1.0824e-01, -5.5381e-01,
          -5.0762e-01,  6.4140e-01, -4.8817e-03],
         [ 6.4706e-01, -4.1832e-01,  1.7499e+00,  3.2379e-01, -5.0762e-01,
          -9.1917e-02,  6.7064e-01,  4.6189e-04],
         [ 6.2236e-01, -4.3453e-01,  1.9404e+00, -2.9207e-01, -3.1709e-01,
          -8.7714e-01,  1.0655e+00,  2.1421e-01],
         [ 6.1339e-01, -4.2179e-01,  1.7268e+00, -6.1540e-01, -4.7298e-01,
          -1.0850e+00,  5.4635e-01, -9.5723e-02],
         [ 6.0889e-01, -3.9477e-01,  1.7383e+00, -8.6174e-01, -2.5358e-01,
          -1.2390e+00,  6.0092e-01,  1.1594e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0121, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0121, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8663500072434545
step:  61
running loss:  0.014202459135138597
Train Steps: 61/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6275, 0.4024, 0.8600, 0.2283, 0.5350, 0.1800, 0.7074, 0.5413],
        [0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3651, -0.5405,  1.6259, -0.0620, -0.5820,  0.0492,  0.1450,  0.1149],
        [-1.0391, -1.4939,  0.8902, -1.3470, -0.2780, -1.4584,  0.2304,  0.4114],
        [ 0.5111, -0.4410,  1.7324, -0.5073, -0.7363,  0.0249,  0.4958,  0.1436],
        [ 0.6049, -0.4107,  1.9642, -0.5052, -0.2794, -0.8110,  1.0207,  0.2991],
        [ 0.5173, -0.4620,  1.6767,  0.4512, -0.4031,  0.0677,  0.3231,  0.0606],
        [ 0.4464, -0.4915,  1.8005, -0.0707, -0.6219, -0.0269,  0.3503,  0.0424],
        [ 0.9084, -0.1551,  1.7199, -1.1509,  0.0133, -1.4654,  0.9196,  0.0301],
        [ 0.5109, -0.4292,  1.6963,  0.2100, -0.4320, -0.0112, -0.0428,  0.2638]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.6125, -0.4273,  1.6864, -1.2313,  0.1852, -1.4545,  0.9814,
           0.2142],
         [ 0.5453, -0.4091,  1.7499,  0.1390, -0.2940, -0.0996,  0.1300,
           0.4272]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0454, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0454, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9117817068472505
step:  62
running loss:  0.014706156562052427

Train Steps: 62/90  Loss: 0.0147 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6183, 0.4076, 0.8838, 0.4517, 0.3813, 0.4483, 0.5775, 0.5633],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400],
        [   nan,    nan, 0.8463, 0.2550, 0.5850, 0.2133, 0.7129, 0.6072],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3876, -0.5186,  1.7843, -0.1677, -0.5246, -0.2142,  0.2486,  0.2402],
        [ 0.5521, -0.4131,  1.4844, -0.9581, -0.3242, -1.1722,  0.6436,  0.1172],
        [ 0.4796, -0.4917,  1.7374, -0.0860, -0.2325,  0.0316,  0.0268, -0.1138],
        [ 0.5655, -0.4131,  1.6269, -0.6418, -0.6632, -0.6151,  0.5047,  0.1447],
        [-2.0073, -2.1644,  1.5982, -0.9444,  0.2918, -1.1021,  1.0624,  0.3503],
        [ 0.5611, -0.4074,  1.8383, -0.2921, -0.6295, -0.2790,  0.4994, -0.0903],
        [ 0.4352, -0.4581,  1.0209, -0.8541, -0.6522, -0.8294,  0.1052,  0.2289],
        [ 0.6101, -0.3655,  1.4231, -0.7075, -0.6191, -0.5375,  0.3774,  0.4063]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5700, -0.4032,  1.7961, -0.1997, -0.5249, -0.2151,  0.3815,
           0.3161],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083],
         [-2.2859, -2.2859,  1.6229, -1.1081,  0.4162, -1.3005,  1.0070,
           0.5188],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9208882143720984
step:  63
running loss:  0.014617273244001562
Train Steps: 63/90  Loss: 0.0146 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533],
        [0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6271, 0.4005, 0.8450, 0.6067, 0.3850, 0.4983, 0.6069, 0.4649],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817],
        [0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.7482e-01, -4.2917e-01,  1.6042e+00,  2.2142e-01, -3.1746e-01,
          1.4282e-01,  2.6080e-01,  1.7529e-02],
        [ 6.0468e-01, -3.6197e-01,  1.5752e+00, -8.6071e-01, -7.0272e-01,
         -5.9898e-01,  3.5001e-01,  2.9250e-01],
        [-1.7935e+00, -2.0138e+00,  1.3754e+00, -1.0052e+00, -5.5799e-01,
         -9.4388e-01,  3.6216e-01,  2.2459e-01],
        [ 5.5556e-01, -3.8595e-01,  1.7956e+00, -1.1016e-01, -5.4520e-01,
         -1.9756e-01,  1.6915e-01,  1.7724e-01],
        [ 6.3051e-01, -3.9541e-01,  1.8195e+00, -1.0585e+00, -4.3913e-02,
         -1.2640e+00,  9.3094e-01, -8.6043e-04],
        [ 6.1835e-01, -3.9714e-01,  1.6594e+00,  3.2765e-01, -5.4559e-01,
          2.5476e-02,  5.1325e-01, -1.0676e-01],
        [ 5.3566e-01, -3.9626e-01,  1.4632e+00, -9.3724e-01, -2.8451e-01,
         -1.0030e+00,  3.8548e-01,  3.7415e-01],
        [ 6.2579e-01, -3.6221e-01,  1.8387e+00,  1.5004e-01, -4.5995e-01,
          4.2121e-03,  3.9129e-01,  2.0803e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699],
         [ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.6105, -0.4360,  1.6171,  0.5162, -0.5076,  0.0159,  0.5171,
          -0.1385],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008],
         [ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0095, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9303545439615846
step:  64
running loss:  0.014536789749399759
Train Steps: 64/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6250, 0.3993, 0.9138, 0.4333, 0.3763, 0.5217, 0.6995, 0.5320],
        [0.6111, 0.3995, 0.8788, 0.4567, 0.3813, 0.4833, 0.5450, 0.5700],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5780, -0.3837,  1.8008, -0.3853, -0.6711, -0.5892,  0.4198,  0.1675],
        [ 0.3405, -0.5710,  1.7168, -0.1329, -0.2891, -0.0377,  0.1252,  0.1673],
        [ 0.5260, -0.4815,  1.9134, -0.3315, -0.5640,  0.0606,  0.8162,  0.1185],
        [ 0.5334, -0.4503,  1.7712, -0.2396, -0.5370, -0.1090,  0.2359,  0.1811],
        [ 0.4991, -0.4842,  1.6608,  0.3424, -0.2535, -0.0699,  0.4387,  0.1371],
        [ 0.7833, -0.1901,  1.4691, -0.5761, -0.1424, -1.3454,  0.1815,  0.5077],
        [ 0.6020, -0.3899,  1.8731, -0.2790, -0.4664,  0.2550,  0.5829,  0.0653],
        [ 0.7122, -0.3456,  1.8752, -0.1186, -0.4541,  0.2055,  0.8527,  0.0780]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.6010, -0.4417,  1.9346, -0.2844, -0.5480,  0.1236,  0.9448,
           0.1715],
         [ 0.5368, -0.4406,  1.7730, -0.1766, -0.5249, -0.0534,  0.2314,
           0.3469],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0056, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0056, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9359597829170525
step:  65
running loss:  0.014399381275646961
Train Steps: 65/90  Loss: 0.0144 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6199, 0.4093, 0.7913, 0.2533, 0.4288, 0.2467, 0.5975, 0.5700],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6064, 0.3953, 0.8738, 0.4417, 0.3663, 0.4683, 0.5511, 0.5416],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5275, -0.4615,  1.7064, -0.4898, -0.5600, -0.7662,  0.4385,  0.1653],
        [ 0.6013, -0.4050,  1.4063, -1.1010, -0.3349, -0.9689,  0.5350,  0.2417],
        [ 0.7457, -0.3026,  1.4962, -0.7248, -0.5378, -0.3920,  0.5202,  0.4871],
        [ 0.6284, -0.3964,  1.7495, -0.9078, -0.1837, -1.2448,  0.6356,  0.0381],
        [ 0.6329, -0.3909,  1.8370,  0.0075, -0.5290, -0.1658,  0.4625,  0.3722],
        [ 0.4794, -0.4647,  1.0918, -1.3628, -0.4908, -1.0768,  0.3367,  0.2329],
        [ 0.5490, -0.4589,  1.8760, -0.1951, -0.5087, -0.0391,  0.3459,  0.0651],
        [ 0.5781, -0.4790,  1.8421,  0.1577, -0.2619,  0.1640,  0.4385, -0.0967]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5771, -0.3955,  1.3688, -1.1158, -0.3055, -1.1466,  0.4739,
           0.3469],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.6126, -0.4161,  1.6344, -0.9541, -0.2247, -1.3467,  0.6339,
           0.0953],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5149, -0.4603,  1.7499, -0.2459, -0.5942, -0.1227,  0.2596,
           0.2155],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9422118063084781
step:  66
running loss:  0.014275936459219365

Train Steps: 66/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575],
        [0.6371, 0.4092, 0.8337, 0.5850, 0.3950, 0.5117, 0.6559, 0.5262],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5496, -0.4349,  1.7507, -0.4072, -0.6231, -0.4261,  0.2851,  0.0239],
        [-2.2059, -2.2517,  1.9492, -0.6269, -0.1311, -1.0656,  0.8054,  0.3096],
        [ 0.7202, -0.2978,  1.6103,  0.3138, -0.4298,  0.0925,  0.7170,  0.0483],
        [ 0.4686, -0.4632,  1.3834, -0.9696, -0.6548, -0.4049,  0.5023,  0.1962],
        [ 0.5204, -0.4374,  1.2730, -1.2612, -0.2085, -1.4333,  0.2908,  0.1288],
        [ 0.7266, -0.2690,  1.8107, -0.2156, -0.3568,  0.3110,  0.4842,  0.3369],
        [ 0.6644, -0.3100,  1.8463,  0.0909, -0.5299, -0.1275,  0.2842,  0.2648],
        [ 0.6698, -0.3349,  1.6451, -0.0235, -0.1953,  0.1273,  0.3835,  0.2099]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6692e-01, -4.7937e-01,  1.7499e+00, -3.3826e-01, -6.7506e-01,
          -4.2294e-01,  4.9700e-01, -6.1124e-02],
         [-2.2859e+00, -2.2859e+00,  1.9115e+00, -5.3841e-01, -1.7852e-01,
          -1.0773e+00,  8.2783e-01,  2.8902e-01],
         [ 6.5695e-01, -3.9601e-01,  1.5651e+00,  4.1617e-01, -4.6143e-01,
           7.7444e-02,  7.4375e-01,  1.4474e-01],
         [ 5.7633e-01, -4.1470e-01,  1.3226e+00, -1.0619e+00, -6.6351e-01,
          -4.1524e-01,  5.3741e-01,  2.5450e-01],
         [ 5.7956e-01, -4.3510e-01,  1.3342e+00, -1.3159e+00, -2.1894e-01,
          -1.4853e+00,  4.0462e-01,  1.0054e-01],
         [ 5.7719e-01, -3.9130e-01,  1.8480e+00, -2.4588e-01, -4.3256e-01,
           1.9292e-01,  5.3741e-01,  4.7005e-01],
         [ 5.8793e-01, -3.5912e-01,  1.8018e+00,  1.2363e-01, -5.5958e-01,
          -1.6120e-01,  3.4688e-01,  3.1609e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0051, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0051, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9472914161160588
step:  67
running loss:  0.01413867785247849
Train Steps: 67/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6212, 0.4033, 0.8938, 0.4167, 0.3813, 0.4267, 0.5613, 0.5583],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6131, 0.4064, 0.8638, 0.5200, 0.4788, 0.4783, 0.5258, 0.5867],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6238, -0.3564,  1.6074, -1.0028, -0.3612, -1.0364,  0.5066,  0.2033],
        [ 0.4492, -0.5054,  1.8988, -0.3947, -0.5929, -0.2613,  0.4276,  0.2535],
        [ 0.4352, -0.4504,  1.6065, -0.7117, -0.6445, -0.7353,  0.2741,  0.2579],
        [ 0.5791, -0.3839,  1.6990,  0.0284, -0.1213,  0.0138,  0.2417,  0.3851],
        [ 0.6664, -0.3126,  1.7192,  0.2874, -0.3526,  0.0089,  0.3909,  0.3248],
        [ 0.5155, -0.5051,  1.7634,  0.0443, -0.3976,  0.1064,  0.4973, -0.0456],
        [ 0.6025, -0.4032,  1.5351, -1.0168, -0.3299, -0.9217,  0.9194,  0.3174],
        [ 0.5629, -0.4255,  1.3034, -1.1134, -0.3056, -1.3572,  0.3460,  0.2011]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.5832, -0.4231,  1.8423, -0.3614, -0.5249, -0.3152,  0.3065,
           0.2930],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5462, -0.4090,  1.7037,  0.1159, -0.0746, -0.0765,  0.1427,
           0.4239],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0051, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0051, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9523771712556481
step:  68
running loss:  0.014005546636112472
Train Steps: 68/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6250, 0.3961, 0.8672, 0.4929, 0.4199, 0.4972, 0.6312, 0.5301]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5940, -0.3932,  1.7485, -0.6328, -0.6519, -0.2000,  0.3192,  0.1487],
        [ 0.5559, -0.3739,  1.8155, -0.1258, -0.5492, -0.6956,  0.2571,  0.4124],
        [ 0.3322, -0.5662,  1.3762, -1.2519, -0.3556, -1.0895,  0.3842,  0.3540],
        [ 0.5320, -0.3999,  1.7015, -0.6836, -0.5756, -0.6865,  0.1819,  0.2674],
        [ 0.4998, -0.4898,  1.5446,  0.2641, -0.4719, -0.0665,  1.0350,  0.3207],
        [ 0.6239, -0.4223,  1.8720, -1.0206,  0.0367, -1.1793,  0.8825,  0.1049],
        [ 0.5348, -0.4411,  0.8810, -1.2536, -0.4768, -1.1120,  0.1583,  0.3431],
        [ 0.6846, -0.3897,  1.8536,  0.0126, -0.2834,  0.1039,  0.6548,  0.1332]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.6010, -0.4562,  1.7198, -0.0090, -0.3464,  0.0108,  0.6294,
           0.1627]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0058, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9581651668995619
step:  69
running loss:  0.013886451694196549
Train Steps: 69/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6145, 0.4007, 0.8775, 0.4533, 0.4562, 0.5533, 0.6088, 0.5533],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6284, 0.4127, 0.8538, 0.5867, 0.4363, 0.5083, 0.6038, 0.5433],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3494, -0.5370,  1.2136, -1.3041, -0.4782, -0.9355,  0.5158,  0.2729],
        [ 0.8429, -0.2129,  1.8653, -0.2707, -0.1902,  0.2714,  0.5865,  0.2691],
        [ 0.6540, -0.3671,  1.8191,  0.0418, -0.4627, -0.0966,  0.4293,  0.1704],
        [-2.2697, -2.2630,  1.3518, -1.1985, -0.3079, -1.3828,  0.2759,  0.2044],
        [ 0.6816, -0.3238,  1.6917,  0.3073, -0.2383,  0.0343,  0.5112,  0.2740],
        [ 0.5939, -0.3918,  1.9143, -0.0183, -0.5544, -0.5055,  0.6066,  0.0947],
        [ 0.7189, -0.3206,  1.6926,  0.0616, -0.3304, -0.0278,  0.7087,  0.2288],
        [ 0.7295, -0.2626,  1.5060, -0.6643, -0.5875, -0.8475,  0.1134,  0.5077]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5526, -0.4351,  1.7672, -0.1920, -0.1785,  0.2699,  0.5259,
           0.2699],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.6166, -0.3795,  1.6575,  0.4239, -0.2709,  0.0620,  0.5028,
           0.2237],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9678890649229288
step:  70
running loss:  0.013826986641756125

Train Steps: 70/90  Loss: 0.0138 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6361, 0.4076, 0.8862, 0.5350, 0.3713, 0.4650, 0.6654, 0.5297],
        [0.6161, 0.4076, 0.8900, 0.4667, 0.4125, 0.5917, 0.6262, 0.5367],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8417, -0.2317,  1.7029,  0.0056, -0.2438, -0.0576,  0.3418,  0.2024],
        [ 0.8047, -0.2616,  1.6958,  0.0687, -0.2768, -0.1067,  0.3044,  0.2138],
        [ 0.9906, -0.1865,  1.8446,  0.1755, -0.5234, -0.1499,  0.9876,  0.1798],
        [ 0.9552, -0.1518,  1.8578, -0.1127, -0.2964,  0.4549,  0.7682,  0.1948],
        [ 0.7645, -0.2472,  1.7689, -0.1310, -0.5927, -0.5891,  0.2263,  0.2930],
        [-1.9544, -2.0844,  1.3214, -1.0800, -0.4260, -1.0365,  0.2664,  0.2658],
        [-1.9802, -2.0483,  1.3216, -0.8993, -0.3252, -1.1174,  0.3076,  0.4552],
        [ 0.7517, -0.2976,  1.0570, -1.4151, -0.4750, -1.1065,  0.4526,  0.2947]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.4348e-01, -4.5974e-01,  1.6575e+00,  1.5858e-02, -3.2286e-01,
          -1.1501e-01,  1.8767e-01,  1.8544e-01],
         [ 6.5201e-01, -4.0323e-01,  1.8076e+00,  1.8522e-01, -5.7113e-01,
          -1.3811e-01,  7.8762e-01,  1.6077e-01],
         [ 5.5978e-01, -4.0323e-01,  1.8249e+00, -1.3041e-01, -3.8060e-01,
           4.4696e-01,  6.0670e-01,  1.9292e-01],
         [ 5.4434e-01, -3.9938e-01,  1.7499e+00, -1.2271e-01, -6.1732e-01,
          -5.7691e-01,  4.8756e-03,  2.0706e-01],
         [-2.2859e+00, -2.2859e+00,  1.2820e+00, -1.0801e+00, -5.8845e-01,
          -1.0234e+00,  2.1409e-01,  1.0054e-01],
         [-2.2859e+00, -2.2859e+00,  1.2303e+00, -7.8476e-01, -4.2102e-01,
          -1.1158e+00,  2.2564e-01,  3.7768e-01],
         [ 5.3557e-01, -4.2171e-01,  1.0339e+00, -1.4776e+00, -5.0762e-01,
          -1.1081e+00,  4.2194e-01,  2.8530e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0211, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9890259634703398
step:  71
running loss:  0.013929943147469575
Train Steps: 71/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6200, 0.4039, 0.8880, 0.4799, 0.3625, 0.4285, 0.5866, 0.5148],
        [0.6164, 0.4102, 0.8850, 0.4867, 0.4213, 0.5983, 0.5609, 0.5038],
        [0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483],
        [   nan,    nan, 0.9088, 0.3783, 0.4562, 0.2617, 0.6741, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7189, -0.2970,  1.5169, -1.1217, -0.1463, -1.2613,  0.6161,  0.1181],
        [-1.8552, -1.9676,  1.3940, -0.8310, -0.5719, -0.8433,  0.2184,  0.2288],
        [ 0.9510, -0.1599,  1.5640,  0.3152, -0.3457,  0.1025,  0.5300,  0.3758],
        [ 0.7031, -0.3321,  1.7282, -0.0901, -0.5328, -0.3028,  0.4581,  0.1999],
        [ 0.9493, -0.1386,  1.6505, -0.0565, -0.2638,  0.3398,  0.5135,  0.2446],
        [ 0.6160, -0.3527,  1.2463, -0.4025, -0.5617, -0.2948,  0.1490,  0.2339],
        [ 0.8022, -0.2647,  1.6993, -0.3240, -0.4886, -0.0780,  0.6073,  0.2791],
        [-1.9800, -2.0272,  1.8216, -0.6188, -0.1633, -1.1645,  0.7517,  0.3891]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5781, -0.4205,  1.8159, -0.0691, -0.6116, -0.3069,  0.4236,
           0.0919],
         [ 0.5614, -0.3912,  1.8018, -0.0380, -0.3402,  0.4778,  0.3049,
           0.0412],
         [ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468],
         [-2.2859, -2.2859,  1.9115, -0.5384, -0.1785, -1.0773,  0.8278,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.010474806651473
step:  72
running loss:  0.014034372314603792
Train Steps: 72/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6266, 0.4101, 0.8350, 0.2333, 0.3950, 0.2950, 0.6264, 0.4921],
        [0.6147, 0.4026, 0.6600, 0.2467, 0.4088, 0.2150, 0.5489, 0.5773],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6262, 0.4163, 0.8850, 0.5183, 0.3763, 0.4150, 0.6025, 0.5500],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3368, -0.5989,  1.3968, -1.2855, -0.2685, -1.2013,  0.8332,  0.1484],
        [ 0.6560, -0.3918,  1.6908,  0.3211, -0.5529, -0.0343,  0.5810,  0.3675],
        [ 0.6294, -0.4085,  1.5747, -1.2638, -0.4456, -0.9089,  0.5935,  0.0504],
        [ 0.3532, -0.5393,  0.8963, -1.2529, -0.4193, -1.2993,  0.1756,  0.4006],
        [ 0.4367, -0.4870,  1.7705, -0.0473, -0.0324,  0.0032,  0.1528,  0.2683],
        [ 0.6308, -0.4134,  1.8200,  0.1440, -0.5066, -0.0720,  0.4684,  0.0920],
        [ 0.4497, -0.4605,  1.8136,  0.0541, -0.5289, -0.4077,  0.5499,  0.3112],
        [ 0.4315, -0.4607,  1.4753, -0.1712, -0.5194, -0.8658,  0.3211,  0.5433]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.6081, -0.3918,  1.5709, -1.2082, -0.4614, -0.9233,  0.6072,
          -0.0129],
         [ 0.5532, -0.4264,  0.7626, -1.1466, -0.3979, -1.2928,  0.2494,
           0.3808],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.6066, -0.3632,  1.8018,  0.1082, -0.5480, -0.3691,  0.4970,
           0.2545],
         [ 0.6069, -0.3309,  1.3742, -0.1493, -0.5365, -0.9541,  0.2884,
           0.5071]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0177430603653193
step:  73
running loss:  0.01394168575842903
Train Steps: 73/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6748, -0.3631,  1.6707, -0.1981, -0.4835,  0.0423,  0.1712,  0.0683],
        [-2.2875, -2.2457,  1.4929, -0.7364, -0.6461, -0.9071,  0.2137,  0.1640],
        [ 0.6945, -0.3782,  1.8052, -0.0300, -0.4562, -0.6526,  0.8941,  0.2610],
        [ 0.8142, -0.2674,  1.6115,  0.0434, -0.3279,  0.1068,  0.7172,  0.3199],
        [-1.7700, -1.8789,  1.6584, -0.8913,  0.1248, -1.2807,  0.8153,  0.4383],
        [ 0.5807, -0.4324,  0.8782, -1.2439, -0.5315, -1.1515,  0.2223,  0.1654],
        [ 0.8077, -0.2522,  1.6139,  0.1851, -0.2085,  0.1892,  0.3838,  0.1822],
        [ 0.6567, -0.3555,  1.2165, -1.0069, -0.6257, -0.7862,  0.3077,  0.2937]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0173, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0173, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0350117646157742
step:  74
running loss:  0.013986645467780731

Train Steps: 74/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6223, 0.4171, 0.8750, 0.5500, 0.4050, 0.4817, 0.5675, 0.5600],
        [0.6293, 0.3982, 0.8700, 0.5300, 0.3763, 0.4717, 0.7050, 0.5297],
        [0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283],
        [0.6130, 0.4072, 0.8550, 0.4567, 0.3638, 0.3667, 0.5290, 0.5892],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6147, 0.4107, 0.8137, 0.3333, 0.3750, 0.2683, 0.5006, 0.5412],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5489, -0.4094,  1.6848,  0.0984, -0.4474, -0.0212,  0.4780,  0.3581],
        [ 0.3928, -0.5698,  1.6149, -0.0116, -0.5300, -0.1118,  0.9159,  0.1718],
        [ 0.4654, -0.4955,  1.4773,  0.1833, -0.3214,  0.1166,  0.3754,  0.1369],
        [ 0.3872, -0.5270,  1.5909, -0.0495, -0.0616, -0.0460,  0.1934,  0.1892],
        [ 0.4057, -0.4826,  1.6038, -0.3406, -0.6131, -0.5951,  0.2500,  0.4324],
        [ 0.6082, -0.4286,  1.7353, -0.7135, -0.3392, -1.2192,  0.5991,  0.0500],
        [ 0.4191, -0.5111,  1.3351, -0.8959, -0.5430, -0.9761,  0.1950,  0.1611],
        [-2.9487, -2.6707,  1.2990, -0.8877, -0.3762, -1.1304,  0.2738,  0.2526]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5883, -0.3594,  1.7557,  0.2545, -0.4152, -0.0611,  0.3353,
           0.3007],
         [ 0.6207, -0.4466,  1.7326,  0.1621, -0.5480, -0.1073,  0.9704,
           0.1608],
         [ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544],
         [ 0.5454, -0.4053,  1.6633, -0.1766, -0.6058, -0.5923,  0.1577,
           0.4357],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.5532, -0.3888,  1.4727, -0.7463, -0.5538, -1.0465,  0.0265,
           0.2138],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0204, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0204, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.055397231131792
step:  75
running loss:  0.014071963081757228
Train Steps: 75/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600],
        [0.6273, 0.4143, 0.8750, 0.5700, 0.3987, 0.4717, 0.6013, 0.5467],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422],
        [0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5642, -0.4334,  1.1553, -1.3390, -0.5370, -1.0926,  0.5606,  0.3162],
        [ 0.4602, -0.4550,  1.6843,  0.3836, -0.4767, -0.2140,  0.6209,  0.2623],
        [ 0.5543, -0.4040,  1.6614,  0.1765, -0.3040,  0.0755,  0.2942,  0.1887],
        [ 0.5686, -0.4199,  1.7921, -0.1467, -0.1592,  0.0329,  0.5323,  0.2321],
        [-2.2041, -2.1930,  1.2239, -0.9110, -0.5603, -1.3102,  0.1554,  0.1432],
        [ 0.1707, -0.7323,  1.2666, -1.3800, -0.2301, -1.5770,  0.5435,  0.0338],
        [ 0.3557, -0.5347,  1.6182, -0.3355, -0.6558, -0.1010,  0.4520,  0.2669],
        [ 0.2443, -0.6425,  1.5739,  0.4655, -0.2944, -0.0588,  0.2487,  0.0846]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007],
         [ 0.6115, -0.3724,  1.7557,  0.3469, -0.4441, -0.1073,  0.4912,
           0.2391],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183],
         [ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0134, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0134, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.068770982325077
step:  76
running loss:  0.014062776083224699
Train Steps: 76/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583],
        [0.6268, 0.4052, 0.8175, 0.2250, 0.4688, 0.1917, 0.6375, 0.5267],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.2556e-01, -4.7396e-01,  1.8801e+00, -7.8138e-03, -6.2453e-01,
          3.7464e-02,  5.8580e-01, -1.2725e-02],
        [ 4.0192e-01, -5.3662e-01,  1.7949e+00,  9.5810e-02, -6.1910e-01,
         -1.8867e-01,  7.2414e-01,  2.0731e-01],
        [ 3.6289e-01, -5.6181e-01,  1.6216e+00,  1.5098e-01, -3.6548e-01,
         -4.9103e-02,  1.0999e-01,  1.4797e-01],
        [ 3.2511e-01, -5.8615e-01,  1.7849e+00, -4.6862e-02, -6.3078e-01,
         -4.6994e-01,  1.9428e-01,  1.4981e-01],
        [ 5.6330e-01, -4.2058e-01,  1.7289e+00, -4.8876e-04, -2.2566e-01,
          3.5793e-01,  5.1060e-01,  1.5541e-01],
        [-2.2766e+00, -2.2593e+00,  1.0513e+00, -1.0888e+00, -4.0269e-01,
         -1.3363e+00,  1.0775e-01,  1.6716e-01],
        [ 4.5438e-01, -5.3729e-01,  1.4152e+00, -1.1941e+00, -1.9299e-01,
         -1.4076e+00,  7.0603e-01,  1.0110e-01],
        [ 4.3415e-01, -4.6464e-01,  1.0296e+00, -7.9853e-01, -1.5969e-01,
         -1.3360e+00,  3.0307e-01,  4.9511e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [-2.2859, -2.2859,  0.9922, -1.2021, -0.3229, -1.4314,  0.1044,
           0.2930],
         [ 0.6092, -0.4143,  1.4901, -1.2467, -0.1208, -1.4006,  0.6587,
           0.1467],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0775065701454878
step:  77
running loss:  0.01399359182007127
Train Steps: 77/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6336, 0.4154, 0.8900, 0.2767, 0.4988, 0.2867, 0.7422, 0.5540],
        [0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6179, 0.4040, 0.7412, 0.1850, 0.3825, 0.2783, 0.5837, 0.5600]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 1.8696e-01, -6.7659e-01,  1.6200e+00,  5.9537e-01, -5.5009e-01,
         -5.2045e-02,  3.8511e-01,  3.9849e-01],
        [ 5.6669e-01, -4.5132e-01,  1.8657e+00, -7.5506e-01,  5.8507e-02,
         -1.1113e+00,  1.0879e+00,  2.1666e-01],
        [ 2.5891e-01, -6.3093e-01,  8.7453e-01, -1.1247e+00, -5.1247e-01,
         -1.2483e+00,  1.9881e-01,  7.4780e-02],
        [ 3.3157e-01, -6.2260e-01,  1.7811e+00, -3.8282e-01, -5.5791e-01,
          1.4175e-01,  6.5250e-01,  1.2902e-01],
        [ 1.8281e-01, -6.8666e-01,  1.7092e+00,  2.4061e-01, -2.2659e-01,
         -6.1996e-02,  1.3360e-01,  2.7632e-01],
        [ 5.4019e-01, -4.9346e-01,  1.7867e+00, -1.4107e-01, -6.5465e-01,
         -4.7040e-01,  4.3645e-01,  1.0568e-03],
        [ 3.5157e-01, -5.6563e-01,  1.6518e+00, -7.9254e-02, -5.3259e-01,
         -8.8585e-02,  6.9966e-02,  4.8155e-02],
        [ 6.5928e-01, -3.6591e-01,  1.1671e+00, -1.2855e+00, -5.0414e-01,
         -1.1079e+00,  4.3803e-01,  2.8392e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.6405, -0.3671,  1.8249, -1.0080,  0.0178, -0.9618,  1.1422,
           0.2730],
         [ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5680, -0.4201,  1.1379, -1.4314, -0.5192, -1.0003,  0.4104,
           0.3007]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0214, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0989203732460737
step:  78
running loss:  0.014088722733924022

Train Steps: 78/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [0.6272, 0.4071, 0.8738, 0.5600, 0.3675, 0.3783, 0.5926, 0.4742],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6260, 0.4133, 0.8800, 0.5117, 0.3713, 0.3283, 0.6223, 0.4967],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3864, -0.5742,  1.8245,  0.1772, -0.4627,  0.0362,  0.2757,  0.0727],
        [ 0.3755, -0.5567,  1.5371, -1.0199, -0.3176, -1.1191,  0.5130,  0.1074],
        [ 0.5378, -0.4717,  1.8535,  0.2957, -0.5370, -0.3660,  0.3919, -0.0246],
        [ 0.4323, -0.5277,  1.4370, -1.0060, -0.4104, -0.7326,  0.5667,  0.1857],
        [ 0.3792, -0.5396,  0.9493, -1.1634, -0.2327, -1.3323,  0.2315,  0.4083],
        [-2.9494, -2.7514,  1.1699, -1.0930, -0.3473, -1.1785,  0.1991,  0.1744],
        [ 0.4948, -0.4716,  1.8885,  0.0686, -0.4718, -0.5718,  0.5318,  0.0908],
        [ 0.4863, -0.4793,  1.0017, -0.9466, -0.5978, -0.7258,  0.2886,  0.2970]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [ 0.6113, -0.4057,  1.7499,  0.3007, -0.5885, -0.5384,  0.4513,
          -0.0957],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.5663, -0.4396,  0.8261, -1.1312, -0.2940, -1.3929,  0.2603,
           0.3700],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.6054, -0.3767,  1.7788,  0.0774, -0.5711, -0.7694,  0.5887,
           0.0081],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0227, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0227, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.121607020497322
step:  79
running loss:  0.01419755722148509
Train Steps: 79/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6236, 0.3966, 0.8850, 0.4967, 0.3638, 0.4017, 0.5850, 0.5183],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6299, 0.4008, 0.8450, 0.5350, 0.4213, 0.5000, 0.6350, 0.5100],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5590, -0.4708,  1.7701, -0.0477, -0.5697, -0.4099,  0.3951,  0.1113],
        [ 0.2881, -0.6408,  1.7571, -0.1415, -0.1678,  0.0765, -0.0485, -0.0760],
        [ 0.6762, -0.3469,  1.4456, -0.9191, -0.5233, -0.5599,  0.4077,  0.1622],
        [ 0.5194, -0.5119,  1.8524, -0.1059, -0.5642, -0.4052,  0.7536,  0.1808],
        [ 0.5069, -0.4797,  1.2314, -1.3000, -0.4628, -0.9837,  0.5290,  0.1718],
        [ 0.5393, -0.4442,  1.7180,  0.1891, -0.5061, -0.5392,  0.3002,  0.1873],
        [ 0.4009, -0.5789,  1.6085,  0.1635, -0.3419,  0.0440,  0.5460,  0.1089],
        [ 0.1756, -0.6277,  1.6535,  0.0782, -0.4525, -0.8386,  0.2303,  0.5210]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5944, -0.4543,  1.8018,  0.0082, -0.6058, -0.4306,  0.4162,
           0.1082],
         [ 0.5417, -0.4417,  1.7499, -0.1304, -0.1994, -0.0324,  0.0951,
          -0.0099],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.6236, -0.4344,  1.6171,  0.1852, -0.3402,  0.0236,  0.6471,
           0.0697],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0109, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0109, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1325139282271266
step:  80
running loss:  0.014156424102839082
Train Steps: 80/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.8625, 0.2550, 0.5487, 0.2200, 0.7335, 0.5737],
        [0.6182, 0.3982, 0.7541, 0.2379, 0.3959, 0.2792, 0.6079, 0.5389],
        [0.6193, 0.4108, 0.7425, 0.2350, 0.3887, 0.2750, 0.5900, 0.5717],
        [0.6184, 0.4079, 0.8350, 0.3700, 0.3675, 0.2883, 0.5312, 0.5783],
        [0.6254, 0.3993, 0.8988, 0.4767, 0.3987, 0.5517, 0.6955, 0.5285],
        [0.6317, 0.4038, 0.8287, 0.5900, 0.3800, 0.4717, 0.6295, 0.4986],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.6894, -2.5739,  1.5702, -1.0534,  0.0456, -1.2679,  0.7645,  0.2454],
        [ 0.4485, -0.5052,  1.2072, -1.1342, -0.5686, -0.9861,  0.4241,  0.1608],
        [ 0.4587, -0.4829,  1.0750, -1.1103, -0.5859, -0.9948,  0.3502,  0.2427],
        [ 0.5041, -0.4563,  1.5614, -0.5170, -0.6090, -0.8942, -0.1033,  0.2127],
        [ 0.5302, -0.4635,  1.8460, -0.0276, -0.5491,  0.2861,  0.7146,  0.0353],
        [ 0.5678, -0.4470,  1.5932,  0.4860, -0.6324, -0.0811,  0.4204, -0.0671],
        [ 0.2759, -0.6126,  1.5074, -1.1428,  0.0767, -1.4070,  0.6163,  0.1728],
        [ 0.5419, -0.3975,  1.6601, -0.1506, -0.1774,  0.0067,  0.1483,  0.1847]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.6979, -1.1081,  0.2487, -1.2697,  1.1020,
           0.3638],
         [ 0.5697, -0.4466,  1.1973, -1.1871, -0.4571, -0.9965,  0.5219,
           0.2032],
         [ 0.5746, -0.3882,  1.1436, -1.2005, -0.4903, -1.0157,  0.4393,
           0.3546],
         [ 0.5704, -0.4019,  1.5709, -0.5769, -0.5885, -0.9541,  0.1679,
           0.3854],
         [ 0.6026, -0.4417,  1.8654, -0.0842, -0.4441,  0.2622,  0.9265,
           0.1554],
         [ 0.6320, -0.4206,  1.5420,  0.4393, -0.5307, -0.1073,  0.6216,
           0.0171],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0195, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1520524276420474
step:  81
running loss:  0.014222869477062314
Train Steps: 81/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6248, 0.4185, 0.8500, 0.5767, 0.4463, 0.4550, 0.5613, 0.5917],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6271, 0.4081, 0.9081, 0.4894, 0.3700, 0.4283, 0.6661, 0.5274],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6164, 0.4066, 0.6625, 0.3033, 0.3775, 0.2967, 0.5725, 0.5833]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6217, -0.3808,  1.7538,  0.3747, -0.1461, -0.2232,  0.3396,  0.3322],
        [ 0.5353, -0.4553,  1.8654, -0.2540, -0.3222,  0.1267,  0.5113,  0.1193],
        [ 0.5424, -0.4752,  0.9778, -1.3349, -0.4621, -1.2054,  0.3810, -0.0704],
        [ 0.5623, -0.4164,  1.7162, -0.0753, -0.5480, -0.1832,  0.1149, -0.0326],
        [-2.3358, -2.3530,  1.2751, -0.9237, -0.3565, -1.1791,  0.2657,  0.3107],
        [ 0.6190, -0.3997,  1.9346, -0.0340, -0.5371, -0.2918,  0.8412,  0.0862],
        [ 0.6145, -0.3911,  1.7789, -0.3152, -0.5916, -0.7133,  0.2112,  0.2105],
        [ 0.3885, -0.5344,  0.9275, -0.9589, -0.5050, -1.0208,  0.3161,  0.3429]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5999, -0.3530,  1.6402,  0.3777, -0.2247, -0.1843,  0.3065,
           0.4470],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.6108, -0.4008,  1.9088, -0.0253, -0.5769, -0.3075,  0.7905,
           0.1499],
         [ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.5614, -0.4080,  0.7741, -0.8848, -0.5423, -0.9156,  0.3584,
           0.4085]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0059, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0059, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.157949673011899
step:  82
running loss:  0.014121337475754865

Train Steps: 82/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413],
        [0.6251, 0.4163, 0.8662, 0.4467, 0.3625, 0.3567, 0.6038, 0.5533],
        [0.6185, 0.4129, 0.8900, 0.4567, 0.3937, 0.5417, 0.5734, 0.5110],
        [0.6200, 0.3999, 0.8653, 0.5207, 0.4100, 0.5125, 0.5975, 0.5103],
        [0.6129, 0.4114, 0.6950, 0.2467, 0.4050, 0.2133, 0.5363, 0.5550],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4949, -0.4959,  1.6806, -1.2023,  0.2291, -1.2822,  1.0642,  0.2773],
        [ 0.5310, -0.4471,  1.7362, -0.1250, -0.6350, -0.7626,  0.4045,  0.2777],
        [ 0.6785, -0.3380,  1.8746, -0.0475, -0.4372,  0.1743,  0.2674,  0.1442],
        [ 0.6515, -0.4176,  1.7337,  0.2529, -0.4218,  0.0880,  0.3510,  0.0264],
        [ 0.6312, -0.3546,  0.8784, -0.9879, -0.4545, -1.2742,  0.0937,  0.2359],
        [ 0.6393, -0.3567,  1.4234, -0.8862, -0.6905, -0.6463,  0.3072,  0.2282],
        [ 0.4639, -0.5364,  1.3209, -1.2894, -0.3382, -1.3093,  0.6672, -0.0192],
        [ 0.6300, -0.3829,  1.5335, -0.3926, -0.6023, -0.6566,  0.4111,  0.4879]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.2401e-01, -3.7675e-01,  1.6575e+00, -1.2851e+00,  2.9492e-01,
          -1.2467e+00,  1.1276e+00,  2.1421e-01],
         [ 6.0162e-01, -3.6328e-01,  1.7152e+00, -2.2279e-01, -6.1155e-01,
          -6.3849e-01,  5.0277e-01,  2.6990e-01],
         [ 5.7113e-01, -3.7875e-01,  1.8249e+00, -1.7660e-01, -4.6721e-01,
           2.1601e-01,  3.6246e-01,  7.4222e-02],
         [ 5.7777e-01, -4.3888e-01,  1.7107e+00,  1.1921e-01, -3.9207e-01,
           8.1507e-02,  4.7413e-01,  7.1077e-02],
         [ 5.4480e-01, -3.8591e-01,  9.2425e-01, -1.1466e+00, -4.1524e-01,
          -1.3005e+00,  1.9099e-01,  2.7760e-01],
         [ 5.6472e-01, -4.1286e-01,  1.4901e+00, -1.0619e+00, -6.4619e-01,
          -5.8460e-01,  3.8730e-01,  2.7760e-01],
         [ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 5.4376e-01, -4.2055e-01,  1.5189e+00, -4.5373e-01, -6.1155e-01,
          -6.2309e-01,  4.3649e-01,  5.4914e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.164504498243332
step:  83
running loss:  0.014030174677630505
Train Steps: 83/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6213, 0.4001, 0.7712, 0.2117, 0.4338, 0.1800, 0.5850, 0.5183],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767],
        [0.6339, 0.4102, 0.9088, 0.4767, 0.3925, 0.5283, 0.7509, 0.5390],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4710, -0.5196,  1.1014, -1.3862, -0.2148, -1.5333,  0.3553,  0.0757],
        [ 0.7050, -0.3146,  1.6446, -0.7035, -0.6196, -0.5095,  0.3162,  0.2193],
        [ 0.7285, -0.2890,  1.6976, -0.3794, -0.5090, -0.0404,  0.3566,  0.4185],
        [ 0.3456, -0.5866,  1.2864, -0.9612, -0.5184, -0.8896,  0.4405,  0.2379],
        [ 0.8533, -0.2240,  1.6473,  0.3931, -0.4096,  0.0653,  0.3822,  0.2566],
        [ 0.5720, -0.3857,  1.6606, -0.0632, -0.5481, -0.8728,  0.1911,  0.3357],
        [ 0.6318, -0.4071,  1.8293, -0.1566, -0.4036,  0.1316,  1.0711,  0.2480],
        [ 0.7790, -0.3147,  1.7108, -0.5726, -0.3795, -1.0664,  0.6091,  0.0483]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5838, -0.4379,  1.2764, -1.3082, -0.2824, -1.4545,  0.4162,
           0.1082],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778],
         [ 0.6421, -0.3912,  1.9115, -0.0842, -0.4730,  0.1544,  1.1824,
           0.2035],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0089, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0089, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.173423076979816
step:  84
running loss:  0.013969322344997809
Train Steps: 84/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6229, 0.4107, 0.8137, 0.2883, 0.4750, 0.1717, 0.5813, 0.5400],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6109, 0.4003, 0.8650, 0.4883, 0.4775, 0.4867, 0.5175, 0.5683],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [   nan,    nan, 0.8213, 0.2700, 0.3775, 0.2817, 0.5425, 0.5533]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7204, -0.3026,  1.6254,  0.1875, -0.4491, -0.1383,  0.5085,  0.3773],
        [ 0.5447, -0.3915,  1.5013, -1.1210, -0.1454, -1.4991,  0.5017,  0.1182],
        [ 0.5424, -0.3848,  1.6505, -0.8521, -0.5953, -0.8380,  0.3130,  0.1086],
        [ 0.5663, -0.3752,  0.8812, -1.0786, -0.5915, -1.0182,  0.2309,  0.2956],
        [ 0.5830, -0.4065,  1.7906, -0.2180, -0.1265, -0.1026,  0.2333,  0.1712],
        [ 0.7589, -0.2776,  1.6148,  0.1922, -0.3882, -0.1449,  0.5068,  0.4028],
        [ 0.5904, -0.4397,  1.7383,  0.0546, -0.4931, -0.0932,  0.7224,  0.0257],
        [-2.2089, -2.2824,  1.3509, -1.0788, -0.5869, -1.0564,  0.3734,  0.2143]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.5911, -0.3888,  1.4727, -0.9541, -0.0919, -1.4930,  0.3988,
           0.2083],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.5359, -0.4370,  1.7095, -0.0303, -0.0804, -0.0380,  0.1044,
           0.3392],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [-2.2859, -2.2859,  1.5074, -1.0388, -0.5423, -0.9849,  0.2199,
           0.2699]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1836915975436568
step:  85
running loss:  0.01392578350051361
Train Steps: 85/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6146, 0.4124, 0.8800, 0.4867, 0.3800, 0.4500, 0.5106, 0.5524],
        [0.6199, 0.4065, 0.7598, 0.2385, 0.4317, 0.1981, 0.5933, 0.5221],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833],
        [0.6233, 0.4091, 0.8100, 0.2950, 0.3563, 0.3883, 0.6013, 0.5200],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6361, 0.4165, 0.9038, 0.5017, 0.3750, 0.3783, 0.6448, 0.5309],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [   nan,    nan, 0.7525, 0.2291, 0.3838, 0.3017, 0.6050, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7068, -0.2859,  1.7985,  0.0704, -0.5089, -0.2907,  0.1986,  0.2836],
        [ 0.8525, -0.2179,  1.2044, -1.2195, -0.2814, -1.3455,  0.5076,  0.1458],
        [ 0.8303, -0.2774,  1.7756, -0.0766, -0.5239, -0.1445,  0.4094,  0.0691],
        [ 0.5732, -0.3968,  1.4232, -0.9013, -0.6039, -0.4955,  0.5431,  0.2011],
        [ 0.6532, -0.3466,  1.7894, -0.0737, -0.2789, -0.0805,  0.4266,  0.3231],
        [ 0.7064, -0.3133,  1.8737,  0.0259, -0.4378, -0.6395,  0.7381,  0.2126],
        [ 0.5834, -0.3917,  1.1698, -1.2030, -0.4331, -1.0781,  0.5621,  0.4097],
        [-1.9059, -2.0811,  1.1619, -1.2046, -0.4429, -1.0495,  0.4665,  0.3691]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5529, -0.3811,  1.7788, -0.0380, -0.5307, -0.2074,  0.0727,
           0.2657],
         [ 0.5774, -0.4082,  1.2235, -1.1844, -0.2919, -1.3709,  0.4544,
           0.1256],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534],
         [ 0.5932, -0.3962,  1.4554, -0.9233, -0.6404, -0.4922,  0.4912,
           0.1159],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.6520, -0.3623,  1.8885,  0.0313, -0.5538, -0.5384,  0.6926,
           0.1661],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [-2.2859, -2.2859,  1.1898, -1.2278, -0.5134, -0.8925,  0.5085,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0100, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1936637787148356
step:  86
running loss:  0.013879811380405066

Train Steps: 86/90  Loss: 0.0139 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6202, 0.4066, 0.8398, 0.2648, 0.3925, 0.2627, 0.5845, 0.5124],
        [0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6199, 0.4015, 0.8716, 0.5228, 0.3833, 0.4772, 0.5883, 0.5148],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6245, 0.4100, 0.7762, 0.2583, 0.4963, 0.1517, 0.5875, 0.5417],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6049, -0.3581,  1.7083, -0.1912, -0.1407, -0.0747,  0.4234,  0.3232],
        [ 0.5529, -0.3694,  1.6717, -0.1886, -0.3450, -0.0744,  0.1994,  0.3777],
        [ 0.5310, -0.4016,  1.4163, -1.1305, -0.4936, -1.0623,  0.4344,  0.1493],
        [ 0.5927, -0.3553,  1.4686, -1.0565, -0.3416, -1.0536,  0.8740,  0.3268],
        [ 0.6938, -0.3412,  1.7493,  0.0628, -0.5975, -0.1540,  0.5167,  0.1286],
        [ 0.7393, -0.3116,  1.5618,  0.2102, -0.4959, -0.1859,  0.4538,  0.2352],
        [ 0.6530, -0.2842,  1.1949, -1.1057, -0.1295, -1.5413,  0.4090,  0.3264],
        [-2.0142, -2.1302,  1.3487, -0.9828, -0.6667, -0.8325,  0.3096,  0.2276]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.5790, -0.4079,  1.5929, -1.0630, -0.4729, -1.0725,  0.4137,
           0.0807],
         [ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.5773, -0.4316,  1.7399,  0.1287, -0.5153, -0.0817,  0.4313,
           0.0919],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5985, -0.3921,  1.2995, -1.0927,  0.0062, -1.5854,  0.4277,
           0.2160],
         [-2.2859, -2.2859,  1.5478, -0.8309, -0.6289, -0.7232,  0.1198,
           0.1133]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0096, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0096, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2032914850860834
step:  87
running loss:  0.013830936610184866
Train Steps: 87/90  Loss: 0.0138 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6068, 0.3963, 0.8650, 0.4317, 0.4037, 0.5083, 0.5253, 0.4999],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6805, -0.3348,  1.9624, -0.4664, -0.5938, -0.4975,  0.7282,  0.2224],
        [ 0.6928, -0.3152,  1.1401, -1.1865, -0.4487, -1.0811,  0.5481,  0.2631],
        [ 0.6312, -0.3960,  1.7950, -0.2478, -0.4948,  0.0599,  0.3920,  0.0744],
        [ 0.6732, -0.2913,  1.1461, -1.0722, -0.3414, -1.0949,  0.5678,  0.6630],
        [ 0.7776, -0.2525,  1.1160, -1.1318, -0.3865, -1.2380,  0.4634,  0.2548],
        [ 0.6188, -0.3683,  1.3264, -1.0727, -0.2328, -1.4757,  0.4626,  0.1861],
        [ 0.6825, -0.3208,  1.7779,  0.1908, -0.3806,  0.0440,  0.3096,  0.2934],
        [-1.7795, -1.9782,  1.0829, -1.3242, -0.4301, -1.2074,  0.2961,  0.3201]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5168, -0.4556,  1.7095, -0.2921, -0.4210,  0.0620,  0.1404,
           0.0231],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5850, -0.3925,  1.0513, -1.3467, -0.3517, -1.2620,  0.4739,
           0.1544],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2185192555189133
step:  88
running loss:  0.013846809721805832
Train Steps: 88/90  Loss: 0.0138 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6305, 0.3983, 0.8950, 0.4833, 0.3688, 0.4683, 0.6375, 0.5117],
        [0.6346, 0.4144, 0.9088, 0.4667, 0.3850, 0.4333, 0.7121, 0.5899],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6175, 0.4093, 0.8800, 0.4433, 0.4075, 0.4367, 0.5128, 0.4901],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6163, -0.3500,  1.1294, -1.2303, -0.3170, -1.3979,  0.2945,  0.2448],
        [ 0.6485, -0.4020,  1.5849,  0.4244, -0.2580,  0.0700,  0.1429,  0.1287],
        [ 0.7184, -0.3741,  1.8447, -0.0733, -0.5955, -0.0847,  0.7442,  0.2117],
        [ 0.6278, -0.3934,  1.9591, -0.1562, -0.4049, -0.2477,  1.0511,  0.4199],
        [ 0.6740, -0.3122,  1.5357, -0.4706, -0.5488, -0.9307,  0.1926,  0.4752],
        [ 0.6191, -0.4002,  1.8453, -0.2578, -0.4682, -0.1923,  0.1952,  0.1291],
        [ 0.6972, -0.3326,  1.3606, -1.3241, -0.5866, -0.8800,  0.4947,  0.1693],
        [ 0.6533, -0.3122,  1.0827, -1.2065, -0.3026, -1.0755,  0.5253,  0.7117]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.6262, -0.4461,  1.8480, -0.0534, -0.5827, -0.1227,  0.6587,
           0.0774],
         [ 0.6454, -0.3719,  1.9115, -0.1304, -0.5076, -0.2844,  1.0033,
           0.4386],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.5663, -0.3955,  1.7788, -0.2382, -0.4037, -0.2690,  0.0828,
          -0.0220],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0050, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0050, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.223516573663801
step:  89
running loss:  0.01374737723217754
Train Steps: 89/90  Loss: 0.0137 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6198, 0.4115, 0.7762, 0.2717, 0.3713, 0.3200, 0.5837, 0.5683],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6415, -0.3877,  1.6808, -0.0775, -0.2826,  0.0688,  0.3160,  0.3622],
        [ 0.6123, -0.4358,  1.6953,  0.1156, -0.4587,  0.1190,  0.5347,  0.1479],
        [ 0.6549, -0.3544,  1.2989, -1.1406, -0.5752, -0.8567,  0.2800,  0.4329],
        [ 0.7401, -0.3168,  1.7433, -0.5885, -0.5935, -0.5729,  0.5201,  0.0110],
        [ 0.6757, -0.2947,  1.5974, -0.2606, -0.4664, -0.2819, -0.0857,  0.5438],
        [ 0.6677, -0.3903,  1.5811,  0.2361, -0.5221, -0.2246,  0.3248,  0.2999],
        [ 0.6235, -0.3914,  1.6939, -0.7000, -0.5345, -0.1516,  0.8339,  0.3037],
        [ 0.6724, -0.3755,  1.9923, -0.5858, -0.0867, -1.1977,  0.9983,  0.3048]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236],
         [ 0.5768, -0.3852,  1.2995, -1.0311, -0.5711, -0.8079,  0.4104,
           0.3392],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0074, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.230874984525144
step:  90
running loss:  0.013676388716946045

Valid Steps: 10/10  Loss: nan 37
--------------------------------------------------
Epoch: 9  Train Loss: 0.0137 Valid Loss: nan
--------------------------------------------------
size of train loader is:  90
torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6321, 0.4048, 0.8738, 0.5617, 0.3875, 0.4417, 0.6361, 0.4927],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6087, 0.3976, 0.8337, 0.3867, 0.3713, 0.3117, 0.5938, 0.5300],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6201, 0.4004, 0.8786, 0.5043, 0.3833, 0.5138, 0.5997, 0.5092],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6679, -0.4081,  1.7148,  0.2545, -0.5189, -0.2133,  0.6253,  0.0836],
        [ 0.6459, -0.3418,  1.8009, -0.9554, -0.0123, -1.4325,  0.6081,  0.2512],
        [ 0.5468, -0.3994,  1.2339, -0.7346, -0.6692, -0.4572,  0.1664,  0.4841],
        [ 0.6728, -0.3519,  1.5303, -0.6012, -0.5453, -0.7852,  0.4589,  0.3779],
        [ 0.6847, -0.3457,  1.3959, -1.0181, -0.4633, -0.9420,  0.4814,  0.2562],
        [ 0.7260, -0.3154,  1.8198, -0.4252, -0.6058, -0.1752,  0.6467,  0.0982],
        [ 0.5705, -0.4656,  1.7108,  0.0119, -0.4905,  0.1314,  0.3809,  0.2373],
        [ 0.5818, -0.3801,  1.7161, -0.0282, -0.1464,  0.2088,  0.2626,  0.3285]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6335, -0.4162,  1.7499,  0.3084, -0.4961, -0.2459,  0.6524,
          -0.0102],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5255, -0.4495,  1.5651, -0.4999, -0.5711, -0.8463,  0.4566,
           0.1621],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [ 0.6072, -0.4075,  1.8942, -0.3537, -0.5423, -0.1612,  0.6277,
          -0.0400],
         [ 0.5783, -0.4363,  1.7724,  0.0432, -0.5153,  0.0871,  0.4840,
           0.0663],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0075, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0075, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.0074615185149014
step:  1
running loss:  0.0074615185149014
Train Steps: 1/90  Loss: 0.0075 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6280, 0.4101, 0.9050, 0.4533, 0.3775, 0.3217, 0.6338, 0.4915],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329],
        [0.6263, 0.4065, 0.9038, 0.4317, 0.3588, 0.4550, 0.6325, 0.5250]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6624, -0.3220,  1.6149, -0.7544, -0.4754, -0.6492,  0.2969,  0.4028],
        [ 0.6560, -0.3936,  1.6232,  0.0781, -0.4228,  0.0890,  0.8605,  0.1984],
        [ 0.6372, -0.3622,  1.6846, -0.1787, -0.1467,  0.0819,  0.0969,  0.0911],
        [ 0.5155, -0.4592,  1.3896,  0.2184, -0.4286, -0.1787,  0.9320,  0.3922],
        [ 0.6200, -0.3272,  1.5840, -0.5143, -0.5560, -0.8308, -0.1218,  0.2780],
        [ 0.5761, -0.4320,  1.9143, -0.2647, -0.5046, -0.7932,  0.4572,  0.0386],
        [ 0.6207, -0.3765,  1.6158, -0.8149, -0.6073, -0.5826,  0.3833,  0.2445],
        [ 0.4286, -0.5189,  1.9060, -0.4003, -0.5482, -0.1925,  0.5965,  0.2424]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.6273, -0.4393,  1.6402,  0.1313, -0.5076,  0.0467,  1.1532,
           0.1715],
         [ 0.5249, -0.4473,  1.7326, -0.0919, -0.2016,  0.1544,  0.1733,
           0.0412],
         [ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.6148, -0.3918,  1.8942, -0.1920, -0.5423, -0.8002,  0.6414,
          -0.0156],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753],
         [ 0.6070, -0.4085,  1.8885, -0.2921, -0.6289, -0.1843,  0.6356,
           0.1390]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.015985853504389524
step:  2
running loss:  0.007992926752194762
Train Steps: 2/90  Loss: 0.0080 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4087, 0.8375, 0.5700, 0.4025, 0.4800, 0.5700, 0.6117],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [0.6166, 0.4008, 0.8563, 0.5667, 0.4388, 0.4933, 0.5575, 0.5567],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6501, -0.3832,  1.6167,  0.3688, -0.4298, -0.0988,  0.5013,  0.4481],
        [ 0.5538, -0.4239,  1.8637, -0.2437, -0.4463, -0.1293,  0.2182,  0.0533],
        [ 0.6812, -0.3732,  1.5055, -1.3821, -0.6032, -0.9587,  0.6223, -0.0342],
        [ 0.5355, -0.4735,  1.7399,  0.3028, -0.2351,  0.0205,  0.4293,  0.2091],
        [ 0.6038, -0.3897,  1.9341, -0.3007, -0.4164,  0.3271,  0.8311,  0.0847],
        [ 0.4763, -0.4982,  1.6687, -0.5504, -0.7019, -0.4592,  0.3585, -0.0793],
        [ 0.5035, -0.3993,  1.2370, -0.6837, -0.6868, -0.5294,  0.2725,  0.3857],
        [ 0.6356, -0.3197,  1.2649, -0.7366, -0.0193, -1.4324,  0.3899,  0.5164]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6118, -0.3983,  1.5824,  0.3469, -0.4268, -0.0688,  0.3469,
           0.5393],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [ 0.5620, -0.4346,  1.6691,  0.3315, -0.2594, -0.0072,  0.2891,
           0.2853],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.5206, -0.4603,  1.4670, -0.4768, -0.6577, -0.3998,  0.1836,
           0.0021],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0084, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0084, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.02438948256894946
step:  3
running loss:  0.008129827522983154
Train Steps: 3/90  Loss: 0.0081 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [0.6221, 0.4107, 0.7788, 0.3033, 0.3950, 0.2817, 0.6075, 0.5517],
        [0.6250, 0.4054, 0.8770, 0.4723, 0.4662, 0.5367, 0.6162, 0.5433],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [   nan,    nan, 0.7335, 0.2569, 0.3788, 0.2667, 0.5066, 0.5578]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.5326e-01, -4.2534e-01,  1.0864e+00, -1.1242e+00, -2.1720e-01,
         -1.4227e+00,  3.4412e-01,  1.9398e-01],
        [ 4.9047e-01, -4.4277e-01,  1.7040e+00, -3.5306e-01, -6.0177e-01,
         -3.8281e-01,  2.0634e-01,  6.6394e-03],
        [ 4.8487e-01, -4.6687e-01,  1.4244e+00, -8.3061e-01, -4.0475e-01,
         -9.4819e-01,  4.2932e-01,  2.4966e-01],
        [ 6.4183e-01, -3.5516e-01,  1.7091e+00, -1.8088e-02, -1.4074e-01,
          2.4657e-01,  5.6285e-01,  1.6769e-01],
        [ 6.6839e-01, -3.6778e-01,  1.8622e+00, -2.1339e-03, -5.3337e-01,
          1.3466e-01,  7.2328e-01,  5.1827e-02],
        [ 5.6919e-01, -3.9543e-01,  1.7194e+00, -7.2178e-01, -3.5065e-01,
         -8.3430e-01,  7.7734e-01,  2.2063e-01],
        [ 6.5032e-01, -3.9691e-01,  1.7636e+00, -2.2513e-01, -6.1440e-01,
         -2.3528e-01,  4.7430e-01,  3.8070e-02],
        [-2.1769e+00, -2.2064e+00,  1.1524e+00, -1.1870e+00, -5.2893e-01,
         -9.4108e-01,  8.8347e-02,  2.0739e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [ 0.5875, -0.3888,  1.3111, -0.8848, -0.4614, -0.9849,  0.5201,
           0.2622],
         [ 0.6009, -0.4135,  1.7651, -0.1043, -0.1323,  0.1929,  0.5605,
           0.2237],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [-2.2859, -2.2859,  1.1020, -1.0994, -0.5365, -1.0542,  0.0542,
           0.2905]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.030109287705272436
step:  4
running loss:  0.007527321926318109

Train Steps: 4/90  Loss: 0.0075 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4116, 0.8700, 0.4850, 0.4650, 0.5567, 0.6088, 0.5183],
        [0.6259, 0.4156, 0.8812, 0.3183, 0.4775, 0.1867, 0.6219, 0.4960],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [0.6175, 0.3957, 0.8700, 0.4817, 0.4662, 0.5133, 0.5800, 0.5517],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6151, 0.4058, 0.7068, 0.2680, 0.3400, 0.4083, 0.5775, 0.5733],
        [0.6097, 0.4000, 0.7325, 0.2667, 0.3450, 0.3517, 0.5284, 0.5045],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5593, -0.4216,  1.8539,  0.0233, -0.2211,  0.3257,  0.6745,  0.1137],
        [ 0.5730, -0.4056,  1.9641, -0.6987, -0.1147, -1.4240,  0.6490, -0.0203],
        [ 0.4865, -0.4275,  1.9484,  0.1791, -0.6681, -0.2434,  0.3987,  0.2926],
        [ 0.6164, -0.4252,  1.7836,  0.0594, -0.1791,  0.0937,  0.4037,  0.1212],
        [ 0.5586, -0.4110,  1.1464, -1.0049, -0.6523, -0.8031,  0.6228,  0.1723],
        [ 0.4328, -0.5101,  1.1184, -0.9284, -0.7571, -0.4165,  0.4390,  0.2188],
        [ 0.4403, -0.5205,  1.1551, -0.9474, -0.7202, -0.6720,  0.2133, -0.0217],
        [ 0.5382, -0.4574,  1.7547,  0.2606, -0.0796,  0.0177,  0.1632,  0.2114]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6012, -0.3846,  1.7326, -0.0457, -0.1381,  0.2853,  0.5259,
           0.1082],
         [ 0.6052, -0.3663,  1.7845, -0.8156, -0.0804, -1.4237,  0.5866,
           0.0051],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [ 0.5662, -0.4581,  1.7326, -0.0611, -0.1323,  0.0851,  0.3931,
           0.2622],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5552, -0.4113,  0.9790, -1.0480, -0.7155, -0.3998,  0.3815,
           0.3623],
         [ 0.5303, -0.4384,  1.0975, -1.0542, -0.6924, -0.6616,  0.1548,
           0.0442],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.037714792881160975
step:  5
running loss:  0.0075429585762321946
Train Steps: 5/90  Loss: 0.0075 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650],
        [0.6197, 0.4050, 0.7527, 0.2000, 0.4042, 0.2249, 0.5895, 0.4995],
        [0.6283, 0.4283, 0.7477, 0.3542, 0.5125, 0.1917, 0.5500, 0.6167],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4132, -0.5643,  1.6594,  0.1873, -0.5100,  0.1605,  0.4882,  0.0102],
        [ 0.3890, -0.5216,  1.6669, -0.0909, -0.3992,  0.1360,  0.0391,  0.1829],
        [ 0.6699, -0.3643,  1.1973, -1.2907, -0.4870, -1.1349,  0.3494, -0.0741],
        [ 0.5747, -0.3525,  1.1663, -0.6527, -0.0847, -1.2640,  0.1935,  0.5250],
        [ 0.5285, -0.4959,  1.8223, -0.5301, -0.4036, -0.7936,  0.8845,  0.0212],
        [ 0.5436, -0.4472,  1.8121, -0.1635, -0.4170,  0.2699,  0.4882,  0.1760],
        [ 0.5868, -0.4045,  1.4909, -1.0393, -0.3746, -1.0620,  0.5821,  0.1467],
        [ 0.5726, -0.4658,  1.8135,  0.1574, -0.6902, -0.0282,  0.5791, -0.0738]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6010, -0.4321,  1.6517,  0.2160, -0.4210,  0.0774,  0.6356,
           0.0313],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238],
         [ 0.5762, -0.4153,  1.1908, -1.3622, -0.4190, -1.2471,  0.4368,
           0.0213],
         [ 0.6161, -0.3075,  1.1678, -0.6500,  0.0813, -1.4006,  0.2545,
           0.5624],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314],
         [ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.04535488644614816
step:  6
running loss:  0.0075591477410246926
Train Steps: 6/90  Loss: 0.0076 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6072, 0.4029, 0.7037, 0.2150, 0.3912, 0.2267, 0.5516, 0.5507],
        [0.6228, 0.4004, 0.8750, 0.5250, 0.3825, 0.5233, 0.6362, 0.5000],
        [0.6164, 0.4076, 0.8838, 0.4117, 0.3713, 0.5550, 0.6238, 0.5350],
        [0.6128, 0.4084, 0.8738, 0.4683, 0.3613, 0.3700, 0.4960, 0.5397],
        [0.6118, 0.4052, 0.8463, 0.3917, 0.3538, 0.3450, 0.5053, 0.5593]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5229, -0.4542,  1.2582, -1.1586, -0.4608, -0.8265,  0.7056,  0.1246],
        [ 0.5421, -0.4597,  1.8666, -0.0591, -0.5739, -0.4832,  0.3031,  0.0289],
        [ 0.4805, -0.4632,  1.7951, -0.0926,  0.0650,  0.0324,  0.5053,  0.2165],
        [ 0.5597, -0.4463,  0.9369, -1.2581, -0.4177, -1.2128,  0.3655,  0.1525],
        [ 0.5571, -0.4922,  1.7682,  0.2352, -0.4721,  0.1582,  0.8246, -0.0903],
        [ 0.5490, -0.4201,  1.7635, -0.2910, -0.4697,  0.3081,  0.7349,  0.2057],
        [ 0.5234, -0.4357,  1.7965, -0.0241, -0.6572, -0.5234,  0.0793,  0.1230],
        [ 0.4955, -0.4340,  1.6476, -0.4130, -0.6548, -0.6279, -0.0118,  0.1236]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5598, -0.4273,  1.7961, -0.1689, -0.5827, -0.5615,  0.1671,
           0.1824],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [ 0.5185, -0.4252,  0.9647, -1.2928, -0.4788, -1.2390,  0.2617,
           0.2576],
         [ 0.5908, -0.4366,  1.7557,  0.1390, -0.5192,  0.1313,  0.6529,
           0.0236],
         [ 0.5614, -0.4032,  1.7961, -0.3844, -0.5711,  0.2776,  0.5952,
           0.1852],
         [ 0.5443, -0.3994,  1.7499, -0.1227, -0.6173, -0.5769,  0.0049,
           0.2071],
         [ 0.5399, -0.4142,  1.6229, -0.4768, -0.6520, -0.6924,  0.0481,
           0.2972]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0054, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0054, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.050726964604109526
step:  7
running loss:  0.007246709229158503
Train Steps: 7/90  Loss: 0.0072 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6248, 0.4032, 0.7738, 0.1900, 0.4813, 0.1400, 0.5941, 0.4904],
        [0.6277, 0.4118, 0.8988, 0.3833, 0.3950, 0.2650, 0.6290, 0.4938],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841],
        [0.6226, 0.4185, 0.8850, 0.5500, 0.3800, 0.4250, 0.5625, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5618, -0.3972,  1.6424, -0.7693, -0.2796, -1.2178,  0.3273, -0.0264],
        [ 0.5328, -0.4261,  1.5671, -0.5516, -0.6503,  0.1277,  0.5681,  0.2026],
        [ 0.5060, -0.4781,  1.2327, -1.2211, -0.0598, -1.4889,  0.3843,  0.0457],
        [ 0.5032, -0.4759,  1.8289, -0.4374, -0.5492, -0.8765,  0.5361, -0.0238],
        [ 0.4846, -0.4673,  1.5984,  0.0356, -0.1474,  0.2934,  0.0812, -0.0116],
        [ 0.4216, -0.5137,  1.0399, -1.3717, -0.4076, -0.9645,  0.4648,  0.2284],
        [ 0.5114, -0.4945,  1.7288, -0.2810, -0.4495, -0.4657,  1.0433,  0.2603],
        [ 0.4677, -0.4175,  1.6918,  0.2672, -0.5914, -0.1755,  0.2433,  0.2968]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.5999, -0.4236,  1.2880, -1.4083, -0.0630, -1.6393,  0.4584,
          -0.0208],
         [ 0.6135, -0.3841,  1.8654, -0.5153, -0.4614, -1.0619,  0.6195,
          -0.0049],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119],
         [ 0.5897, -0.3527,  1.8018,  0.2545, -0.5307, -0.3229,  0.3122,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0097, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.06042189570143819
step:  8
running loss:  0.007552736962679774

Train Steps: 8/90  Loss: 0.0076 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6060, 0.3924, 0.8450, 0.5717, 0.4200, 0.5217, 0.5253, 0.4752],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6198, 0.4105, 0.7950, 0.3267, 0.3675, 0.3767, 0.6038, 0.6167],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6250, 0.4008, 0.8950, 0.4183, 0.3550, 0.4383, 0.6361, 0.4927],
        [0.6307, 0.4029, 0.8988, 0.4817, 0.3937, 0.3500, 0.7311, 0.5378]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5586, -0.4238,  1.5115,  0.3208, -0.2791,  0.0410,  0.1167, -0.0283],
        [ 0.5033, -0.4404,  1.2076, -0.9702, -0.4188, -0.7943,  0.3816,  0.4679],
        [ 0.4406, -0.4708,  1.8064, -0.1864, -0.3350,  0.1449,  0.4002,  0.2132],
        [ 0.3537, -0.5212,  1.3906, -0.8135, -0.5936, -0.4937,  0.3015,  0.4278],
        [ 0.6171, -0.4108,  1.7262, -0.7019, -0.3729, -1.1624,  0.4567, -0.1241],
        [ 0.6642, -0.3580,  1.7266,  0.0246, -0.3493,  0.3263,  0.7752,  0.1696],
        [ 0.5559, -0.4502,  1.7533, -0.3565, -0.6303, -0.3345,  0.4073,  0.0063],
        [ 0.5353, -0.4811,  1.8886, -0.0844, -0.4030, -0.6989,  0.9185,  0.0296]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5132, -0.4736,  1.6171,  0.3546, -0.3460,  0.1236,  0.1404,
          -0.0911],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.5768, -0.3899,  1.3861, -0.7771, -0.5885, -0.5461,  0.5028,
           0.5624],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6010, -0.4345,  1.8480, -0.3537, -0.6462, -0.2613,  0.6524,
          -0.0099],
         [ 0.6273, -0.4249,  1.8654, -0.0611, -0.4672, -0.6693,  1.0910,
           0.1982]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.06914769345894456
step:  9
running loss:  0.00768307705099384
Train Steps: 9/90  Loss: 0.0077 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6179, 0.4082, 0.6688, 0.2667, 0.3588, 0.3317, 0.5750, 0.5783],
        [0.6277, 0.4057, 0.8300, 0.2650, 0.4363, 0.1850, 0.6140, 0.4823],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6080, 0.4010, 0.8750, 0.4500, 0.4825, 0.5617, 0.5837, 0.5583],
        [0.6201, 0.4116, 0.8725, 0.4733, 0.3700, 0.3217, 0.5386, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6758, -0.3886,  2.0155, -0.1198, -0.3333, -0.9112,  1.0076,  0.2153],
        [ 0.4710, -0.4752,  0.8565, -1.0481, -0.6728, -0.7240,  0.1994,  0.2647],
        [ 0.6471, -0.4175,  1.6222, -1.1371, -0.1707, -1.3694,  0.5561, -0.1339],
        [ 0.5243, -0.4422,  1.0698, -1.1698, -0.5872, -0.7628,  0.4584,  0.1919],
        [ 0.2242, -0.6373,  1.0507, -1.1499, -0.3268, -1.2658,  0.1022,  0.2798],
        [ 0.6209, -0.4149,  1.9634, -0.0922, -0.5583,  0.1483,  1.0144,  0.0745],
        [ 0.4827, -0.4694,  1.8218, -0.1977, -0.0812,  0.2834,  0.3023,  0.1277],
        [ 0.4675, -0.4487,  1.7748, -0.0849, -0.5758, -0.7073,  0.1284,  0.2613]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5680, -0.4005,  0.8030, -1.0542, -0.6289, -0.7540,  0.3700,
           0.3854],
         [ 0.6132, -0.4122,  1.5478, -1.0619, -0.2709, -1.4314,  0.5500,
          -0.0583],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5652, -0.3858,  1.0975, -1.1312, -0.3402, -1.4006,  0.1794,
           0.3469],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.5223, -0.4336,  1.7557, -0.2074, -0.0573,  0.3084,  0.4104,
           0.2930],
         [ 0.5781, -0.3848,  1.7441, -0.0996, -0.5769, -0.8002,  0.2021,
           0.3778]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0086, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.07775980466976762
step:  10
running loss:  0.007775980466976762
Train Steps: 10/90  Loss: 0.0078 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6263, 0.4029, 0.8900, 0.4933, 0.4075, 0.5183, 0.6406, 0.4758],
        [0.6205, 0.4081, 0.8950, 0.4017, 0.3788, 0.4700, 0.5963, 0.5667],
        [   nan,    nan, 0.6900, 0.1917, 0.3937, 0.2367, 0.5240, 0.5246],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6201, 0.4027, 0.8029, 0.2728, 0.4042, 0.2310, 0.5980, 0.5391],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6311, 0.4008, 0.7935, 0.5746, 0.3900, 0.5033, 0.6955, 0.5366],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7300, -0.3389,  1.8162, -0.1014, -0.4492,  0.1221,  0.6110, -0.0020],
        [ 0.7533, -0.2762,  1.7339, -0.4205, -0.6105, -0.0945,  0.4151,  0.1860],
        [-1.9275, -2.0202,  1.1070, -1.3464, -0.4541, -1.1237,  0.0258,  0.1614],
        [ 0.7344, -0.2898,  1.6910,  0.2567, -0.4216,  0.0965,  0.2483,  0.2432],
        [ 0.7589, -0.2931,  1.4342, -1.0748, -0.3835, -1.2520,  0.3794,  0.0544],
        [-1.2442, -1.5647,  1.6967, -1.2537,  0.2367, -1.2305,  0.9762,  0.3556],
        [ 0.7263, -0.3257,  1.4122,  0.2276, -0.4983, -0.0615,  0.8091,  0.2047],
        [ 0.6517, -0.3751,  1.6237,  0.1518, -0.4258, -0.1553,  0.3233,  0.1533]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6072, -0.4250,  1.8249, -0.0072, -0.4037,  0.1082,  0.6730,
          -0.0881],
         [ 0.5799, -0.4012,  1.8480, -0.4306, -0.5365, -0.1150,  0.4681,
           0.3315],
         [-2.2859, -2.2859,  0.9012, -1.4006, -0.4672, -1.1928,  0.1342,
           0.1373],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5785, -0.4259,  1.4228, -1.0261, -0.4190, -1.2189,  0.4763,
           0.2043],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.6289, -0.4345,  1.3794,  0.3679, -0.4845,  0.0390,  0.9265,
           0.1928],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0361, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.11386870825663209
step:  11
running loss:  0.010351700750602917
Train Steps: 11/90  Loss: 0.0104 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6216, 0.4167, 0.8588, 0.5583, 0.3975, 0.5167, 0.5775, 0.5667],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500],
        [0.6143, 0.4040, 0.8237, 0.3333, 0.4075, 0.2117, 0.5137, 0.4973],
        [0.6307, 0.4045, 0.8025, 0.5833, 0.3775, 0.4867, 0.6892, 0.5459],
        [0.6200, 0.3993, 0.8639, 0.3687, 0.3658, 0.3139, 0.6002, 0.5374],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6214, -0.3683,  1.7116,  0.2403, -0.3745,  0.1278,  0.5127,  0.3513],
        [ 0.5240, -0.4460,  1.2222, -1.2010, -0.5856, -0.7551,  0.4109,  0.2644],
        [ 0.3942, -0.5166,  1.4681, -0.8702, -0.3608, -1.2539,  0.1577,  0.0390],
        [ 0.6655, -0.3826,  1.4986,  0.1916, -0.4446, -0.0653,  1.0156,  0.2396],
        [ 0.5855, -0.4402,  1.7162, -0.6379, -0.5470, -0.8691,  0.5754,  0.1821],
        [ 0.3844, -0.5187,  1.5678, -0.6282, -0.6653, -0.4034,  0.3104,  0.2106],
        [ 0.7308, -0.3358,  1.6167, -1.1079,  0.0411, -1.5191,  0.8376,  0.1383],
        [ 0.5378, -0.4333,  1.7431, -0.5032, -0.4683,  0.0062,  0.4150,  0.2511]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5853, -0.3614,  1.6806,  0.2930, -0.4499,  0.1005,  0.3815,
           0.3315],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545],
         [ 0.5515, -0.4201,  1.5189, -0.7463, -0.4037, -1.3082,  0.0869,
           0.0111],
         [ 0.6273, -0.4177,  1.4208,  0.4085, -0.5423, -0.0380,  0.8973,
           0.2356],
         [ 0.5777, -0.4416,  1.7044, -0.5827, -0.5962, -0.8361,  0.4862,
           0.1963],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0045, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0045, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.11839128797873855
step:  12
running loss:  0.009865940664894879

Train Steps: 12/90  Loss: 0.0099 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300],
        [0.6122, 0.4048, 0.7506, 0.3014, 0.3475, 0.3333, 0.5487, 0.5749],
        [0.6263, 0.4057, 0.8800, 0.3833, 0.3650, 0.3717, 0.6375, 0.4804],
        [0.6282, 0.4092, 0.8000, 0.2183, 0.4500, 0.2383, 0.6787, 0.5364],
        [0.6124, 0.4075, 0.7696, 0.4153, 0.3475, 0.3767, 0.5157, 0.5427],
        [0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6262, 0.4052, 0.8888, 0.4700, 0.3675, 0.5117, 0.6350, 0.5233],
        [   nan,    nan, 0.8938, 0.2850, 0.4662, 0.3117, 0.7406, 0.5528]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5405, -0.4378,  1.2390, -1.2238, -0.4669, -0.9086,  0.6034,  0.2385],
        [ 0.4922, -0.4575,  1.1102, -0.8623, -0.6171, -0.7878,  0.2250,  0.3683],
        [ 0.6639, -0.4080,  1.8109, -0.4827, -0.5623, -0.6579,  0.6498, -0.0299],
        [ 0.6907, -0.3644,  1.3608, -1.1843, -0.1819, -1.3539,  0.8125,  0.1886],
        [ 0.5084, -0.4234,  1.3220, -0.4061, -0.6198, -0.5928,  0.0843,  0.2962],
        [ 0.6199, -0.3647,  1.6480,  0.1301, -0.1844,  0.1268,  0.2038,  0.2411],
        [ 0.6979, -0.3626,  1.8685, -0.0838, -0.4998,  0.0246,  0.6699,  0.1938],
        [-1.8352, -1.9717,  1.9515, -0.8713, -0.0920, -0.9134,  1.1173,  0.3375]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621],
         [ 0.5419, -0.4160,  1.1810, -0.8939, -0.6808, -0.7463,  0.2485,
           0.3694],
         [ 0.6071, -0.4119,  1.7788, -0.5153, -0.6000, -0.5692,  0.6586,
          -0.0670],
         [ 0.6158, -0.3960,  1.4092, -1.2774, -0.2074, -1.1851,  0.8491,
           0.1917],
         [ 0.5427, -0.4035,  1.2688, -0.3675, -0.6808, -0.5461,  0.0959,
           0.2206],
         [ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.6063, -0.4142,  1.8192, -0.1150, -0.5885,  0.0774,  0.6471,
           0.1313],
         [-2.2859, -2.2859,  1.8423, -0.9695, -0.1323, -0.8463,  1.1349,
           0.2676]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0085, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1268529868684709
step:  13
running loss:  0.009757922066805454
Train Steps: 13/90  Loss: 0.0098 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6265, 0.4251, 0.7113, 0.3550, 0.4375, 0.2117, 0.5587, 0.6118],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6785, -0.3535,  1.6476, -1.0522, -0.1186, -1.3418,  0.6660,  0.0418],
        [ 0.7046, -0.3856,  1.7158,  0.1641, -0.4697,  0.1161,  0.5764,  0.0492],
        [ 0.5759, -0.4075,  1.8268, -0.2217, -0.4446,  0.2211,  0.6357,  0.2442],
        [-1.3988, -1.6600,  0.8677, -1.2617, -0.4867, -1.2016,  0.2127,  0.3967],
        [-2.0198, -2.1018,  0.9475, -1.3378, -0.4070, -1.3136,  0.2460,  0.3122],
        [ 0.7884, -0.2667,  1.1408, -0.7161, -0.3460, -1.2052,  0.4208,  0.4894],
        [ 0.5331, -0.4345,  1.5298, -1.1118, -0.2301, -1.2077,  0.6807,  0.1989],
        [ 0.6563, -0.3672,  1.7630, -0.0805, -0.3497, -0.0191,  0.3838,  0.3103]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 5.7673e-01, -4.3957e-01,  1.6782e+00,  1.9046e-01, -3.8437e-01,
           3.0841e-02,  4.5876e-01,  8.5521e-02],
         [ 5.7258e-01, -4.1594e-01,  1.8192e+00, -2.4588e-01, -3.4018e-01,
           1.1594e-01,  4.7968e-01,  3.1609e-01],
         [-2.2859e+00, -2.2859e+00,  8.0331e-01, -1.1250e+00, -3.8637e-01,
          -1.3082e+00,  1.1262e-01,  4.5430e-01],
         [-2.2859e+00, -2.2859e+00,  6.7598e-01, -1.4083e+00, -3.2864e-01,
          -1.4160e+00,  2.4873e-01,  3.4688e-01],
         [ 6.0774e-01, -3.2256e-01,  9.9931e-01, -6.4619e-01, -2.6513e-01,
          -1.3082e+00,  2.9460e-01,  5.4012e-01],
         [ 5.9579e-01, -3.8176e-01,  1.5536e+00, -1.1081e+00, -2.0739e-01,
          -1.3390e+00,  5.6628e-01,  2.0831e-01],
         [ 5.4908e-01, -4.2902e-01,  1.7788e+00, -1.0731e-01, -2.6513e-01,
          -1.0731e-01,  2.5553e-01,  3.0567e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0278, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0278, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.15469072526320815
step:  14
running loss:  0.011049337518800582
Train Steps: 14/90  Loss: 0.0110 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [   nan,    nan, 0.7225, 0.2167, 0.3987, 0.2283, 0.5427, 0.5181],
        [0.6161, 0.4099, 0.8738, 0.4383, 0.3788, 0.5483, 0.5605, 0.5019],
        [0.6282, 0.4029, 0.8988, 0.3000, 0.4250, 0.4183, 0.7042, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4819, -0.5002,  1.7234, -0.0345, -0.4618, -0.2502,  0.4140,  0.3121],
        [ 0.5653, -0.4157,  1.7060, -0.1241, -0.2971, -0.1908,  0.3426,  0.3553],
        [ 0.4675, -0.4928,  1.6902,  0.0889, -0.2267,  0.0156,  0.6133,  0.1752],
        [ 0.4411, -0.5210,  1.7248, -0.1622, -0.1141, -0.0964,  0.2784,  0.0968],
        [ 0.8619, -0.1851,  1.7110,  0.1010, -0.5076, -0.9692,  0.5351,  0.5752],
        [-2.5459, -2.4300,  0.9579, -1.4209, -0.5373, -1.2719,  0.2063,  0.1480],
        [ 0.5651, -0.4017,  1.7222, -0.3233, -0.5675,  0.1211,  0.5236,  0.2215],
        [ 0.6173, -0.4305,  1.7402, -0.8352, -0.4560, -0.4488,  1.1476,  0.3046]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [-2.2859, -2.2859,  1.0513, -1.2851, -0.4441, -1.2313,  0.2206,
           0.1073],
         [ 0.5597, -0.3928,  1.7499, -0.2613, -0.5365,  0.2468,  0.3028,
           0.0321],
         [ 0.6158, -0.4249,  1.8654, -0.9002, -0.3229, -0.3537,  0.9667,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0121, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0121, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.1667864709161222
step:  15
running loss:  0.011119098061074813
Train Steps: 15/90  Loss: 0.0111 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6275, 0.4024, 0.8500, 0.5383, 0.3912, 0.4883, 0.6288, 0.5100],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6104, 0.4029, 0.8738, 0.4900, 0.4088, 0.4533, 0.5070, 0.5510],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4449, -0.5116,  1.8714, -0.0182, -0.5449,  0.1283,  1.1254,  0.3308],
        [ 0.4398, -0.5067,  1.7343,  0.0700, -0.2354,  0.0319,  0.5108,  0.2732],
        [ 0.5798, -0.4334,  1.6550,  0.1778, -0.5138, -0.1207,  0.6395,  0.2326],
        [ 0.6115, -0.3747,  1.8011, -0.1351, -0.3285, -0.0546,  0.4288,  0.4305],
        [ 0.4821, -0.4128,  1.7874, -0.1781, -0.4174, -0.1471,  0.2563,  0.2960],
        [ 0.7083, -0.3171,  1.1143, -1.4232, -0.4142, -1.5667,  0.2975,  0.2217],
        [ 0.5611, -0.3972,  1.7412, -0.0379, -0.4422, -0.2419,  0.1391,  0.3804],
        [ 0.5256, -0.4907,  1.7250,  0.1376, -0.4755, -0.2529,  0.5504,  0.2964]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.6125, -0.4273,  1.6402,  0.2006, -0.4788, -0.0303,  0.6182,
           0.0697],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5334, -0.4252,  1.7499, -0.0226, -0.3979, -0.1920,  0.0558,
           0.2589],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0075, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0075, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.17424756661057472
step:  16
running loss:  0.01089047291316092

Train Steps: 16/90  Loss: 0.0109 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6350, 0.4118, 0.8363, 0.2717, 0.4850, 0.1700, 0.6441, 0.5170],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6201, 0.4029, 0.8776, 0.4602, 0.3683, 0.4203, 0.5938, 0.5450],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6300, 0.4133, 0.8538, 0.2167, 0.5587, 0.2250, 0.7390, 0.5413]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6731, -0.3697,  1.5592, -1.0559, -0.0977, -1.3919,  0.7334,  0.1976],
        [ 0.6478, -0.3031,  1.7829, -0.3219, -0.6307, -0.3326,  0.2386,  0.3660],
        [ 0.4876, -0.4768,  0.8883, -1.4431, -0.3269, -1.5276,  0.1864,  0.1209],
        [ 0.5578, -0.4057,  1.6874,  0.1956, -0.5940, -0.4984,  0.3570,  0.3694],
        [ 0.5158, -0.4404,  1.7622, -0.1544, -0.6287, -0.2941,  0.4888,  0.3767],
        [ 0.3452, -0.5299,  1.5267, -0.5571, -0.7532, -0.3578,  0.2696,  0.2688],
        [ 0.6597, -0.3832,  1.6093,  0.2269, -0.3988,  0.2980,  0.7815,  0.2671],
        [ 0.0781, -0.7422,  1.6755, -1.3120,  0.2650, -1.0328,  1.1781,  0.4177]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6471, -0.3840,  1.5767, -1.0311, -0.0457, -1.5007,  0.6889,
           0.1020],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5785, -0.4252,  1.7676, -0.1602, -0.5845, -0.3446,  0.4566,
           0.2314],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.6240, -0.3768,  1.6575, -1.2851,  0.2949, -1.2467,  1.1276,
           0.2142]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.18802320212125778
step:  17
running loss:  0.011060188360073987
Train Steps: 17/90  Loss: 0.0111 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6073, 0.3932, 0.8363, 0.5817, 0.4425, 0.5117, 0.5204, 0.4817],
        [0.6168, 0.4111, 0.6517, 0.2875, 0.3688, 0.2817, 0.5228, 0.5837],
        [0.6329, 0.4196, 0.9238, 0.4583, 0.4263, 0.2933, 0.7343, 0.5748],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6115, 0.4005, 0.8838, 0.3867, 0.3763, 0.4700, 0.5800, 0.5550],
        [0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4197, -0.4912,  1.5191, -1.2403, -0.1832, -1.3755,  0.6581,  0.2036],
        [ 0.4366, -0.5245,  1.5805,  0.2763, -0.2760,  0.0055,  0.1530,  0.0448],
        [ 0.6062, -0.3579,  0.8087, -1.0960, -0.6512, -1.0815,  0.1575,  0.4478],
        [ 0.6468, -0.3977,  1.9815, -0.2081, -0.4123, -1.0205,  1.1302,  0.3880],
        [ 0.5060, -0.4523,  1.7256, -0.1588, -0.0872, -0.1265,  0.2759,  0.3836],
        [ 0.4599, -0.4719,  1.7737, -0.5584, -0.6429, -0.1395,  0.4024,  0.2736],
        [ 0.3906, -0.5403,  1.6324,  0.2416, -0.2583, -0.0143,  0.4181,  0.2703],
        [ 0.4343, -0.5111,  1.7783, -0.1365, -0.3835,  0.0125,  0.5447,  0.2704]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5193, -0.4699,  1.5767,  0.4008, -0.2420,  0.0774,  0.1178,
          -0.0610],
         [ 0.5629, -0.3871,  0.7243, -0.9581, -0.5827, -0.9849,  0.1288,
           0.4103],
         [ 0.6372, -0.3479,  1.9808, -0.1689, -0.3171, -0.9310,  1.1057,
           0.3692],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.5384, -0.4361,  1.7961, -0.4999, -0.5480, -0.1150,  0.3931,
           0.2776],
         [ 0.5911, -0.4080,  1.6460,  0.3546, -0.2074,  0.0467,  0.4970,
           0.1852],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.19375777710229158
step:  18
running loss:  0.010764320950127311
Train Steps: 18/90  Loss: 0.0108 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5465, -0.4084,  1.7556, -0.0485, -0.4730, -0.2105,  0.2575,  0.1068],
        [ 0.5799, -0.3872,  1.7264,  0.1061, -0.5587, -0.7446,  0.4119,  0.3354],
        [ 0.6407, -0.3606,  1.6930, -0.0809, -0.2809, -0.1557,  0.2516,  0.2782],
        [ 0.3428, -0.5433,  1.7698, -0.2409,  0.0305, -0.0332,  0.5215,  0.3632],
        [ 0.5239, -0.4432,  1.5371,  0.1497, -0.5197, -0.1187,  0.9927,  0.2922],
        [ 0.6542, -0.3643,  1.7341, -0.0491, -0.3532, -0.0352,  0.5050,  0.3007],
        [ 0.4386, -0.4446,  1.6842, -0.2906, -0.4989, -0.4463,  0.0770,  0.3000],
        [ 0.5291, -0.4532,  1.7692,  0.0302, -0.3224,  0.2420,  0.4699,  0.1400]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.3262e-01, -4.3895e-01,  1.7557e+00,  8.5142e-02, -5.1917e-01,
          -9.1917e-02,  3.1801e-01,  6.2048e-02],
         [ 5.9013e-01, -4.1570e-01,  1.7557e+00,  1.9292e-01, -5.4226e-01,
          -5.9230e-01,  3.5843e-01,  1.6982e-01],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [ 5.3508e-01, -4.3212e-01,  1.7326e+00, -1.3811e-01,  4.6329e-02,
           1.0491e-01,  4.1617e-01,  2.7760e-01],
         [ 6.1907e-01, -4.2971e-01,  1.4612e+00,  2.3911e-01, -4.9607e-01,
           3.1255e-02,  1.1166e+00,  1.7680e-01],
         [ 5.7841e-01, -4.0878e-01,  1.7268e+00,  4.6651e-02, -3.3441e-01,
           6.9746e-02,  5.4896e-01,  2.5450e-01],
         [ 5.4405e-01, -3.9969e-01,  1.7326e+00, -2.2279e-01, -4.4411e-01,
          -2.9207e-01,  2.9551e-02,  2.4088e-01],
         [ 5.4496e-01, -4.7064e-01,  1.7643e+00,  7.2204e-02, -3.7076e-01,
           3.2001e-01,  4.8543e-01,  6.1219e-02]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.20038292463868856
step:  19
running loss:  0.010546469717825713
Train Steps: 19/90  Loss: 0.0105 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [0.6189, 0.4049, 0.8888, 0.4417, 0.4213, 0.5200, 0.5988, 0.5633],
        [0.6125, 0.3999, 0.8750, 0.4883, 0.4750, 0.4700, 0.5533, 0.5617],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6239, 0.4123, 0.8313, 0.2550, 0.4500, 0.2050, 0.6175, 0.5400],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.1788e-01, -3.8531e-01,  1.8123e+00, -8.3692e-03, -5.4274e-01,
         -1.6935e-01,  6.3533e-01,  1.3633e-01],
        [ 6.6055e-01, -3.6350e-01,  1.0613e+00, -1.3483e+00, -4.5378e-01,
         -1.2605e+00,  5.3864e-01,  2.7648e-01],
        [ 5.9610e-01, -3.5126e-01,  1.2928e+00, -6.1835e-01, -7.0665e-01,
         -7.1798e-01,  2.0525e-01,  3.0496e-01],
        [ 4.8049e-01, -4.5639e-01,  1.7886e+00, -1.5145e-01, -3.8253e-01,
          7.3162e-02,  5.6609e-01,  2.5449e-01],
        [ 5.1796e-01, -4.4070e-01,  1.7000e+00,  3.3282e-02, -6.6376e-02,
         -1.6498e-01,  2.8864e-01,  3.2839e-01],
        [ 3.5361e-01, -5.8107e-01,  1.7022e+00, -2.0324e-02, -9.5997e-02,
         -7.1067e-02,  2.6798e-01,  6.7780e-02],
        [ 5.0432e-01, -4.3011e-01,  1.5125e+00, -1.0313e+00, -1.7659e-01,
         -1.4298e+00,  6.5754e-01,  1.9049e-01],
        [ 3.6905e-01, -5.3715e-01,  1.7403e+00, -5.2373e-02, -1.7687e-02,
         -1.7288e-03,  5.1245e-01,  2.9648e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [ 0.5726, -0.4159,  1.8192, -0.2459, -0.3402,  0.1159,  0.4797,
           0.3161],
         [ 0.5432, -0.4388,  1.7557, -0.0303, -0.0919, -0.1150,  0.2699,
           0.3087],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5958, -0.3818,  1.5536, -1.1081, -0.2074, -1.3390,  0.5663,
           0.2083],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0057, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.20609361585229635
step:  20
running loss:  0.010304680792614818

Train Steps: 20/90  Loss: 0.0103 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6131, 0.4037, 0.6907, 0.2819, 0.3688, 0.2700, 0.5217, 0.5680],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817],
        [0.6200, 0.4086, 0.8414, 0.2974, 0.4117, 0.2274, 0.5869, 0.5391],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4543, -0.5039,  1.7159,  0.1398, -0.3645, -0.0678,  0.5161,  0.2738],
        [ 0.4250, -0.5397,  1.8740,  0.0648, -0.3627,  0.3088,  0.6891,  0.1285],
        [ 0.5432, -0.4129,  0.9103, -1.0536, -0.5007, -1.0081,  0.1384,  0.3272],
        [ 0.5651, -0.4690,  1.7934, -0.2742, -0.5696, -0.4388,  0.4848,  0.0175],
        [ 0.6463, -0.3446,  1.6692, -0.8134, -0.2191, -1.0957,  0.4650,  0.1368],
        [ 0.3467, -0.5055,  1.0952, -0.9362, -0.3407, -1.0388,  0.3832,  0.4081],
        [ 0.6227, -0.3434,  1.7308,  0.1826, -0.2582,  0.2336,  0.2736,  0.2280],
        [ 0.6184, -0.4156,  1.5748, -1.0515, -0.0119, -1.4673,  0.5948,  0.1301]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5459, -0.4215,  0.9043, -0.9838, -0.5827, -1.0388,  0.1236,
           0.3378],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611],
         [ 0.5776, -0.3987,  1.6005, -0.9121, -0.3844, -1.2358,  0.4247,
           0.2043],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0070, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0070, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.21307452209293842
step:  21
running loss:  0.010146405813949448
Train Steps: 21/90  Loss: 0.0101 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6196, 0.4090, 0.8450, 0.3900, 0.3575, 0.3933, 0.5975, 0.5583],
        [0.6353, 0.4128, 0.9138, 0.3533, 0.4688, 0.3250, 0.7145, 0.5991],
        [0.6198, 0.4114, 0.8263, 0.3283, 0.3550, 0.3583, 0.5813, 0.5667],
        [0.6339, 0.4149, 0.8800, 0.5000, 0.3900, 0.5283, 0.7541, 0.5424],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6394, -0.3515,  1.6325, -0.3776, -0.5088, -0.5482,  0.3714,  0.3221],
        [-0.5533, -1.1389,  1.7858, -0.4646,  0.0421, -0.8907,  1.0837,  0.3898],
        [ 0.6300, -0.3319,  1.5087, -0.6143, -0.5620, -0.6781,  0.2920,  0.3042],
        [ 0.6850, -0.3482,  1.7831,  0.1664, -0.3374,  0.1902,  1.0232,  0.1071],
        [ 0.5287, -0.4297,  1.2409, -1.1871, -0.4289, -0.8006,  0.4612,  0.2733],
        [ 0.4822, -0.4647,  1.5526,  0.3464, -0.3086,  0.0092,  0.1336, -0.0019],
        [ 0.5267, -0.4623,  1.7165, -0.0318, -0.0668,  0.0993,  0.1245, -0.0606],
        [ 0.4854, -0.4350,  1.5649, -0.3733, -0.5061, -0.6786, -0.0152,  0.1631]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5761, -0.3966,  1.6171, -0.4845, -0.6346, -0.4691,  0.4739,
           0.2930],
         [ 0.6487, -0.3792,  1.9346, -0.6539, -0.1208, -0.7848,  1.0143,
           0.4814],
         [ 0.5768, -0.3857,  1.5305, -0.7694, -0.6462, -0.6308,  0.3988,
           0.3315],
         [ 0.6421, -0.3695,  1.7788,  0.0236, -0.4845,  0.1544,  1.1971,
           0.2196],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0396, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0396, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2526354994624853
step:  22
running loss:  0.011483431793749332
Train Steps: 22/90  Loss: 0.0115 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6090, 0.4010, 0.7838, 0.3483, 0.3538, 0.3783, 0.5462, 0.5077],
        [0.6265, 0.4088, 0.8025, 0.1850, 0.4163, 0.2500, 0.6290, 0.4947],
        [0.6286, 0.4274, 0.8500, 0.4500, 0.4525, 0.2583, 0.5440, 0.6209],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6081, 0.3950, 0.8538, 0.4667, 0.3850, 0.4917, 0.5342, 0.4954],
        [   nan,    nan, 0.7097, 0.2346, 0.4250, 0.1850, 0.5175, 0.5583]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6787, -0.3309,  1.5545, -0.5017, -0.2383, -1.0141,  0.2557,  0.2843],
        [ 0.6255, -0.3809,  1.3916, -0.6963, -0.5258, -0.5401,  0.1449,  0.1210],
        [ 0.5222, -0.4661,  1.4427, -1.3368, -0.2490, -0.9906,  0.6824,  0.1045],
        [ 0.5180, -0.3779,  1.5996, -0.1218, -0.0797, -0.9529,  0.3193,  0.5528],
        [ 0.6336, -0.4351,  1.7194,  0.2918, -0.4420, -0.1731,  0.6663,  0.0219],
        [ 0.5221, -0.4751,  1.8630, -0.2368, -0.4454, -0.0110,  0.6517, -0.0719],
        [ 0.5000, -0.4733,  1.6916, -0.1716, -0.3797,  0.0467,  0.2077, -0.0549],
        [-2.3529, -2.2758,  0.7838, -1.2784, -0.2598, -1.3029,  0.2252,  0.2022]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.6801e-01, -4.3453e-01,  1.6864e+00, -4.3153e-01, -4.6981e-01,
          -1.1241e+00,  3.5183e-01,  2.2607e-01],
         [ 5.2702e-01, -4.3356e-01,  1.3342e+00, -6.7698e-01, -6.5196e-01,
          -5.3841e-01,  2.3702e-01,  5.9193e-02],
         [ 6.0785e-01, -3.9761e-01,  1.4208e+00, -1.4314e+00, -3.6328e-01,
          -1.1312e+00,  6.1950e-01, -9.2270e-04],
         [ 6.1742e-01, -3.1175e-01,  1.6402e+00, -2.0739e-01, -1.9584e-01,
          -1.0927e+00,  2.2674e-01,  5.8220e-01],
         [ 6.1276e-01, -4.3749e-01,  1.7788e+00,  2.6990e-01, -6.3464e-01,
          -2.5358e-01,  5.4635e-01, -1.2778e-01],
         [ 6.0716e-01, -4.2055e-01,  1.8711e+00, -2.5358e-01, -6.1155e-01,
          -1.3041e-01,  6.8119e-01, -6.7050e-02],
         [ 5.2269e-01, -4.6151e-01,  1.6575e+00, -1.3041e-01, -5.0762e-01,
          -1.4935e-02,  1.8150e-01,  2.0831e-03],
         [-2.2859e+00, -2.2859e+00,  9.9216e-01, -1.2021e+00, -3.2286e-01,
          -1.4314e+00,  1.0439e-01,  2.9299e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0088, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.2614791188389063
step:  23
running loss:  0.011368657340822012
Train Steps: 23/90  Loss: 0.0114 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6154, 0.4112, 0.7037, 0.2317, 0.4238, 0.1833, 0.5350, 0.5600],
        [0.6300, 0.4102, 0.9088, 0.4433, 0.4088, 0.3067, 0.6820, 0.5540],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6189, 0.3911, 0.8800, 0.4917, 0.3713, 0.4800, 0.6038, 0.4833]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5986, -0.4155,  1.1743, -0.8504, -0.5632, -0.9299,  0.2082, -0.0190],
        [ 0.5951, -0.3816,  1.5139, -1.1340, -0.0489, -1.3246,  0.5283, -0.0248],
        [ 0.5897, -0.3812,  1.7208,  0.1187, -0.1267,  0.3652,  0.2454,  0.0767],
        [ 0.5437, -0.4196,  0.9207, -1.1098, -0.2944, -1.4431,  0.1695,  0.3735],
        [-0.3162, -1.0101,  1.7977, -0.1153, -0.3829, -0.8892,  0.7867,  0.1933],
        [ 0.5377, -0.4063,  1.7138, -0.2150, -0.2550,  0.3595,  0.3530,  0.1509],
        [ 0.4393, -0.4756,  1.4093, -0.8884, -0.4290, -0.8770,  0.4530,  0.2676],
        [ 0.7966, -0.3260,  1.7673,  0.0466, -0.4888, -0.0788,  0.4975, -0.0127]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5565, -0.3864,  0.9647, -1.2159, -0.3286, -1.4391,  0.1852,
           0.3007],
         [ 0.6240, -0.3912,  1.9115, -0.2382, -0.3979, -0.8694,  0.8644,
           0.2730],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5726, -0.4795,  1.7788, -0.0149, -0.5711, -0.0688,  0.5028,
          -0.0534]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0251, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.28657217137515545
step:  24
running loss:  0.011940507140631476

Train Steps: 24/90  Loss: 0.0119 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4118, 0.7988, 0.5800, 0.3912, 0.4583, 0.7343, 0.5760],
        [   nan,    nan, 0.6469, 0.1943, 0.4025, 0.2000, 0.5125, 0.5533],
        [0.6314, 0.4107, 0.8750, 0.5100, 0.3788, 0.4900, 0.7121, 0.5864],
        [0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5811, -0.4193,  1.4924,  0.1970, -0.4542, -0.1588,  0.7031,  0.1884],
        [-2.8906, -2.6697,  0.7015, -1.2611, -0.3438, -1.3725,  0.1311,  0.1136],
        [ 0.6681, -0.3650,  1.8313,  0.0553, -0.4647,  0.0585,  0.6894,  0.1858],
        [ 0.6057, -0.3989,  1.8592, -0.2476, -0.4531,  0.3330,  0.2408, -0.1263],
        [ 0.4641, -0.5044,  1.3320, -1.1807, -0.1842, -1.3894,  0.2375, -0.0075],
        [ 0.5326, -0.4550,  1.2745, -1.0956, -0.1449, -1.3885,  0.2040,  0.1259],
        [ 0.6367, -0.3457,  1.5546,  0.2843, -0.3334, -0.0293,  0.0620,  0.3324],
        [ 0.6460, -0.3894,  1.9278, -0.4953, -0.4726, -0.5593,  0.6979,  0.1154]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3840,  1.4035,  0.3931, -0.4788, -0.1689,  1.1057,
           0.3745],
         [-2.2859, -2.2859,  0.7023, -1.3883, -0.4268, -1.3621,  0.0813,
           0.2699],
         [ 0.6306, -0.3888,  1.7557,  0.0697, -0.5365, -0.0226,  1.0033,
           0.4226],
         [ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3100247588008642
step:  25
running loss:  0.012400990352034569
Train Steps: 25/90  Loss: 0.0124 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.7412, 0.2200, 0.4450, 0.1517, 0.5312, 0.4983],
        [0.6162, 0.3949, 0.8838, 0.4517, 0.4250, 0.5183, 0.5837, 0.5500],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6254, 0.4076, 0.8700, 0.3267, 0.4150, 0.3083, 0.7050, 0.5609],
        [0.6200, 0.4071, 0.7338, 0.1917, 0.4200, 0.2450, 0.6150, 0.5517],
        [0.6038, 0.3946, 0.8413, 0.4883, 0.3563, 0.4550, 0.5266, 0.4693],
        [   nan,    nan, 0.8037, 0.2483, 0.3975, 0.2517, 0.5575, 0.5600],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-1.1408, -1.5361,  1.0224, -1.2326, -0.2584, -1.5380,  0.1721,  0.0526],
        [ 0.7885, -0.2863,  1.8197, -0.1257, -0.3346,  0.1764,  0.3208,  0.1103],
        [ 0.9252, -0.2396,  1.6979,  0.4724, -0.5313, -0.0838,  0.6209, -0.0663],
        [ 0.8023, -0.2682,  1.7999, -0.7008, -0.3828, -0.8174,  0.7808,  0.2176],
        [ 0.7457, -0.3124,  1.2050, -1.2411, -0.3297, -1.1018,  0.5817,  0.2070],
        [ 0.6664, -0.3476,  1.6641,  0.0448, -0.5411, -0.1716,  0.1976,  0.0074],
        [-1.9553, -2.0598,  1.1571, -0.9643, -0.3716, -1.0576,  0.3377,  0.1847],
        [ 0.8637, -0.2172,  1.7630, -0.1238, -0.3981, -0.1083,  0.0655,  0.0336]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  1.1379, -1.2697, -0.2305, -1.5854,  0.1679,
           0.0159],
         [ 0.5604, -0.4620,  1.7961, -0.1997, -0.3229,  0.1082,  0.4104,
           0.2545],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.6026, -0.4032,  1.7326, -0.7771, -0.3691, -0.8617,  0.9704,
           0.3050],
         [ 0.5779, -0.4054,  1.1032, -1.4006, -0.3460, -1.1543,  0.5547,
           0.2622],
         [ 0.5030, -0.4631,  1.5998, -0.0303, -0.6404, -0.1843,  0.1465,
          -0.1181],
         [-2.2859, -2.2859,  1.4266, -1.1389, -0.4499, -1.1235,  0.2891,
           0.3007],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0447, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0447, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3547267075628042
step:  26
running loss:  0.013643334906261701
Train Steps: 26/90  Loss: 0.0136 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6364, 0.4165, 0.9088, 0.4367, 0.4075, 0.3150, 0.6448, 0.5297],
        [0.6273, 0.4110, 0.8900, 0.3817, 0.4188, 0.2167, 0.5858, 0.4835],
        [0.6300, 0.4013, 0.8938, 0.5350, 0.3675, 0.4600, 0.6456, 0.4973],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6169, 0.4052, 0.8742, 0.4779, 0.4288, 0.4917, 0.5763, 0.5617],
        [0.6137, 0.4084, 0.8076, 0.3889, 0.3650, 0.3150, 0.5356, 0.5896],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6127, 0.4118, 0.8650, 0.5083, 0.4088, 0.5367, 0.5300, 0.5456]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6620, -0.3677,  1.8076, -0.3847, -0.4292, -0.8024,  0.6340,  0.0763],
        [ 0.5911, -0.4249,  1.7981, -0.6270, -0.3402, -1.2767,  0.5001, -0.1651],
        [ 0.5506, -0.5222,  1.7383,  0.0278, -0.5927, -0.0961,  0.7650, -0.1522],
        [ 0.6720, -0.3217,  1.5277,  0.2882, -0.4061, -0.1802,  0.2474,  0.3197],
        [ 0.5696, -0.4438,  1.7033, -0.2212, -0.2888,  0.0774,  0.3652,  0.1547],
        [ 0.5928, -0.4065,  1.4053, -0.6018, -0.6057, -0.8218,  0.1283,  0.2768],
        [ 0.4583, -0.4911,  1.6556, -0.6127, -0.3981, -0.7983,  0.3458,  0.3686],
        [ 0.5000, -0.4589,  1.6152, -0.0718, -0.3428,  0.2066,  0.2578,  0.1003]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6537, -0.3623,  1.9115, -0.2690, -0.4037, -0.8309,  0.6926,
           0.1608],
         [ 0.6117, -0.3877,  1.8249, -0.5230, -0.3517, -1.2851,  0.4200,
          -0.0529],
         [ 0.6240, -0.4321,  1.8423,  0.1852, -0.5885, -0.1612,  0.6962,
           0.0111],
         [ 0.5836, -0.3649,  1.7210,  0.3854, -0.3979, -0.2921,  0.3065,
           0.4470],
         [ 0.5637, -0.4143,  1.7519, -0.0787, -0.3055, -0.0149,  0.3758,
           0.3084],
         [ 0.5485, -0.3997,  1.4445, -0.4895, -0.6000, -0.8309,  0.1878,
           0.4374],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5443, -0.3840,  1.7095,  0.0620, -0.3979,  0.1929,  0.1622,
           0.2341]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3619840261526406
step:  27
running loss:  0.013406815783431133
Train Steps: 27/90  Loss: 0.0134 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6263, 0.4233, 0.7924, 0.4626, 0.3788, 0.2883, 0.5573, 0.6047],
        [0.6153, 0.4117, 0.8688, 0.5167, 0.4895, 0.5647, 0.5524, 0.5136],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917],
        [0.6205, 0.4012, 0.8675, 0.3283, 0.3713, 0.3050, 0.5813, 0.5117],
        [0.6257, 0.4167, 0.8775, 0.3433, 0.3563, 0.4133, 0.6200, 0.5667],
        [0.6258, 0.4143, 0.8525, 0.2617, 0.4950, 0.1667, 0.6219, 0.4967],
        [0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5315, -0.4936,  1.6832, -0.1068, -0.3618, -0.0711,  0.2883,  0.1341],
        [ 0.4543, -0.4824,  1.3927, -0.0890, -0.5153, -0.8565,  0.3237,  0.4404],
        [ 0.5046, -0.4862,  1.6858,  0.0078, -0.1689,  0.1853,  0.3572,  0.0407],
        [ 0.6492, -0.3580,  1.2518, -0.4897, -0.6171, -0.7439,  0.2897,  0.3618],
        [ 0.4292, -0.5649,  1.7148, -0.7917, -0.5799, -0.9039,  0.4304, -0.0680],
        [ 0.7026, -0.3457,  1.7546, -0.6548, -0.7039, -0.3940,  0.5502,  0.2667],
        [ 0.4067, -0.5144,  1.6281, -1.1137, -0.1014, -1.4728,  0.5556, -0.0738],
        [ 0.5445, -0.4663,  1.4199, -1.1006, -0.3598, -1.2067,  0.7418,  0.0817]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.4319e-01, -4.4619e-01,  1.7557e+00, -3.8029e-02, -3.1132e-01,
          -7.6520e-02,  2.1409e-01,  3.5458e-01],
         [ 6.0687e-01, -3.3095e-01,  1.3742e+00, -1.4927e-01, -5.3649e-01,
          -9.5412e-01,  2.8843e-01,  5.0705e-01],
         [ 5.5635e-01, -3.8422e-01,  1.7268e+00,  1.0054e-01, -2.4997e-02,
           3.2255e-01,  2.6581e-01,  8.6245e-02],
         [ 5.6801e-01, -3.8397e-01,  1.0756e+00, -3.2902e-01, -6.2887e-01,
          -7.1547e-01,  3.3533e-01,  4.4696e-01],
         [ 5.7991e-01, -4.3295e-01,  1.7210e+00, -7.6936e-01, -5.7113e-01,
          -8.7714e-01,  3.9885e-01,  7.7444e-02],
         [ 6.0404e-01, -3.6135e-01,  1.7672e+00, -7.0008e-01, -6.4042e-01,
          -3.7675e-01,  5.7783e-01,  3.3149e-01],
         [ 6.0479e-01, -3.7229e-01,  1.6517e+00, -1.0773e+00,  4.6189e-04,
          -1.5161e+00,  5.8660e-01,  8.0947e-03],
         [ 6.1742e-01, -4.2249e-01,  1.4975e+00, -1.1709e+00, -3.1736e-01,
          -1.1806e+00,  6.5391e-01,  1.8793e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.36961828637868166
step:  28
running loss:  0.013200653084952916

Train Steps: 28/90  Loss: 0.0132 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6154, 0.4048, 0.7100, 0.2067, 0.4338, 0.1667, 0.5413, 0.5220],
        [0.6279, 0.4008, 0.8600, 0.4883, 0.4325, 0.5283, 0.7010, 0.5378],
        [0.6211, 0.3993, 0.7650, 0.1933, 0.4575, 0.1550, 0.5965, 0.4895],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [   nan,    nan, 0.6512, 0.1717, 0.4100, 0.1983, 0.5253, 0.5240],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967],
        [0.6267, 0.4065, 0.8313, 0.2467, 0.4788, 0.1733, 0.6312, 0.5133],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4313, -0.5155,  1.1067, -1.0634, -0.3721, -1.3428,  0.2664,  0.1494],
        [ 0.6846, -0.3799,  1.7791,  0.0894, -0.4743,  0.2629,  0.8621,  0.1941],
        [ 0.4842, -0.4876,  1.2978, -1.2284, -0.2565, -1.3639,  0.4528,  0.0666],
        [ 0.3270, -0.5922,  1.1034, -1.0974, -0.3443, -1.4218,  0.2423,  0.0650],
        [-2.2664, -2.2828,  0.8286, -1.3220, -0.4161, -1.3312,  0.1259,  0.1718],
        [ 0.7369, -0.3070,  1.8857, -0.0652, -0.5453,  0.3664,  0.5765,  0.3902],
        [ 0.5477, -0.4333,  1.6124, -0.9366, -0.2165, -1.2759,  0.6049,  0.1203],
        [ 0.4474, -0.5065,  1.5137, -0.7639, -0.6022, -0.9738,  0.1621,  0.0091]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5566, -0.4160,  0.9935, -1.3313, -0.2824, -1.5161,  0.2144,
           0.1253],
         [ 0.6141, -0.4345,  1.6864, -0.0303, -0.2882,  0.1544,  0.9521,
           0.1982],
         [ 0.5828, -0.4417,  1.2476, -1.3929, -0.1727, -1.5700,  0.4694,
          -0.0248],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [-2.2859, -2.2859,  0.7222, -1.4930, -0.3921, -1.3698,  0.1404,
           0.1343],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701],
         [ 0.6085, -0.4084,  1.5536, -1.1466, -0.0746, -1.4853,  0.6298,
           0.0851],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0138, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3834594888612628
step:  29
running loss:  0.013222740995215958
Train Steps: 29/90  Loss: 0.0132 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6198, 0.3997, 0.8582, 0.5361, 0.4117, 0.5016, 0.5942, 0.5134],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175],
        [0.6173, 0.4114, 0.7325, 0.2500, 0.4213, 0.1917, 0.5338, 0.5700],
        [0.6076, 0.3953, 0.8125, 0.3917, 0.3525, 0.4083, 0.5346, 0.4954],
        [0.6163, 0.4006, 0.8788, 0.4683, 0.3663, 0.4883, 0.5887, 0.5017],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6854, -0.4110,  1.7386,  0.2029, -0.4442,  0.0123,  0.5923,  0.0250],
        [ 0.4848, -0.4617,  1.0833, -1.2358, -0.3939, -1.4464,  0.3869,  0.0485],
        [ 0.2746, -0.5979,  1.1664, -1.1019, -0.3426, -1.3615,  0.2957,  0.2825],
        [ 0.5144, -0.4763,  1.6270, -0.4498, -0.6939, -0.4958,  0.4341,  0.0083],
        [ 0.6393, -0.4014,  1.8480, -0.1163, -0.6229, -0.0050,  0.5811,  0.1108],
        [ 0.6124, -0.3778,  1.7751, -0.0631, -0.2991, -0.0231,  0.2343,  0.2695],
        [-2.0529, -2.1630,  0.8682, -1.3244, -0.3408, -1.5010,  0.1745,  0.3081],
        [ 0.6295, -0.3719,  1.8619, -0.2724, -0.5806, -0.4473,  0.4335,  0.2207]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7673e-01, -4.3957e-01,  1.6782e+00,  1.9046e-01, -3.8437e-01,
           3.0841e-02,  4.5876e-01,  8.5521e-02],
         [ 5.4648e-01, -4.2140e-01,  9.3002e-01, -1.2620e+00, -3.9215e-01,
          -1.3852e+00,  2.0618e-01,  1.0428e-01],
         [ 5.6518e-01, -3.8584e-01,  1.0975e+00, -1.1312e+00, -3.4018e-01,
          -1.4006e+00,  1.7945e-01,  3.4688e-01],
         [ 5.2061e-01, -4.6028e-01,  1.4670e+00, -4.7683e-01, -6.5774e-01,
          -3.9985e-01,  1.8356e-01,  2.0831e-03],
         [ 5.6091e-01, -4.3541e-01,  1.7730e+00, -1.2271e-01, -5.9423e-01,
          -3.0331e-02,  4.3349e-01,  3.1255e-02],
         [ 5.4908e-01, -4.1324e-01,  1.7557e+00, -9.1917e-02, -2.7090e-01,
           3.1255e-02,  6.3480e-02,  4.0319e-01],
         [-2.2859e+00, -2.2859e+00,  6.7598e-01, -1.4083e+00, -3.2864e-01,
          -1.4160e+00,  2.4873e-01,  3.4688e-01],
         [ 6.0722e-01, -3.2394e-01,  1.8423e+00, -3.5366e-01, -4.9607e-01,
          -3.9215e-01,  2.0831e-01,  1.8522e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0104, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.3938441062346101
step:  30
running loss:  0.013128136874487002
Train Steps: 30/90  Loss: 0.0131 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4034, 0.8191, 0.2414, 0.4262, 0.2393, 0.6365, 0.5356],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6087, 0.3951, 0.8387, 0.5833, 0.4188, 0.4933, 0.5146, 0.4830],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6339, 0.4159, 0.8400, 0.5617, 0.3825, 0.4150, 0.7343, 0.5748],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883],
        [0.6176, 0.3911, 0.8738, 0.4217, 0.3488, 0.4033, 0.6025, 0.4817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7876, -0.2612,  1.4754, -1.2204, -0.3086, -1.2458,  0.6964,  0.1785],
        [ 0.6606, -0.3845,  1.8579, -0.6968, -0.3384, -0.8934,  0.8674,  0.1214],
        [-1.1621, -1.5742,  1.4177, -0.9740, -0.6736, -0.8677,  0.1271,  0.1619],
        [ 0.8018, -0.2644,  1.5804,  0.3024, -0.3906, -0.0824,  0.0951,  0.0740],
        [-1.5449, -1.8026,  1.1856, -1.3089, -0.3308, -1.4579,  0.0138,  0.1254],
        [ 0.8893, -0.2169,  1.6289,  0.1542, -0.5249, -0.3488,  0.8478,  0.2615],
        [ 0.5511, -0.3979,  1.0464, -0.8318, -0.5398, -0.8926,  0.2521,  0.5029],
        [ 0.6511, -0.3953,  1.7895, -0.4373, -0.6443, -0.5113,  0.4277,  0.0741]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.4225,  1.4975, -1.1709, -0.3174, -1.1806,  0.6539,
           0.1879],
         [ 0.6125, -0.4369,  1.9173, -0.5384, -0.2594, -0.8386,  0.9741,
           0.1821],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.5258, -0.4610,  1.5882,  0.4085, -0.3517, -0.0072,  0.0910,
          -0.0550],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.6421, -0.3647,  1.5940,  0.3084, -0.5192, -0.3691,  1.1057,
           0.3692],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316],
         [ 0.5669, -0.4794,  1.7499, -0.3383, -0.6751, -0.4229,  0.4970,
          -0.0611]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0529, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0529, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.44675440434366465
step:  31
running loss:  0.01441143239818273
Train Steps: 31/90  Loss: 0.0144 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4101, 0.8838, 0.5317, 0.3825, 0.3800, 0.5413, 0.5683],
        [0.6202, 0.4053, 0.8638, 0.5283, 0.4546, 0.5108, 0.5900, 0.5133],
        [0.6167, 0.4048, 0.6831, 0.3639, 0.3763, 0.3017, 0.5700, 0.5883],
        [0.6197, 0.4090, 0.7825, 0.2500, 0.4200, 0.2483, 0.5988, 0.5667],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6131, 0.4037, 0.6907, 0.2819, 0.3688, 0.2700, 0.5217, 0.5680],
        [0.6200, 0.3913, 0.8788, 0.5217, 0.4075, 0.5100, 0.6060, 0.4913],
        [0.6185, 0.4080, 0.8625, 0.3483, 0.3788, 0.2650, 0.5320, 0.5272]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6828, -0.3442,  1.7467,  0.0619, -0.5904, -0.5502,  0.3114,  0.3808],
        [ 0.6513, -0.3840,  1.7281,  0.0559, -0.2999,  0.0749,  0.4490,  0.1396],
        [ 0.3418, -0.5646,  1.0523, -0.8296, -0.6099, -0.9134,  0.3042,  0.4728],
        [ 0.4111, -0.5128,  1.3451, -1.2935, -0.4238, -1.2114,  0.4419,  0.3051],
        [ 0.6906, -0.3634,  2.1027, -0.7261, -0.1946, -1.2085,  1.1692,  0.1020],
        [ 0.2817, -0.5988,  0.9430, -1.1393, -0.5916, -1.0603,  0.1292,  0.2920],
        [ 0.5299, -0.5242,  1.7526,  0.0204, -0.4859,  0.0421,  0.3819, -0.0368],
        [ 0.6846, -0.3526,  1.7553, -0.8015, -0.5090, -1.1177,  0.3066,  0.1300]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.3915,  1.7961,  0.1698, -0.5192, -0.5307,  0.2141,
           0.3392],
         [ 0.5786, -0.4141,  1.7037,  0.1544, -0.1862,  0.0736,  0.4393,
           0.0851],
         [ 0.5626, -0.4162,  0.8692, -0.6051, -0.5480, -0.8925,  0.3469,
           0.4316],
         [ 0.5764, -0.3969,  1.3284, -1.1312, -0.3460, -1.1389,  0.4797,
           0.3315],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5459, -0.4215,  0.9043, -0.9838, -0.5827, -1.0388,  0.1236,
           0.3378],
         [ 0.5776, -0.4784,  1.7730,  0.1236, -0.4037,  0.0697,  0.5132,
          -0.0168],
         [ 0.5711, -0.4015,  1.6979, -0.6770, -0.5365, -1.0619,  0.1712,
           0.1494]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0103, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4570535933598876
step:  32
running loss:  0.014282924792496487

Train Steps: 32/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6245, 0.4115, 0.8700, 0.4883, 0.4625, 0.5517, 0.6100, 0.5217],
        [0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6199, 0.4060, 0.8888, 0.4667, 0.3800, 0.5050, 0.6188, 0.5433],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.4178e-01, -3.5956e-01,  1.7213e+00, -5.5002e-03, -2.6230e-01,
          1.4525e-02,  5.9712e-01,  2.7523e-01],
        [ 4.7999e-01, -4.8110e-01,  1.1534e+00, -9.4995e-01, -6.3442e-01,
         -1.0915e+00,  2.5093e-01, -2.0075e-03],
        [-1.9991e+00, -2.1325e+00,  1.3982e+00, -9.4794e-01, -7.2812e-01,
         -9.9760e-01,  1.5390e-01,  1.4590e-01],
        [ 5.6458e-01, -3.8236e-01,  1.7374e+00, -7.4091e-02, -2.8748e-01,
          1.2523e-01,  3.6424e-01,  2.4052e-01],
        [ 4.8428e-01, -4.9028e-01,  1.7524e+00, -8.4647e-02, -1.1400e-01,
         -2.1300e-01,  4.6986e-01,  2.6927e-01],
        [ 5.5946e-01, -4.2733e-01,  1.7709e+00, -1.3355e-01, -5.6999e-01,
         -1.6277e-01,  5.4718e-01,  2.3423e-01],
        [ 4.1153e-01, -5.0251e-01,  1.4305e+00, -1.0455e+00, -5.0402e-01,
         -1.1267e+00,  5.4868e-01,  2.4379e-01],
        [ 4.6093e-01, -4.3216e-01,  1.2042e+00, -1.0118e+00, -2.2142e-01,
         -1.4587e+00,  3.7473e-01,  3.7239e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5987, -0.3852,  1.7326, -0.0303, -0.1497,  0.2622,  0.5316,
           0.1236],
         [ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [-2.2859, -2.2859,  1.5767, -0.7540, -0.6404, -0.7309,  0.1753,
           0.0893],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.5773, -0.4105,  1.8192, -0.1304, -0.5307,  0.0467,  0.5721,
           0.2237],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.46980485040694475
step:  33
running loss:  0.014236510618392265
Train Steps: 33/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6265, 0.4071, 0.8875, 0.3367, 0.3975, 0.3350, 0.6312, 0.5250],
        [0.6148, 0.4053, 0.8750, 0.4550, 0.4850, 0.5218, 0.5863, 0.5567],
        [0.6222, 0.4108, 0.8938, 0.4233, 0.3600, 0.3817, 0.5825, 0.5283],
        [0.6277, 0.4029, 0.8250, 0.2433, 0.4325, 0.2100, 0.6366, 0.5207],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6112, 0.4029, 0.8638, 0.4800, 0.4875, 0.5083, 0.5763, 0.5567],
        [0.6276, 0.4235, 0.8888, 0.5333, 0.3800, 0.3117, 0.5427, 0.6164],
        [0.6126, 0.3954, 0.8538, 0.4983, 0.4250, 0.4700, 0.5355, 0.5350]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6651, -0.3525,  1.8387, -0.8408, -0.5424, -0.8504,  0.6656,  0.1439],
        [ 0.4286, -0.4925,  1.7124, -0.2640, -0.1381, -0.0479,  0.2317,  0.3010],
        [ 0.7453, -0.2869,  1.7095, -0.4168, -0.7020, -0.5912,  0.4953,  0.2396],
        [ 0.3159, -0.6062,  1.4369, -1.2623, -0.3676, -1.3907,  0.5356,  0.0811],
        [ 0.6956, -0.3403,  1.5745,  0.1918, -0.4717,  0.0982,  0.7810,  0.1632],
        [ 0.3613, -0.5702,  1.7576, -0.1592, -0.1135, -0.0804,  0.3595,  0.2578],
        [ 0.6153, -0.3244,  1.6121,  0.1522, -0.5642, -0.8442,  0.2849,  0.5926],
        [ 0.5132, -0.4749,  1.6085, -0.0092, -0.4199, -0.1877,  0.1662,  0.1904]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6078, -0.4057,  1.8134, -0.7309, -0.4499, -0.7386,  0.6298,
           0.1390],
         [ 0.5538, -0.4139,  1.7557, -0.1843, -0.0459,  0.1242,  0.4219,
           0.2853],
         [ 0.5880, -0.3887,  1.8423, -0.3306, -0.6231, -0.5230,  0.4046,
           0.1544],
         [ 0.6132, -0.4248,  1.5247, -1.1620, -0.2882, -1.3159,  0.6545,
           0.1193],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5371, -0.4252,  1.7037, -0.0688, -0.0342,  0.0620,  0.3758,
           0.2853],
         [ 0.6131, -0.3299,  1.8192,  0.1775, -0.5307, -0.8463,  0.2206,
           0.5612],
         [ 0.5435, -0.4597,  1.6575,  0.0159, -0.3229, -0.1150,  0.1877,
           0.1854]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0096, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0096, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.4794104462489486
step:  34
running loss:  0.014100307242616135
Train Steps: 34/90  Loss: 0.0141 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6241, 0.4143, 0.8938, 0.4650, 0.4075, 0.5350, 0.6250, 0.5550],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6226, 0.4103, 0.8575, 0.3450, 0.4388, 0.2067, 0.5787, 0.5383],
        [0.6064, 0.4019, 0.8650, 0.4517, 0.4037, 0.5367, 0.5703, 0.5609],
        [   nan,    nan, 0.8850, 0.3000, 0.5363, 0.2250, 0.7343, 0.5771],
        [0.6201, 0.4050, 0.7757, 0.2234, 0.4459, 0.1798, 0.5975, 0.5426],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7850, -0.2571,  1.8136, -0.0547, -0.3984,  0.1662,  0.5929,  0.2880],
        [ 0.7754, -0.2955,  1.7141,  0.1585, -0.6337, -0.1329,  0.4963,  0.4172],
        [ 0.7866, -0.2281,  1.6788, -0.6753, -0.2686, -1.2191,  0.3706,  0.1885],
        [ 0.6878, -0.3163,  1.6834, -0.0576, -0.4463,  0.3079,  0.4258,  0.2013],
        [-1.5394, -1.7654,  1.7289, -0.9718,  0.0645, -1.2452,  0.7936,  0.3608],
        [ 0.6353, -0.3698,  1.2097, -1.1548, -0.2937, -1.3861,  0.3841,  0.0950],
        [ 0.6473, -0.3535,  0.9732, -1.2908, -0.5212, -1.0675,  0.3539,  0.1694],
        [-1.8065, -1.9688,  0.9073, -1.2550, -0.4676, -1.4095, -0.0827,  0.2193]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5968, -0.3725,  1.8423, -0.1381, -0.4037,  0.1852,  0.6009,
           0.2776],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5898, -0.3908,  1.6748, -0.6924, -0.2594, -1.3313,  0.3873,
           0.2006],
         [ 0.5151, -0.4296,  1.7095, -0.1997, -0.4210,  0.1929,  0.3484,
           0.3047],
         [-2.2859, -2.2859,  1.8018, -0.9002,  0.1910, -1.2467,  1.1057,
           0.3799],
         [ 0.5784, -0.4153,  1.2972, -1.2541, -0.2265, -1.4553,  0.4741,
           0.2203],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0284, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5077718859538436
step:  35
running loss:  0.014507768170109818
Train Steps: 35/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.3999, 0.8750, 0.5133, 0.3825, 0.4750, 0.5637, 0.5083],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6102, 0.4020, 0.8638, 0.3717, 0.3625, 0.5017, 0.6038, 0.5500],
        [0.6161, 0.4055, 0.8675, 0.3867, 0.3713, 0.4033, 0.5195, 0.5162],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6286, 0.4078, 0.8063, 0.2267, 0.4788, 0.1533, 0.5953, 0.4913],
        [0.6204, 0.4055, 0.8438, 0.5733, 0.4574, 0.4801, 0.5487, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5011, -0.4467,  1.7422,  0.0539, -0.4417, -0.0660,  0.3217,  0.0671],
        [ 0.5066, -0.4254,  1.6587,  0.2854, -0.3504,  0.1462,  0.4665,  0.3451],
        [ 0.6545, -0.3217,  1.6254,  0.3260, -0.5526, -0.4922,  0.4399,  0.5244],
        [ 0.5252, -0.4480,  1.6938, -0.6012, -0.5887, -0.0047,  0.6975,  0.3762],
        [ 0.2379, -0.6145,  1.7338, -0.5259, -0.5895, -0.5340,  0.2075,  0.1188],
        [ 0.6845, -0.3041,  1.5760, -0.7952, -0.6356, -0.4136,  0.3729,  0.3453],
        [ 0.4442, -0.4868,  1.3857, -1.2715, -0.0972, -1.6168,  0.4491,  0.0212],
        [ 0.4995, -0.4227,  1.5819,  0.3630, -0.1269, -0.0922,  0.3253,  0.3093]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5326, -0.4390,  1.7557,  0.0851, -0.5192, -0.0919,  0.3180,
           0.0620],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5324, -0.4293,  1.7037, -0.5692, -0.6115,  0.0313,  0.5028,
           0.2545],
         [ 0.5598, -0.4129,  1.7210, -0.4999, -0.5711, -0.4229,  0.1136,
           0.0983],
         [ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930],
         [ 0.6177, -0.4022,  1.4381, -1.2390, -0.0746, -1.5777,  0.4639,
          -0.0168],
         [ 0.5795, -0.4129,  1.6113,  0.3623, -0.1733, -0.0684,  0.2487,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0061, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5138542065396905
step:  36
running loss:  0.014273727959435847

Train Steps: 36/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6364, 0.4154, 0.8938, 0.3717, 0.4500, 0.2583, 0.6448, 0.5285],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6205, 0.4062, 0.8337, 0.2683, 0.3675, 0.4283, 0.6338, 0.5250],
        [0.6325, 0.4066, 0.8438, 0.5350, 0.3925, 0.5267, 0.7113, 0.5795],
        [0.6332, 0.4118, 0.9238, 0.4267, 0.4012, 0.4733, 0.7525, 0.5436],
        [0.6200, 0.4024, 0.8390, 0.3139, 0.3525, 0.3833, 0.6162, 0.5383],
        [0.6125, 0.3974, 0.7725, 0.2517, 0.3538, 0.3317, 0.5887, 0.5500]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7667, -0.1900,  1.5827,  0.3425, -0.4211, -0.4493,  0.1190,  0.4417],
        [ 0.6480, -0.3304,  1.8848, -0.5738, -0.0757, -1.2094,  0.5862,  0.2134],
        [ 0.4521, -0.4451,  1.6456, -0.5933, -0.4995, -0.8002, -0.0086,  0.1792],
        [ 0.3198, -0.5839,  1.5540, -0.9149, -0.5333, -0.2930,  0.5008,  0.2137],
        [ 0.6390, -0.3685,  1.5938,  0.3059, -0.3143,  0.2177,  0.8638,  0.3779],
        [ 0.6208, -0.3873,  1.8751, -0.2567, -0.3241,  0.0175,  0.9235,  0.2965],
        [ 0.2887, -0.6082,  1.6301, -0.7104, -0.5966, -0.4797,  0.4536,  0.2508],
        [ 0.2123, -0.6332,  1.2361, -1.0201, -0.5911, -0.7614,  0.2279,  0.2410]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.6537, -0.3671,  1.8423, -0.5692, -0.2074, -1.0927,  0.6926,
           0.1554],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5799, -0.4099,  1.5651, -1.0465, -0.5885, -0.3075,  0.6413,
           0.1390],
         [ 0.6355, -0.4080,  1.6113,  0.1852, -0.4730,  0.1467,  0.9996,
           0.3905],
         [ 0.6388, -0.3840,  1.9808, -0.3152, -0.4326, -0.0996,  1.1897,
           0.2249],
         [ 0.5779, -0.4275,  1.5894, -0.8362, -0.6577, -0.5153,  0.5605,
           0.2006],
         [ 0.5430, -0.4503,  1.2822, -1.1235, -0.6520, -0.7540,  0.4335,
           0.2545]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5294085452333093
step:  37
running loss:  0.01430833906035971
Train Steps: 37/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6109, 0.4036, 0.7188, 0.1750, 0.3850, 0.2550, 0.5863, 0.5567],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6224, 0.3964, 0.8225, 0.5717, 0.4150, 0.4617, 0.5775, 0.5267],
        [   nan,    nan, 0.7648, 0.2722, 0.3962, 0.2183, 0.5060, 0.5422]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.8430, -0.2584,  1.6744,  0.3633, -0.4802, -0.2443,  0.5070,  0.2324],
        [ 0.6614, -0.2980,  1.3332, -0.9772, -0.0668, -1.1946,  0.3990,  0.4166],
        [ 0.6807, -0.3319,  1.1142, -1.3562, -0.3954, -1.0487,  0.4462,  0.3111],
        [ 0.4883, -0.4645,  1.4983, -1.0006, -0.5738, -0.6161,  0.4483,  0.1922],
        [-2.2025, -2.2211,  1.3382, -0.9761, -0.4328, -0.9994,  0.1234,  0.2760],
        [ 0.7368, -0.3126,  1.1983, -1.3563, -0.3093, -1.0961,  0.5613,  0.3036],
        [ 0.7644, -0.3089,  1.6260,  0.3014, -0.3090, -0.0725,  0.5097,  0.2114],
        [-2.1184, -2.1461,  1.3030, -1.0153, -0.4229, -1.1399,  0.1310,  0.2134]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5356, -0.4217,  1.0339, -1.4776, -0.5076, -1.1081,  0.4219,
           0.2853],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5891, -0.4550,  1.5132,  0.3546, -0.3691, -0.1535,  0.3815,
           0.1467],
         [-2.2859, -2.2859,  1.2469, -1.0288, -0.4557, -1.2774,  0.0511,
           0.2183]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0101, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0101, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5395098840817809
step:  38
running loss:  0.014197628528467919
Train Steps: 38/90  Loss: 0.0142 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6193, 0.4165, 0.8838, 0.4700, 0.4150, 0.4867, 0.5427, 0.5261],
        [0.6269, 0.4073, 0.8900, 0.4933, 0.3625, 0.4183, 0.6288, 0.5150],
        [0.6107, 0.4013, 0.8700, 0.4650, 0.5049, 0.5176, 0.5850, 0.5550],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5074, -0.4429,  1.7396, -0.2308, -0.5302,  0.2456,  0.5146,  0.1426],
        [ 0.4840, -0.4596,  1.6347,  0.0541, -0.1286,  0.0975,  0.1633,  0.1393],
        [ 0.8040, -0.2417,  1.2190, -1.0917, -0.2926, -1.5079,  0.3536,  0.2265],
        [ 0.4214, -0.4987,  1.6166, -0.2834, -0.6564,  0.0112,  0.3598,  0.2051],
        [ 0.5247, -0.3758,  1.7237, -0.0731, -0.4058, -0.1434,  0.2149,  0.2700],
        [ 0.5961, -0.3832,  1.7580,  0.0120, -0.6258, -0.3360,  0.6261,  0.2390],
        [ 0.6072, -0.3421,  1.6672, -0.1749, -0.0391, -0.0249,  0.3669,  0.3491],
        [-2.1279, -2.1510,  1.6978, -1.1259,  0.1169, -1.2127,  1.0293,  0.4119]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081],
         [ 0.5746, -0.3623,  1.7961, -0.1150, -0.3691, -0.0380,  0.2208,
           0.1439],
         [ 0.6096, -0.4046,  1.8249, -0.0072, -0.6115, -0.3537,  0.6182,
           0.0928],
         [ 0.5351, -0.4321,  1.7326, -0.1381,  0.0463,  0.1049,  0.4162,
           0.2776],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0078, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0078, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5473534110933542
step:  39
running loss:  0.014034702848547544
Train Steps: 39/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [0.6156, 0.4125, 0.8850, 0.4833, 0.4550, 0.5817, 0.5765, 0.5084],
        [0.6193, 0.4079, 0.7288, 0.2500, 0.4250, 0.2550, 0.5989, 0.6266],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6343, 0.4097, 0.9287, 0.4367, 0.4313, 0.3600, 0.7248, 0.5841],
        [0.6268, 0.4094, 0.9038, 0.4300, 0.3700, 0.3483, 0.6262, 0.5167]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.9239e-01, -4.0632e-01,  1.4173e+00, -1.3067e+00, -5.8054e-01,
         -8.9081e-01,  4.0951e-01,  3.0051e-02],
        [ 5.6247e-01, -3.9829e-01,  1.0312e+00, -8.5208e-01, -5.4845e-01,
         -9.3977e-01,  1.0921e-01,  2.4333e-01],
        [ 1.8700e-01, -6.6109e-01,  1.2660e+00, -9.8780e-01, -5.7842e-01,
         -8.6583e-01,  2.8633e-01,  2.2913e-01],
        [ 9.6982e-02, -6.9610e-01,  1.8964e+00, -3.7301e-02, -1.7227e-01,
          4.4360e-01,  2.9462e-01,  1.1563e-01],
        [ 6.4631e-01, -3.3672e-01,  1.1264e+00, -1.1566e+00, -2.4963e-01,
         -1.0645e+00,  4.9173e-01,  6.1092e-01],
        [ 3.9081e-01, -4.9535e-01,  1.7839e+00,  4.0092e-01, -2.1903e-01,
         -9.6561e-04,  2.6731e-01,  3.3483e-01],
        [ 6.0249e-01, -4.3258e-01,  1.9517e+00, -2.0927e-01, -2.7999e-01,
         -5.2175e-01,  1.0574e+00,  3.2433e-01],
        [ 4.8791e-01, -4.7775e-01,  1.9963e+00, -2.2164e-01, -4.3256e-01,
         -5.8975e-01,  5.4839e-01,  1.9789e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620],
         [ 0.5425, -0.3998,  0.9263, -0.8683, -0.6000, -1.0157,  0.0990,
           0.2476],
         [ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335],
         [ 0.5573, -0.3808,  1.8018, -0.0534, -0.1843,  0.4008,  0.3769,
           0.0622],
         [ 0.5746, -0.4021,  1.0801, -1.1312, -0.3229, -1.1081,  0.4803,
           0.6084],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.6438, -0.3936,  2.0039, -0.2690, -0.2940, -0.6231,  1.0618,
           0.4119],
         [ 0.6094, -0.3947,  1.8885, -0.2998, -0.5769, -0.6770,  0.6067,
           0.1005]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0117, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5590283134952188
step:  40
running loss:  0.01397570783738047

Train Steps: 40/90  Loss: 0.0140 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6178, 0.4012, 0.8900, 0.4495, 0.3891, 0.5617, 0.5972, 0.4879],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6310, 0.4017, 0.8563, 0.5800, 0.3688, 0.4750, 0.6326, 0.5006],
        [0.6223, 0.3990, 0.8037, 0.2800, 0.4000, 0.2283, 0.5864, 0.5208]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4518, -0.4911,  1.8600, -0.2607, -0.4129,  0.5143,  0.4992,  0.0568],
        [-0.3478, -1.0317,  1.0285, -1.3610, -0.1993, -1.5180,  0.1647,  0.1402],
        [ 0.6369, -0.3709,  1.4022, -0.9832, -0.4957, -0.6442,  0.4793,  0.2773],
        [ 0.5346, -0.3425,  1.6216,  0.1690, -0.4701, -0.3177,  0.2371,  0.5411],
        [ 0.7848, -0.2854,  1.9911, -0.3355, -0.1997, -0.7153,  1.0501,  0.2050],
        [ 0.3135, -0.5431,  1.6285, -0.5310, -0.5323, -0.6793,  0.0580,  0.3620],
        [ 0.3326, -0.6026,  1.6768,  0.3122, -0.5380,  0.0443,  0.6050,  0.0992],
        [ 0.5161, -0.4441,  1.4498, -1.1177, -0.3233, -1.1196,  0.4261,  0.2058]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5676, -0.4327,  1.8252, -0.2095, -0.4886,  0.3084,  0.4727,
          -0.0322],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.6286, -0.4303,  1.6691,  0.3931, -0.5827, -0.0919,  0.6359,
           0.0261],
         [ 0.5885, -0.4429,  1.4266, -0.9926, -0.4383, -1.2313,  0.4228,
           0.1195]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0280, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0280, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.5870048655197024
step:  41
running loss:  0.014317191841943962
Train Steps: 41/90  Loss: 0.0143 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6311, 0.3998, 0.7975, 0.5767, 0.3838, 0.4850, 0.7327, 0.5343],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6125, 0.4076, 0.8488, 0.3883, 0.3700, 0.3683, 0.5026, 0.5505],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6250, 0.4110, 0.7238, 0.2067, 0.4263, 0.1883, 0.5625, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5652, -0.4335,  1.8033,  0.0198, -0.3656,  0.0220,  0.6305,  0.2068],
        [ 0.4282, -0.5123,  1.7713, -0.2921, -0.4786,  0.0357,  0.2857,  0.0134],
        [ 0.5329, -0.4882,  1.5947,  0.2187, -0.4321,  0.0283,  1.0430,  0.1789],
        [ 0.7813, -0.2962,  1.0969, -1.1801, -0.4818, -1.0343,  0.2377,  0.0690],
        [ 0.2271, -0.6053,  1.7303, -0.5249, -0.5412, -0.5170,  0.1491,  0.3835],
        [-0.0694, -0.8135,  1.7507, -0.5003, -0.5468, -0.5444,  0.1607,  0.2659],
        [ 0.7761, -0.2279,  1.7220, -0.3759, -0.4916, -0.7065,  0.3742,  0.4468],
        [ 0.3328, -0.5700,  1.1195, -1.3783, -0.1821, -1.4471,  0.4467,  0.2584]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.6289, -0.4393,  1.3977,  0.3777, -0.5134, -0.0457,  1.0984,
           0.1821],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5433, -0.4032,  1.6344, -0.4922, -0.5769, -0.5846,  0.0357,
           0.2567],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.6010, -0.3875,  1.0570, -1.3313, -0.3171, -1.4160,  0.3122,
           0.3161]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0210, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0210, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.6079580811783671
step:  42
running loss:  0.014475192409008741
Train Steps: 42/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6859, 0.2194, 0.4150, 0.1867, 0.5153, 0.5729],
        [0.6201, 0.4102, 0.7288, 0.2417, 0.4150, 0.2383, 0.6100, 0.5500],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6224, 0.4097, 0.7438, 0.2267, 0.3850, 0.2850, 0.5988, 0.5250],
        [0.6200, 0.3961, 0.8461, 0.5497, 0.4142, 0.4577, 0.5892, 0.5402]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.1093, -2.1695,  1.0704, -1.1241, -0.2829, -1.2708,  0.3400,  0.3245],
        [ 0.9580, -0.1868,  1.1554, -1.1501, -0.3985, -1.0545,  0.5273,  0.2618],
        [ 0.7270, -0.3383,  1.1407, -1.2378, -0.3266, -1.1439,  0.4433,  0.2077],
        [ 0.6284, -0.3472,  1.6952, -0.4482, -0.5650, -0.6186,  0.1774,  0.2573],
        [-2.4414, -2.3598,  1.4631, -0.6933, -0.5079, -0.7125,  0.2897,  0.2286],
        [ 0.6782, -0.3799,  1.1089, -1.2278, -0.2241, -1.4500,  0.2807,  0.0738],
        [ 0.7070, -0.3484,  1.2289, -1.1555, -0.4486, -0.8100,  0.5723,  0.2394],
        [ 0.6015, -0.4189,  1.7105,  0.1990, -0.4040,  0.0405,  0.5011,  0.1426]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  0.8824, -1.2727, -0.3691, -1.4237,  0.0943,
           0.3604],
         [ 0.5784, -0.3913,  1.0801, -1.1697, -0.3691, -1.1851,  0.5316,
           0.2545],
         [ 0.5850, -0.3925,  1.0513, -1.3467, -0.3517, -1.2620,  0.4739,
           0.1544],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5891, -0.3937,  1.1494, -1.2390, -0.5076, -0.9695,  0.4797,
           0.1390],
         [ 0.5780, -0.4565,  1.6221,  0.2532, -0.3728, -0.1718,  0.4357,
           0.2091]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0137, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0137, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.621706354431808
step:  43
running loss:  0.014458287312367629
Train Steps: 43/90  Loss: 0.0145 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6212, 0.4171, 0.7875, 0.3633, 0.3813, 0.2933, 0.5675, 0.5700],
        [0.6264, 0.4071, 0.9038, 0.3867, 0.3663, 0.3917, 0.6338, 0.5283],
        [   nan,    nan, 0.8888, 0.3100, 0.5262, 0.2817, 0.7145, 0.6003],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [   nan,    nan, 0.7625, 0.2433, 0.3713, 0.2867, 0.5235, 0.5220],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7925, -0.2197,  1.2258, -0.5560, -0.5129, -0.8534,  0.1539,  0.3959],
        [ 0.9824, -0.1438,  1.7369, -0.4676, -0.5488, -0.3900,  0.4122,  0.0837],
        [-0.5162, -1.0907,  1.6477, -0.7800,  0.1305, -1.0171,  0.9095,  0.4633],
        [-2.3501, -2.3298,  1.2146, -1.0448, -0.2453, -1.2660,  0.2259,  0.1469],
        [ 0.8942, -0.2418,  1.7042, -0.0787, -0.5784, -0.3624,  0.6176,  0.1548],
        [-2.1278, -2.1791,  1.1879, -1.0004, -0.4103, -0.9609,  0.1842,  0.1987],
        [ 0.9677, -0.1782,  1.7206, -0.1119, -0.5416,  0.0892,  0.8351,  0.1302],
        [ 0.9036, -0.2227,  1.1927, -1.2856, -0.5745, -0.8649,  0.2551,  0.0385]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5832, -0.3593,  1.3515, -0.6077, -0.5249, -0.9310,  0.3353,
           0.3469],
         [ 0.6073, -0.4058,  1.8885, -0.4999, -0.5942, -0.4768,  0.6413,
           0.1544],
         [-2.2859, -2.2859,  1.8192, -0.8540,  0.1448, -0.9849,  1.0143,
           0.4867],
         [-2.2859, -2.2859,  1.3400, -1.0388, -0.3055, -1.4930,  0.1157,
           0.0231],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [-2.2859, -2.2859,  1.2360, -1.1620, -0.5711, -0.9618,  0.1322,
           0.1253],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0917, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0917, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7134014395996928
step:  44
running loss:  0.0162136690818112

Train Steps: 44/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6037, 0.4020, 0.8300, 0.4033, 0.3575, 0.4883, 0.5647, 0.5631],
        [0.6204, 0.4007, 0.7838, 0.2100, 0.4475, 0.1733, 0.5825, 0.5167],
        [   nan,    nan, 0.6488, 0.1817, 0.4325, 0.1867, 0.5475, 0.5733],
        [0.6149, 0.4054, 0.6713, 0.2333, 0.4025, 0.2017, 0.5213, 0.5695],
        [0.6293, 0.4024, 0.8750, 0.5000, 0.4012, 0.5733, 0.7121, 0.5633],
        [0.6252, 0.4158, 0.8988, 0.4083, 0.3788, 0.4783, 0.6225, 0.5633],
        [0.6229, 0.4086, 0.7538, 0.2600, 0.4775, 0.1617, 0.5900, 0.5383],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2478, -0.5887,  1.5762, -0.3955, -0.6159, -0.0235,  0.3924,  0.1690],
        [ 0.5105, -0.4776,  1.2312, -1.2097, -0.2561, -1.4255,  0.4250,  0.0495],
        [-2.8672, -2.7021,  0.9996, -1.1260, -0.2092, -1.3250,  0.2963,  0.3326],
        [ 0.4463, -0.5024,  0.8379, -1.1694, -0.4447, -1.2806,  0.0816,  0.2743],
        [ 0.4706, -0.4984,  1.7752,  0.0275, -0.4758,  0.3607,  0.8918,  0.1198],
        [ 0.3932, -0.5023,  1.7916, -0.3608, -0.5850, -0.0992,  0.6404,  0.2181],
        [ 0.5354, -0.4506,  1.1401, -1.1430, -0.1944, -1.4443,  0.3866,  0.1853],
        [ 0.5298, -0.4138,  1.7078, -0.5646, -0.5096, -0.9205,  0.3372,  0.1251]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5027, -0.4289,  1.5478, -0.4229, -0.6346, -0.0303,  0.3223,
           0.3148],
         [ 0.5796, -0.4351,  1.3342, -1.3159, -0.2189, -1.4853,  0.4046,
           0.1005],
         [-2.2859, -2.2859,  0.7106, -1.4468, -0.2882, -1.4237,  0.2430,
           0.3623],
         [ 0.5544, -0.4133,  0.8145, -1.2082, -0.4268, -1.3544,  0.1221,
           0.3446],
         [ 0.6207, -0.4273,  1.7557,  0.0236, -0.4326,  0.3623,  1.0033,
           0.3157],
         [ 0.6017, -0.3654,  1.8654, -0.3998, -0.5365, -0.0765,  0.5894,
           0.3161],
         [ 0.5911, -0.3984,  1.1956, -1.0850, -0.0804, -1.5392,  0.4393,
           0.2006],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0179, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7312849136069417
step:  45
running loss:  0.016250775857932036
Train Steps: 45/90  Loss: 0.0163 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6109, 0.4009, 0.8725, 0.4700, 0.3550, 0.4167, 0.5650, 0.5117],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6161, 0.4040, 0.7525, 0.2133, 0.4125, 0.2067, 0.5787, 0.5117],
        [0.6250, 0.4236, 0.8638, 0.3767, 0.4050, 0.3150, 0.5649, 0.5799],
        [0.6198, 0.4101, 0.8838, 0.5283, 0.3763, 0.5267, 0.5913, 0.5567],
        [0.6122, 0.4006, 0.8850, 0.4217, 0.4088, 0.5517, 0.6063, 0.5517],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6098, 0.3991, 0.8638, 0.4717, 0.4263, 0.4967, 0.5212, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4556, -0.5099,  1.7766, -0.1818, -0.6755, -0.4903,  0.4060,  0.0858],
        [ 0.5090, -0.4585,  1.5956,  0.1512, -0.6968, -0.7298,  0.3877,  0.2242],
        [ 0.5739, -0.4423,  1.0018, -1.4543, -0.4832, -1.4066,  0.4122,  0.0719],
        [ 0.1892, -0.6547,  1.6334, -0.6650, -0.4261, -0.9657,  0.4471,  0.4533],
        [ 0.6028, -0.4209,  1.7416,  0.1237, -0.5934, -0.0068,  0.6176,  0.2581],
        [ 0.5751, -0.4199,  1.8006, -0.3498, -0.4233,  0.1760,  0.6082,  0.1663],
        [ 0.5965, -0.4214,  1.7018, -0.1034, -0.2478, -0.0326,  0.2991, -0.0696],
        [ 0.4331, -0.5177,  1.6583, -0.1081, -0.3108, -0.0744,  0.3485,  0.2111]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5356, -0.4343,  1.7441, -0.1150, -0.6462, -0.3614,  0.3238,
           0.0774],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.5598, -0.4201,  1.1898, -1.3005, -0.3806, -1.3313,  0.3873,
           0.0774],
         [ 0.6008, -0.3293,  1.7037, -0.5461, -0.4152, -0.8309,  0.3234,
           0.3928],
         [ 0.5770, -0.3918,  1.7961,  0.1544, -0.5480,  0.1467,  0.4450,
           0.2853],
         [ 0.5417, -0.4355,  1.8018, -0.3383, -0.3979,  0.2622,  0.5143,
           0.2622],
         [ 0.5249, -0.4473,  1.7326, -0.0919, -0.2016,  0.1544,  0.1733,
           0.0412],
         [ 0.5308, -0.4425,  1.7037, -0.1073, -0.3171,  0.0082,  0.1217,
           0.3238]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0118, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7431346783414483
step:  46
running loss:  0.016155101703074964
Train Steps: 46/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6150, 0.4097, 0.7468, 0.3194, 0.3825, 0.2633, 0.5463, 0.5800],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6200, 0.4059, 0.8700, 0.4900, 0.4163, 0.5000, 0.6162, 0.5467],
        [0.6048, 0.3987, 0.7620, 0.3861, 0.3475, 0.4167, 0.5137, 0.5466],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5993, -0.3803,  1.1228, -0.8423, -0.6056, -1.1385,  0.0585,  0.3099],
        [ 0.6539, -0.4069,  1.4465, -1.0566, -0.4854, -1.0856,  0.7644,  0.0711],
        [ 0.5155, -0.4606,  1.3688, -1.0454, -0.7240, -0.7367,  0.3963,  0.0150],
        [ 0.5882, -0.4315,  1.0366, -1.3716, -0.4745, -1.2091,  0.5045,  0.1624],
        [ 0.4665, -0.4729,  1.7877, -0.1115, -0.4896, -0.3687,  0.1220,  0.2028],
        [ 0.4432, -0.5455,  1.8228,  0.0551, -0.3761, -0.0258,  0.6413,  0.1544],
        [ 0.5897, -0.4017,  1.2351, -0.5070, -0.7453, -0.4400,  0.1918,  0.1963],
        [-1.4964, -1.7881,  1.8678, -0.7517,  0.1144, -1.2951,  1.0231,  0.3557]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5548, -0.3936,  1.1634, -0.8105, -0.5192, -1.0696,  0.2372,
           0.3931],
         [ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5776, -0.4109,  1.7326, -0.0226, -0.3633,  0.0236,  0.5605,
           0.2391],
         [ 0.5076, -0.4443,  1.2337, -0.5023, -0.6808, -0.3614,  0.0866,
           0.2386],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0182, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7613579174503684
step:  47
running loss:  0.016199104626603584
Train Steps: 47/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6202, 0.4079, 0.8025, 0.2500, 0.3763, 0.3217, 0.6125, 0.5533],
        [0.6218, 0.4137, 0.7263, 0.2233, 0.4075, 0.2650, 0.6212, 0.5783],
        [0.6282, 0.4034, 0.7830, 0.2080, 0.4532, 0.2080, 0.6404, 0.5323],
        [0.6129, 0.3930, 0.8769, 0.5105, 0.4146, 0.5642, 0.6000, 0.5082],
        [0.6226, 0.4103, 0.8575, 0.3450, 0.4388, 0.2067, 0.5787, 0.5383],
        [0.6224, 0.4179, 0.8700, 0.5683, 0.4037, 0.4683, 0.5650, 0.5600],
        [0.6057, 0.4011, 0.8750, 0.4267, 0.4400, 0.5800, 0.5845, 0.5585],
        [0.6187, 0.4104, 0.7126, 0.2069, 0.3950, 0.2517, 0.5913, 0.5683]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4333, -0.5111,  1.4087, -1.0953, -0.6372, -0.8462,  0.4818,  0.1355],
        [ 0.3784, -0.5491,  1.0189, -1.2366, -0.5795, -1.2066,  0.4777,  0.2933],
        [ 0.6046, -0.4339,  1.2734, -1.2354, -0.3520, -1.3963,  0.5953,  0.0656],
        [ 0.2975, -0.6681,  1.8023,  0.2010, -0.3973,  0.1365,  0.5395,  0.0553],
        [ 0.5932, -0.3750,  1.7603, -0.6885, -0.3399, -1.3641,  0.3018,  0.1969],
        [ 0.2940, -0.5934,  1.7302,  0.3709, -0.5093, -0.3573,  0.4433,  0.4143],
        [ 0.3846, -0.5253,  1.8102, -0.2334, -0.3446,  0.1800,  0.4126,  0.1311],
        [ 0.4028, -0.5231,  0.8992, -1.3941, -0.5818, -1.2945,  0.3011,  0.2570]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5788, -0.4020,  1.4208, -1.1312, -0.5480, -0.8002,  0.5432,
           0.2699],
         [ 0.5863, -0.3749,  1.0686, -1.2543, -0.4037, -1.0619,  0.5836,
           0.3854],
         [ 0.6158, -0.4225,  1.3307, -1.3253, -0.1924, -1.3252,  0.6721,
           0.1727],
         [ 0.5450, -0.4706,  1.7643,  0.0722, -0.3708,  0.3200,  0.4854,
           0.0612],
         [ 0.5898, -0.3908,  1.6748, -0.6924, -0.2594, -1.3313,  0.3873,
           0.2006],
         [ 0.5891, -0.3557,  1.7326,  0.3392, -0.4210, -0.1227,  0.3238,
           0.3007],
         [ 0.5115, -0.4332,  1.7557, -0.3152, -0.2536,  0.3931,  0.4139,
           0.2936],
         [ 0.5718, -0.3905,  1.0053, -1.3305, -0.4614, -1.1235,  0.4450,
           0.3392]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0146, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7759437253698707
step:  48
running loss:  0.016165494278538972

Train Steps: 48/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4069, 0.7900, 0.1650, 0.4275, 0.2267, 0.6290, 0.4947],
        [0.6271, 0.4040, 0.9000, 0.3250, 0.4938, 0.2300, 0.7192, 0.5413],
        [0.6275, 0.4048, 0.8488, 0.2883, 0.4463, 0.2033, 0.6321, 0.5155],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993],
        [0.6175, 0.3997, 0.6737, 0.2500, 0.4313, 0.1933, 0.5513, 0.5750],
        [0.6182, 0.3930, 0.8841, 0.3892, 0.3556, 0.4967, 0.6222, 0.5279]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.9754e-01, -5.1794e-01,  1.2568e+00, -1.4171e+00, -3.8776e-01,
         -1.1685e+00,  5.8964e-01,  4.4017e-02],
        [ 2.9641e-01, -6.1759e-01,  1.8639e+00, -7.7632e-01, -1.0200e-01,
         -1.1415e+00,  9.5960e-01,  2.4079e-01],
        [ 6.7223e-01, -3.8713e-01,  1.6328e+00, -9.0681e-01, -2.8939e-01,
         -1.2221e+00,  7.3069e-01,  1.4676e-01],
        [ 5.1888e-01, -4.4076e-01,  1.7888e+00, -4.8815e-01, -5.6462e-01,
         -9.1237e-01,  3.5224e-01,  2.3299e-01],
        [ 3.6893e-01, -5.5036e-01,  1.7233e+00, -2.2765e-01, -7.2718e-01,
         -5.9332e-01,  1.3962e-01,  3.8474e-01],
        [ 6.5524e-01, -3.6731e-01,  9.2200e-01, -1.1836e+00, -5.1188e-01,
         -1.2763e+00,  6.7762e-02, -1.0445e-03],
        [ 2.2790e-01, -6.3644e-01,  6.8836e-01, -1.2796e+00, -3.6872e-01,
         -1.4031e+00,  1.8171e-01,  4.5589e-01],
        [-1.6043e-02, -8.6411e-01,  1.7684e+00, -4.3701e-01, -6.8084e-01,
          4.7354e-02,  7.2844e-01,  1.9542e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0739e-01, -4.0631e-01,  1.3630e+00, -1.5238e+00, -3.1132e-01,
          -1.2390e+00,  6.1950e-01, -9.2270e-04],
         [ 6.1083e-01, -4.2008e-01,  1.8711e+00, -7.8476e-01, -5.3118e-03,
          -1.2236e+00,  1.0362e+00,  2.1421e-01],
         [ 6.1259e-01, -4.1609e-01,  1.6344e+00, -9.5412e-01, -2.2471e-01,
          -1.3467e+00,  6.3389e-01,  9.5262e-02],
         [ 5.7841e-01, -4.0062e-01,  1.7911e+00, -5.7008e-01, -5.1916e-01,
          -1.0331e+00,  4.1374e-01,  2.1391e-01],
         [ 5.6969e-01, -4.1132e-01,  1.7499e+00, -2.7667e-01, -6.4042e-01,
          -7.1547e-01,  1.5756e-01,  4.0319e-01],
         [ 5.3837e-01, -4.3934e-01,  9.7621e-01, -1.1851e+00, -4.2102e-01,
          -1.3852e+00,  1.7122e-01,  2.0118e-02],
         [ 5.6634e-01, -4.3965e-01,  8.2610e-01, -1.1312e+00, -2.9400e-01,
          -1.3929e+00,  2.6028e-01,  3.6998e-01],
         [ 5.6966e-01, -4.7064e-01,  1.7976e+00, -4.8841e-01, -6.4332e-01,
           8.0865e-03,  5.8780e-01,  1.5252e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0183, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.7942405147477984
step:  49
running loss:  0.016208990096893847
Train Steps: 49/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6271, 0.4024, 0.9000, 0.3517, 0.3700, 0.4517, 0.6931, 0.5285],
        [0.6329, 0.4175, 0.8550, 0.2333, 0.5425, 0.2250, 0.7398, 0.5609],
        [0.6058, 0.3978, 0.8287, 0.3600, 0.3400, 0.4050, 0.5529, 0.5461],
        [0.6273, 0.4105, 0.8988, 0.4517, 0.3912, 0.2550, 0.5894, 0.4811],
        [0.6325, 0.4165, 0.9000, 0.4617, 0.3813, 0.4900, 0.7485, 0.5447],
        [0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.3633, -0.6099,  1.7727, -0.7365, -0.6176, -0.1545,  0.9483,  0.1723],
        [ 0.3857, -0.5608,  1.5930, -1.4546,  0.1408, -1.4649,  1.0670,  0.2022],
        [ 0.3727, -0.5318,  1.4499, -0.7004, -0.8048, -0.4178,  0.1934,  0.1654],
        [ 0.6114, -0.3969,  1.8067, -0.3324, -0.5716, -1.1282,  0.2881, -0.0128],
        [ 0.6555, -0.3796,  1.7888, -0.1854, -0.6189,  0.0533,  0.9555,  0.2217],
        [ 0.5391, -0.4041,  1.6146, -0.1128, -0.4412, -1.0803,  0.1859,  0.5246],
        [ 0.6420, -0.3471,  1.5873,  0.1019, -0.2799,  0.1364, -0.0239,  0.1821],
        [ 0.5307, -0.4357,  1.6244,  0.2666, -0.3907, -0.1204,  0.2242,  0.3382]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6108, -0.4273,  1.8711, -0.6616, -0.5769, -0.1997,  0.9156,
           0.1554],
         [ 0.6372, -0.3575,  1.6633, -1.2082,  0.2199, -1.2467,  1.1313,
           0.3050],
         [ 0.5124, -0.4483,  1.5420, -0.6231, -0.7155, -0.4152,  0.2679,
           0.2365],
         [ 0.6116, -0.3898,  1.8654, -0.1997, -0.4788, -1.1081,  0.4367,
          -0.0637],
         [ 0.6355, -0.3623,  1.8711, -0.1535, -0.5249, -0.0226,  1.1715,
           0.2302],
         [ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5447, -0.3838,  1.7037,  0.1775, -0.1497,  0.1467,  0.1128,
           0.2431],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0114, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8056448325514793
step:  50
running loss:  0.016112896651029586
Train Steps: 50/90  Loss: 0.0161 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6296, 0.3989, 0.9000, 0.4150, 0.3613, 0.3867, 0.6400, 0.5100],
        [0.6172, 0.4055, 0.8175, 0.2650, 0.3550, 0.3683, 0.5787, 0.5550],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6127, 0.4084, 0.8700, 0.4467, 0.3987, 0.4317, 0.5013, 0.5471],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650],
        [0.6225, 0.4191, 0.8500, 0.4167, 0.3688, 0.3233, 0.5650, 0.5650],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6132, 0.3930, 0.8672, 0.4754, 0.3712, 0.5222, 0.5974, 0.5098]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.5583e-01, -4.2216e-01,  1.9241e+00, -2.7688e-01, -5.5424e-01,
         -6.0314e-01,  9.0408e-01,  1.5943e-01],
        [ 4.8151e-01, -4.7833e-01,  1.4162e+00, -1.0737e+00, -6.1699e-01,
         -6.1750e-01,  5.0363e-01,  2.4150e-01],
        [ 5.1282e-01, -4.4040e-01,  1.6403e+00, -5.1735e-01, -5.4924e-01,
         -9.2146e-01,  2.4885e-01,  2.8576e-01],
        [ 5.4983e-01, -4.1066e-01,  1.7298e+00, -1.6783e-01, -4.0936e-01,
         -3.1518e-01,  1.2596e-01,  2.7520e-01],
        [ 7.2211e-01, -3.1429e-01,  1.2671e+00, -1.0859e+00, -4.3973e-01,
         -1.0486e+00,  2.4254e-01,  2.3212e-01],
        [ 4.2025e-01, -4.8194e-01,  1.6345e+00, -3.9314e-01, -5.3136e-01,
         -8.7824e-01,  4.3722e-01,  4.3657e-01],
        [ 5.2567e-01, -4.8861e-01,  1.7370e+00, -2.4383e-02, -3.7794e-01,
          1.3738e-02,  3.3758e-01,  1.4508e-01],
        [ 6.6609e-01, -3.9081e-01,  1.7458e+00,  3.7987e-04, -4.4658e-01,
          1.1860e-01,  6.7305e-01,  1.6379e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6220, -0.4436,  1.8711, -0.3691, -0.6173, -0.4999,  0.6702,
           0.0697],
         [ 0.5647, -0.4129,  1.4901, -1.0619, -0.6462, -0.5846,  0.3873,
           0.2776],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.5441, -0.3997,  1.7326, -0.2228, -0.4441, -0.2921,  0.0296,
           0.2409],
         [ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237],
         [ 0.5894, -0.3503,  1.6402, -0.3614, -0.5827, -0.7925,  0.3238,
           0.3238],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.5466, -0.4706,  1.7198, -0.0903, -0.5712,  0.1261,  0.4733,
           0.0688]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0073, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8129367139190435
step:  51
running loss:  0.01593993556704007

Train Steps: 51/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6278, 0.4253, 0.8875, 0.5017, 0.4113, 0.2750, 0.5413, 0.6196],
        [0.6219, 0.4114, 0.8175, 0.2817, 0.3925, 0.2783, 0.5900, 0.5350],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [   nan,    nan, 0.9050, 0.3500, 0.5138, 0.2300, 0.7359, 0.5702],
        [0.6219, 0.4097, 0.8738, 0.3400, 0.3563, 0.4117, 0.5975, 0.5683],
        [0.6222, 0.3937, 0.8350, 0.5617, 0.4138, 0.4600, 0.5800, 0.5233],
        [0.6086, 0.3998, 0.8788, 0.4450, 0.4025, 0.4650, 0.5306, 0.5103],
        [0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6138, -0.3162,  1.6757, -0.0385, -0.3359, -1.0177,  0.2893,  0.4970],
        [ 0.3506, -0.4950,  1.3670, -1.0617, -0.4420, -0.9203,  0.3976,  0.2195],
        [ 0.6430, -0.3678,  1.8338, -0.3944, -0.5642, -0.1219,  0.7280,  0.2425],
        [-2.2223, -2.2294,  1.5857, -0.9523,  0.0569, -1.1593,  0.6875,  0.2897],
        [ 0.6182, -0.3403,  1.7174, -0.7481, -0.6678, -0.3971,  0.4993,  0.2399],
        [ 0.5614, -0.4385,  1.5351,  0.2646, -0.4268, -0.1418,  0.4188,  0.1910],
        [ 0.5111, -0.4241,  1.6742, -0.2531, -0.4758, -0.0282,  0.2072,  0.1283],
        [ 0.6298, -0.3722,  1.3168, -1.1760, -0.2614, -1.3129,  0.4119,  0.1058]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6139, -0.3216,  1.8134,  0.0313, -0.3864, -1.0157,  0.2144,
           0.5762],
         [ 0.5868, -0.3858,  1.4901, -0.9849, -0.4730, -1.0003,  0.4393,
           0.1852],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [-2.2859, -2.2859,  1.8942, -0.6693,  0.0871, -1.2236,  1.1130,
           0.3478],
         [ 0.5867, -0.3937,  1.7499, -0.7155, -0.6404, -0.3844,  0.4739,
           0.3392],
         [ 0.5880, -0.4676,  1.5709,  0.3084, -0.3748, -0.1612,  0.3931,
           0.1313],
         [ 0.5253, -0.4392,  1.7730, -0.2305, -0.4268, -0.1381,  0.1651,
           0.0712],
         [ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8228131141513586
step:  52
running loss:  0.015823329118295357
Train Steps: 52/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6164, 0.4119, 0.7913, 0.2650, 0.3538, 0.3500, 0.5614, 0.5038],
        [0.6082, 0.4024, 0.8738, 0.4017, 0.3688, 0.3950, 0.5306, 0.5136],
        [   nan,    nan, 0.7612, 0.3250, 0.4037, 0.2533, 0.5438, 0.5767],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090],
        [0.6145, 0.3983, 0.8700, 0.5017, 0.4400, 0.4800, 0.5375, 0.5750],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6219, -0.3752,  1.6652,  0.2994, -0.1866,  0.0215,  0.3743,  0.2948],
        [ 0.7644, -0.2511,  1.4535, -1.0984, -0.6169, -0.6842,  0.4383,  0.1393],
        [ 0.5370, -0.4199,  1.7934, -0.4256, -0.5711, -0.4423,  0.2916,  0.1527],
        [-1.5907, -1.8032,  1.1504, -1.0188, -0.3355, -1.0750,  0.1658,  0.3443],
        [ 0.7614, -0.2678,  1.8735, -0.4168, -0.5463, -0.5598,  0.2533,  0.0554],
        [ 0.7204, -0.3163,  1.9029, -0.5729, -0.3919, -1.0855,  0.6899,  0.2262],
        [ 0.5421, -0.4263,  1.7555, -0.0450, -0.2282, -0.0415,  0.2501,  0.3798],
        [ 0.6803, -0.3359,  1.5785,  0.1547, -0.4745, -0.0506,  0.9300,  0.3099]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5911, -0.4080,  1.6460,  0.3546, -0.2074,  0.0467,  0.4970,
           0.1852],
         [ 0.5614, -0.3834,  1.3688, -1.0619, -0.6520, -0.6693,  0.3069,
           0.0412],
         [ 0.5235, -0.4273,  1.7499, -0.4306, -0.5827, -0.4614,  0.1651,
           0.0862],
         [-2.2859, -2.2859,  1.2303, -0.7848, -0.4210, -1.1158,  0.2256,
           0.3777],
         [ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.6165, -0.4249,  1.7961, -0.5384, -0.4499, -0.9695,  0.6401,
           0.0652],
         [ 0.5525, -0.4463,  1.7326,  0.0313, -0.2536, -0.0688,  0.1968,
           0.3700],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8421134296804667
step:  53
running loss:  0.015888932635480503
Train Steps: 53/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6115, 0.4081, 0.6725, 0.2433, 0.4088, 0.1933, 0.5167, 0.5544],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767],
        [0.6106, 0.4022, 0.7125, 0.2650, 0.3713, 0.2700, 0.5431, 0.5123],
        [0.6150, 0.3935, 0.8696, 0.5158, 0.4647, 0.5329, 0.6041, 0.5153],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6222, 0.4169, 0.8638, 0.5650, 0.4313, 0.4783, 0.5637, 0.5633],
        [0.6277, 0.4103, 0.8087, 0.5717, 0.4188, 0.4750, 0.5663, 0.6083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6673, -0.3268,  1.1403, -1.1721, -0.3743, -1.4599,  0.3026,  0.2220],
        [ 0.6780, -0.3399,  2.0108, -0.0608, -0.5956, -0.1336,  0.5727,  0.2934],
        [ 0.3732, -0.5323,  1.4563, -1.1377, -0.4467, -0.9829,  0.7052,  0.2905],
        [ 0.6293, -0.3675,  1.2879, -1.0773, -0.5225, -1.0735,  0.2881,  0.0723],
        [ 0.4728, -0.4933,  1.8535,  0.0456, -0.1775,  0.2102,  0.4344,  0.1276],
        [-2.0240, -2.1459,  0.9359, -1.3552, -0.3156, -1.4738,  0.2332,  0.2545],
        [ 0.6209, -0.3482,  1.8802,  0.2570, -0.3235, -0.0597,  0.2850,  0.2831],
        [ 0.6233, -0.3547,  1.7081,  0.2817, -0.3935, -0.0655,  0.3343,  0.4167]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5385, -0.4010,  0.8203, -1.1620, -0.3979, -1.3929,  0.1005,
           0.2747],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777],
         [ 0.5342, -0.4280,  1.0051, -1.0619, -0.5711, -1.0388,  0.2226,
           0.0802],
         [ 0.5548, -0.4682,  1.7309,  0.0966, -0.1394,  0.1757,  0.5045,
           0.0942],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5880, -0.3605,  1.7037,  0.3238, -0.2940, -0.0765,  0.3180,
           0.3161],
         [ 0.6134, -0.3910,  1.4497,  0.3546, -0.3517, -0.0919,  0.3296,
           0.5239]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0127, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8548482032492757
step:  54
running loss:  0.015830522282393993
Train Steps: 54/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.3993, 0.8519, 0.4923, 0.3962, 0.4717, 0.6013, 0.5433],
        [0.6274, 0.4270, 0.8938, 0.4967, 0.3550, 0.4283, 0.5700, 0.5733],
        [   nan,    nan, 0.6688, 0.2513, 0.4113, 0.2117, 0.5193, 0.5933],
        [   nan,    nan, 0.7725, 0.2611, 0.3675, 0.2733, 0.5413, 0.5167],
        [0.6182, 0.3972, 0.8720, 0.5527, 0.3638, 0.3582, 0.5696, 0.5395],
        [0.6140, 0.4034, 0.8850, 0.4317, 0.4288, 0.5067, 0.5825, 0.5533],
        [0.6097, 0.3988, 0.8650, 0.5250, 0.4213, 0.5200, 0.5675, 0.5050],
        [0.6126, 0.4067, 0.8638, 0.5383, 0.4188, 0.4850, 0.5016, 0.5392]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7359, -0.2978,  1.7785, -0.0222, -0.3996, -0.1070,  0.5864,  0.2958],
        [ 0.7449, -0.2164,  1.9379, -0.0315, -0.5511, -0.3084,  0.5034,  0.3601],
        [-1.3691, -1.6667,  0.8612, -1.2613, -0.3751, -1.3698,  0.2615,  0.4043],
        [-1.9919, -2.1095,  1.2635, -1.0819, -0.4544, -1.0682,  0.2091,  0.1249],
        [ 0.7430, -0.2650,  1.8531,  0.1796, -0.5756, -0.6459,  0.5336,  0.1851],
        [ 0.8209, -0.2462,  1.8957, -0.2638, -0.2654,  0.1714,  0.5637,  0.2248],
        [ 0.7045, -0.3207,  1.8143,  0.1388, -0.2615,  0.2025,  0.2661,  0.0781],
        [ 0.8117, -0.2041,  1.7769,  0.2153, -0.3169,  0.0384,  0.1559,  0.1889]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.4415,  1.6491, -0.0122, -0.4557, -0.1073,  0.4912,
           0.2237],
         [ 0.6121, -0.3138,  1.8423,  0.0082, -0.6462, -0.3075,  0.3469,
           0.3623],
         [-2.2859, -2.2859,  0.8033, -1.1250, -0.3864, -1.3082,  0.1126,
           0.4543],
         [-2.2859, -2.2859,  1.2820, -1.0801, -0.5885, -1.0234,  0.2141,
           0.1005],
         [ 0.5697, -0.4514,  1.7420,  0.2672, -0.6055, -0.6312,  0.3449,
           0.2058],
         [ 0.5499, -0.4225,  1.8018, -0.2921, -0.3055,  0.0543,  0.4046,
           0.2699],
         [ 0.5303, -0.4440,  1.7095,  0.1390, -0.3402,  0.1159,  0.3353,
           0.0467],
         [ 0.5436, -0.4076,  1.7037,  0.2006, -0.3517, -0.0457,  0.0311,
           0.2048]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0322, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0322, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.8870698222890496
step:  55
running loss:  0.016128542223437264

Train Steps: 55/90  Loss: 0.0161 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183],
        [0.6279, 0.4050, 0.8025, 0.2200, 0.4313, 0.2733, 0.6820, 0.5320],
        [0.6142, 0.3982, 0.8650, 0.4883, 0.3912, 0.4317, 0.5315, 0.5350],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6205, 0.4081, 0.8950, 0.4017, 0.3788, 0.4700, 0.5963, 0.5667],
        [0.6201, 0.4064, 0.8688, 0.5050, 0.4225, 0.5100, 0.6138, 0.5500],
        [   nan,    nan, 0.7850, 0.2700, 0.4288, 0.1717, 0.5199, 0.4999],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6181, -0.3578,  1.4846, -0.8818, -0.5126, -1.1168,  0.2677,  0.1355],
        [ 0.7924, -0.2418,  1.4436, -1.0710, -0.3385, -1.0589,  0.8068,  0.2151],
        [ 0.7669, -0.2631,  1.7523,  0.1436, -0.4913, -0.1816,  0.1077,  0.1780],
        [ 0.7052, -0.3087,  1.6060,  0.0755, -0.2882,  0.1245,  0.3166,  0.2797],
        [ 0.8958, -0.1547,  1.7925, -0.2482, -0.5676, -0.0407,  0.4489,  0.3177],
        [ 0.8621, -0.2202,  1.7208,  0.1235, -0.3645,  0.0783,  0.3573,  0.2843],
        [-1.8809, -1.9708,  1.1639, -1.0491, -0.3869, -1.3121,  0.1169,  0.1347],
        [-2.1162, -2.1510,  1.5890, -1.0452,  0.0364, -1.0503,  0.8505,  0.3124]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7985e-01, -4.1555e-01,  1.3977e+00, -1.0388e+00, -4.6721e-01,
          -1.1004e+00,  3.4688e-01,  1.0824e-01],
         [ 6.1413e-01, -4.1527e-01,  1.4208e+00, -1.2697e+00, -2.9400e-01,
          -1.0234e+00,  8.6439e-01,  1.7146e-01],
         [ 5.5127e-01, -4.4673e-01,  1.7095e+00, -3.0331e-02, -4.7875e-01,
          -2.9207e-01,  1.6917e-01,  1.8544e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 5.7991e-01, -4.0115e-01,  1.8480e+00, -4.3064e-01, -5.3649e-01,
          -1.1501e-01,  4.6813e-01,  3.3149e-01],
         [ 5.7841e-01, -4.0878e-01,  1.7268e+00,  4.6651e-02, -3.3441e-01,
           6.9746e-02,  5.4896e-01,  2.5450e-01],
         [-2.2859e+00, -2.2859e+00,  1.3400e+00, -1.0388e+00, -3.0554e-01,
          -1.4930e+00,  1.1570e-01,  2.3124e-02],
         [-2.2859e+00, -2.2859e+00,  1.7557e+00, -1.1466e+00,  8.7067e-02,
          -1.0773e+00,  1.1239e+00,  2.7833e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0196, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0196, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9066562773659825
step:  56
running loss:  0.01619029066724969
Train Steps: 56/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6214, 0.4040, 0.8838, 0.3500, 0.3600, 0.5183, 0.6362, 0.5200],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483],
        [0.6239, 0.4107, 0.8162, 0.2763, 0.3625, 0.3600, 0.5988, 0.5700],
        [0.6102, 0.4005, 0.8688, 0.5100, 0.4813, 0.5400, 0.5404, 0.5064],
        [0.6160, 0.4086, 0.8775, 0.3983, 0.3750, 0.3783, 0.5128, 0.4882],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6204, 0.4049, 0.7975, 0.2700, 0.3937, 0.2567, 0.5700, 0.5183]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6829, -0.3401,  1.7066,  0.2011, -0.3595,  0.1086,  0.9120,  0.4105],
        [ 0.8049, -0.2839,  1.7544, -0.5074, -0.5299,  0.0459,  0.5987,  0.2734],
        [ 0.5709, -0.4311,  1.8545, -0.0998, -0.4727, -0.0623,  0.4352,  0.2658],
        [ 0.4772, -0.4543,  1.5151, -0.7104, -0.5211, -0.7383,  0.4856,  0.3452],
        [ 0.5559, -0.4322,  1.7555,  0.1990, -0.0483,  0.0407,  0.1077,  0.1094],
        [ 0.5763, -0.4048,  1.8463, -0.2421, -0.5570, -0.6607,  0.1426,  0.0537],
        [ 0.6002, -0.3517,  1.1491, -0.9855, -0.5656, -0.8767,  0.4835,  0.3959],
        [ 0.1484, -0.6880,  1.5266, -0.8485, -0.4765, -1.2423,  0.2979,  0.1321]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.5841, -0.4199,  1.7961, -0.6693, -0.6231,  0.1082,  0.6529,
           0.1159],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468],
         [ 0.5960, -0.3888,  1.4840, -1.0095, -0.6115, -0.6231,  0.4797,
           0.3469],
         [ 0.5328, -0.4361,  1.7268,  0.0697, -0.0630,  0.2083,  0.2103,
           0.0532],
         [ 0.5595, -0.3988,  1.7672, -0.4460, -0.5538, -0.5384,  0.0828,
          -0.0310],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.5798, -0.4156,  1.3977, -1.0388, -0.4672, -1.1004,  0.3469,
           0.1082]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0156, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9222497092559934
step:  57
running loss:  0.01617981946063146
Train Steps: 57/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6204, 0.4013, 0.8075, 0.2400, 0.4313, 0.2050, 0.5800, 0.5150],
        [0.6263, 0.4039, 0.9000, 0.4400, 0.3625, 0.4667, 0.6424, 0.4804],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778],
        [0.6197, 0.4051, 0.7812, 0.2650, 0.3513, 0.4050, 0.6112, 0.5500],
        [0.6216, 0.4099, 0.7225, 0.2033, 0.4188, 0.2217, 0.5975, 0.5283],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4680, -0.5072,  1.4882, -0.9610, -0.2499, -1.2891,  0.5355,  0.2191],
        [ 0.7412, -0.3457,  1.8500, -0.2045, -0.5993, -0.0566,  0.4874,  0.0658],
        [ 0.4956, -0.4700,  1.5806,  0.3873, -0.1192, -0.0546,  0.2357,  0.3602],
        [-0.0531, -0.8100,  1.7826, -0.8371, -0.3113, -1.0016,  0.6913,  0.2936],
        [ 0.5888, -0.4092,  1.1607, -1.1879, -0.4697, -1.2295,  0.2869,  0.0801],
        [ 0.7139, -0.3403,  1.3548, -0.9276, -0.6617, -0.3502,  0.5011,  0.3473],
        [ 0.2308, -0.6215,  1.1084, -1.1688, -0.3470, -1.2640,  0.4619,  0.3078],
        [ 0.5495, -0.4039,  1.7657, -0.5195, -0.6240, -0.7107,  0.2321,  0.2657]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5796, -0.4326,  1.4439, -1.1774, -0.2940, -1.3390,  0.3931,
           0.0928],
         [ 0.6072, -0.4206,  1.8711, -0.2536, -0.6115, -0.1304,  0.6812,
          -0.0670],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791],
         [ 0.5763, -0.4147,  1.3226, -1.0619, -0.6635, -0.4152,  0.5374,
           0.2545],
         [ 0.5850, -0.3925,  1.0513, -1.3467, -0.3517, -1.2620,  0.4739,
           0.1544],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0198, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0198, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9420179659500718
step:  58
running loss:  0.016241689068104685
Train Steps: 58/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6193, 0.3930, 0.8949, 0.4437, 0.3852, 0.5435, 0.6263, 0.5263],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6126, 0.4039, 0.8237, 0.3967, 0.3625, 0.3600, 0.5894, 0.6138],
        [   nan,    nan, 0.6412, 0.1900, 0.4238, 0.1883, 0.5487, 0.5700],
        [0.6199, 0.3952, 0.8573, 0.5374, 0.4075, 0.4687, 0.5942, 0.5377],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6204, 0.4091, 0.8950, 0.4783, 0.3613, 0.4617, 0.6063, 0.5617]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5118, -0.4744,  1.7803, -0.3263, -0.4744,  0.1388,  0.4503,  0.0420],
        [ 0.4170, -0.4748,  1.6589,  0.1730, -0.5230, -0.5177,  0.1883,  0.3262],
        [ 0.4429, -0.4836,  1.5923, -0.5252, -0.5800, -0.5985,  0.3619,  0.4124],
        [-2.6916, -2.5599,  0.9813, -1.2277, -0.3173, -1.4307,  0.2689,  0.2390],
        [ 0.5146, -0.5080,  1.7030,  0.0749, -0.3763, -0.1399,  0.4489,  0.0463],
        [ 0.4605, -0.4835,  1.7907, -0.1342, -0.1387,  0.3505,  0.4464,  0.1572],
        [ 0.4982, -0.4772,  0.9685, -1.1748, -0.4223, -1.1938,  0.3804,  0.2206],
        [ 0.5921, -0.4157,  1.8043, -0.1693, -0.5291, -0.1697,  0.5353,  0.2092]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5746, -0.4706,  1.8476, -0.2365, -0.5068,  0.2245,  0.6069,
           0.1449],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5438, -0.4206,  1.5189, -0.4537, -0.6115, -0.6231,  0.4365,
           0.5491],
         [-2.2859, -2.2859,  0.6760, -1.4083, -0.3286, -1.4160,  0.2487,
           0.3469],
         [ 0.5775, -0.4607,  1.6741,  0.1962, -0.4036, -0.1212,  0.4588,
           0.1979],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.5797, -0.3965,  1.8480, -0.0765, -0.6173, -0.1535,  0.5143,
           0.3084]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0128, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.95481295324862
step:  59
running loss:  0.016183270394044408

Train Steps: 59/90  Loss: 0.0162 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6222, 0.4172, 0.8850, 0.5217, 0.3738, 0.4600, 0.5700, 0.5633],
        [0.6266, 0.4070, 0.8712, 0.5600, 0.3713, 0.4783, 0.5775, 0.6100],
        [0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6307, 0.4060, 0.8950, 0.5183, 0.3750, 0.3850, 0.6338, 0.4938],
        [0.6084, 0.3981, 0.8588, 0.5233, 0.4600, 0.5367, 0.5680, 0.5006],
        [0.6178, 0.4059, 0.7525, 0.2250, 0.4313, 0.1783, 0.5404, 0.5240],
        [0.6134, 0.4090, 0.6926, 0.2819, 0.3538, 0.3233, 0.5563, 0.5667]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6028, -0.3939,  1.3621, -0.7628, -0.6650, -0.5480,  0.2328,  0.2807],
        [ 0.6330, -0.3729,  1.8560, -0.0090, -0.5082, -0.1894,  0.3534,  0.3002],
        [ 0.6191, -0.4331,  1.6896,  0.1688, -0.5121, -0.0415,  0.5741,  0.4011],
        [ 0.1725, -0.7107,  1.6695,  0.1222, -0.4347,  0.0672,  0.2956,  0.1270],
        [ 0.5586, -0.4837,  1.9110, -0.0396, -0.5220, -0.5785,  0.6986, -0.0429],
        [ 0.4333, -0.5479,  1.6927,  0.0067, -0.1288,  0.1918,  0.2718,  0.0897],
        [ 0.2199, -0.6341,  1.2996, -1.2787, -0.2926, -1.4296,  0.4385,  0.1184],
        [ 0.6418, -0.3789,  1.0555, -1.0573, -0.6544, -0.7649,  0.3476,  0.3257]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5879, -0.3591,  1.8018,  0.1236, -0.5596, -0.1612,  0.3469,
           0.3161],
         [ 0.6081, -0.4059,  1.7383,  0.3007, -0.5711, -0.0765,  0.3815,
           0.5316],
         [ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.6273, -0.4105,  1.8480,  0.1082, -0.5538, -0.5076,  0.6414,
          -0.0049],
         [ 0.5241, -0.4470,  1.6806,  0.1313, -0.1612,  0.1929,  0.3378,
           0.0261],
         [ 0.5676, -0.4112,  1.1898, -1.2467, -0.2940, -1.4622,  0.2103,
           0.1343],
         [ 0.5473, -0.3966,  0.9131, -0.9838, -0.6520, -0.7925,  0.2834,
           0.3315]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0120, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9668285604566336
step:  60
running loss:  0.016113809340943894
Train Steps: 60/90  Loss: 0.0161 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6189, 0.3961, 0.7589, 0.2256, 0.3759, 0.3280, 0.6184, 0.5334],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6364, 0.4092, 0.8525, 0.5633, 0.3875, 0.4950, 0.6599, 0.5285],
        [0.6212, 0.4159, 0.8675, 0.5783, 0.4088, 0.4317, 0.5613, 0.5917],
        [0.6122, 0.3993, 0.8738, 0.4667, 0.4517, 0.4879, 0.5155, 0.4927],
        [0.6275, 0.4003, 0.9100, 0.3783, 0.4388, 0.3133, 0.7058, 0.5343],
        [0.6124, 0.4083, 0.6954, 0.3069, 0.3650, 0.2750, 0.5163, 0.5485],
        [0.6307, 0.3998, 0.8500, 0.5233, 0.3850, 0.5050, 0.7446, 0.5320]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5016, -0.4703,  1.2278, -1.2672, -0.5932, -0.8244,  0.4420,  0.1547],
        [ 0.2497, -0.6129,  1.6548, -0.4681, -0.5996, -0.8265, -0.0047,  0.1981],
        [ 0.5524, -0.4908,  1.6442,  0.1523, -0.4874,  0.0100,  0.6921,  0.1528],
        [ 0.4261, -0.4861,  1.6044,  0.1678, -0.3794, -0.2528,  0.2993,  0.4646],
        [ 0.5280, -0.4921,  1.7713, -0.2128, -0.2425,  0.0598,  0.1536,  0.0179],
        [ 0.4659, -0.5584,  1.8527, -0.6520, -0.3224, -0.8461,  0.8426,  0.0868],
        [ 0.4742, -0.4619,  0.9765, -0.9842, -0.6332, -0.9425,  0.0351,  0.2549],
        [ 0.5845, -0.4672,  1.6357,  0.0128, -0.4951,  0.0762,  0.8753,  0.1771]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 5.7296e-01, -4.5619e-01,  1.2195e+00, -1.2440e+00, -5.4966e-01,
          -7.7109e-01,  5.7045e-01,  1.7788e-01],
         [ 5.4700e-01, -3.9515e-01,  1.6377e+00, -4.2531e-01, -6.2887e-01,
          -8.0785e-01,  2.4925e-02,  2.1157e-01],
         [ 6.5365e-01, -3.9601e-01,  1.6517e+00,  3.1609e-01, -4.9607e-01,
           4.6189e-04,  7.6203e-01,  1.5543e-01],
         [ 5.8360e-01, -3.6490e-01,  1.7210e+00,  3.8537e-01, -3.9792e-01,
          -2.9207e-01,  3.0647e-01,  4.4696e-01],
         [ 5.4166e-01, -4.4175e-01,  1.7499e+00, -1.3041e-01, -1.9942e-01,
          -3.2367e-02,  9.5140e-02, -9.9401e-03],
         [ 6.1248e-01, -4.3693e-01,  1.9173e+00, -5.3841e-01, -2.5935e-01,
          -8.3865e-01,  9.7406e-01,  1.8214e-01],
         [ 5.4249e-01, -3.9977e-01,  9.2628e-01, -8.6826e-01, -6.0000e-01,
          -1.0157e+00,  9.8951e-02,  2.4764e-01],
         [ 6.2730e-01, -4.3934e-01,  1.6402e+00,  1.3133e-01, -5.0762e-01,
           4.6651e-02,  1.1532e+00,  1.7146e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.9755781814455986
step:  61
running loss:  0.015993084941731125
Train Steps: 61/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6079, 0.3964, 0.7420, 0.2958, 0.3563, 0.2917, 0.5351, 0.4980],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6192, 0.4128, 0.8513, 0.5617, 0.4200, 0.5267, 0.5850, 0.5633],
        [0.6182, 0.3972, 0.8552, 0.5914, 0.3683, 0.4181, 0.5688, 0.5378],
        [0.6111, 0.4019, 0.8350, 0.3867, 0.3500, 0.4283, 0.5480, 0.5719],
        [0.6219, 0.4089, 0.8938, 0.4800, 0.3825, 0.4450, 0.5850, 0.5200],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4429, -0.5028,  1.0489, -1.0283, -0.5719, -0.9001,  0.1954,  0.0527],
        [-2.7236, -2.5519,  1.5574, -1.1088,  0.1584, -1.0457,  1.0681,  0.3034],
        [ 0.5035, -0.4616,  1.5655,  0.1601, -0.3356,  0.1247,  0.5148,  0.2402],
        [ 0.3959, -0.5453,  1.4629,  0.1522, -0.5350, -0.4185,  0.3992,  0.2318],
        [ 0.3227, -0.5639,  1.4088, -0.5852, -0.6078, -0.3931,  0.1804,  0.2821],
        [ 0.5485, -0.4297,  1.6632, -0.2612, -0.4895, -0.2028,  0.5109,  0.1559],
        [ 0.5043, -0.4713,  1.2385, -0.8179, -0.6154, -0.6846,  0.3148,  0.1545],
        [ 0.5604, -0.4319,  1.6134, -0.8001, -0.5624, -0.7814,  0.1643,  0.0606]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5219, -0.4550,  1.1415, -0.9196, -0.6404, -0.9387,  0.1856,
           0.0141],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.5742, -0.3792,  1.6460,  0.3084, -0.3460,  0.1467,  0.4162,
           0.3161],
         [ 0.5697, -0.4514,  1.6642,  0.4459, -0.5850, -0.3546,  0.3414,
           0.1982],
         [ 0.5367, -0.4294,  1.5709, -0.4999, -0.6693, -0.3075,  0.2455,
           0.3559],
         [ 0.5865, -0.3973,  1.8423, -0.0688, -0.5192, -0.2305,  0.4162,
           0.1159],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0143, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  0.989847207441926
step:  62
running loss:  0.015965277539385904
Train Steps: 62/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6114, 0.4018, 0.7213, 0.1967, 0.3763, 0.2700, 0.5875, 0.5533],
        [0.6225, 0.4116, 0.8662, 0.3517, 0.3663, 0.3233, 0.5837, 0.5317],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6332, 0.4165, 0.9100, 0.3350, 0.4188, 0.3683, 0.7438, 0.5528],
        [   nan,    nan, 0.8675, 0.2833, 0.5350, 0.1983, 0.6678, 0.5621],
        [0.6200, 0.4118, 0.8287, 0.4017, 0.3775, 0.2833, 0.5391, 0.5799],
        [0.6261, 0.4045, 0.8865, 0.5369, 0.3895, 0.4859, 0.6683, 0.5249],
        [0.6198, 0.4075, 0.8650, 0.5617, 0.4150, 0.4367, 0.5450, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.8423e-01, -4.0921e-01,  8.4051e-01, -1.3952e+00, -5.2819e-01,
         -9.3486e-01,  2.4505e-01,  2.1930e-01],
        [ 6.5671e-01, -3.4788e-01,  1.5112e+00, -7.5554e-01, -6.2020e-01,
         -6.4918e-01,  2.0874e-01,  1.8594e-01],
        [ 4.3317e-01, -5.3625e-01,  1.7903e+00, -5.5146e-01, -1.9873e-01,
         -9.7180e-01,  7.4523e-01,  9.3876e-02],
        [ 2.9301e-01, -5.9894e-01,  1.7694e+00, -6.2905e-01, -4.0333e-01,
         -5.2115e-01,  8.2788e-01,  2.0718e-01],
        [-2.7556e+00, -2.5627e+00,  1.4485e+00, -1.1333e+00, -9.4608e-04,
         -1.1536e+00,  7.4314e-01,  2.3110e-01],
        [ 3.9862e-01, -4.9696e-01,  1.3710e+00, -4.8671e-01, -5.6165e-01,
         -8.6880e-01,  1.3935e-02,  3.0212e-01],
        [ 6.2111e-01, -4.1407e-01,  1.5811e+00,  4.3570e-02, -5.5322e-01,
          2.0704e-02,  6.7610e-01,  4.8456e-02],
        [ 3.0005e-01, -5.6617e-01,  1.4875e+00,  2.0248e-01, -4.3813e-01,
         -2.1301e-01,  2.2350e-01,  2.4070e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5380, -0.4302,  1.0455, -1.3775, -0.5480, -1.0388,  0.4277,
           0.2699],
         [ 0.5893, -0.3847,  1.7152, -0.6616, -0.5942, -0.7925,  0.4104,
           0.1698],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.6388, -0.3623,  1.9173, -0.7386, -0.3517, -0.5846,  1.1495,
           0.2676],
         [-2.2859, -2.2859,  1.7210, -0.9772,  0.1852, -1.3698,  0.7986,
           0.3104],
         [ 0.5779, -0.3840,  1.5420, -0.4306, -0.5423, -0.9772,  0.2041,
           0.3928],
         [ 0.6059, -0.4177,  1.8087,  0.1941, -0.4868, -0.0414,  0.8010,
           0.1385],
         [ 0.5770, -0.4036,  1.7095,  0.3084, -0.3691, -0.2690,  0.2314,
           0.3238]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0255, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0255, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.015299854800105
step:  63
running loss:  0.01611587071111278

Train Steps: 63/90  Loss: 0.0161 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6086, 0.4019, 0.7782, 0.4278, 0.3625, 0.4350, 0.5150, 0.5285],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6182, 0.3987, 0.7878, 0.2889, 0.3699, 0.3260, 0.6086, 0.5367],
        [0.6095, 0.3970, 0.8688, 0.4767, 0.4860, 0.4879, 0.5191, 0.4940],
        [0.6170, 0.4102, 0.7468, 0.3695, 0.3463, 0.3767, 0.5238, 0.5823],
        [0.6296, 0.4008, 0.9150, 0.4317, 0.4263, 0.3050, 0.7256, 0.5413],
        [0.6266, 0.4067, 0.8588, 0.2867, 0.4300, 0.2850, 0.6325, 0.5267],
        [0.6289, 0.4019, 0.8113, 0.5467, 0.3875, 0.5017, 0.7367, 0.5332]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4983, -0.4283,  1.2735, -0.4185, -0.6757, -0.3920, -0.0064,  0.1818],
        [ 0.4463, -0.4745,  1.7635, -0.0741, -0.2198,  0.0709,  0.3045,  0.0067],
        [ 0.4358, -0.5093,  1.3346, -1.0143, -0.6237, -0.7973,  0.4648,  0.2807],
        [ 0.4776, -0.4860,  1.7109, -0.0809, -0.1550, -0.0845,  0.2076,  0.0665],
        [ 0.3352, -0.4959,  1.1055, -0.6256, -0.7360, -0.6334,  0.1003,  0.4328],
        [ 0.3745, -0.5841,  1.9757, -0.3037, -0.3375, -0.9440,  1.0600,  0.1346],
        [ 0.7117, -0.3051,  1.6728, -0.9691, -0.3679, -1.0242,  0.5702,  0.1927],
        [ 0.6047, -0.4263,  1.4712,  0.2078, -0.5265, -0.0830,  1.0713,  0.1632]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5253, -0.4296,  1.3084, -0.3098, -0.6115, -0.2767,  0.0928,
           0.1552],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682],
         [ 0.5697, -0.4442,  1.3529, -0.9515, -0.5774, -0.7801,  0.5253,
           0.1931],
         [ 0.5292, -0.4520,  1.7268, -0.0842, -0.0413, -0.0324,  0.1116,
          -0.0039],
         [ 0.5639, -0.3911,  1.1634, -0.5794, -0.6866, -0.5461,  0.1334,
           0.4036],
         [ 0.6224, -0.4345,  1.9404, -0.2921, -0.3171, -0.8771,  1.0655,
           0.2142],
         [ 0.6084, -0.4076,  1.6806, -0.9618, -0.2998, -0.9695,  0.6356,
           0.1467],
         [ 0.6191, -0.4297,  1.4612,  0.2391, -0.4961,  0.0313,  1.1166,
           0.1768]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0063, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.021567848045379
step:  64
running loss:  0.015961997625709046
Train Steps: 64/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6260, 0.4161, 0.9000, 0.3833, 0.4450, 0.2133, 0.6237, 0.4986],
        [0.6175, 0.4091, 0.7863, 0.2800, 0.3638, 0.3583, 0.6188, 0.5433],
        [0.6179, 0.3993, 0.8925, 0.4789, 0.3879, 0.4900, 0.6041, 0.5279],
        [0.6250, 0.4106, 0.8700, 0.3717, 0.3588, 0.4967, 0.6038, 0.5167],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679],
        [0.6125, 0.3983, 0.8750, 0.4867, 0.4275, 0.4783, 0.5413, 0.5717],
        [0.6214, 0.3982, 0.8938, 0.4517, 0.3663, 0.4083, 0.5863, 0.5050],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4823, -0.4508,  1.8019, -0.3918, -0.2574, -1.2008,  0.5459,  0.0978],
        [ 0.5608, -0.3837,  1.1220, -1.0028, -0.6592, -0.5652,  0.3373,  0.2505],
        [ 0.4518, -0.4826,  1.6649, -0.0459, -0.5189, -0.0822,  0.5264,  0.1332],
        [ 0.6273, -0.3566,  1.5237, -0.4565, -0.6031, -0.0520,  0.6042,  0.1593],
        [-2.3707, -2.2975,  1.5311, -1.0986,  0.2021, -1.1821,  1.1018,  0.3396],
        [ 0.4574, -0.4729,  1.5861,  0.0844, -0.3624, -0.0815,  0.3012,  0.2289],
        [ 0.5393, -0.4603,  1.6396, -0.0924, -0.6100, -0.3728,  0.4136,  0.0178],
        [ 0.6332, -0.3491,  1.5950, -0.1174, -0.4494, -0.1350,  0.1423,  0.0673]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6054, -0.3641,  1.8711, -0.5153, -0.2305, -1.3005,  0.5948,
           0.0171],
         [ 0.5665, -0.3963,  1.3457, -0.9926, -0.6058, -0.6308,  0.5721,
           0.2237],
         [ 0.5680, -0.4417,  1.8365, -0.0740, -0.4941, -0.0227,  0.5045,
           0.1525],
         [ 0.6010, -0.3896,  1.7326, -0.5692, -0.6289,  0.0082,  0.5028,
           0.1005],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371],
         [ 0.5432, -0.4462,  1.7557, -0.0380, -0.3113, -0.0765,  0.2141,
           0.3546],
         [ 0.5844, -0.4466,  1.8423, -0.1997, -0.5942, -0.3998,  0.4219,
           0.0467],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0087, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0303018535487354
step:  65
running loss:  0.015850797746903622
Train Steps: 65/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6070, 0.3979, 0.8575, 0.5083, 0.4350, 0.5400, 0.5180, 0.5466],
        [0.6185, 0.4067, 0.8838, 0.4450, 0.4037, 0.4733, 0.5213, 0.5142],
        [0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6243, 0.4128, 0.7762, 0.2717, 0.3825, 0.3133, 0.6212, 0.5417],
        [0.6257, 0.4034, 0.8287, 0.2333, 0.3925, 0.2717, 0.6330, 0.4901],
        [0.6332, 0.4128, 0.9200, 0.3517, 0.4400, 0.3833, 0.7461, 0.5494],
        [0.6160, 0.4093, 0.8314, 0.4417, 0.3675, 0.4583, 0.5250, 0.5808]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5700, -0.4073,  1.6418,  0.1862, -0.2623,  0.1250,  0.4004,  0.1653],
        [ 0.7220, -0.3087,  1.7366, -0.1382, -0.4315, -0.1361,  0.2370,  0.0559],
        [ 0.4944, -0.4977,  1.6870, -0.6288, -0.4603, -1.0396,  0.5128, -0.0098],
        [ 0.5891, -0.3530,  1.6456,  0.2662, -0.5829, -0.4358,  0.4185,  0.4307],
        [ 0.7564, -0.2906,  1.2859, -1.0564, -0.4996, -0.8074,  0.6509,  0.2876],
        [ 0.5688, -0.4439,  1.4126, -1.1453, -0.4822, -0.9829,  0.5486, -0.0029],
        [ 0.5284, -0.4687,  1.8423, -0.5432, -0.2972, -0.5283,  1.1121,  0.2081],
        [ 0.4286, -0.4599,  1.5429, -0.1226, -0.6268, -0.2642,  0.2406,  0.3169]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5178, -0.4480,  1.6748,  0.0620, -0.2767,  0.2083,  0.1067,
           0.2386],
         [ 0.5708, -0.4075,  1.7961, -0.2305, -0.4210, -0.0996,  0.1219,
           0.0893],
         [ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.5977, -0.3792,  1.2995, -1.0311, -0.5192, -0.8386,  0.5836,
           0.2160],
         [ 0.6042, -0.4225,  1.5420, -1.2082, -0.4730, -1.0311,  0.6380,
          -0.0220],
         [ 0.6388, -0.3792,  1.9635, -0.6616, -0.2536, -0.5153,  1.1605,
           0.2516],
         [ 0.5592, -0.3956,  1.5543, -0.2456, -0.5885, -0.1689,  0.1392,
           0.3968]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0066, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0369146969169378
step:  66
running loss:  0.015710828741165726
Train Steps: 66/90  Loss: 0.0157 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6136, 0.4085, 0.6688, 0.2317, 0.3862, 0.2367, 0.5517, 0.5783],
        [0.6136, 0.4117, 0.8700, 0.5167, 0.4188, 0.5083, 0.5147, 0.5495],
        [0.6299, 0.4303, 0.7963, 0.3933, 0.4850, 0.2283, 0.5480, 0.6222],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6196, 0.4094, 0.7562, 0.2817, 0.3937, 0.3183, 0.6013, 0.6183],
        [0.6129, 0.4063, 0.8738, 0.5250, 0.4313, 0.4733, 0.5230, 0.5874],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6085, 0.4008, 0.8588, 0.5200, 0.4959, 0.4977, 0.5175, 0.5283]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4583, -0.4992,  0.8629, -1.1960, -0.6042, -1.1037,  0.4087,  0.1988],
        [ 0.5696, -0.4237,  1.8692,  0.1697, -0.4560,  0.0712,  0.5130,  0.0453],
        [ 0.6720, -0.3059,  1.6680, -0.4913, -0.1965, -1.1177,  0.5406,  0.3097],
        [ 0.2959, -0.5816,  1.4801, -0.9764, -0.5421, -1.1075,  0.2888,  0.1507],
        [ 0.6170, -0.3856,  1.3985, -0.9501, -0.5622, -0.8307,  0.7079,  0.3880],
        [ 0.6378, -0.3512,  1.8180,  0.2329, -0.4365, -0.0178,  0.4217,  0.2185],
        [ 0.4949, -0.4244,  1.3233, -1.0124, -0.2559, -1.2040,  0.5447,  0.3054],
        [ 0.5707, -0.4398,  1.8753,  0.1660, -0.1342,  0.0073,  0.5037,  0.0035]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5483, -0.3991,  0.8030, -1.2159, -0.5018, -1.1928,  0.2624,
           0.3852],
         [ 0.5482, -0.3841,  1.7326,  0.1005, -0.3517,  0.0620,  0.0912,
           0.2522],
         [ 0.6237, -0.2983,  1.3919, -0.4691, -0.0457, -1.2313,  0.2453,
           0.5882],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5759, -0.3948,  1.2072, -0.9849, -0.4672, -0.8156,  0.4912,
           0.5701],
         [ 0.5453, -0.4091,  1.7499,  0.1390, -0.2940, -0.0996,  0.1300,
           0.4272],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5245, -0.4347,  1.6806,  0.1159,  0.0046,  0.0129,  0.1044,
           0.1544]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0235, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.060399990528822
step:  67
running loss:  0.015826865530280926

Train Steps: 67/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4066, 0.8513, 0.5717, 0.4500, 0.5050, 0.6025, 0.5350],
        [0.6361, 0.4071, 0.9100, 0.4783, 0.3738, 0.3967, 0.6670, 0.5332],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6214, 0.4116, 0.7750, 0.2317, 0.4487, 0.1883, 0.6200, 0.5400],
        [0.6150, 0.3949, 0.8800, 0.4033, 0.3825, 0.4900, 0.5875, 0.5483],
        [0.6274, 0.4099, 0.8625, 0.3233, 0.4400, 0.1983, 0.5876, 0.4869],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6203, 0.4072, 0.8892, 0.3523, 0.3783, 0.3017, 0.5898, 0.5478]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6211, -0.3934,  1.7261,  0.4591, -0.2666,  0.0805,  0.5491,  0.1778],
        [ 0.6831, -0.3731,  1.9187, -0.0112, -0.6001, -0.3599,  0.7898,  0.1492],
        [ 0.3914, -0.5190,  0.9761, -1.2904, -0.5236, -1.0034,  0.4221,  0.2727],
        [ 0.5367, -0.4494,  1.2859, -1.1676, -0.2218, -1.2896,  0.5564,  0.1938],
        [ 0.7263, -0.3094,  1.7982, -0.3888, -0.5521,  0.0118,  0.5007,  0.1631],
        [ 0.6938, -0.3546,  1.8083, -0.7449, -0.2507, -1.3090,  0.5148,  0.0247],
        [ 0.5000, -0.4189,  1.0990, -1.0047, -0.2257, -1.2594,  0.3236,  0.4026],
        [ 0.6410, -0.3702,  1.9326, -0.6053, -0.5425, -0.7602,  0.4749,  0.2303]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5911, -0.4080,  1.6460,  0.3546, -0.2074,  0.0467,  0.4970,
           0.1852],
         [ 0.6520, -0.4056,  1.9173, -0.0765, -0.5596, -0.4537,  0.7949,
           0.1768],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5842, -0.3848,  1.2938, -1.2159, -0.2132, -1.4160,  0.5778,
           0.2083],
         [ 0.5546, -0.4620,  1.7788, -0.4229, -0.5192, -0.0226,  0.4277,
           0.2468],
         [ 0.6119, -0.3927,  1.6979, -0.7925, -0.2536, -1.3698,  0.4282,
          -0.0368],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5792, -0.4052,  1.8214, -0.6587, -0.5384, -0.8924,  0.4381,
           0.2442]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0052, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0052, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0655750310979784
step:  68
running loss:  0.015670221045558506
Train Steps: 68/90  Loss: 0.0157 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6201, 0.4151, 0.8588, 0.5467, 0.3700, 0.3950, 0.5637, 0.5933],
        [0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6179, 0.4008, 0.8600, 0.4015, 0.3932, 0.2515, 0.5711, 0.5438],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [0.6168, 0.4055, 0.7575, 0.2950, 0.4050, 0.2717, 0.5938, 0.6167],
        [0.6353, 0.4128, 0.8488, 0.2600, 0.5525, 0.1616, 0.6694, 0.5540],
        [0.6198, 0.4164, 0.8700, 0.5067, 0.4625, 0.5650, 0.5464, 0.5197]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 6.4932e-01, -3.1109e-01,  1.7652e+00,  1.8150e-01, -6.3398e-01,
         -3.7820e-01,  2.5626e-01,  3.6480e-01],
        [ 5.5427e-01, -3.8678e-01,  1.2450e+00, -1.0782e+00, -2.0523e-01,
         -1.2230e+00,  4.0710e-01,  3.8396e-01],
        [ 5.8606e-01, -4.1393e-01,  1.8375e+00,  1.7360e-01, -6.3783e-01,
         -4.7665e-01,  3.0656e-01,  1.1668e-01],
        [ 7.0116e-01, -3.3979e-01,  1.6863e+00, -5.5139e-01, -4.7769e-01,
         -1.0744e+00,  2.7354e-01,  1.6098e-01],
        [ 6.5969e-01, -3.8419e-01,  1.7464e+00,  1.3380e-01, -3.9393e-01,
          1.2854e-01,  9.0110e-01,  1.3022e-01],
        [ 5.2570e-01, -4.2665e-01,  1.2532e+00, -1.0416e+00, -5.1630e-01,
         -9.5149e-01,  4.5284e-01,  4.6819e-01],
        [ 5.8049e-01, -4.0814e-01,  1.6135e+00, -1.3326e+00,  2.0178e-01,
         -1.3246e+00,  9.6435e-01,  2.3764e-01],
        [ 6.0887e-01, -3.5483e-01,  1.8828e+00, -1.1708e-03, -2.4791e-01,
          1.8476e-01,  4.1590e-01,  7.2394e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5785, -0.3687,  1.6806,  0.2391, -0.5769, -0.4614,  0.3180,
           0.4547],
         [ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5680, -0.4345,  1.6864, -0.4315, -0.4698, -1.1241,  0.3518,
           0.2261],
         [ 0.6042, -0.4273,  1.7198,  0.2184, -0.3478,  0.1149,  0.8062,
           0.1176],
         [ 0.5631, -0.4129,  1.2129, -0.9233, -0.4152, -1.0311,  0.4566,
           0.5624],
         [ 0.6487, -0.3792,  1.6344, -1.0850,  0.2659, -1.5397,  0.8059,
           0.2730],
         [ 0.5770, -0.3624,  1.7326,  0.0543, -0.1497,  0.3238,  0.2378,
           0.1146]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0071, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0071, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0726689579896629
step:  69
running loss:  0.01554592692738642
Train Steps: 69/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6048, 0.3928, 0.8538, 0.5433, 0.3875, 0.5117, 0.5266, 0.4719],
        [0.6055, 0.4015, 0.7425, 0.2033, 0.4113, 0.1883, 0.5217, 0.4823],
        [0.6148, 0.3996, 0.8488, 0.3867, 0.3488, 0.4067, 0.5863, 0.5000],
        [0.6136, 0.3955, 0.8400, 0.3267, 0.3500, 0.4200, 0.5863, 0.5467],
        [0.6223, 0.4130, 0.8100, 0.2983, 0.3525, 0.3900, 0.5694, 0.5103],
        [0.6361, 0.4102, 0.8650, 0.2983, 0.4888, 0.2000, 0.6702, 0.5459],
        [0.6271, 0.4040, 0.9138, 0.3750, 0.4625, 0.2617, 0.7232, 0.5413],
        [0.6214, 0.4112, 0.7838, 0.2117, 0.3650, 0.3133, 0.5675, 0.5083]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5832, -0.4019,  1.7111,  0.4521, -0.3889,  0.0626,  0.1651,  0.1931],
        [ 0.5105, -0.4393,  0.9998, -1.1845, -0.3595, -1.3779,  0.1922,  0.1342],
        [ 0.6528, -0.3713,  1.6885, -0.3394, -0.6116, -0.3599,  0.3463,  0.2027],
        [ 0.6792, -0.3349,  1.6055, -0.6538, -0.5749, -0.4010,  0.4729,  0.3349],
        [ 0.8564, -0.2081,  1.5162, -0.6773, -0.5229, -0.5072,  0.3051,  0.3393],
        [ 0.6010, -0.4154,  1.7584, -0.8380,  0.0861, -1.3183,  0.9652,  0.2800],
        [ 0.6342, -0.4167,  2.0447, -0.4159, -0.0362, -1.1658,  1.0665,  0.2960],
        [ 0.6628, -0.3548,  1.3875, -1.2671, -0.5098, -0.9115,  0.4795,  0.2078]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5079, -0.4714,  1.6575,  0.2237, -0.4961,  0.0774,  0.1465,
          -0.1061],
         [ 0.5109, -0.4316,  1.1436, -1.3467, -0.3864, -1.4160,  0.1239,
          -0.0580],
         [ 0.5538, -0.4400,  1.6344, -0.4999, -0.6751, -0.4075,  0.4219,
           0.0236],
         [ 0.5484, -0.4591,  1.5940, -0.7771, -0.6693, -0.3460,  0.4219,
           0.2391],
         [ 0.5886, -0.3784,  1.4554, -0.9079, -0.6577, -0.4845,  0.3440,
           0.0712],
         [ 0.6520, -0.3912,  1.7095, -0.9079, -0.0284, -1.3621,  0.8096,
           0.2356],
         [ 0.6108, -0.4201,  1.9346, -0.5538, -0.1497, -1.0773,  1.0545,
           0.2142],
         [ 0.5845, -0.3864,  1.3342, -1.3082, -0.6000, -0.8386,  0.3353,
           0.0620]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.0858652363531291
step:  70
running loss:  0.015512360519330417
Train Steps: 70/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6277, 0.4036, 0.8688, 0.3617, 0.3925, 0.2600, 0.6132, 0.4742],
        [0.6076, 0.3958, 0.8700, 0.4667, 0.4546, 0.5046, 0.5231, 0.4960],
        [0.6275, 0.4071, 0.8075, 0.2100, 0.4700, 0.1533, 0.6148, 0.4834],
        [0.6189, 0.4029, 0.8375, 0.5767, 0.4745, 0.4829, 0.5551, 0.5598],
        [0.6140, 0.4070, 0.8700, 0.5000, 0.4612, 0.4900, 0.5260, 0.5852],
        [0.6147, 0.4112, 0.7988, 0.3200, 0.3775, 0.2767, 0.5150, 0.5550],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6276, 0.4002, 0.8800, 0.5533, 0.3575, 0.4400, 0.6132, 0.4672]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7524, -0.3138,  1.7652, -0.7036, -0.4591, -1.0202,  0.6242,  0.0644],
        [ 0.7036, -0.3337,  1.8266, -0.1566, -0.2323,  0.0085,  0.2252,  0.1692],
        [ 0.7085, -0.3449,  1.4596, -1.4295, -0.0171, -1.5700,  0.9127,  0.0854],
        [ 0.6374, -0.3348,  1.6523,  0.3809, -0.1125, -0.1319,  0.3967,  0.3868],
        [ 0.5919, -0.3661,  1.7851,  0.0314, -0.1617, -0.0299,  0.3320,  0.4521],
        [ 0.8570, -0.1832,  1.4189, -0.8228, -0.5323, -0.9292,  0.0790,  0.3344],
        [-1.1760, -1.5135,  1.1183, -1.1627, -0.3278, -1.3243,  0.1392,  0.3514],
        [ 0.7340, -0.3614,  1.7749,  0.2905, -0.6121, -0.2406,  0.7003,  0.1101]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6134, -0.4218,  1.7268, -0.6154, -0.4730, -1.0850,  0.5463,
          -0.0957],
         [ 0.5205, -0.4577,  1.7326, -0.1304, -0.1862,  0.0447,  0.1301,
           0.0051],
         [ 0.6126, -0.4057,  1.4439, -1.3159, -0.1150, -1.5777,  0.5537,
          -0.0530],
         [ 0.5726, -0.4249,  1.5824,  0.3777, -0.0942, -0.0556,  0.2782,
           0.2997],
         [ 0.5500, -0.4060,  1.7326,  0.0236, -0.1554, -0.0226,  0.1438,
           0.4171],
         [ 0.5532, -0.3864,  1.4035, -0.8079, -0.5423, -1.0080,  0.0928,
           0.2776],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.6128, -0.4375,  1.7788,  0.2699, -0.6346, -0.2536,  0.5463,
          -0.1278]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0401, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0401, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1259842771105468
step:  71
running loss:  0.015858933480430236

Train Steps: 71/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6200, 0.4112, 0.8862, 0.4100, 0.3638, 0.4917, 0.6088, 0.6050],
        [0.6151, 0.4085, 0.8750, 0.4367, 0.3887, 0.4367, 0.5066, 0.5846],
        [0.6108, 0.4011, 0.8037, 0.3400, 0.3700, 0.2933, 0.5658, 0.5617],
        [0.6236, 0.4084, 0.7738, 0.2133, 0.3663, 0.3233, 0.5813, 0.5567],
        [0.6138, 0.4020, 0.8800, 0.4717, 0.4375, 0.4717, 0.5502, 0.5611],
        [0.6339, 0.4123, 0.8638, 0.5367, 0.4075, 0.5467, 0.7517, 0.5436],
        [0.6161, 0.4055, 0.8675, 0.3867, 0.3713, 0.4033, 0.5195, 0.5162],
        [   nan,    nan, 0.8488, 0.2300, 0.5563, 0.2100, 0.7390, 0.5679]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7596, -0.2490,  1.7706, -0.2143, -0.4673, -0.0846,  0.3435,  0.3957],
        [ 0.6366, -0.3010,  1.7074, -0.1447, -0.4508, -0.3138, -0.0450,  0.2564],
        [ 0.6255, -0.3668,  1.4270, -0.6066, -0.5383, -0.9385,  0.2893,  0.1861],
        [ 0.6542, -0.3571,  1.2980, -1.1232, -0.4624, -0.9424,  0.4861,  0.2497],
        [ 0.6544, -0.3270,  1.7445, -0.0034, -0.2148, -0.1705,  0.1259,  0.2557],
        [ 0.6998, -0.3413,  1.7491,  0.2611, -0.3304,  0.1221,  1.0424,  0.2210],
        [ 0.7470, -0.2772,  1.7329, -0.3159, -0.5494, -0.5700, -0.0321,  0.0129],
        [-1.4784, -1.7442,  1.6703, -1.2390,  0.4985, -1.6062,  1.2554,  0.3567]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5777, -0.3868,  1.8076, -0.3921, -0.6058, -0.0149,  0.5259,
           0.5085],
         [ 0.5553, -0.3992,  1.7557, -0.2690, -0.4903, -0.2690,  0.0542,
           0.4145],
         [ 0.5355, -0.4335,  1.4266, -0.7155, -0.5769, -0.9310,  0.3275,
           0.3087],
         [ 0.5946, -0.3995,  1.2880, -1.3005, -0.5942, -0.7925,  0.3988,
           0.2853],
         [ 0.5491, -0.4290,  1.7788, -0.1073, -0.2651, -0.1073,  0.2555,
           0.3057],
         [ 0.6421, -0.3816,  1.7037,  0.1929, -0.4037,  0.2391,  1.1861,
           0.2249],
         [ 0.5598, -0.4129,  1.7210, -0.4999, -0.5711, -0.4229,  0.1136,
           0.0983],
         [-2.2859, -2.2859,  1.6344, -1.2236,  0.2834, -1.3159,  1.1276,
           0.3371]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0265, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1525277267210186
step:  72
running loss:  0.016007329537791923
Train Steps: 72/90  Loss: 0.0160 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6132, 0.4118, 0.8200, 0.3633, 0.3563, 0.5400, 0.5787, 0.5136],
        [   nan,    nan, 0.8750, 0.2467, 0.5138, 0.2617, 0.7382, 0.5552],
        [0.6110, 0.4047, 0.8700, 0.4483, 0.3713, 0.3967, 0.5088, 0.5517],
        [0.6185, 0.4042, 0.7700, 0.2250, 0.4062, 0.2117, 0.5763, 0.5150],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6270, 0.4267, 0.7150, 0.3317, 0.4900, 0.1817, 0.5560, 0.6183],
        [0.6264, 0.4248, 0.8938, 0.4183, 0.3875, 0.4100, 0.5400, 0.5350],
        [0.6276, 0.4095, 0.8237, 0.2250, 0.4662, 0.1783, 0.6171, 0.4869]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 5.9427e-01, -3.5149e-01,  1.5071e+00, -5.8090e-01, -4.9336e-01,
          8.7826e-02,  4.6292e-01,  2.3218e-01],
        [-1.9318e+00, -2.0346e+00,  1.7207e+00, -1.2192e+00,  2.7853e-01,
         -1.4549e+00,  1.0914e+00,  3.3141e-01],
        [ 5.7028e-01, -3.5766e-01,  1.7352e+00, -9.0277e-02, -5.7938e-01,
         -3.2921e-01, -1.3246e-01,  2.5256e-01],
        [ 5.9285e-01, -4.0147e-01,  1.2382e+00, -1.1689e+00, -3.9334e-01,
         -1.2938e+00,  3.6060e-01,  1.1863e-01],
        [ 6.5827e-01, -3.9911e-01,  1.8256e+00, -1.6101e-03, -5.0889e-01,
         -4.0250e-01,  5.7856e-01,  1.1106e-01],
        [ 6.9346e-01, -2.9639e-01,  1.0066e+00, -7.7031e-01, -1.1378e-01,
         -1.3372e+00,  2.4999e-01,  5.3997e-01],
        [ 6.0116e-01, -3.3656e-01,  1.8278e+00, -2.2940e-01, -5.3385e-01,
         -3.2537e-01,  7.8322e-02,  2.2241e-01],
        [ 6.2932e-01, -3.6683e-01,  1.5071e+00, -1.2220e+00, -3.4216e-03,
         -1.4243e+00,  6.1705e-01,  7.4610e-02]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5466, -0.3840,  1.5016, -0.6077, -0.6404,  0.2083,  0.3871,
           0.0862],
         [-2.2859, -2.2859,  1.7557, -1.1466,  0.0871, -1.0773,  1.1239,
           0.2783],
         [ 0.5363, -0.4168,  1.7326, -0.2151, -0.5711, -0.4537,  0.0640,
           0.2622],
         [ 0.5707, -0.4189,  1.2707, -1.2467, -0.4095, -1.3082,  0.3758,
           0.0928],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472],
         [ 0.6101, -0.3152,  1.0166, -0.7540, -0.0226, -1.4468,  0.2823,
           0.5702],
         [ 0.6072, -0.3239,  1.8423, -0.3537, -0.4961, -0.3921,  0.2083,
           0.1852],
         [ 0.6127, -0.3944,  1.5189, -1.2467, -0.1323, -1.4622,  0.5646,
          -0.0369]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1630904129706323
step:  73
running loss:  0.015932745383159346
Train Steps: 73/90  Loss: 0.0159 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.4058, 0.8738, 0.4350, 0.3563, 0.3400, 0.5290, 0.5822],
        [0.6164, 0.3972, 0.7818, 0.3381, 0.3599, 0.3387, 0.5880, 0.5153],
        [0.6314, 0.4107, 0.8750, 0.5100, 0.3788, 0.4900, 0.7121, 0.5864],
        [0.6109, 0.4015, 0.7668, 0.3639, 0.3513, 0.3667, 0.5200, 0.5641],
        [0.6226, 0.4001, 0.8438, 0.5733, 0.3862, 0.4250, 0.5750, 0.5283],
        [0.6163, 0.4001, 0.8788, 0.5033, 0.4012, 0.4633, 0.5338, 0.5767],
        [0.6201, 0.4065, 0.7300, 0.1933, 0.4075, 0.2533, 0.6162, 0.5483],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6199, -0.3633,  1.7836, -0.3836, -0.5077, -0.7211,  0.0684,  0.2759],
        [ 0.6889, -0.3536,  1.4425, -0.8366, -0.5263, -0.7809,  0.4121,  0.0883],
        [ 0.6030, -0.4272,  1.9410,  0.0582, -0.2889, -0.1175,  1.1050,  0.3419],
        [ 0.5360, -0.4069,  1.3305, -0.7654, -0.5238, -0.6782,  0.1789,  0.2832],
        [ 0.7144, -0.3519,  1.7441,  0.3128, -0.3675, -0.3465,  0.3809,  0.1663],
        [ 0.5369, -0.4524,  1.8689, -0.0673, -0.2455, -0.2268,  0.1903,  0.2530],
        [ 0.6427, -0.3706,  1.1777, -1.4482, -0.2613, -1.2697,  0.5720,  0.2102],
        [ 0.6546, -0.3343,  1.7212, -0.5872, -0.4739, -0.9253,  0.0056,  0.2401]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5697, -0.4113,  1.7499, -0.2767, -0.6404, -0.7155,  0.1576,
           0.4032],
         [ 0.5614, -0.4514,  1.3252, -0.7240, -0.6237, -0.7215,  0.4299,
           0.0942],
         [ 0.6306, -0.3888,  1.7557,  0.0697, -0.5365, -0.0226,  1.0033,
           0.4226],
         [ 0.5357, -0.4315,  1.2557, -0.6051, -0.6635, -0.5923,  0.1159,
           0.3198],
         [ 0.5900, -0.4377,  1.6113,  0.3623, -0.5018, -0.3229,  0.3700,
           0.1544],
         [ 0.5610, -0.4381,  1.7730,  0.0390, -0.4326, -0.1458,  0.1794,
           0.3777],
         [ 0.5784, -0.4085,  1.0859, -1.3929, -0.4037, -1.1158,  0.5605,
           0.2468],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1722305989824235
step:  74
running loss:  0.015840954040303022
Train Steps: 74/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6139, 0.4019, 0.7137, 0.2150, 0.4375, 0.1533, 0.5293, 0.5006],
        [0.6200, 0.4055, 0.8011, 0.2988, 0.3842, 0.2798, 0.5949, 0.5183],
        [   nan,    nan, 0.8525, 0.2217, 0.5413, 0.2367, 0.7367, 0.5482],
        [0.6138, 0.4054, 0.8750, 0.4750, 0.4363, 0.5017, 0.5086, 0.5822],
        [0.6275, 0.4157, 0.8337, 0.5800, 0.3763, 0.4200, 0.5547, 0.6125],
        [0.6128, 0.4022, 0.8738, 0.5067, 0.4983, 0.5231, 0.5364, 0.5064],
        [0.6097, 0.4024, 0.8488, 0.3717, 0.3875, 0.5517, 0.5836, 0.5591],
        [0.6239, 0.4061, 0.8850, 0.4600, 0.4225, 0.5200, 0.6138, 0.5450]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7868, -0.2607,  1.0193, -1.2032, -0.3471, -1.6748,  0.2052,  0.0175],
        [ 0.5743, -0.4024,  1.4428, -0.8914, -0.5607, -0.9998,  0.4252,  0.0937],
        [-2.1559, -2.1935,  1.5947, -1.3129,  0.2300, -1.5728,  1.0261,  0.3095],
        [ 0.5379, -0.3878,  1.7228, -0.1518, -0.3012, -0.0963,  0.0473,  0.2776],
        [ 0.6823, -0.3246,  1.6219,  0.3853, -0.6079, -0.4308,  0.2746,  0.4834],
        [ 0.4335, -0.4857,  1.7522, -0.0481, -0.0376, -0.1753,  0.0980,  0.1554],
        [ 0.4807, -0.4354,  1.6261, -0.5759, -0.4750,  0.1213,  0.4935,  0.1963],
        [ 0.5461, -0.4275,  1.8113, -0.2441, -0.3507,  0.0115,  0.4388,  0.1897]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5496, -0.4295,  1.0109, -1.2928, -0.2651, -1.5777,  0.1589,
           0.0261],
         [ 0.5781, -0.4129,  1.4142, -0.9057, -0.5115, -0.9937,  0.4621,
           0.1080],
         [-2.2859, -2.2859,  1.6517, -1.2620,  0.2141, -1.1928,  1.1166,
           0.2463],
         [ 0.5491, -0.4132,  1.7557, -0.0919, -0.2709,  0.0313,  0.0635,
           0.4032],
         [ 0.6124, -0.3658,  1.5651,  0.3931, -0.5480, -0.3460,  0.2761,
           0.5431],
         [ 0.5446, -0.4280,  1.7499,  0.0543,  0.0156,  0.1301,  0.1918,
           0.0532],
         [ 0.5301, -0.4273,  1.6344, -0.5692, -0.4961,  0.2622,  0.4098,
           0.2966],
         [ 0.5960, -0.4102,  1.8018, -0.1612, -0.3344,  0.1159,  0.5490,
           0.2314]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0091, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1813519136048853
step:  75
running loss:  0.01575135884806514

Train Steps: 75/90  Loss: 0.0158 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6117, 0.4018, 0.6562, 0.1967, 0.3738, 0.2550, 0.5280, 0.5103],
        [0.6264, 0.4049, 0.8988, 0.4633, 0.3813, 0.4983, 0.6326, 0.4843],
        [0.6124, 0.4030, 0.8650, 0.4867, 0.4999, 0.5106, 0.5137, 0.5773],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6201, 0.4082, 0.8827, 0.3715, 0.3825, 0.2712, 0.5845, 0.5412],
        [0.6222, 0.4072, 0.7164, 0.2166, 0.3738, 0.3167, 0.6100, 0.5533],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6240, 0.4217, 0.8150, 0.3133, 0.4425, 0.2650, 0.5650, 0.5817]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 4.3204e-01, -4.9423e-01,  8.7678e-01, -1.1577e+00, -4.9900e-01,
         -1.2377e+00,  1.9630e-01,  1.8164e-01],
        [ 6.9072e-01, -3.8656e-01,  2.0222e+00, -1.1292e-01, -5.2003e-01,
         -2.3396e-02,  6.1781e-01,  6.3428e-02],
        [ 3.8911e-01, -5.3941e-01,  1.7964e+00, -3.4572e-02, -9.5070e-03,
         -9.4753e-02,  7.4348e-02,  3.2933e-01],
        [ 6.1090e-01, -4.0105e-01,  1.8377e+00, -9.8769e-02, -1.8835e-01,
         -1.7130e-03,  5.7579e-02,  8.1385e-02],
        [ 6.4133e-01, -3.7246e-01,  1.8869e+00, -5.2754e-01, -5.2379e-01,
         -1.0953e+00,  4.3551e-01,  2.3086e-01],
        [ 6.0569e-01, -3.8838e-01,  1.1288e+00, -1.1754e+00, -5.1845e-01,
         -9.1244e-01,  5.3057e-01,  2.8769e-01],
        [ 5.0548e-01, -4.6197e-01,  1.0753e+00, -1.1920e+00, -4.6685e-01,
         -1.2029e+00,  4.8190e-01,  3.0180e-01],
        [ 5.9589e-01, -3.6515e-01,  1.5408e+00, -7.3261e-01, -3.0263e-01,
         -1.2108e+00,  2.8190e-01,  4.1174e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5393, -0.4299,  0.7453, -1.3775, -0.5596, -1.1081,  0.1527,
           0.0712],
         [ 0.6075, -0.4159,  1.8654, -0.1458, -0.5249,  0.0159,  0.6359,
          -0.0490],
         [ 0.5428, -0.4244,  1.7095, -0.0380,  0.0232,  0.0725,  0.0866,
           0.3806],
         [ 0.5249, -0.4473,  1.7326, -0.0919, -0.2016,  0.1544,  0.1733,
           0.0412],
         [ 0.5784, -0.4006,  1.7911, -0.5701, -0.5192, -1.0331,  0.4137,
           0.2139],
         [ 0.5878, -0.4052,  1.0229, -1.2855, -0.5596, -0.8232,  0.5316,
           0.2699],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5964, -0.3380,  1.4785, -0.8386, -0.2420, -1.0619,  0.3238,
           0.4008]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0076, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.1889062826521695
step:  76
running loss:  0.015643503719107492
Train Steps: 76/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [   nan,    nan, 0.7981, 0.3194, 0.3625, 0.3167, 0.5040, 0.5563],
        [0.6213, 0.4131, 0.8438, 0.3550, 0.3513, 0.4400, 0.5716, 0.5123],
        [0.6043, 0.4022, 0.6887, 0.1983, 0.3775, 0.2483, 0.5480, 0.5136],
        [0.6275, 0.4008, 0.8047, 0.2484, 0.4037, 0.2777, 0.6506, 0.5212],
        [0.6179, 0.4008, 0.7505, 0.2678, 0.4368, 0.1891, 0.5831, 0.5263],
        [   nan,    nan, 0.7425, 0.2117, 0.3937, 0.2433, 0.5438, 0.5567],
        [0.6249, 0.4142, 0.8350, 0.3283, 0.3613, 0.3700, 0.6188, 0.5400]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6656, -0.3252,  1.6314, -0.9552, -0.1234, -1.3587,  0.5424,  0.1389],
        [-1.9349, -2.0047,  1.2804, -0.8710, -0.5206, -0.9053,  0.0334,  0.3029],
        [ 0.6856, -0.3197,  1.6577, -0.5465, -0.5838, -0.3089,  0.2376,  0.2427],
        [ 0.6226, -0.3830,  0.9294, -1.1398, -0.4260, -1.1295,  0.2986,  0.2081],
        [ 0.6480, -0.3885,  1.4777, -0.9221, -0.3241, -0.9524,  0.6381,  0.1960],
        [ 0.8055, -0.2722,  1.2072, -0.9814, -0.2422, -1.3769,  0.3189,  0.2356],
        [-1.9116, -2.0022,  1.1542, -1.1836, -0.3305, -1.1824,  0.2033,  0.3075],
        [ 0.7482, -0.2765,  1.6254, -0.7034, -0.5661, -0.6050,  0.4760,  0.3313]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [-2.2859, -2.2859,  1.4006, -0.8105, -0.6115, -0.8232,  0.0419,
           0.2837],
         [ 0.5841, -0.3778,  1.6113, -0.6462, -0.6635, -0.2536,  0.3542,
           0.0802],
         [ 0.5053, -0.4281,  0.8954, -1.3698, -0.5423, -1.1389,  0.2453,
           0.0862],
         [ 0.6125, -0.4345,  1.4308, -1.1384, -0.4213, -1.0031,  0.7190,
           0.1214],
         [ 0.5680, -0.4345,  1.1806, -1.0490, -0.2683, -1.4127,  0.4074,
           0.1449],
         [-2.2859, -2.2859,  1.1436, -1.3082, -0.4672, -1.1620,  0.2256,
           0.2853],
         [ 0.6006, -0.3728,  1.5709, -0.7694, -0.6173, -0.5769,  0.5721,
           0.2083]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0152, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2041279622353613
step:  77
running loss:  0.01563802548357612
Train Steps: 77/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6164, 0.3956, 0.8757, 0.5088, 0.4300, 0.5320, 0.6022, 0.5202],
        [0.6185, 0.4098, 0.8838, 0.4900, 0.4537, 0.5800, 0.6288, 0.5400],
        [0.6132, 0.4037, 0.6963, 0.2217, 0.4100, 0.1950, 0.5395, 0.5175],
        [0.6086, 0.3940, 0.8712, 0.4783, 0.4025, 0.4900, 0.5498, 0.5390],
        [0.6272, 0.4120, 0.9038, 0.4117, 0.3725, 0.3200, 0.6175, 0.5250],
        [0.6230, 0.4152, 0.7588, 0.2283, 0.4012, 0.2883, 0.6200, 0.5767]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.6204, -0.3751,  1.7329, -0.1243, -0.1641,  0.0857,  0.3867,  0.3459],
        [ 0.4157, -0.4951,  1.7252, -0.0288, -0.2015,  0.1722,  0.2050,  0.1587],
        [ 0.5428, -0.4652,  1.6959, -0.0345, -0.3847,  0.0054,  0.4109,  0.1474],
        [ 0.4291, -0.5127,  1.7436, -0.1355, -0.2256,  0.2061,  0.4410,  0.2915],
        [ 0.5248, -0.4014,  0.9346, -1.2211, -0.4824, -1.5760,  0.1073,  0.0700],
        [ 0.6467, -0.4007,  1.6932, -0.1175, -0.4838, -0.1200,  0.0742,  0.1444],
        [ 0.4221, -0.5190,  1.8474, -0.4413, -0.6660, -0.8941,  0.4888,  0.2100],
        [ 0.5255, -0.4244,  1.2112, -1.0893, -0.5817, -1.1285,  0.5264,  0.3707]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5614, -0.4586,  1.7587,  0.0641, -0.2998,  0.1712,  0.4958,
           0.1170],
         [ 0.5709, -0.3933,  1.7961, -0.0226, -0.1901,  0.3931,  0.6182,
           0.2083],
         [ 0.5465, -0.4214,  0.9300, -1.2620, -0.3921, -1.3852,  0.2062,
           0.1043],
         [ 0.5250, -0.4661,  1.7383, -0.0765, -0.4268, -0.0226,  0.2535,
           0.2035],
         [ 0.6111, -0.3828,  1.8885, -0.3844, -0.5654, -0.8079,  0.5663,
           0.1390],
         [ 0.5915, -0.3682,  1.2187, -1.2313, -0.4326, -0.9541,  0.5778,
           0.3777]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2163738389499485
step:  78
running loss:  0.015594536396794213
Train Steps: 78/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6286, 0.4086, 0.8408, 0.2801, 0.4163, 0.2800, 0.6725, 0.5393],
        [0.6202, 0.3983, 0.8555, 0.5429, 0.3842, 0.4370, 0.5866, 0.5398],
        [   nan,    nan, 0.6992, 0.2791, 0.3950, 0.2383, 0.5483, 0.5819],
        [0.6157, 0.4102, 0.8513, 0.3817, 0.3613, 0.3667, 0.5096, 0.5890],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6207, 0.4110, 0.8738, 0.5000, 0.4800, 0.5633, 0.6300, 0.5433],
        [0.6224, 0.4061, 0.8988, 0.4300, 0.3838, 0.4750, 0.6112, 0.5483],
        [0.6101, 0.4042, 0.7775, 0.2617, 0.3713, 0.2817, 0.5440, 0.5650]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4975, -0.4646,  1.5513, -0.9666, -0.3757, -1.0631,  0.8349,  0.2213],
        [ 0.6141, -0.4448,  1.6689,  0.2204, -0.5464, -0.2051,  0.5138,  0.0906],
        [-2.0015, -2.1097,  0.9544, -1.1119, -0.4661, -1.1842,  0.0765,  0.2852],
        [ 0.3614, -0.5117,  1.6381, -0.5652, -0.6371, -0.5385,  0.0116,  0.2458],
        [ 0.4667, -0.4367,  1.1219, -1.0317, -0.2074, -1.4519,  0.2099,  0.2799],
        [ 0.6129, -0.3851,  1.7800, -0.1275, -0.1141,  0.2926,  0.4631,  0.2179],
        [ 0.5707, -0.4434,  1.8278, -0.3480, -0.5337,  0.0171,  0.5358,  0.1088],
        [ 0.4578, -0.4612,  1.2927, -1.0640, -0.5458, -1.0070,  0.0641,  0.2277]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6174, -0.3984,  1.5975, -0.9921, -0.3633, -0.9926,  0.8205,
           0.2050],
         [ 0.5786, -0.4463,  1.6655,  0.2216, -0.5115, -0.2675,  0.4236,
           0.2075],
         [-2.2859, -2.2859,  0.9438, -0.9967, -0.4614, -1.1851,  0.2468,
           0.4019],
         [ 0.5581, -0.3912,  1.6460, -0.5230, -0.6173, -0.5923,  0.0681,
           0.4348],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.5811, -0.3878,  1.7499,  0.0236, -0.0688,  0.3161,  0.6240,
           0.2237],
         [ 0.5888, -0.4101,  1.8654, -0.2998, -0.5134, -0.0919,  0.5374,
           0.2468],
         [ 0.5320, -0.4189,  1.3053, -1.0773, -0.5711, -0.9849,  0.2267,
           0.3237]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0080, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.224423078354448
step:  79
running loss:  0.015499026308284152

Train Steps: 79/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6091, 0.3997, 0.8314, 0.4334, 0.3788, 0.4550, 0.5213, 0.5656],
        [0.6250, 0.4103, 0.8950, 0.4400, 0.3912, 0.5650, 0.6050, 0.5133],
        [0.6225, 0.4196, 0.8788, 0.3467, 0.3750, 0.3400, 0.5413, 0.5433],
        [0.6153, 0.4119, 0.8463, 0.3833, 0.3600, 0.3200, 0.5106, 0.5563],
        [0.6138, 0.4101, 0.8800, 0.5083, 0.4637, 0.5950, 0.5587, 0.5077],
        [0.6175, 0.4013, 0.7734, 0.2783, 0.4475, 0.1786, 0.5790, 0.5351],
        [0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4846, -0.4914,  1.4329, -0.3428, -0.5375, -0.1980,  0.2619,  0.3136],
        [ 0.5042, -0.4608,  1.7244, -0.3396, -0.4670,  0.3175,  0.5917,  0.2142],
        [ 0.4605, -0.4590,  1.5435, -0.6849, -0.6888, -0.7761,  0.2342,  0.2381],
        [ 0.2250, -0.6154,  1.5077, -0.5573, -0.6753, -0.8241,  0.0768,  0.3247],
        [ 0.4591, -0.4868,  1.6747, -0.0019, -0.1548,  0.3512,  0.3674,  0.1820],
        [ 0.7229, -0.3085,  1.1871, -1.0721, -0.2958, -1.5675,  0.3066,  0.1513],
        [ 0.5734, -0.4881,  1.6056, -0.7844, -0.6470, -0.6891,  0.7640,  0.0590],
        [ 0.4164, -0.5204,  1.6723, -0.1330, -0.2016,  0.1220,  0.1374,  0.1163]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5275, -0.4396,  1.5543, -0.2841, -0.5365, -0.1843,  0.1221,
           0.3265],
         [ 0.6010, -0.3909,  1.8480, -0.2536, -0.4788,  0.3238,  0.5085,
           0.0851],
         [ 0.5894, -0.3479,  1.7730, -0.6847, -0.5538, -0.7155,  0.2141,
           0.2237],
         [ 0.5561, -0.3834,  1.6229, -0.5153, -0.6231, -0.8079,  0.0727,
           0.2837],
         [ 0.5491, -0.3918,  1.7788,  0.0620, -0.1439,  0.4624,  0.2946,
           0.0592],
         [ 0.5664, -0.4321,  1.2862, -1.0003, -0.2189, -1.4608,  0.3883,
           0.1855],
         [ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5515, -0.4225,  1.7788, -0.0534, -0.2016,  0.1929,  0.1568,
           0.0682]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0099, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.234301685821265
step:  80
running loss:  0.015428771072765812
Train Steps: 80/90  Loss: 0.0154 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6284, 0.4029, 0.8838, 0.3783, 0.3975, 0.2850, 0.6335, 0.5090],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6087, 0.3951, 0.8387, 0.5833, 0.4188, 0.4933, 0.5146, 0.4830],
        [0.6143, 0.4034, 0.8800, 0.4833, 0.4512, 0.5367, 0.5289, 0.5097],
        [0.6257, 0.4024, 0.8672, 0.5422, 0.4196, 0.5198, 0.6694, 0.5204],
        [   nan,    nan, 0.8363, 0.3317, 0.3563, 0.3367, 0.5329, 0.5142],
        [0.6109, 0.3943, 0.8525, 0.4950, 0.4338, 0.4800, 0.5449, 0.5383],
        [   nan,    nan, 0.8300, 0.3150, 0.3588, 0.3383, 0.5208, 0.5194]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7503, -0.2881,  1.6015, -0.6986, -0.4646, -1.0654,  0.6464,  0.1602],
        [ 0.7804, -0.2480,  1.6838, -0.2485, -0.3454,  0.3726,  0.5508,  0.1698],
        [ 0.6938, -0.3236,  1.5166,  0.2860, -0.4027, -0.0619,  0.1601,  0.1312],
        [ 0.5815, -0.3628,  1.6414, -0.2030, -0.2527,  0.0957,  0.1165,  0.0985],
        [ 0.6586, -0.3652,  1.5467,  0.0677, -0.4092,  0.0632,  0.8244,  0.2094],
        [-2.3185, -2.3273,  1.3828, -0.8933, -0.6300, -0.7669,  0.1151,  0.2224],
        [ 0.6937, -0.3142,  1.5366, -0.1562, -0.3201, -0.1382,  0.1785,  0.2307],
        [-2.0555, -2.1445,  1.3345, -0.8968, -0.6410, -0.7471,  0.0783,  0.2306]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.1645e-01, -4.2487e-01,  1.7961e+00, -5.3841e-01, -4.4988e-01,
          -9.6952e-01,  6.4006e-01,  6.5205e-02],
         [ 6.0139e-01, -3.8830e-01,  1.8192e+00, -1.1501e-01, -2.8822e-01,
           4.0077e-01,  5.2009e-01,  9.2841e-02],
         [ 5.2575e-01, -4.6105e-01,  1.5882e+00,  4.0847e-01, -3.5173e-01,
          -7.2363e-03,  9.1027e-02, -5.5027e-02],
         [ 5.5155e-01, -4.2249e-01,  1.7788e+00, -5.3426e-02, -2.0162e-01,
           1.9292e-01,  1.5683e-01,  6.8210e-02],
         [ 6.0425e-01, -4.2731e-01,  1.7198e+00,  2.1845e-01, -3.4783e-01,
           1.1492e-01,  8.0616e-01,  1.1755e-01],
         [-2.2859e+00, -2.2859e+00,  1.5767e+00, -7.5396e-01, -6.4042e-01,
          -7.3087e-01,  1.7534e-01,  8.9251e-02],
         [ 5.3603e-01, -4.6490e-01,  1.6517e+00,  4.6189e-04, -2.8245e-01,
          -6.8822e-02,  2.3086e-01,  2.0046e-01],
         [-2.2859e+00, -2.2859e+00,  1.5478e+00, -8.3095e-01, -6.2887e-01,
          -7.2317e-01,  1.1982e-01,  1.1330e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0122, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.246514733415097
step:  81
running loss:  0.015389070782902432
Train Steps: 81/90  Loss: 0.0154 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6196, 0.4088, 0.8888, 0.4583, 0.4500, 0.5683, 0.6138, 0.5883],
        [0.6211, 0.3935, 0.8636, 0.4841, 0.4417, 0.5126, 0.6331, 0.5268],
        [0.6251, 0.4108, 0.8888, 0.4700, 0.4325, 0.5817, 0.6075, 0.5150],
        [0.6086, 0.3981, 0.8700, 0.4750, 0.4512, 0.5283, 0.5324, 0.5038],
        [0.6227, 0.4049, 0.8750, 0.5367, 0.3775, 0.3667, 0.5725, 0.5317],
        [0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5458, -0.3904,  1.5569, -0.4111, -0.6724, -0.8364,  0.0369,  0.1736],
        [ 0.5075, -0.4487,  1.7388, -0.2161, -0.2107,  0.4441,  0.5468,  0.3925],
        [ 0.4614, -0.5432,  1.6451, -0.0553, -0.2670,  0.1172,  0.6347,  0.1695],
        [ 0.6589, -0.3599,  1.7563, -0.1110, -0.3010,  0.5124,  0.5206,  0.1081],
        [ 0.6011, -0.4098,  1.6841, -0.1285, -0.2343,  0.1414,  0.1193, -0.0113],
        [ 0.6166, -0.4051,  1.6784,  0.2026, -0.5937, -0.5582,  0.3913,  0.1671],
        [-0.2581, -0.9259,  1.3314, -0.9020, -0.5419, -1.0859,  0.0955,  0.2768],
        [ 0.4362, -0.5123,  1.3979, -0.9372, -0.7266, -0.3351,  0.5126,  0.2498]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5759, -0.3978,  1.8192, -0.1689, -0.2074,  0.3392,  0.5490,
           0.4316],
         [ 0.5828, -0.4682,  1.7031, -0.0497, -0.2458,  0.0818,  0.6381,
           0.1474],
         [ 0.6014, -0.3883,  1.8192, -0.1150, -0.2882,  0.4008,  0.5201,
           0.0928],
         [ 0.5249, -0.4473,  1.7326, -0.0919, -0.2016,  0.1544,  0.1733,
           0.0412],
         [ 0.5901, -0.4157,  1.7557,  0.1929, -0.5423, -0.5923,  0.3584,
           0.1698],
         [ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0178, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.264311611186713
step:  82
running loss:  0.015418434282764792
Train Steps: 82/90  Loss: 0.0154 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6264, 0.4067, 0.9050, 0.4183, 0.3775, 0.4600, 0.6308, 0.4862],
        [0.6329, 0.4055, 0.9050, 0.4783, 0.3613, 0.3917, 0.6464, 0.5019],
        [0.6117, 0.4019, 0.8538, 0.4067, 0.3513, 0.3583, 0.5663, 0.5133],
        [0.6250, 0.4013, 0.8525, 0.5417, 0.4037, 0.5117, 0.6325, 0.5017],
        [0.6128, 0.4118, 0.8638, 0.5333, 0.4625, 0.5267, 0.5193, 0.5475],
        [0.6201, 0.3970, 0.8413, 0.4950, 0.4413, 0.5183, 0.6088, 0.5400],
        [0.6260, 0.4253, 0.8938, 0.4400, 0.3675, 0.3650, 0.5675, 0.5767],
        [0.6161, 0.4024, 0.8838, 0.4583, 0.3688, 0.3733, 0.5311, 0.5344]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5646, -0.4298,  1.7529, -0.4515, -0.6126, -0.0544,  0.5670,  0.0215],
        [ 0.6456, -0.4035,  1.7761, -0.2404, -0.5597, -0.4027,  0.7305,  0.0774],
        [ 0.5289, -0.4356,  1.5772, -0.5750, -0.6524, -0.5157,  0.1538,  0.1797],
        [ 0.3057, -0.6639,  1.6080,  0.1656, -0.4046,  0.2433,  0.5498,  0.0604],
        [ 0.4928, -0.4453,  1.6299,  0.1164, -0.1336,  0.3010,  0.0359,  0.2095],
        [ 0.4195, -0.5548,  1.5906, -0.0317, -0.2286,  0.2824,  0.4368,  0.2617],
        [ 0.5216, -0.3977,  1.7365, -0.2763, -0.5934, -0.4298,  0.2651,  0.4191],
        [ 0.5687, -0.4265,  1.7573, -0.2624, -0.5796, -0.3919,  0.1728,  0.1689]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 6.0722e-01, -4.0747e-01,  1.8942e+00, -3.5366e-01, -5.4226e-01,
          -1.6120e-01,  6.2772e-01, -3.9998e-02],
         [ 6.3718e-01, -4.1286e-01,  1.8942e+00, -7.6520e-02, -6.1732e-01,
          -4.7683e-01,  6.9989e-01,  3.2524e-02],
         [ 5.3926e-01, -4.2941e-01,  1.6575e+00, -4.0754e-01, -6.6351e-01,
          -6.3079e-01,  3.2956e-01,  8.5142e-02],
         [ 6.0095e-01, -4.3212e-01,  1.6517e+00,  2.1601e-01, -4.2102e-01,
           7.7444e-02,  6.3557e-01,  3.1255e-02],
         [ 5.4475e-01, -3.8383e-01,  1.7037e+00,  1.7752e-01, -1.4965e-01,
           1.4673e-01,  1.1283e-01,  2.4313e-01],
         [ 5.7812e-01, -4.5219e-01,  1.5998e+00,  4.6189e-04, -2.4781e-01,
           1.0824e-01,  5.2587e-01,  2.0831e-01],
         [ 6.0577e-01, -3.2156e-01,  1.8423e+00, -2.5358e-01, -5.8845e-01,
          -6.0000e-01,  3.3533e-01,  3.7768e-01],
         [ 5.5978e-01, -4.2731e-01,  1.7961e+00, -1.6890e-01, -5.8268e-01,
          -5.6151e-01,  1.6711e-01,  1.8243e-01]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0094, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.2737219003029168
step:  83
running loss:  0.015346046991601407

Train Steps: 83/90  Loss: 0.0153 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6275, 0.4013, 0.8850, 0.2833, 0.4975, 0.2233, 0.7058, 0.5343],
        [0.6085, 0.4005, 0.8400, 0.4317, 0.3763, 0.4750, 0.5476, 0.5058],
        [0.6115, 0.3998, 0.7063, 0.2383, 0.4037, 0.1950, 0.5320, 0.4993],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6090, 0.4045, 0.7250, 0.2100, 0.4075, 0.2300, 0.5476, 0.5663],
        [0.6218, 0.4185, 0.7338, 0.2650, 0.4625, 0.1950, 0.5687, 0.5800],
        [0.6026, 0.3979, 0.8550, 0.4233, 0.3613, 0.5233, 0.5582, 0.4967],
        [0.6058, 0.3986, 0.8324, 0.4626, 0.3838, 0.4983, 0.5147, 0.5466]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5970, -0.4386,  1.7881, -0.9258,  0.0162, -1.1350,  1.0138,  0.0702],
        [ 0.6098, -0.4173,  1.6972, -0.2384, -0.5802,  0.1849,  0.2896,  0.0095],
        [ 0.4448, -0.4789,  1.0836, -1.2496, -0.4350, -1.2242,  0.1473, -0.0186],
        [ 0.7261, -0.3231,  1.8236,  0.1307, -0.6321,  0.0100,  0.5721,  0.3982],
        [-0.4759, -1.1006,  1.1537, -1.1627, -0.4673, -0.9932,  0.2593,  0.3161],
        [ 0.4587, -0.4426,  1.1685, -1.0159, -0.1973, -1.2388,  0.2722,  0.3378],
        [ 0.6435, -0.4056,  1.7502, -0.2111, -0.6102,  0.3916,  0.4004, -0.0266],
        [ 0.5203, -0.4551,  1.6436, -0.0169, -0.4993,  0.3264,  0.1976,  0.1663]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6125, -0.4321,  1.8018, -0.9772,  0.0120, -1.2543,  0.9741,
           0.1821],
         [ 0.5245, -0.4361,  1.5940, -0.2921, -0.5480, -0.0919,  0.2432,
           0.0502],
         [ 0.5384, -0.4393,  0.9762, -1.1851, -0.4210, -1.3852,  0.1712,
           0.0201],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.5269, -0.4176,  1.0628, -1.3159, -0.4037, -1.2236,  0.2432,
           0.3297],
         [ 0.5862, -0.3530,  1.1032, -1.0619, -0.1497, -1.3852,  0.3411,
           0.3931],
         [ 0.4974, -0.4482,  1.6633, -0.3306, -0.6173,  0.1313,  0.2925,
           0.0081],
         [ 0.5124, -0.4446,  1.5587, -0.1493, -0.5134,  0.0159,  0.0912,
           0.2386]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0350, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3087662127800286
step:  84
running loss:  0.015580550152143198
Train Steps: 84/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6229, 0.4198, 0.7662, 0.2700, 0.4700, 0.2133, 0.5675, 0.5783],
        [0.6133, 0.4094, 0.8495, 0.4028, 0.3588, 0.3200, 0.5003, 0.5407],
        [0.6144, 0.4032, 0.8563, 0.3283, 0.3525, 0.4200, 0.5775, 0.5583],
        [0.6261, 0.4029, 0.8720, 0.3364, 0.3665, 0.3753, 0.6531, 0.5183],
        [0.6210, 0.4164, 0.7202, 0.2930, 0.4025, 0.2483, 0.5687, 0.5567],
        [0.6201, 0.4098, 0.8575, 0.3617, 0.3700, 0.3550, 0.5988, 0.5667],
        [0.6095, 0.4002, 0.8533, 0.5168, 0.5031, 0.5094, 0.5125, 0.5433],
        [0.6275, 0.4050, 0.9038, 0.3767, 0.3838, 0.3533, 0.7074, 0.5575]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 3.2658e-01, -5.4547e-01,  1.2428e+00, -1.0113e+00, -1.1611e-01,
         -1.1311e+00,  2.8831e-01,  3.0673e-01],
        [ 4.7822e-01, -4.6463e-01,  1.6447e+00, -3.4109e-01, -5.8065e-01,
         -7.2646e-01,  7.7841e-02,  1.1476e-01],
        [ 4.7345e-01, -4.9782e-01,  1.6934e+00, -7.2943e-01, -6.7776e-01,
         -2.3362e-01,  3.6246e-01,  1.4206e-01],
        [ 6.8065e-01, -4.0213e-01,  1.7472e+00, -7.7854e-01, -5.4823e-01,
         -4.4851e-01,  7.6350e-01,  1.3053e-03],
        [ 7.1257e-02, -7.2028e-01,  1.1654e+00, -9.3299e-01, -4.1678e-01,
         -8.6892e-01,  3.4502e-01,  2.8765e-01],
        [ 5.8301e-01, -4.2550e-01,  1.6716e+00, -5.7195e-01, -5.2895e-01,
         -4.7976e-01,  4.6565e-01,  2.3277e-01],
        [ 5.5077e-01, -4.6933e-01,  1.6813e+00,  2.6087e-01,  1.6187e-02,
          3.4759e-01,  3.8679e-03,  1.3716e-01],
        [ 4.8412e-01, -5.3995e-01,  1.8609e+00, -4.5671e-01, -4.9464e-01,
         -4.9666e-01,  1.0809e+00,  2.0112e-01]], device='cuda:0',
       grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5912, -0.3467,  1.2533, -1.0388, -0.1150, -1.3005,  0.3353,
           0.3854],
         [ 0.5470, -0.3952,  1.6377, -0.4253, -0.6289, -0.8079,  0.0249,
           0.2116],
         [ 0.5520, -0.4237,  1.6691, -0.7694, -0.6577, -0.3460,  0.3815,
           0.2930],
         [ 0.6059, -0.4249,  1.7420, -0.7321, -0.5931, -0.5523,  0.7307,
           0.1080],
         [ 0.5824, -0.3625,  1.0405, -0.9325, -0.4268, -1.1389,  0.3411,
           0.2853],
         [ 0.5783, -0.3933,  1.6748, -0.6154, -0.5769, -0.6462,  0.4797,
           0.3315],
         [ 0.5295, -0.4373,  1.6553,  0.1011,  0.0380,  0.0671,  0.0813,
           0.2237],
         [ 0.6125, -0.4153,  1.8885, -0.5461, -0.5134, -0.6539,  0.9814,
           0.2890]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0155, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3242887216620147
step:  85
running loss:  0.015579867313670762
Train Steps: 85/90  Loss: 0.0156 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6126, 0.4073, 0.8750, 0.5133, 0.3800, 0.4333, 0.4986, 0.5378],
        [0.6197, 0.4118, 0.8688, 0.5517, 0.4037, 0.5233, 0.5875, 0.5600],
        [0.6246, 0.4090, 0.6964, 0.2027, 0.3925, 0.2683, 0.6088, 0.5583],
        [0.6040, 0.4002, 0.7338, 0.2267, 0.3975, 0.2100, 0.5231, 0.4778],
        [0.6260, 0.4214, 0.8538, 0.5500, 0.3663, 0.3767, 0.5587, 0.5983],
        [0.6147, 0.4081, 0.8538, 0.3400, 0.3663, 0.3150, 0.5142, 0.4875],
        [0.6195, 0.4101, 0.8650, 0.3917, 0.3575, 0.4033, 0.5800, 0.5650],
        [0.6207, 0.4081, 0.7662, 0.2067, 0.3962, 0.3200, 0.6312, 0.5300]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.4749, -0.4938,  1.8200,  0.1421, -0.4529, -0.0682,  0.2061,  0.1641],
        [ 0.4511, -0.5150,  1.8038,  0.3654, -0.4010,  0.4584,  0.4593,  0.1613],
        [ 0.4468, -0.5258,  1.0679, -1.3597, -0.4119, -0.9884,  0.5265,  0.2220],
        [ 0.4100, -0.5387,  1.1669, -1.3780, -0.4079, -1.1665,  0.2400, -0.0464],
        [ 0.4981, -0.4564,  1.6810,  0.3457, -0.4863, -0.4005,  0.3559,  0.3938],
        [ 0.6217, -0.4062,  1.7781, -0.7077, -0.5463, -0.6803,  0.2540, -0.0090],
        [ 0.4976, -0.4992,  1.7516, -0.4075, -0.5858, -0.2284,  0.3990,  0.2871],
        [ 0.5423, -0.4508,  1.3129, -1.3409, -0.4253, -0.7361,  0.7393,  0.1741]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5435, -0.4045,  1.7557,  0.0851, -0.5307, -0.2844,  0.0172,
           0.1980],
         [ 0.5762, -0.3840,  1.7268,  0.2622, -0.4210,  0.1313,  0.4277,
           0.3007],
         [ 0.5992, -0.3968,  0.9307, -1.3497, -0.4730, -1.0465,  0.5259,
           0.2930],
         [ 0.5037, -0.4375,  1.1032, -1.2390, -0.4499, -1.3159,  0.1301,
          -0.0791],
         [ 0.6055, -0.3393,  1.6575,  0.2545, -0.5942, -0.5461,  0.2949,
           0.4778],
         [ 0.5532, -0.4008,  1.6575, -0.7155, -0.5942, -0.8309,  0.0890,
          -0.0340],
         [ 0.5757, -0.3917,  1.7095, -0.4768, -0.6346, -0.4229,  0.3931,
           0.3238],
         [ 0.5809, -0.4011,  1.2533, -1.3313, -0.4557, -0.8079,  0.6298,
           0.1621]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3348985011689365
step:  86
running loss:  0.015522075594987634
Train Steps: 86/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[   nan,    nan, 0.6793, 0.2110, 0.4012, 0.2167, 0.5112, 0.5583],
        [0.6250, 0.4131, 0.8688, 0.2983, 0.4275, 0.2367, 0.6162, 0.5367],
        [0.6169, 0.4108, 0.6821, 0.2722, 0.3825, 0.2550, 0.5550, 0.5717],
        [0.6059, 0.4002, 0.7562, 0.2767, 0.3538, 0.3033, 0.5529, 0.5455],
        [0.6271, 0.4020, 0.8375, 0.6083, 0.3925, 0.4867, 0.6037, 0.4626],
        [0.6228, 0.4119, 0.7938, 0.2233, 0.4674, 0.1773, 0.6188, 0.5433],
        [0.6102, 0.4001, 0.7738, 0.3583, 0.3463, 0.3800, 0.5524, 0.5689],
        [0.6199, 0.4102, 0.8950, 0.4417, 0.4012, 0.5367, 0.6112, 0.5967]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[-2.6211, -2.5212,  1.0486, -1.1651, -0.4450, -0.9817,  0.1317,  0.2193],
        [ 0.6544, -0.3648,  1.8017, -0.8586, -0.2291, -1.0695,  0.6752,  0.0898],
        [ 0.6067, -0.3832,  0.9838, -1.1507, -0.4227, -1.1178,  0.2797,  0.2733],
        [ 0.4072, -0.5191,  1.3219, -1.0060, -0.5335, -0.8429,  0.3747,  0.1266],
        [ 0.4585, -0.5462,  1.6707,  0.4150, -0.4383,  0.0116,  0.4843, -0.0506],
        [ 0.5655, -0.4500,  1.4585, -1.1970, -0.0922, -1.2743,  0.6101,  0.1232],
        [ 0.3720, -0.5204,  1.4266, -0.6348, -0.6016, -0.5184,  0.2348,  0.2190],
        [ 0.3983, -0.5229,  1.9028, -0.1224, -0.4020,  0.3903,  0.5228,  0.3090]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[-2.2859, -2.2859,  0.8516, -1.3112, -0.4326, -1.2851,  0.0755,
           0.2930],
         [ 0.6011, -0.3778,  1.7268, -0.9079, -0.3113, -1.1928,  0.5605,
           0.1929],
         [ 0.5633, -0.3883,  0.8648, -1.0288, -0.5192, -1.1081,  0.2776,
           0.3546],
         [ 0.5129, -0.4374,  1.2072, -1.0080, -0.6520, -0.8848,  0.2679,
           0.2335],
         [ 0.6105, -0.4293,  1.5824,  0.5239, -0.4730, -0.0380,  0.5025,
          -0.1492],
         [ 0.5908, -0.3832,  1.3804, -1.2543, -0.1270, -1.4671,  0.5721,
           0.2237],
         [ 0.5327, -0.4381,  1.2880, -0.6308, -0.6866, -0.5307,  0.2658,
           0.3417],
         [ 0.5772, -0.3913,  1.8480, -0.2459, -0.4326,  0.1929,  0.5374,
           0.4701]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0132, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3481103568337858
step:  87
running loss:  0.015495521342917078

Train Steps: 87/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6255, 0.4017, 0.8688, 0.3217, 0.3638, 0.3550, 0.6344, 0.4901],
        [0.6218, 0.4098, 0.7238, 0.1850, 0.4238, 0.2517, 0.6288, 0.5350],
        [0.6275, 0.4111, 0.8463, 0.2617, 0.4487, 0.1983, 0.6211, 0.4904],
        [0.6258, 0.4038, 0.8750, 0.4883, 0.3900, 0.5500, 0.6375, 0.5217],
        [0.6173, 0.4013, 0.8713, 0.4640, 0.4800, 0.5700, 0.6025, 0.5600],
        [0.6292, 0.4010, 0.8988, 0.4800, 0.3638, 0.3817, 0.6357, 0.5051],
        [0.6143, 0.4055, 0.8150, 0.2767, 0.3825, 0.2567, 0.5173, 0.4901],
        [0.6179, 0.3998, 0.8396, 0.3505, 0.3552, 0.3768, 0.6064, 0.5329]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.2906, -0.6409,  1.6966, -0.7035, -0.6151, -0.6604,  0.4858,  0.0571],
        [ 0.6713, -0.3423,  1.0141, -1.4186, -0.3000, -1.2024,  0.4727,  0.3262],
        [ 0.7239, -0.2935,  1.5762, -1.0051, -0.1290, -1.1708,  0.5538,  0.0640],
        [ 0.5389, -0.4618,  1.8069,  0.0371, -0.4642,  0.2881,  0.5613,  0.1595],
        [ 0.3526, -0.5561,  1.7288, -0.0225, -0.1932,  0.3346,  0.4374,  0.2839],
        [ 0.3348, -0.6103,  1.7632, -0.0713, -0.5542, -0.5833,  0.5219,  0.1729],
        [ 0.6104, -0.3794,  1.3945, -0.9225, -0.5040, -1.0243,  0.0740,  0.1107],
        [ 0.6039, -0.4215,  1.6051, -0.6760, -0.6397, -0.5594,  0.4211,  0.2860]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.6031, -0.4307,  1.7268, -0.8002, -0.6058, -0.6462,  0.6442,
          -0.0220],
         [ 0.5861, -0.3929,  1.0570, -1.4314, -0.3286, -1.1235,  0.6182,
           0.1852],
         [ 0.6126, -0.3871,  1.6229, -1.0773, -0.2132, -1.3698,  0.5829,
          -0.0209],
         [ 0.6047, -0.4209,  1.7557, -0.0303, -0.4845,  0.2545,  0.6587,
           0.1236],
         [ 0.5652, -0.4325,  1.7388, -0.1429, -0.0688,  0.3469,  0.4970,
           0.3007],
         [ 0.6204, -0.4336,  1.8654, -0.0688, -0.6058, -0.5230,  0.6503,
           0.0472],
         [ 0.5515, -0.4129,  1.4785, -1.0080, -0.5192, -1.1004,  0.1034,
          -0.0220],
         [ 0.5680, -0.4393,  1.5920, -0.6672, -0.6453, -0.5457,  0.5149,
           0.1753]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0106, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3586613987572491
step:  88
running loss:  0.015439334076786921
Train Steps: 88/90  Loss: 0.0154 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6182, 0.4099, 0.7812, 0.3000, 0.3937, 0.2367, 0.5325, 0.5750],
        [   nan,    nan, 0.7515, 0.2708, 0.3987, 0.2267, 0.5162, 0.5567],
        [0.6078, 0.4033, 0.8019, 0.3055, 0.3450, 0.4200, 0.6025, 0.5550],
        [0.6168, 0.4081, 0.8438, 0.3367, 0.3500, 0.4667, 0.6212, 0.5400],
        [0.6239, 0.4174, 0.8425, 0.5733, 0.4825, 0.4500, 0.5625, 0.5933],
        [0.6346, 0.4092, 0.7712, 0.5917, 0.4037, 0.4767, 0.7343, 0.5725],
        [0.6186, 0.3967, 0.7337, 0.1992, 0.4120, 0.2508, 0.6105, 0.5395],
        [0.6179, 0.4118, 0.7278, 0.4237, 0.3588, 0.3400, 0.5675, 0.5917]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.7738, -0.2730,  1.4386, -1.0415, -0.3418, -1.2038,  0.2729,  0.1546],
        [-2.5829, -2.4818,  1.2752, -1.0553, -0.4747, -1.0027,  0.1306,  0.1917],
        [ 0.3546, -0.5509,  1.5533, -0.9022, -0.6610, -0.4159,  0.4727,  0.1213],
        [ 0.2965, -0.5853,  1.7268, -0.7251, -0.6103, -0.2529,  0.5206,  0.1225],
        [ 0.4197, -0.4712,  1.7078,  0.2913, -0.0776, -0.2989,  0.2674,  0.2726],
        [ 0.4849, -0.4927,  1.4642,  0.1457, -0.4687, -0.2381,  0.8454,  0.2116],
        [ 0.5784, -0.4329,  1.1811, -1.4583, -0.3245, -1.2026,  0.5778,  0.1081],
        [ 0.6367, -0.3579,  1.3764, -0.5841, -0.5169, -0.8698,  0.3198,  0.3117]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5695, -0.3927,  1.3226, -0.9002, -0.4672, -1.1928,  0.1737,
           0.3700],
         [-2.2859, -2.2859,  1.1854, -1.0352, -0.4441, -1.2390,  0.0986,
           0.2853],
         [ 0.5215, -0.4232,  1.4182, -0.8747, -0.6924, -0.3460,  0.4970,
           0.2776],
         [ 0.5631, -0.4008,  1.6113, -0.7309, -0.6693, -0.1304,  0.5836,
           0.2083],
         [ 0.5959, -0.3579,  1.6055,  0.3623, -0.0573, -0.2074,  0.3122,
           0.4547],
         [ 0.6454, -0.3960,  1.2764,  0.4470, -0.4210, -0.0842,  1.1057,
           0.3585],
         [ 0.5713, -0.4538,  1.1028, -1.3659, -0.3831, -1.1273,  0.5340,
           0.2058],
         [ 0.5680, -0.3840,  1.0756, -0.3290, -0.6289, -0.7155,  0.3353,
           0.4470]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0193, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3779842429794371
step:  89
running loss:  0.015482969022240866
Train Steps: 89/90  Loss: 0.0155 torch.Size([8, 600, 800])
torch.Size([8, 8])
tensor([[0.6129, 0.3925, 0.8720, 0.5246, 0.4534, 0.5515, 0.6026, 0.5114],
        [   nan,    nan, 0.7553, 0.2722, 0.3875, 0.2550, 0.5125, 0.5633],
        [0.6186, 0.4060, 0.8750, 0.5050, 0.3538, 0.4367, 0.5813, 0.6083],
        [0.6261, 0.3987, 0.9045, 0.4208, 0.3600, 0.4633, 0.6570, 0.5162],
        [0.6132, 0.4066, 0.7259, 0.2402, 0.3588, 0.3300, 0.6000, 0.5600],
        [0.6286, 0.3977, 0.9038, 0.4733, 0.3900, 0.4150, 0.7074, 0.5320],
        [0.6203, 0.4021, 0.8780, 0.5031, 0.3667, 0.3882, 0.5842, 0.5405],
        [0.6261, 0.4066, 0.8325, 0.2150, 0.4763, 0.2667, 0.7002, 0.5633]],
       device='cuda:0', dtype=torch.float64)
predictions are:  tensor([[ 0.5745, -0.4073,  1.7057,  0.1399, -0.1932,  0.2375,  0.3406,  0.0806],
        [-2.1859, -2.2379,  1.2122, -1.0418, -0.5679, -0.9760,  0.1158,  0.2787],
        [ 0.5295, -0.4313,  1.7288,  0.0070, -0.5881, -0.3866,  0.3565,  0.3972],
        [ 0.4754, -0.4928,  1.8224, -0.3816, -0.6022, -0.2334,  0.5597,  0.0926],
        [ 0.5929, -0.3855,  1.1233, -1.2087, -0.5744, -0.8558,  0.3877,  0.1927],
        [ 0.5226, -0.4764,  1.7320, -0.1790, -0.4929, -0.5515,  0.6222,  0.1111],
        [ 0.6722, -0.3593,  1.7096, -0.0041, -0.5225, -0.5976,  0.3466,  0.1197],
        [ 0.4967, -0.4938,  1.5374, -1.2878, -0.1328, -1.1846,  0.8814,  0.1625]],
       device='cuda:0', grad_fn=<AddmmBackward>)
landmarks are:  tensor([[[ 0.5450, -0.4730,  1.7420,  0.1372, -0.1919,  0.2614,  0.4976,
           0.0764],
         [-2.2859, -2.2859,  1.2030, -1.0288, -0.4961, -1.1081,  0.0813,
           0.3161],
         [ 0.5713, -0.4105,  1.7557,  0.0467, -0.6520, -0.2690,  0.3988,
           0.5239],
         [ 0.6059, -0.4442,  1.8921, -0.3422, -0.6230, -0.1461,  0.7489,
           0.0985],
         [ 0.5466, -0.4080,  1.0668, -1.1764, -0.6289, -0.7617,  0.4855,
           0.3007],
         [ 0.6174, -0.4490,  1.8885, -0.0996, -0.4845, -0.3691,  0.9814,
           0.1715],
         [ 0.5791, -0.4289,  1.7694,  0.0379, -0.5923, -0.4927,  0.4126,
           0.2107],
         [ 0.6059, -0.4080,  1.5594, -1.2928, -0.0861, -1.0542,  0.9485,
           0.3157]]], device='cuda:0')
loss_train_step before backward:  tensor(0.0084, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train_step after backward:  tensor(0.0084, device='cuda:0', grad_fn=<MseLossBackward>)
loss_train:  1.3864263747818768
step:  90
running loss:  0.015404737497576409
Valid Steps: 10/10  Loss: nan 6.8743
--------------------------------------------------
Epoch: 10  Train Loss: 0.0154 Valid Loss: nan
--------------------------------------------------
Training Complete
Total Elapsed Time : 463.1469588279724 s