wikitext_training_log.txt

{'loss': 3.6575, 'learning_rate': 4.859755413441042e-05, 'epoch': 0.08}
{'eval_loss': 3.268613815307617, 'eval_runtime': 20.4212, 'eval_samples_per_second': 120.512, 'eval_steps_per_second': 30.165, 'epoch': 0.08}     
{'loss': 3.4936, 'learning_rate': 4.719510826882083e-05, 'epoch': 0.17}
{'eval_loss': 3.204294443130493, 'eval_runtime': 20.6287, 'eval_samples_per_second': 119.3, 'eval_steps_per_second': 29.861, 'epoch': 0.17}       
{'loss': 3.4651, 'learning_rate': 4.579266240323124e-05, 'epoch': 0.25}
{'eval_loss': 3.179050922393799, 'eval_runtime': 20.9498, 'eval_samples_per_second': 117.472, 'eval_steps_per_second': 29.404, 'epoch': 0.25}     
{'loss': 3.4225, 'learning_rate': 4.439021653764165e-05, 'epoch': 0.34}
{'eval_loss': 3.155379295349121, 'eval_runtime': 20.9838, 'eval_samples_per_second': 117.281, 'eval_steps_per_second': 29.356, 'epoch': 0.34}     
{'loss': 3.3675, 'learning_rate': 4.298777067205206e-05, 'epoch': 0.42}
{'eval_loss': 3.135730504989624, 'eval_runtime': 21.0693, 'eval_samples_per_second': 116.805, 'eval_steps_per_second': 29.237, 'epoch': 0.42}     
{'loss': 3.3824, 'learning_rate': 4.158532480646247e-05, 'epoch': 0.5}
{'eval_loss': 3.1204004287719727, 'eval_runtime': 21.2738, 'eval_samples_per_second': 115.682, 'eval_steps_per_second': 28.956, 'epoch': 0.5}     
{'loss': 3.3138, 'learning_rate': 4.0182878940872886e-05, 'epoch': 0.59}
{'eval_loss': 3.1019604206085205, 'eval_runtime': 21.3399, 'eval_samples_per_second': 115.324, 'eval_steps_per_second': 28.866, 'epoch': 0.59}    
{'loss': 3.3267, 'learning_rate': 3.8780433075283295e-05, 'epoch': 0.67}
{'eval_loss': 3.0892465114593506, 'eval_runtime': 21.3624, 'eval_samples_per_second': 115.203, 'eval_steps_per_second': 28.836, 'epoch': 0.67}    
{'loss': 3.3176, 'learning_rate': 3.737798720969371e-05, 'epoch': 0.76}
{'eval_loss': 3.084397077560425, 'eval_runtime': 21.1909, 'eval_samples_per_second': 116.135, 'eval_steps_per_second': 29.069, 'epoch': 0.76}     
{'loss': 3.3069, 'learning_rate': 3.597554134410412e-05, 'epoch': 0.84}
{'eval_loss': 3.077840566635132, 'eval_runtime': 21.2463, 'eval_samples_per_second': 115.832, 'eval_steps_per_second': 28.993, 'epoch': 0.84}     
{'loss': 3.2667, 'learning_rate': 3.4573095478514535e-05, 'epoch': 0.93}
{'eval_loss': 3.069462537765503, 'eval_runtime': 21.2148, 'eval_samples_per_second': 116.004, 'eval_steps_per_second': 29.036, 'epoch': 0.93}     
{'loss': 3.262, 'learning_rate': 3.3170649612924944e-05, 'epoch': 1.01}
{'eval_loss': 3.0658071041107178, 'eval_runtime': 21.2444, 'eval_samples_per_second': 115.842, 'eval_steps_per_second': 28.996, 'epoch': 1.01}    
{'loss': 3.1068, 'learning_rate': 3.1768203747335353e-05, 'epoch': 1.09}
{'eval_loss': 3.0682694911956787, 'eval_runtime': 21.2608, 'eval_samples_per_second': 115.753, 'eval_steps_per_second': 28.973, 'epoch': 1.09}    
{'loss': 3.1264, 'learning_rate': 3.0365757881745766e-05, 'epoch': 1.18}
{'eval_loss': 3.0608487129211426, 'eval_runtime': 21.1808, 'eval_samples_per_second': 116.19, 'eval_steps_per_second': 29.083, 'epoch': 1.18}     
{'loss': 3.1235, 'learning_rate': 2.896331201615618e-05, 'epoch': 1.26}
{'eval_loss': 3.0532307624816895, 'eval_runtime': 21.2788, 'eval_samples_per_second': 115.655, 'eval_steps_per_second': 28.949, 'epoch': 1.26}    
{'loss': 3.1115, 'learning_rate': 2.7560866150566587e-05, 'epoch': 1.35}
{'eval_loss': 3.0593326091766357, 'eval_runtime': 20.5697, 'eval_samples_per_second': 119.642, 'eval_steps_per_second': 29.947, 'epoch': 1.35}    
{'loss': 3.1083, 'learning_rate': 2.6158420284977003e-05, 'epoch': 1.43}
{'eval_loss': 3.05041766166687, 'eval_runtime': 20.5577, 'eval_samples_per_second': 119.712, 'eval_steps_per_second': 29.964, 'epoch': 1.43}      
{'loss': 3.0907, 'learning_rate': 2.4755974419387412e-05, 'epoch': 1.51}
{'eval_loss': 3.0467257499694824, 'eval_runtime': 20.6247, 'eval_samples_per_second': 119.323, 'eval_steps_per_second': 29.867, 'epoch': 1.51}    
{'loss': 3.0817, 'learning_rate': 2.3353528553797824e-05, 'epoch': 1.6}
{'eval_loss': 3.0444297790527344, 'eval_runtime': 20.2076, 'eval_samples_per_second': 121.786, 'eval_steps_per_second': 30.484, 'epoch': 1.6}     
{'loss': 3.0773, 'learning_rate': 2.1951082688208237e-05, 'epoch': 1.68}
{'eval_loss': 3.0433928966522217, 'eval_runtime': 20.2086, 'eval_samples_per_second': 121.78, 'eval_steps_per_second': 30.482, 'epoch': 1.68}     
{'loss': 3.0707, 'learning_rate': 2.0548636822618646e-05, 'epoch': 1.77}
{'eval_loss': 3.038411855697632, 'eval_runtime': 20.1716, 'eval_samples_per_second': 122.003, 'eval_steps_per_second': 30.538, 'epoch': 1.77}     
{'loss': 3.0715, 'learning_rate': 1.9146190957029058e-05, 'epoch': 1.85}
{'eval_loss': 3.0363986492156982, 'eval_runtime': 20.2926, 'eval_samples_per_second': 121.276, 'eval_steps_per_second': 30.356, 'epoch': 1.85}    
{'loss': 3.0964, 'learning_rate': 1.774374509143947e-05, 'epoch': 1.94}
{'eval_loss': 3.033076524734497, 'eval_runtime': 20.2936, 'eval_samples_per_second': 121.27, 'eval_steps_per_second': 30.354, 'epoch': 1.94}      
{'loss': 3.0595, 'learning_rate': 1.6341299225849883e-05, 'epoch': 2.02}
{'eval_loss': 3.036109447479248, 'eval_runtime': 20.2006, 'eval_samples_per_second': 121.828, 'eval_steps_per_second': 30.494, 'epoch': 2.02}     
{'loss': 2.9746, 'learning_rate': 1.4938853360260294e-05, 'epoch': 2.1}
{'eval_loss': 3.0359411239624023, 'eval_runtime': 20.2366, 'eval_samples_per_second': 121.611, 'eval_steps_per_second': 30.44, 'epoch': 2.1}      
{'loss': 2.9819, 'learning_rate': 1.3536407494670706e-05, 'epoch': 2.19}
{'eval_loss': 3.0380144119262695, 'eval_runtime': 20.2186, 'eval_samples_per_second': 121.72, 'eval_steps_per_second': 30.467, 'epoch': 2.19}     
{'loss': 2.9485, 'learning_rate': 1.2133961629081118e-05, 'epoch': 2.27}
{'eval_loss': 3.038111686706543, 'eval_runtime': 22.1586, 'eval_samples_per_second': 111.063, 'eval_steps_per_second': 27.8, 'epoch': 2.27}       
{'loss': 2.9678, 'learning_rate': 1.0731515763491531e-05, 'epoch': 2.36}
{'eval_loss': 3.035334587097168, 'eval_runtime': 20.9888, 'eval_samples_per_second': 117.253, 'eval_steps_per_second': 29.349, 'epoch': 2.36}      
{'loss': 2.9693, 'learning_rate': 9.329069897901942e-06, 'epoch': 2.44}
{'eval_loss': 3.033250331878662, 'eval_runtime': 21.4205, 'eval_samples_per_second': 114.89, 'eval_steps_per_second': 28.758, 'epoch': 2.44}       
{'loss': 2.9818, 'learning_rate': 7.926624032312354e-06, 'epoch': 2.52}
{'eval_loss': 3.031764268875122, 'eval_runtime': 21.2419, 'eval_samples_per_second': 115.856, 'eval_steps_per_second': 28.999, 'epoch': 2.52}      
{'loss': 2.9762, 'learning_rate': 6.524178166722765e-06, 'epoch': 2.61}
{'eval_loss': 3.028195381164551, 'eval_runtime': 21.2468, 'eval_samples_per_second': 115.829, 'eval_steps_per_second': 28.993, 'epoch': 2.61}      
{'loss': 2.9676, 'learning_rate': 5.121732301133176e-06, 'epoch': 2.69}
{'eval_loss': 3.0310025215148926, 'eval_runtime': 21.4714, 'eval_samples_per_second': 114.618, 'eval_steps_per_second': 28.689, 'epoch': 2.69}     
{'loss': 2.9459, 'learning_rate': 3.719286435543588e-06, 'epoch': 2.78}
{'eval_loss': 3.0307393074035645, 'eval_runtime': 22.0176, 'eval_samples_per_second': 111.774, 'eval_steps_per_second': 27.978, 'epoch': 2.78}     
{'loss': 2.9829, 'learning_rate': 2.3168405699539997e-06, 'epoch': 2.86}
{'eval_loss': 3.028294801712036, 'eval_runtime': 21.7191, 'eval_samples_per_second': 113.31, 'eval_steps_per_second': 28.362, 'epoch': 2.86}       
{'loss': 2.9813, 'learning_rate': 9.143947043644116e-07, 'epoch': 2.95}
{'eval_loss': 3.026671886444092, 'eval_runtime': 21.2608, 'eval_samples_per_second': 115.753, 'eval_steps_per_second': 28.973, 'epoch': 2.95}      
{'train_runtime': 2870.886, 'train_samples_per_second': 24.836, 'train_steps_per_second': 6.209, 'train_loss': 3.151238666484349, 'epoch': 3.0}