classifier.py

#!/bin/env python3
import argparse
import os

import numpy as np
import torch
import torch.nn as nn
from torch.optim import Adam
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms
from torchvision.datasets import ImageFolder
from tqdm import tqdm

from data_parallel import get_data_parallel
from helpers import load_epoch
from models import CaptchaClassifierCNN40x40
from running_log import RunningLog


def eval_model(model, valid_data_loader, device):
    criterion = nn.CrossEntropyLoss().to(device)
    total_count, correct_count = 0, 0
    losses = []
    for data in tqdm(valid_data_loader, desc='Eval'):
        data = [x.to(device) for x in data]
        total_count += data[0].size(0)
        output = model(data[0])
        loss = criterion(output, data[1])
        losses.append(loss.item())
        # noinspection PyUnresolvedReferences
        correct_count += (torch.argmax(output, dim=1) == data[1]).sum().item()
    return np.mean(losses), correct_count / total_count


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('--task', choices=['train', 'valid', 'train-all'],
                        default='train', help='task to run')
    parser.add_argument('--dataset_path', help='path to the dataset folder',
                        default='dataset/segmented')
    parser.add_argument('--save_path', help='path for saving models and codes',
                        default='save/classifier')
    parser.add_argument('--gpu', type=lambda x: list(map(int, x.split(','))),
                        default=[], help="GPU ids separated by `,'")
    parser.add_argument('--load', type=int, default=0,
                        help='load module training at give epoch')
    parser.add_argument('--epoch', type=int, default=20, help='epoch to train')
    parser.add_argument('--batch_size', type=int, default=64, help='batch size')
    parser.add_argument('--learning_rate', type=float, default=0.0001,
                        help='learning rate')
    parser.add_argument('--log_every_iter', type=int, default=100,
                        help='log loss every numbers of iteration')
    parser.add_argument('--valid_every_epoch', type=int, default=1,
                        help='run validation every numbers of epoch; '
                             '0 for disabling')
    parser.add_argument('--save_every_epoch', type=int, default=5,
                        help='save model every numbers of epoch; '
                             '0 for disabling')
    parser.add_argument('--comment', default='', help='comment for tensorboard')
    args = parser.parse_args()
    running_log = RunningLog(args.save_path)
    running_log.set('parameters', vars(args))
    os.makedirs(args.save_path, exist_ok=True)
    model = get_data_parallel(CaptchaClassifierCNN40x40(), args.gpu)
    device = torch.device("cuda:%d" % args.gpu[0] if args.gpu else "cpu")
    optimizer_state_dict = None
    if args.load > 0:
        model_state_dict, optimizer_state_dict = \
            load_epoch(args.save_path, args.load)
        model.load_state_dict(model_state_dict)
    model.to(device)
    running_log.set('state', 'interrupted')
    if args.task == 'train' or args.task == 'train-all':
        model.train()
        # noinspection PyUnresolvedReferences
        train_dataset = ImageFolder(os.path.join(
            args.dataset_path, 'train' if args.task == 'train' else 'all'),
            transform=transforms.Compose([
                transforms.Grayscale(),
                transforms.ToTensor(),
            ]))
        train_data_loader = DataLoader(train_dataset,
                                       batch_size=args.batch_size,
                                       shuffle=True)
        valid_data_loader = None
        optimizer = Adam(model.parameters(), lr=args.learning_rate)
        if optimizer_state_dict is not None:
            optimizer.load_state_dict(optimizer_state_dict)
        criterion = nn.CrossEntropyLoss().to(device)
        writer = SummaryWriter(comment=args.comment or os.path.basename(args.save_path))
        step = 0
        for epoch in tqdm(range(args.load + 1, args.epoch + 1), desc='Epoch'):
            losses = []
            for iter, data in enumerate(tqdm(train_data_loader, desc='Iter'), 1):
                data = [x.to(device) for x in data]
                output = model(data[0])
                loss = criterion(output, data[1])
                losses.append(loss.item())
                writer.add_scalar('train/loss', loss.item(), step)
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                if iter % args.log_every_iter == 0:
                    # noinspection PyStringFormat
                    tqdm.write('epoch:[%d/%d] iter:[%d/%d] Loss=%.5f' %
                               (epoch, args.epoch, iter, len(train_data_loader),
                                np.mean(losses)))
                    losses = []
                step += 1
            if args.valid_every_epoch and epoch % args.valid_every_epoch == 0:
                if valid_data_loader is None:
                    # noinspection PyUnresolvedReferences
                    valid_dataset = ImageFolder(os.path.join(args.dataset_path, 'test'),
                                                transform=transforms.Compose([
                                                    transforms.Grayscale(),
                                                    transforms.ToTensor(),
                                                ]))
                    valid_data_loader = DataLoader(valid_dataset,
                                                   batch_size=args.batch_size,
                                                   shuffle=False)
                model.eval()
                loss, acc = eval_model(model, valid_data_loader, device)
                # noinspection PyStringFormat
                tqdm.write('Loss=%f Accuracy=%f' % (loss, acc))
                writer.add_scalar('eval/loss', loss, epoch)
                writer.add_scalar('eval/acc', acc, epoch)
                model.train()
            if args.save_every_epoch and epoch % args.save_every_epoch == 0:
                tqdm.write('saving to epoch.%04d.pth' % epoch)
                torch.save((model.state_dict(), optimizer.state_dict()),
                           os.path.join(args.save_path,
                                        'epoch.%04d.pth' % epoch))
    elif args.task == 'valid':
        model.eval()
        # noinspection PyUnresolvedReferences
        valid_dataset = ImageFolder(os.path.join(args.dataset_path, 'test'),
                                    transform=transforms.Compose([
                                        transforms.Grayscale(),
                                        transforms.ToTensor(),
                                    ]))
        valid_data_loader = DataLoader(valid_dataset,
                                       batch_size=args.batch_size,
                                       shuffle=False)
        loss, acc = eval_model(model, valid_data_loader, device)
        # noinspection PyStringFormat
        tqdm.write('Loss=%f Accuracy=%f' % (loss, acc))
    running_log.set('state', 'succeeded')


if __name__ == '__main__':
    main()