MTGRec

This is the official PyTorch implementation for the paper:

Multi-Identifier Item Tokenization for Generative Recommender Pre-training

Overview

In this paper, we propose MTGRec, which leverages Multi-identifier item Tokenization to augment token sequence data for Generative Recommender pre-training. Specifically, our approach makes two key contributions: multi-identifier item tokenization and curriculum recommender pre-training. For multi-identifier item tokenization, we adopt the Residual-Quantized Variational AutoEncoder (RQ-VAE) as the backbone of item tokenizers and consider model checkpoints from adjacent epochs as semantically relevant tokenizers. This enables us to associate each item with multiple identifiers and tokenize a single item interaction sequence into several token sequences as different data groups. For curriculum recommender pre-training, we design a data curriculum scheme through data influence estimation. During recommender pre-training, we dynamically adjust the sampling probability of each data group according to the influence of the data from each item tokenizer, where the influence estimation is achieved via first-order gradient approximation. Finally, we fine-tune the pre-trained model using a single item identifier to ensure accurate item identification during recommendation.

Requirements

torch==2.4.1+cu124
transformers==4.45.2
accelerate==1.0.1

Datasets

You can find all the datasets we used in Google Drive. Please download the file and unzip it to the current folder. Each dataset contains the following files:

dataset_name/
├── metadata.sentence.json
├── all_item_seqs.json
├── id_mapping.json
└── rqvae/
    ├── sentence-t5-base_256,256,256,256_9950.sem_ids
    ├── ...
    └── sentence-t5-base_256,256,256,256_10000.sem_ids

Quick Start

Train RQ-VAE and generate item semantic IDs:

cd tokenizer
bash run.sh

Pre-train recommender:

bash pretrain.sh

Finetune recommender:

bash finetune.sh

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
asset		asset
config		config
tokenizer		tokenizer
README.md		README.md
collator.py		collator.py
data_utils.py		data_utils.py
dataset.py		dataset.py
ensemble_results.py		ensemble_results.py
evaluator.py		evaluator.py
finetune.py		finetune.py
finetune.sh		finetune.sh
grad_utils.py		grad_utils.py
model.py		model.py
pretrain.py		pretrain.py
pretrain.sh		pretrain.sh
tokenizer.py		tokenizer.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MTGRec

Overview

Requirements

Datasets

Quick Start

About

Releases

Packages

Languages

zhengbw0324/MTGRec

Folders and files

Latest commit

History

Repository files navigation

MTGRec

Overview

Requirements

Datasets

Quick Start

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages