Skip to content

Latest commit

 

History

History

amazon_books_data

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

Amazon Books

这是来自亚马逊的大量产品评论抓取数据集。该数据集包含来自约2000万用户的8283万条独立评论。

数据预处理

我们基于ComiRec提供的AmazonBooks数据集进行进一步处理,使其适配EasyRec的召回模型样本格式。

详细处理细节见 process_amazon.py

也可跳过预处理,直接通过链接下载处理后的数据集: amazon_train_dataamazon_test_datanegative_book_data

  • 序列特征构造:

    为丰富样本特征,充分利用EasyRec处理序列特征的能力,我们对数据集进一步处理。ComiRec数据集中每一行代表一次交互,包含三个字段<user_id>,<item_id>,<time_stamp>。通过对用户进行分组,得到多条序列特征,用'|'分隔。为提高训练效率,我们设定序列特征的最大长度为50。

    例如,

    user_id book_id time_stamp
    0       a       0
    0       b       1
    0       c       2
    0       d       3
    
    ---- process ----
    
    user_id book_id_seq book_id label
    0       a           b       1
    0       a|b         c       1
    0       a|b|c       d       1
    
    
  • 负采样:

    原始数据集只包含正样本,为丰富样本,我们进行了随机负采样。对每一条样本,随机负采样4条没有出现在点击序列中的item。

    user_id book_id_seq book_id
    0       a           b
    0       a|b         c
    0       a|b|c       d
    
    ---- nagetive sampling ----
    
    user_id book_id_seq book_id label
    0       a           b       1
    0       a           h       0
    0       a           i       0
    0       a           j       0
    0       a           k       0
    0       a|b         c       1
    0       a|b         l       0
    0       a|b         m       0
    0       a|b         j       0
    0       a|b         o       0
    0       a|b|c       d       1
    0       a|b|c       m       0
    0       a|b|c       j       0
    0       a|b|c       r       0
    0       a|b|c       h       0