Skip to content

iftechio/algorithm-challenge-2025

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 

Repository files navigation

算法岗位校招笔试题

背景

我们希望通过本次笔试,了解你在以下几个方面的能力:

  1. 特征工程与数据理解:能从原始数据中发现潜在规律,并设计出有效的特征;面对缺失值、异常值或分布不均时,具备合理的处理与解释能力;
  2. 模型选择与训练策略:在多种算法或模型架构中,权衡性能、复杂度与可解释性;说明选择理由,并在训练过程中体现出对泛化与鲁棒性的思考;
  3. 数据分析与报告能力:除了“跑出结果”,能够通过可视化、指标分析或实验对比,清晰地展示结论;报告能让非技术背景的同事也可以理解模型的价值与局限;
  4. 对 AI 的使用:如果你使用了 AI(如 ChatGPT、Copilot 等),请明确说明使用了什么工具、在何处帮助了你,以及你如何基于 AI 提供的结果做出思考与修改。

我们对使用 AI 持开放态度,重点不是“手写所有代码”,而是“能否合理利用工具并展现你的思考和判断”。


题目:预测用户重复播放的概率

基于数据集,根据自己的理解进行合理的特征工程,并进行模型训练,对用户的重复播放行为进行预测。


详情

数据集下载

登录ModelScope网站,搜索数据集名称,申请数据集使用权限

  • 数据集下载网站:ModelScope
  • 数据集名称: Iftech/dataset_algo2025
  • 数据集使用:下载方式

数据集说明

train.csv

训练集。

  • uid: 用户ID;
  • episode_id: 单集ID;
  • tab_name: 标签页名称。标签页是APP的功能分类。例如:“发现”标签页是首屏打开的页面,“搜索”标签页包含与搜索相关的功能等;
  • scene_name: 用户看到的模块名称;
  • entrance_type: 用户首次在APP上播放播客单集的入口;
  • label: 目标值。label=1表示在用户首次播放播客行为后的一个月内,发生了重复的播放播客事件;label=0 则表示没有重复的播放行为。

test.csv

测试集。

  • id: 原始ID,用于提交;
  • uid: 同train.csv;
  • episode_id: 同train.csv;
  • tab_name: 同train.csv;
  • scene_name: 同train.csv;
  • entrance_type: 同train.csv;

user_feature.csv

用户信息/特征。

  • uid: 用户ID;
  • address: 位置;
  • age: 用户年龄;
  • sex: 用户性别;
  • rg_source: 注册渠道;
  • rg_date: 注册时间,格式: %Y-%m-%d;
  • exp_date: 过期时间,格式: %Y-%m-%d;

episodes_feature.csv

播客单集信息/特征。

  • episdoe_id: 单集ID;
  • duration: 内容时长,单位毫秒(ms);
  • category_ids: 播客单集类目. 一些播客内容可能有多个类别,他们用|分割;
  • host: 主播,多个人用|分割;
  • producer: 制作人,多个人用|分割;
  • writer: 撰稿人,多个人用|分割;
  • language: 语言;

episode_additional.csv

播客单集的额外信息。

  • episode_id: 单集ID;
  • title: 单集标题;
  • uuid: 理论上可以作为播客单集的身份标识。但是需要注意,有主播上传的uuid未经官方认证,故信息可能具有误导性、不准确。由于同一个单集会多次发布,所以会有多个单集共享同一uuid的情况。

提交内容

在 GitHub 上创建一个 公开仓库,上传代码及文件,文件包括:

  1. test.csv的预测结果文件,文件名为result.csv

    • 对于测试集中的每个 ID,输出预测目标变量的概率。文件需要包含title,格式如下:
    id,label
    0,0.45
    1,0.73
    2,1.00
    ...
    ...
    2556789,0.84
    
  2. 特征工程代码;

  3. 模型训练代码;

  4. README.md文件,简要说明代码运行方式;

  5. 一份分析报告(可为 analysis.md 或者 analysis.pdf),包含要素:

    • 特征的分析和处理,特征的分布等;

    • 模型的训练、调优过程等;

    • 结果的分析对比等;

    • 你认为的能体现出自己工作亮点的展示。

评估

  • result.csv文件数据值;
  • analysis.md 或者 analysis.pdf分析报告。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published