我们希望通过本次笔试,了解你在以下几个方面的能力:
- 特征工程与数据理解:能从原始数据中发现潜在规律,并设计出有效的特征;面对缺失值、异常值或分布不均时,具备合理的处理与解释能力;
- 模型选择与训练策略:在多种算法或模型架构中,权衡性能、复杂度与可解释性;说明选择理由,并在训练过程中体现出对泛化与鲁棒性的思考;
- 数据分析与报告能力:除了“跑出结果”,能够通过可视化、指标分析或实验对比,清晰地展示结论;报告能让非技术背景的同事也可以理解模型的价值与局限;
- 对 AI 的使用:如果你使用了 AI(如 ChatGPT、Copilot 等),请明确说明使用了什么工具、在何处帮助了你,以及你如何基于 AI 提供的结果做出思考与修改。
我们对使用 AI 持开放态度,重点不是“手写所有代码”,而是“能否合理利用工具并展现你的思考和判断”。
基于数据集,根据自己的理解进行合理的特征工程,并进行模型训练,对用户的重复播放行为进行预测。
登录ModelScope网站,搜索数据集名称,申请数据集使用权限
- 数据集下载网站:ModelScope
- 数据集名称:
Iftech/dataset_algo2025 - 数据集使用:下载方式
训练集。
- uid: 用户ID;
- episode_id: 单集ID;
- tab_name: 标签页名称。标签页是APP的功能分类。例如:“发现”标签页是首屏打开的页面,“搜索”标签页包含与搜索相关的功能等;
- scene_name: 用户看到的模块名称;
- entrance_type: 用户首次在APP上播放播客单集的入口;
- label: 目标值。
label=1表示在用户首次播放播客行为后的一个月内,发生了重复的播放播客事件;label=0则表示没有重复的播放行为。
测试集。
- id: 原始ID,用于提交;
- uid: 同train.csv;
- episode_id: 同train.csv;
- tab_name: 同train.csv;
- scene_name: 同train.csv;
- entrance_type: 同train.csv;
用户信息/特征。
- uid: 用户ID;
- address: 位置;
- age: 用户年龄;
- sex: 用户性别;
- rg_source: 注册渠道;
- rg_date: 注册时间,格式: %Y-%m-%d;
- exp_date: 过期时间,格式: %Y-%m-%d;
播客单集信息/特征。
- episdoe_id: 单集ID;
- duration: 内容时长,单位毫秒(ms);
- category_ids: 播客单集类目. 一些播客内容可能有多个类别,他们用
|分割; - host: 主播,多个人用
|分割; - producer: 制作人,多个人用
|分割; - writer: 撰稿人,多个人用
|分割; - language: 语言;
播客单集的额外信息。
- episode_id: 单集ID;
- title: 单集标题;
- uuid: 理论上可以作为播客单集的身份标识。但是需要注意,有主播上传的uuid未经官方认证,故信息可能具有误导性、不准确。由于同一个单集会多次发布,所以会有多个单集共享同一uuid的情况。
在 GitHub 上创建一个 公开仓库,上传代码及文件,文件包括:
-
test.csv的预测结果文件,文件名为result.csv;- 对于测试集中的每个 ID,输出预测目标变量的概率。文件需要包含title,格式如下:
id,label 0,0.45 1,0.73 2,1.00 ... ... 2556789,0.84 -
特征工程代码;
-
模型训练代码;
-
README.md文件,简要说明代码运行方式; -
一份分析报告(可为
analysis.md或者analysis.pdf),包含要素:-
特征的分析和处理,特征的分布等;
-
模型的训练、调优过程等;
-
结果的分析对比等;
-
你认为的能体现出自己工作亮点的展示。
-
result.csv文件数据值;analysis.md或者analysis.pdf分析报告。