算法岗位校招笔试题

背景

我们希望通过本次笔试，了解你在以下几个方面的能力：

特征工程与数据理解：能从原始数据中发现潜在规律，并设计出有效的特征；面对缺失值、异常值或分布不均时，具备合理的处理与解释能力；
模型选择与训练策略：在多种算法或模型架构中，权衡性能、复杂度与可解释性；说明选择理由，并在训练过程中体现出对泛化与鲁棒性的思考；
数据分析与报告能力：除了“跑出结果”，能够通过可视化、指标分析或实验对比，清晰地展示结论；报告能让非技术背景的同事也可以理解模型的价值与局限；
对 AI 的使用：如果你使用了 AI（如 ChatGPT、Copilot 等），请明确说明使用了什么工具、在何处帮助了你，以及你如何基于 AI 提供的结果做出思考与修改。

我们对使用 AI 持开放态度，重点不是“手写所有代码”，而是“能否合理利用工具并展现你的思考和判断”。

题目：预测用户重复播放的概率

基于数据集，根据自己的理解进行合理的特征工程，并进行模型训练，对用户的重复播放行为进行预测。

详情

数据集下载

登录ModelScope网站，搜索数据集名称，申请数据集使用权限

数据集下载网站：ModelScope
数据集名称： Iftech/dataset_algo2025
数据集使用：下载方式

数据集说明

train.csv

训练集。

uid: 用户ID；
episode_id: 单集ID；
tab_name: 标签页名称。标签页是APP的功能分类。例如：“发现”标签页是首屏打开的页面，“搜索”标签页包含与搜索相关的功能等；
scene_name: 用户看到的模块名称；
entrance_type: 用户首次在APP上播放播客单集的入口；
label: 目标值。label=1表示在用户首次播放播客行为后的一个月内，发生了重复的播放播客事件；label=0 则表示没有重复的播放行为。

test.csv

测试集。

id: 原始ID，用于提交；
uid: 同train.csv；
episode_id: 同train.csv；
tab_name: 同train.csv；
scene_name: 同train.csv；
entrance_type: 同train.csv；

user_feature.csv

用户信息/特征。

uid: 用户ID；
address: 位置；
age: 用户年龄；
sex: 用户性别；
rg_source: 注册渠道；
rg_date: 注册时间，格式: %Y-%m-%d；
exp_date: 过期时间，格式: %Y-%m-%d；

episodes_feature.csv

播客单集信息/特征。

episdoe_id: 单集ID；
duration: 内容时长，单位毫秒（ms）；
category_ids: 播客单集类目. 一些播客内容可能有多个类别，他们用|分割；
host: 主播，多个人用|分割；
producer: 制作人，多个人用|分割；
writer: 撰稿人，多个人用|分割；
language: 语言；

episode_additional.csv

播客单集的额外信息。

episode_id: 单集ID；
title: 单集标题；
uuid: 理论上可以作为播客单集的身份标识。但是需要注意，有主播上传的uuid未经官方认证，故信息可能具有误导性、不准确。由于同一个单集会多次发布，所以会有多个单集共享同一uuid的情况。

提交内容

在 GitHub 上创建一个 公开仓库，上传代码及文件，文件包括:

test.csv的预测结果文件，文件名为result.csv；
- 对于测试集中的每个 ID，输出预测目标变量的概率。文件需要包含title，格式如下：
```
id,label
0,0.45
1,0.73
2,1.00
...
...
2556789,0.84
```
特征工程代码；
模型训练代码；
README.md文件，简要说明代码运行方式；
一份分析报告（可为 analysis.md 或者 analysis.pdf），包含要素：
- 特征的分析和处理，特征的分布等；
- 模型的训练、调优过程等；
- 结果的分析对比等；
- 你认为的能体现出自己工作亮点的展示。

评估

result.csv文件数据值；
analysis.md 或者 analysis.pdf分析报告。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

算法岗位校招笔试题

背景

题目：预测用户重复播放的概率

详情

数据集下载

数据集说明

train.csv

test.csv

user_feature.csv

episodes_feature.csv

episode_additional.csv

提交内容

评估

About

Uh oh!

Releases

Packages

iftechio/algorithm-challenge-2025

Folders and files

Latest commit

History

Repository files navigation

算法岗位校招笔试题

背景

题目：预测用户重复播放的概率

详情

数据集下载

数据集说明

train.csv

test.csv

user_feature.csv

episodes_feature.csv

episode_additional.csv

提交内容

评估

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages