Skip to content
Draft
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
224 changes: 106 additions & 118 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,119 +1,107 @@
# 数据科学导论
## 中国传媒大学 2026 春季课程

### 课程定位
《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。

### 课程目标
- 理解数据科学的基本概念和方法论
- 掌握数据收集、清洗、分析和可视化的基本技能
- 了解机器学习和统计学习的核心算法
- 培养利用数据科学方法解决实际问题的能力
- 建立数据驱动的思维方式

### 课程大纲
#### 第一部分:数据科学基础
- 数据科学概述
- 数据收集与预处理
- 数据可视化基础
- 描述性统计分析

#### 第二部分:统计学习方法
- 线性回归与分类
- 重抽样方法
- 模型选择和正则化
- 决策树与组合学习

#### 第三部分:高级主题
- 支持向量机
- 神经网络基础
- 无监督学习
- 推荐算法
- 文本挖掘
- 社交网络分析
- 并行与分布式计算

### 数据科学的发展历史
1. **统计学阶段**:数据科学的起点
- 古典统计学时期:主要服务于国家治理和社会管理
- 近代统计学时期:概率论逐渐进入统计学
- 现代统计学时期:Fisher 等学者推动实验设计、方差分析、推断统计的发展

2. **高维数据阶段**:方法创新的推动期
- 随着生物医学和计算机技术发展,出现了"变量多、样本少"的高维数据问题
- 传统统计方法面临挑战,催生了变量选择与正则化等新方法

3. **数据挖掘阶段**:从分析走向知识发现
- 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累
- 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识

4. **机器学习与大数据阶段**
- 机器学习关注让计算机从数据中自动学习规律并进行预测
- 2011 年后,"大数据时代"概念流行

5. **数据科学阶段**:综合性交叉学科形成
- 数据科学比"大数据"更广,是一个综合性概念
- 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解

### 数据科学研究的主要问题
1. **关系发现与预测问题**
- 例子:家庭收入与消费支出之间是否存在数量关系?已知收入,能否预测消费?
- 对应方法:回归分析、预测建模

2. **分类与风险识别问题**
- 例子:消费贷客户是否会违约?员工是否会离职?
- 对应方法:分类模型、风险评分、预警模型

3. **影响因素识别问题**
- 例子:哪些临床指标会影响某项健康指标?
- 对应方法:变量筛选、解释性建模、因果分析初步探索

4. **关联规则与推荐问题**
- 例子:买了面包的人是否更容易买牛奶?如何根据用户历史行为推荐商品?
- 对应方法:关联规则分析、推荐系统

5. **降维与综合评价问题**
- 例子:多个犯罪率指标能否压缩成少数几个综合变量?如何构建综合指数对地区进行评价?
- 对应方法:主成分分析、因子分析等

6. **聚类与细分问题**
- 例子:如何根据多个特征把样本自动分成几类?例如客户分群、用户画像、市场细分
- 对应方法:聚类分析、无监督学习

7. **文本挖掘与情感分析问题**
- 例子:海量新闻主要讨论哪些主题?能否识别文本情感倾向?
- 对应方法:文本挖掘、主题模型、情感分析

### 数据科学的基本方法
#### 监督学习:从已知样本中学习规律
- **回归问题**:当输出变量是连续数值时,例如根据房屋面积、地段、楼层等变量预测房价
- **分类问题**:当输出变量是离散类别时,例如判断一个客户是否违约,判断一封邮件是否为垃圾邮件
- **标注问题**:输入往往是一个序列,输出也是一个序列,例如在自然语言处理中,对一句话中的每个词进行词性标注、命名实体识别等

#### 无监督学习:在没有标签的情况下发现结构
- 聚类分析:把相似对象自动分成若干组
- 降维分析:把高维变量压缩为较少的综合变量
- 关联规则分析:发现变量之间的共现关系
- 主题发现:从文本中自动提取主题结构

#### 半监督学习:利用少量标注数据和大量未标注数据
- 使用少量标注数据提供学习方向
- 使用大量未标注数据补充数据分布信息
- 在较低标注成本下提升模型性能

#### 强化学习:在动态环境中学习最优决策
- 特别适用于动态决策、序列控制与长期收益优化问题

### 学习资料
- **课程讲稿**
- [第1讲:数据科学的发展历史与研究问题](https://xiaoningwang.github.io/teaching/datascience/chap1-introduction)
- [第2讲:数据科学的基本方法](https://xiaoningwang.github.io/teaching/datascience/chap2-datascience)

### 智能助教
为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。

### 联系我们
如果您对课程有任何问题或建议,欢迎联系课程负责人:
- 王小宁 副教授
# 数据科学导论(Introduction of Data Science)

> 中国传媒大学(CUC)课程资源仓库(2026 春季)

## 1. 仓库简介
本仓库用于汇总《数据科学导论》课程的讲义、课件与阅读材料,覆盖从数据科学基础到常见机器学习方法及专题应用(如推荐、文本挖掘、社交网络分析)。适合作为课程学习、复习与教学备课的统一入口。

## 2. 课程目标
通过本课程,你将能够:
- 理解数据科学的核心概念、发展脉络与问题类型。
- 掌握数据获取、清洗、分析与可视化的基础流程。
- 建立监督学习、无监督学习等方法的整体认知。
- 了解典型算法在传媒与社会数据中的应用场景。
- 形成“问题导向 + 数据驱动”的分析思维。

## 3. 内容结构(按学习路径)
建议按“基础认知 → 方法体系 → 典型算法 → 应用专题”的顺序学习。

### 3.1 基础认知与方法论
- 第 1 讲:数据科学的发展历史与研究问题(Markdown + PDF)
- 第 2 讲:数据科学的主要方法(Markdown + PDF)
- 第 3 讲:统计学习三要素(PDF)
- 第 4 讲:数据分析基础、数据清洗与转化(PDF)
- 第 5 讲:数据可视化(PDF)

### 3.2 核心算法模块
- 第 6 讲:回归分析
- 第 7 讲:普通分类(Logistic)
- 第 8 讲:决策树与集成学习
- 第 9 讲:支持向量机(SVM)
- 第 10 讲:无监督学习

### 3.3 进阶专题模块
- 第 11 讲:推荐算法
- 第 12 讲:文本挖掘
- 第 13 讲:社交网络分析
- 第 14 讲:重抽样方法

## 4. 课程资源清单

| 类型 | 主题 | 文件 |
|---|---|---|
| Markdown 讲稿 | 第 1 讲:数据科学的发展历史与研究问题 | [chap1-introduction.md](./chap1-introduction.md) |
| Markdown 讲稿 | 第 2 讲:数据科学的主要方法 | [chap2-datascience.md](./chap2-datascience.md) |
| PDF 课件 | 第 1 讲导读 | [chap1-数据科学导论导读.pdf](./chap1-数据科学导论导读.pdf) |
| PDF 课件 | 第 2 讲:数据科学的主要方法 | [chap2-数据科学的主要方法.pdf](./chap2-数据科学的主要方法.pdf) |
| PDF 课件 | 第 3 讲:统计学习三要素 | [chap3-统计学习三要素-250324.pdf](./chap3-统计学习三要素-250324.pdf) |
| PDF 课件 | 第 4 讲:数据分析基础清洗转化 | [chap4-数据分析基础清洗转化250331.pdf](./chap4-数据分析基础清洗转化250331.pdf) |
| PDF 课件 | 第 5 讲:数据可视化 | [ch5-20250407-数据可视化.pdf](./ch5-20250407-数据可视化.pdf) |
| PDF 课件 | 第 6 讲:回归分析 | [ch6-回归分析-0414.pdf](./ch6-回归分析-0414.pdf) |
| PDF 课件 | 第 7 讲:普通分类 Logistic | [ch7-普通分类Logistic-0509.pdf](./ch7-普通分类Logistic-0509.pdf) |
| PDF 课件 | 第 8 讲:决策树和集成学习 | [ch8-20250523-决策树和集成学习.pdf](./ch8-20250523-决策树和集成学习.pdf) |
| PDF 课件 | 第 9 讲:支持向量机 | [ch9-支持向量机---20250525.pdf](./ch9-支持向量机---20250525.pdf) |
| PDF 课件 | 第 10 讲:无监督学习 | [ch10-无监督学习20250605.pdf](./ch10-无监督学习20250605.pdf) |
| PDF 课件 | 第 11 讲:推荐算法 | [ch11-推荐算法---20250612.pdf](./ch11-推荐算法---20250612.pdf) |
| PDF 课件 | 第 12 讲:文本挖掘 | [ch12-文本挖掘-20250612.pdf](./ch12-文本挖掘-20250612.pdf) |
| PDF 课件 | 第 13 讲:社交网络分析 | [ch13-社交网络分析-20250619.pdf](./ch13-社交网络分析-20250619.pdf) |
| PDF 课件 | 第 14 讲:重抽样方法 | [ch14-重抽样方法-250619.pdf](./ch14-重抽样方法-250619.pdf) |
| 预习材料 | 课前导读(24-25 春季) | [数据科学导论课前导读24-25春季.pdf](./数据科学导论课前导读24-25春季.pdf) |


## 5. 课程讲稿(第2讲—第7讲)
为便于课堂教学与课后复习,以下补充第 2 讲到第 7 讲的讲稿/课件入口与学习要点:

- **第 2 讲:数据科学的主要方法**
讲稿:[`chap2-datascience.md`](./chap2-datascience.md) | 课件:[`chap2-数据科学的主要方法.pdf`](./chap2-数据科学的主要方法.pdf)
要点:监督学习、无监督学习、半监督学习、强化学习与统计学习三要素。

- **第 3 讲:统计学习三要素**
课件:[`chap3-统计学习三要素-250324.pdf`](./chap3-统计学习三要素-250324.pdf)
要点:模型、策略、算法;经验风险与结构风险;泛化能力。

- **第 4 讲:数据分析基础、数据清洗与转化**
课件:[`chap4-数据分析基础清洗转化250331.pdf`](./chap4-数据分析基础清洗转化250331.pdf)
要点:数据质量评估、缺失值处理、异常值识别、特征变换。

- **第 5 讲:数据可视化**
课件:[`ch5-20250407-数据可视化.pdf`](./ch5-20250407-数据可视化.pdf)
要点:可视化编码原则、常见图表选择、叙事化表达。

- **第 6 讲:回归分析**
课件:[`ch6-回归分析-0414.pdf`](./ch6-回归分析-0414.pdf)
要点:线性回归建模、参数估计、模型诊断与解释。

- **第 7 讲:普通分类(Logistic)**
课件:[`ch7-普通分类Logistic-0509.pdf`](./ch7-普通分类Logistic-0509.pdf)
要点:二分类建模、似然函数、阈值设定与分类评估指标。

## 6. 在线阅读(课程主页)
- 第 1 讲:<https://xiaoningwang.github.io/teaching/datascience/chap1-introduction>
- 第 2 讲:<https://xiaoningwang.github.io/teaching/datascience/chap2-datascience>

## 7. 使用建议
- **教师备课**:优先查看各讲 PDF,再结合 Markdown 讲稿组织课堂讲解逻辑。
- **学生学习**:先读 Markdown 建立框架,再用 PDF 跟进细节、图示与案例。
- **复习阶段**:按“讲次”纵向复习,再按“方法类型”(回归/分类/聚类/推荐)横向对比。

## 8. 课程支持
为提升学习体验,课程可结合智能助教(Scholar Hero)进行课堂演示、示例问答与课后讨论。

## 9. 联系方式
- 课程负责人:王小宁 副教授
- 邮箱:sdwangxiaoning@cuc.edu.cn
- 办公地点:中国传媒大学 46-303
- 办公地点:中国传媒大学 46-303

## 10. License
本仓库采用 [MIT License](./LICENSE)。