xiaoningwang · xiaoningwang · May 20, 2026
diff --git a/README.md b/README.md
@@ -1,119 +1,107 @@
-# 数据科学导论
-## 中国传媒大学 2026 春季课程
-
-### 课程定位
-《数据科学导论》课程定位培养学生学习数据科学分析的基本原理，掌握数据分析的基本思路、常见的分析方法以及应用场景，学会数据分析及可视化的方法，相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计，培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。
-
-### 课程目标
-- 理解数据科学的基本概念和方法论
-- 掌握数据收集、清洗、分析和可视化的基本技能
-- 了解机器学习和统计学习的核心算法
-- 培养利用数据科学方法解决实际问题的能力
-- 建立数据驱动的思维方式
-
-### 课程大纲
-#### 第一部分：数据科学基础
-- 数据科学概述
-- 数据收集与预处理
-- 数据可视化基础
-- 描述性统计分析
-
-#### 第二部分：统计学习方法
-- 线性回归与分类
-- 重抽样方法
-- 模型选择和正则化
-- 决策树与组合学习
-
-#### 第三部分：高级主题
-- 支持向量机
-- 神经网络基础
-- 无监督学习
-- 推荐算法
-- 文本挖掘
-- 社交网络分析
-- 并行与分布式计算
-
-### 数据科学的发展历史
-1. **统计学阶段**：数据科学的起点
-   - 古典统计学时期：主要服务于国家治理和社会管理
-   - 近代统计学时期：概率论逐渐进入统计学
-   - 现代统计学时期：Fisher 等学者推动实验设计、方差分析、推断统计的发展
-
-2. **高维数据阶段**：方法创新的推动期
-   - 随着生物医学和计算机技术发展，出现了"变量多、样本少"的高维数据问题
-   - 传统统计方法面临挑战，催生了变量选择与正则化等新方法
-
-3. **数据挖掘阶段**：从分析走向知识发现
-   - 20 世纪 90 年代后，互联网和数据库快速发展，海量数据不断积累
-   - 数据挖掘兴起，强调从大量复杂数据中发现潜在模式和有价值知识
-
-4. **机器学习与大数据阶段**
-   - 机器学习关注让计算机从数据中自动学习规律并进行预测
-   - 2011 年后，"大数据时代"概念流行
-
-5. **数据科学阶段**：综合性交叉学科形成
-   - 数据科学比"大数据"更广，是一个综合性概念
-   - 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解
-
-### 数据科学研究的主要问题
-1. **关系发现与预测问题**
-   - 例子：家庭收入与消费支出之间是否存在数量关系？已知收入，能否预测消费？
-   - 对应方法：回归分析、预测建模
-
-2. **分类与风险识别问题**
-   - 例子：消费贷客户是否会违约？员工是否会离职？
-   - 对应方法：分类模型、风险评分、预警模型
-
-3. **影响因素识别问题**
-   - 例子：哪些临床指标会影响某项健康指标？
-   - 对应方法：变量筛选、解释性建模、因果分析初步探索
-
-4. **关联规则与推荐问题**
-   - 例子：买了面包的人是否更容易买牛奶？如何根据用户历史行为推荐商品？
-   - 对应方法：关联规则分析、推荐系统
-
-5. **降维与综合评价问题**
-   - 例子：多个犯罪率指标能否压缩成少数几个综合变量？如何构建综合指数对地区进行评价？
-   - 对应方法：主成分分析、因子分析等
-
-6. **聚类与细分问题**
-   - 例子：如何根据多个特征把样本自动分成几类？例如客户分群、用户画像、市场细分
-   - 对应方法：聚类分析、无监督学习
-
-7. **文本挖掘与情感分析问题**
-   - 例子：海量新闻主要讨论哪些主题？能否识别文本情感倾向？
-   - 对应方法：文本挖掘、主题模型、情感分析
-
-### 数据科学的基本方法
-#### 监督学习：从已知样本中学习规律
-- **回归问题**：当输出变量是连续数值时，例如根据房屋面积、地段、楼层等变量预测房价
-- **分类问题**：当输出变量是离散类别时，例如判断一个客户是否违约，判断一封邮件是否为垃圾邮件
-- **标注问题**：输入往往是一个序列，输出也是一个序列，例如在自然语言处理中，对一句话中的每个词进行词性标注、命名实体识别等
-
-#### 无监督学习：在没有标签的情况下发现结构
-- 聚类分析：把相似对象自动分成若干组
-- 降维分析：把高维变量压缩为较少的综合变量
-- 关联规则分析：发现变量之间的共现关系
-- 主题发现：从文本中自动提取主题结构
-
-#### 半监督学习：利用少量标注数据和大量未标注数据
-- 使用少量标注数据提供学习方向
-- 使用大量未标注数据补充数据分布信息
-- 在较低标注成本下提升模型性能
-
-#### 强化学习：在动态环境中学习最优决策
-- 特别适用于动态决策、序列控制与长期收益优化问题
-
-### 学习资料
-- **课程讲稿**
-  - [第1讲：数据科学的发展历史与研究问题](https://xiaoningwang.github.io/teaching/datascience/chap1-introduction)
-  - [第2讲：数据科学的基本方法](https://xiaoningwang.github.io/teaching/datascience/chap2-datascience)
-
-### 智能助教
-为提升学习体验，本课程配备 Scholar Hero 智能助教，支持课堂演示、代码示例和问答反馈。
-
-### 联系我们
-如果您对课程有任何问题或建议，欢迎联系课程负责人：
-- 王小宁 副教授
+# 数据科学导论（Introduction of Data Science）
+
+> 中国传媒大学（CUC）课程资源仓库（2026 春季）
+
+## 1. 仓库简介
+本仓库用于汇总《数据科学导论》课程的讲义、课件与阅读材料，覆盖从数据科学基础到常见机器学习方法及专题应用（如推荐、文本挖掘、社交网络分析）。适合作为课程学习、复习与教学备课的统一入口。
+
+## 2. 课程目标
+通过本课程，你将能够：
+- 理解数据科学的核心概念、发展脉络与问题类型。
+- 掌握数据获取、清洗、分析与可视化的基础流程。
+- 建立监督学习、无监督学习等方法的整体认知。
+- 了解典型算法在传媒与社会数据中的应用场景。
+- 形成“问题导向 + 数据驱动”的分析思维。
+
+## 3. 内容结构（按学习路径）
+建议按“基础认知 → 方法体系 → 典型算法 → 应用专题”的顺序学习。
+
+### 3.1 基础认知与方法论
+- 第 1 讲：数据科学的发展历史与研究问题（Markdown + PDF）
+- 第 2 讲：数据科学的主要方法（Markdown + PDF）
+- 第 3 讲：统计学习三要素（PDF）
+- 第 4 讲：数据分析基础、数据清洗与转化（PDF）
+- 第 5 讲：数据可视化（PDF）
+
+### 3.2 核心算法模块
+- 第 6 讲：回归分析
+- 第 7 讲：普通分类（Logistic）
+- 第 8 讲：决策树与集成学习
+- 第 9 讲：支持向量机（SVM）
+- 第 10 讲：无监督学习
+
+### 3.3 进阶专题模块
+- 第 11 讲：推荐算法
+- 第 12 讲：文本挖掘
+- 第 13 讲：社交网络分析
+- 第 14 讲：重抽样方法
+
+## 4. 课程资源清单
+
+| 类型 | 主题 | 文件 |
+|---|---|---|
+| Markdown 讲稿 | 第 1 讲：数据科学的发展历史与研究问题 | [chap1-introduction.md](./chap1-introduction.md) |
+| Markdown 讲稿 | 第 2 讲：数据科学的主要方法 | [chap2-datascience.md](./chap2-datascience.md) |
+| PDF 课件 | 第 1 讲导读 | [chap1-数据科学导论导读.pdf](./chap1-数据科学导论导读.pdf) |
+| PDF 课件 | 第 2 讲：数据科学的主要方法 | [chap2-数据科学的主要方法.pdf](./chap2-数据科学的主要方法.pdf) |
+| PDF 课件 | 第 3 讲：统计学习三要素 | [chap3-统计学习三要素-250324.pdf](./chap3-统计学习三要素-250324.pdf) |
+| PDF 课件 | 第 4 讲：数据分析基础清洗转化 | [chap4-数据分析基础清洗转化250331.pdf](./chap4-数据分析基础清洗转化250331.pdf) |
+| PDF 课件 | 第 5 讲：数据可视化 | [ch5-20250407-数据可视化.pdf](./ch5-20250407-数据可视化.pdf) |
+| PDF 课件 | 第 6 讲：回归分析 | [ch6-回归分析-0414.pdf](./ch6-回归分析-0414.pdf) |
+| PDF 课件 | 第 7 讲：普通分类 Logistic | [ch7-普通分类Logistic-0509.pdf](./ch7-普通分类Logistic-0509.pdf) |
+| PDF 课件 | 第 8 讲：决策树和集成学习 | [ch8-20250523-决策树和集成学习.pdf](./ch8-20250523-决策树和集成学习.pdf) |
+| PDF 课件 | 第 9 讲：支持向量机 | [ch9-支持向量机---20250525.pdf](./ch9-支持向量机---20250525.pdf) |
+| PDF 课件 | 第 10 讲：无监督学习 | [ch10-无监督学习20250605.pdf](./ch10-无监督学习20250605.pdf) |
+| PDF 课件 | 第 11 讲：推荐算法 | [ch11-推荐算法---20250612.pdf](./ch11-推荐算法---20250612.pdf) |
+| PDF 课件 | 第 12 讲：文本挖掘 | [ch12-文本挖掘-20250612.pdf](./ch12-文本挖掘-20250612.pdf) |
+| PDF 课件 | 第 13 讲：社交网络分析 | [ch13-社交网络分析-20250619.pdf](./ch13-社交网络分析-20250619.pdf) |
+| PDF 课件 | 第 14 讲：重抽样方法 | [ch14-重抽样方法-250619.pdf](./ch14-重抽样方法-250619.pdf) |
+| 预习材料 | 课前导读（24-25 春季） | [数据科学导论课前导读24-25春季.pdf](./数据科学导论课前导读24-25春季.pdf) |
+
+
+## 5. 课程讲稿（第2讲—第7讲）
+为便于课堂教学与课后复习，以下补充第 2 讲到第 7 讲的讲稿/课件入口与学习要点：
+
+- **第 2 讲：数据科学的主要方法**  
+  讲稿：[`chap2-datascience.md`](./chap2-datascience.md) ｜ 课件：[`chap2-数据科学的主要方法.pdf`](./chap2-数据科学的主要方法.pdf)  
+  要点：监督学习、无监督学习、半监督学习、强化学习与统计学习三要素。
+
+- **第 3 讲：统计学习三要素**  
+  课件：[`chap3-统计学习三要素-250324.pdf`](./chap3-统计学习三要素-250324.pdf)  
+  要点：模型、策略、算法；经验风险与结构风险；泛化能力。
+
+- **第 4 讲：数据分析基础、数据清洗与转化**  
+  课件：[`chap4-数据分析基础清洗转化250331.pdf`](./chap4-数据分析基础清洗转化250331.pdf)  
+  要点：数据质量评估、缺失值处理、异常值识别、特征变换。
+
+- **第 5 讲：数据可视化**  
+  课件：[`ch5-20250407-数据可视化.pdf`](./ch5-20250407-数据可视化.pdf)  
+  要点：可视化编码原则、常见图表选择、叙事化表达。
+
+- **第 6 讲：回归分析**  
+  课件：[`ch6-回归分析-0414.pdf`](./ch6-回归分析-0414.pdf)  
+  要点：线性回归建模、参数估计、模型诊断与解释。
+
+- **第 7 讲：普通分类（Logistic）**  
+  课件：[`ch7-普通分类Logistic-0509.pdf`](./ch7-普通分类Logistic-0509.pdf)  
+  要点：二分类建模、似然函数、阈值设定与分类评估指标。
+
+## 6. 在线阅读（课程主页）
+- 第 1 讲：<https://xiaoningwang.github.io/teaching/datascience/chap1-introduction>
+- 第 2 讲：<https://xiaoningwang.github.io/teaching/datascience/chap2-datascience>
+
+## 7. 使用建议
+- **教师备课**：优先查看各讲 PDF，再结合 Markdown 讲稿组织课堂讲解逻辑。
+- **学生学习**：先读 Markdown 建立框架，再用 PDF 跟进细节、图示与案例。
+- **复习阶段**：按“讲次”纵向复习，再按“方法类型”（回归/分类/聚类/推荐）横向对比。
+
+## 8. 课程支持
+为提升学习体验，课程可结合智能助教（Scholar Hero）进行课堂演示、示例问答与课后讨论。
+
+## 9. 联系方式
+- 课程负责人：王小宁 副教授
 - 邮箱：sdwangxiaoning@cuc.edu.cn
-- 办公地点：中国传媒大学 46-303
+- 办公地点：中国传媒大学 46-303
+
+## 10. License
+本仓库采用 [MIT License](./LICENSE)。