diff --git a/README.md b/README.md index 1d142b0..3b30015 100644 --- a/README.md +++ b/README.md @@ -1,119 +1,107 @@ -# 数据科学导论 -## 中国传媒大学 2026 春季课程 - -### 课程定位 -《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。 - -### 课程目标 -- 理解数据科学的基本概念和方法论 -- 掌握数据收集、清洗、分析和可视化的基本技能 -- 了解机器学习和统计学习的核心算法 -- 培养利用数据科学方法解决实际问题的能力 -- 建立数据驱动的思维方式 - -### 课程大纲 -#### 第一部分:数据科学基础 -- 数据科学概述 -- 数据收集与预处理 -- 数据可视化基础 -- 描述性统计分析 - -#### 第二部分:统计学习方法 -- 线性回归与分类 -- 重抽样方法 -- 模型选择和正则化 -- 决策树与组合学习 - -#### 第三部分:高级主题 -- 支持向量机 -- 神经网络基础 -- 无监督学习 -- 推荐算法 -- 文本挖掘 -- 社交网络分析 -- 并行与分布式计算 - -### 数据科学的发展历史 -1. **统计学阶段**:数据科学的起点 - - 古典统计学时期:主要服务于国家治理和社会管理 - - 近代统计学时期:概率论逐渐进入统计学 - - 现代统计学时期:Fisher 等学者推动实验设计、方差分析、推断统计的发展 - -2. **高维数据阶段**:方法创新的推动期 - - 随着生物医学和计算机技术发展,出现了"变量多、样本少"的高维数据问题 - - 传统统计方法面临挑战,催生了变量选择与正则化等新方法 - -3. **数据挖掘阶段**:从分析走向知识发现 - - 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累 - - 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识 - -4. **机器学习与大数据阶段** - - 机器学习关注让计算机从数据中自动学习规律并进行预测 - - 2011 年后,"大数据时代"概念流行 - -5. **数据科学阶段**:综合性交叉学科形成 - - 数据科学比"大数据"更广,是一个综合性概念 - - 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解 - -### 数据科学研究的主要问题 -1. **关系发现与预测问题** - - 例子:家庭收入与消费支出之间是否存在数量关系?已知收入,能否预测消费? - - 对应方法:回归分析、预测建模 - -2. **分类与风险识别问题** - - 例子:消费贷客户是否会违约?员工是否会离职? - - 对应方法:分类模型、风险评分、预警模型 - -3. **影响因素识别问题** - - 例子:哪些临床指标会影响某项健康指标? - - 对应方法:变量筛选、解释性建模、因果分析初步探索 - -4. **关联规则与推荐问题** - - 例子:买了面包的人是否更容易买牛奶?如何根据用户历史行为推荐商品? - - 对应方法:关联规则分析、推荐系统 - -5. **降维与综合评价问题** - - 例子:多个犯罪率指标能否压缩成少数几个综合变量?如何构建综合指数对地区进行评价? - - 对应方法:主成分分析、因子分析等 - -6. **聚类与细分问题** - - 例子:如何根据多个特征把样本自动分成几类?例如客户分群、用户画像、市场细分 - - 对应方法:聚类分析、无监督学习 - -7. **文本挖掘与情感分析问题** - - 例子:海量新闻主要讨论哪些主题?能否识别文本情感倾向? - - 对应方法:文本挖掘、主题模型、情感分析 - -### 数据科学的基本方法 -#### 监督学习:从已知样本中学习规律 -- **回归问题**:当输出变量是连续数值时,例如根据房屋面积、地段、楼层等变量预测房价 -- **分类问题**:当输出变量是离散类别时,例如判断一个客户是否违约,判断一封邮件是否为垃圾邮件 -- **标注问题**:输入往往是一个序列,输出也是一个序列,例如在自然语言处理中,对一句话中的每个词进行词性标注、命名实体识别等 - -#### 无监督学习:在没有标签的情况下发现结构 -- 聚类分析:把相似对象自动分成若干组 -- 降维分析:把高维变量压缩为较少的综合变量 -- 关联规则分析:发现变量之间的共现关系 -- 主题发现:从文本中自动提取主题结构 - -#### 半监督学习:利用少量标注数据和大量未标注数据 -- 使用少量标注数据提供学习方向 -- 使用大量未标注数据补充数据分布信息 -- 在较低标注成本下提升模型性能 - -#### 强化学习:在动态环境中学习最优决策 -- 特别适用于动态决策、序列控制与长期收益优化问题 - -### 学习资料 -- **课程讲稿** - - [第1讲:数据科学的发展历史与研究问题](https://xiaoningwang.github.io/teaching/datascience/chap1-introduction) - - [第2讲:数据科学的基本方法](https://xiaoningwang.github.io/teaching/datascience/chap2-datascience) - -### 智能助教 -为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。 - -### 联系我们 -如果您对课程有任何问题或建议,欢迎联系课程负责人: -- 王小宁 副教授 +# 数据科学导论(Introduction of Data Science) + +> 中国传媒大学(CUC)课程资源仓库(2026 春季) + +## 1. 仓库简介 +本仓库用于汇总《数据科学导论》课程的讲义、课件与阅读材料,覆盖从数据科学基础到常见机器学习方法及专题应用(如推荐、文本挖掘、社交网络分析)。适合作为课程学习、复习与教学备课的统一入口。 + +## 2. 课程目标 +通过本课程,你将能够: +- 理解数据科学的核心概念、发展脉络与问题类型。 +- 掌握数据获取、清洗、分析与可视化的基础流程。 +- 建立监督学习、无监督学习等方法的整体认知。 +- 了解典型算法在传媒与社会数据中的应用场景。 +- 形成“问题导向 + 数据驱动”的分析思维。 + +## 3. 内容结构(按学习路径) +建议按“基础认知 → 方法体系 → 典型算法 → 应用专题”的顺序学习。 + +### 3.1 基础认知与方法论 +- 第 1 讲:数据科学的发展历史与研究问题(Markdown + PDF) +- 第 2 讲:数据科学的主要方法(Markdown + PDF) +- 第 3 讲:统计学习三要素(PDF) +- 第 4 讲:数据分析基础、数据清洗与转化(PDF) +- 第 5 讲:数据可视化(PDF) + +### 3.2 核心算法模块 +- 第 6 讲:回归分析 +- 第 7 讲:普通分类(Logistic) +- 第 8 讲:决策树与集成学习 +- 第 9 讲:支持向量机(SVM) +- 第 10 讲:无监督学习 + +### 3.3 进阶专题模块 +- 第 11 讲:推荐算法 +- 第 12 讲:文本挖掘 +- 第 13 讲:社交网络分析 +- 第 14 讲:重抽样方法 + +## 4. 课程资源清单 + +| 类型 | 主题 | 文件 | +|---|---|---| +| Markdown 讲稿 | 第 1 讲:数据科学的发展历史与研究问题 | [chap1-introduction.md](./chap1-introduction.md) | +| Markdown 讲稿 | 第 2 讲:数据科学的主要方法 | [chap2-datascience.md](./chap2-datascience.md) | +| PDF 课件 | 第 1 讲导读 | [chap1-数据科学导论导读.pdf](./chap1-数据科学导论导读.pdf) | +| PDF 课件 | 第 2 讲:数据科学的主要方法 | [chap2-数据科学的主要方法.pdf](./chap2-数据科学的主要方法.pdf) | +| PDF 课件 | 第 3 讲:统计学习三要素 | [chap3-统计学习三要素-250324.pdf](./chap3-统计学习三要素-250324.pdf) | +| PDF 课件 | 第 4 讲:数据分析基础清洗转化 | [chap4-数据分析基础清洗转化250331.pdf](./chap4-数据分析基础清洗转化250331.pdf) | +| PDF 课件 | 第 5 讲:数据可视化 | [ch5-20250407-数据可视化.pdf](./ch5-20250407-数据可视化.pdf) | +| PDF 课件 | 第 6 讲:回归分析 | [ch6-回归分析-0414.pdf](./ch6-回归分析-0414.pdf) | +| PDF 课件 | 第 7 讲:普通分类 Logistic | [ch7-普通分类Logistic-0509.pdf](./ch7-普通分类Logistic-0509.pdf) | +| PDF 课件 | 第 8 讲:决策树和集成学习 | [ch8-20250523-决策树和集成学习.pdf](./ch8-20250523-决策树和集成学习.pdf) | +| PDF 课件 | 第 9 讲:支持向量机 | [ch9-支持向量机---20250525.pdf](./ch9-支持向量机---20250525.pdf) | +| PDF 课件 | 第 10 讲:无监督学习 | [ch10-无监督学习20250605.pdf](./ch10-无监督学习20250605.pdf) | +| PDF 课件 | 第 11 讲:推荐算法 | [ch11-推荐算法---20250612.pdf](./ch11-推荐算法---20250612.pdf) | +| PDF 课件 | 第 12 讲:文本挖掘 | [ch12-文本挖掘-20250612.pdf](./ch12-文本挖掘-20250612.pdf) | +| PDF 课件 | 第 13 讲:社交网络分析 | [ch13-社交网络分析-20250619.pdf](./ch13-社交网络分析-20250619.pdf) | +| PDF 课件 | 第 14 讲:重抽样方法 | [ch14-重抽样方法-250619.pdf](./ch14-重抽样方法-250619.pdf) | +| 预习材料 | 课前导读(24-25 春季) | [数据科学导论课前导读24-25春季.pdf](./数据科学导论课前导读24-25春季.pdf) | + + +## 5. 课程讲稿(第2讲—第7讲) +为便于课堂教学与课后复习,以下补充第 2 讲到第 7 讲的讲稿/课件入口与学习要点: + +- **第 2 讲:数据科学的主要方法** + 讲稿:[`chap2-datascience.md`](./chap2-datascience.md) | 课件:[`chap2-数据科学的主要方法.pdf`](./chap2-数据科学的主要方法.pdf) + 要点:监督学习、无监督学习、半监督学习、强化学习与统计学习三要素。 + +- **第 3 讲:统计学习三要素** + 课件:[`chap3-统计学习三要素-250324.pdf`](./chap3-统计学习三要素-250324.pdf) + 要点:模型、策略、算法;经验风险与结构风险;泛化能力。 + +- **第 4 讲:数据分析基础、数据清洗与转化** + 课件:[`chap4-数据分析基础清洗转化250331.pdf`](./chap4-数据分析基础清洗转化250331.pdf) + 要点:数据质量评估、缺失值处理、异常值识别、特征变换。 + +- **第 5 讲:数据可视化** + 课件:[`ch5-20250407-数据可视化.pdf`](./ch5-20250407-数据可视化.pdf) + 要点:可视化编码原则、常见图表选择、叙事化表达。 + +- **第 6 讲:回归分析** + 课件:[`ch6-回归分析-0414.pdf`](./ch6-回归分析-0414.pdf) + 要点:线性回归建模、参数估计、模型诊断与解释。 + +- **第 7 讲:普通分类(Logistic)** + 课件:[`ch7-普通分类Logistic-0509.pdf`](./ch7-普通分类Logistic-0509.pdf) + 要点:二分类建模、似然函数、阈值设定与分类评估指标。 + +## 6. 在线阅读(课程主页) +- 第 1 讲: +- 第 2 讲: + +## 7. 使用建议 +- **教师备课**:优先查看各讲 PDF,再结合 Markdown 讲稿组织课堂讲解逻辑。 +- **学生学习**:先读 Markdown 建立框架,再用 PDF 跟进细节、图示与案例。 +- **复习阶段**:按“讲次”纵向复习,再按“方法类型”(回归/分类/聚类/推荐)横向对比。 + +## 8. 课程支持 +为提升学习体验,课程可结合智能助教(Scholar Hero)进行课堂演示、示例问答与课后讨论。 + +## 9. 联系方式 +- 课程负责人:王小宁 副教授 - 邮箱:sdwangxiaoning@cuc.edu.cn -- 办公地点:中国传媒大学 46-303 \ No newline at end of file +- 办公地点:中国传媒大学 46-303 + +## 10. License +本仓库采用 [MIT License](./LICENSE)。