本仓库收录了我在悉尼大学 DATA2002: Data Analytics – Learning from Data 课程学习过程中的笔记,所有内容均由本人整理,以中文和英文双语讲解,帮助中国学生更容易理解统计学和数据科学的核心概念。课程属于数据科学中统计分析方向,强调从不同的数据模型中提取、组合并总结信息,并用统计编程语言进行数据分析与报告撰写课程的学习成果包括:能够从多种数据资源提取并组合数据,进行数值和图形总结,掌握适当的参数检验和非参数检验,构建和解释线性模型以及基础的统计机器学习方法
| 模块 | 周次 | 官方主题 | 知识点示例 |
|---|---|---|---|
| 模块 1:Categorical Data | 周 1–3 | 分类数据 | 数据可视化和数据收集、对照实验、卡方检验、拟合优度检验、性能和风险度量以及针对同质性、独立性和小样本的检验。 |
| 模块 2:Data from Case‑Control Study | 周 4–6 | 案例–对照研究数据 | 复习均值检验 (t 检验)、非参数检验(符号检验、符号秩检验、Wilcoxon 检验)、Bootstrap 和置换检验等,用于比较两个独立样本或配对样本。 |
| 模块 3:Multiple Factors Comparison | 周 7–9 | 多因素比较 | 掌握如何将总变差拆分为不同来源以及比较多个组的平均差异:包括一元 ANOVA、两元 (two‑factor) ANOVA 和交互效应分析。 |
| 模块 4:Learning and Prediction | 周 10–12 | 预测与学习 | 线性回归和多元回归,模型选择与预测区间,以及统计机器学习概念(如分类器和交叉验证)。 |
| Week 13 | 复习 | 总结与复习 | 复习全部模块内容并准备最终考试或项目。 |
🔍 使用说明
浏览与下载: 点击上方文件名即可查看对应的 PDF。
阅读顺序建议: 可按课程模块顺序阅读,也可根据自身需求单独查阅某个检验或分析方法。
软件工具: 课程使用 R 语言和 R Markdown 作为主要分析工具。建议熟悉 ggplot2 作图、dplyr 数据整理等 R 包,按照课程要求撰写 reproducible reports。
📖 受众与目的
本仓库面向以下读者:
希望复习或提前预习 DATA2002 课程的悉尼大学学生;
对统计检验、方差分析和基本机器学习方法有兴趣的中国学生;
所有笔记基于个人学习和理解整理,难免有不足之处,欢迎提出意见和补充。笔记仅用于教学与交流,不包含任何考试题库或受版权保护的原题
多多支持点击star!