大数据挖掘导论与案例 PPT课件
|
资料类别
|
计算机课件 |
|
课程(专业)
|
大数据挖掘导论与案例 |
关键词
|
大数据挖掘导论与案例|聚类分析 |
适用年级
|
大学 |
身份要求
|
普通会员 |
金 币
|
30 (金币如何获得?) |
文件格式
|
ppt |
文件大小
|
26451K |
发布时间
|
2024-09-26 19:49:00 |
预览文件
|
0736107.png(只能预览部分内容) |
下载次数
|
0 |
发布人 |
kj008 |
内容简介:
大数据挖掘导论与案例 PPT课件
第1章绪论
1.1数据科学和数据科学家
1.1.1数据科学的产生和数据科学家的兴起
1.1.2从事数据科学活动的重要基础和技能
1.2大数据的概念、发展阶段和特征
1.2.1大数据的概念
1.2.2大数据的发展阶段
1.2.3大数据的“5V”特征
1.3大数据的主要来源
1.4大数据挖掘的概念和流程
1.4.1大数据挖掘的概念
1.4.2大数据挖掘的标准过程模型
1.5大数据挖掘的主要任务
1.5.1分类与回归
1.5.2聚类分析
1.5.3关联分析
1.5.4异常检测
1.6大数据挖掘的工具与技术
1.6.1Python
1.6.2Hadoop
1.6.3Spark
1.7大数据挖掘的应用
1.7.1在金融行业的应用
1.7.2在电信行业的应用
1.7.3在医疗行业的应用
1.7.4社会网络分析
1.7.5推荐系统
第2章数据分析与可视化技术
2.1Python简介
2.1.1Python环境搭建
2.1.2Python基本语法
2.2NumPy工具包
2.2.1创建数组
2.2.2数组的属性和方法
2.2.3数组的基本操作和运算
2.2.4数组的常用方法
2.3Pandas工具包
2.3.1Series
2.3.2DataFrame概述
2.3.3DataFrame属性和操作
2.4ScikitLearn工具包
2.4.1数据集
2.4.2K最近邻分类器
2.4.3决策树
2.4.4朴素贝叶斯分类器
2.4.5多层感知器
2.4.6支持向量机
2.4.7随机森林与AdaBoost
2.4.8K均值聚类
2.4.9基于密度的聚类
2.4.10主成分分析
2.5Matplotlib绘图
2.5.1Figure和Subplot
2.5.2基本绘图方法
2.5.3颜色、线型和标记
2.5.4轴标签、刻度和网格
2.5.5添加标题、图例和注释
第3章认识数据
3.1数据类型
3.1.1属性与度量
3.1.2数据集类型
3.2数据质量
3.2.1测量和数据收集
3.2.2数据应用
3.3探索数据
3.3.1中心趋势度量
3.3.2离散趋势度量
3.3.3数据基本统计描述的图形显示
3.4数据可视化
3.4.1一般方法和技术
3.4.2少量属性的可视化
3.4.3可视化时间空间数据
3.4.4可视化高维数据
3.5数据对象相似性与相异性度量
3.5.1数据矩阵与邻近度矩阵
3.5.2标称属性的邻近度
3.5.3二元属性的邻近度
3.5.4数值属性的邻近度
3.5.5序数属性的邻近度
3.5.6混合类型属性的邻近度
3.5.7余弦相似度
大数据挖掘导论与案例目录第4章数据预处理
4.1数据预处理任务
4.2数据清洗
4.2.1缺失值
4.2.2噪声数据
4.3数据归约
4.3.1聚集
4.3.2抽样
4.3.3维归约
4.3.4特征子集选择
4.3.5特征创建
4.4离散化与二元化
4.4.1离散化
4.4.2二元化
4.5数据规范化和数据泛化
4.5.1数据规范化
4.5.2数据泛化
第5章分类概念与方法
5.1基本概念
5.2分类的一般方法
5.3决策树归纳
5.3.1决策树归纳的基本原理
5.3.2属性划分的度量
5.3.3树剪枝
5.3.4决策树归纳算法
5.3.5决策树归纳的一般特点
5.4模型的评估与选择
5.4.1模型的过拟合
5.4.2模型的性能度量
5.4.3模型评估方法
5.4.4模型选择
5.5基于规则的分类
5.5.1使用IFTHEN规则分类
5.5.2规则分类器的性质
5.5.3由决策树提取规则
5.5.4使用顺序覆盖算法归纳规则
5.6最近邻分类器
5.6.1K最近邻分类
5.6.2最近邻分类器的特点
5.7贝叶斯分类器
5.7.1贝叶斯定理
5.7.2朴素贝叶斯分类器
5.7.3朴素贝叶斯分类器的特征
5.8后向传播分类
5.8.1多层前馈神经网络
5.8.2误差的后向传播算法
5.8.3人工神经网络的特点
5.9支持向量机
5.9.1线性可分支持向量机与硬间隔最大化
5.9.2线性支持向量机与软间隔最大化
5.9.3非线性可分支持向量机与核函数
5.9.4支持向量机的优缺点
5.10集成学习方法
5.10.1基本原理
5.10.2随机森林
5.10.3AdaBoost算法
5.10.4类别不平衡数据的分类
5.11多类问题
5.11.1多类别分类
5.11.2多标签分类
第6章关联分析概念与方法
6.1基本概念
6.1.1购物篮分析
6.1.2频繁项集和关联规则
6.2关联分析的方法
6.2.1先验原理
6.2.2Apriori算法产生频繁项集
6.2.3Apriori算法生成关联规则
6.2.4提高Apriori算法效率
6.2.5挖掘频繁项集的模式增长算法
6.2.6使用垂直数据格式挖掘频繁项集
6.2.7频繁项集的紧凑表示
6.3关联模式评估
6.3.1模式兴趣度度量
6.3.2关联模式评估度量比较
第7章聚类分析概念与方法
7.1基本概念
7.1.1什么是聚类分析
7.1.2聚类分析方法
7.2k均值聚类
7.2.1基本k均值算法
7.2.2基本k均值的附加问题
7.2.3k均值的优点和缺点
7.2.4k均值的改进算法
7.2.5Iris数据集上的k均值聚类
7.3凝聚层次聚类
7.3.1簇间邻近度度量
7.3.2基本凝聚层次聚类算法
7.3.3凝聚层次聚类实例
7.3.4时间和空间复杂度
7.3.5层次聚类的优点和主要问题
7.3.6凝聚层次聚类的Python实现
7.4DBSCAN聚类
7.4.1DBSCAN算法的有关概念
7.4.2DBSCAN算法及实现
7.4.3DBSCAN时间和空间复杂度
7.4.4DBSCAN参数选择
7.4.5DBSCAN优点与缺点
7.5期望最大化算法
7.5.1模糊簇
7.5.2基于概率模型的聚类
7.5.3使用最大似然估计模型参数
7.5.4期望最大化算法的具体步骤
7.5.5使用期望最大化算法的混合模型聚类的优缺点
7.5.6高斯混合模型的代码实现
7.6聚类评估
7.6.1概述
7.6.2无监督簇评估:凝聚度和分离度
7.6.3无监督簇评估:邻近度矩阵
7.6.4层次聚类的无监督评估
7.6.5确定簇的数目
7.6.6聚类趋势
7.6.7簇有效性的监督度量
7.6.8簇度量的代码实现
第8章大数据挖掘关键技术
8.1大规模并行处理
8.1.1Hadoop安装
8.1.2HDFS
8.1.3MapReduce计算模型
8.2Spark内存计算
8.2.1Spark安装
8.2.2Spark运行原理
8.2.3RDD编程
8.2.4Spark SQL
8.2.5Spark流式计算
8.2.6Spark ML
第9章案例分析
9.1机票航班延误预测
9.1.1应用背景与目标
9.1.2数据探索与理解
9.1.3数据预处理
9.1.4分类模型构建与评估
9.1.5模型的作用
9.2零售行业购物篮分析
9.2.1应用背景与目标
9.2.2数据探索与理解
9.2.3数据预处理
9.2.4关联规则挖掘与评估
9.2.5规则解释
9.3航空公司客户价值分析
9.3.1应用背景与目标
9.3.2数据探索与理解
9.3.3数据预处理
9.3.4聚类模型构建与评估
9.3.5模型解释与应用
相关说明:
1. 如您下载的资料不止一份,建议您注册成为本站会员。会员请登录后下载。
2. 会员购买金币50元以下,0.7元/个,50元以上,0.5元/个。具体请看:下载与付款。
3. 会员48小时内下载同一文件,不重复扣金币。
4. 下载后请用WinRAR或 WinZIP解压缩后使用。
5. 如仍有其他下载问题,请看常见问题解答。
下载地址:
|
|
|