当前位置:首页 > 公开课 > 项目管理 > 全国高校大数据(Hadoop、spark、Python)师资培训班

全国高校大数据(Hadoop、spark、Python)师资培训班

关注度:500   编号:273581
举办时间:
  • 成都 2019-08-22
  • ?#26412;?2019-09-19
  • 苏州 2019-10-22
  • 珠海 2019-11-20
  • ?#26412;?2019-12-20
全国高校大数据(Hadoop、spark、Python)师资培训班
点击报名 添加到购物车
大数据(Hadoop、spark、Python)培训,让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分?#38469;?#31995;统平台应用,掌握大数据平台?#38469;?#26550;构、大数据分析的基本理论。
HadoopsparkPython

全国高校大数据(Hadoop、spark、Python)师资培...课程特色与背景

    课程介绍
    Hadoop
相关内容导读“Hadoop”
大数据平台搭建与高性能计算最佳实战  珠海 2019/3/26(4天)

大数据平台搭建与高性能计算最佳实战课程,旨在培养专业的大数据Hadoop与Spark?#38469;?#26550;构专家,培养大数据?#38469;?#21644;应用创新型人才,促进大数据?#38469;?#22312;各行?#30340;?#37096;及跨行业进行实施应用,以及企事业单位的大数据项目开发和落地,并利用大数据提升竞争力优势。

全国高校大数据(Hadoop、spark、Python)师资培训班  其他 2019/4/20(10天)

大数据(Hadoop、spark、Python)培训,让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分?#38469;?#31995;统平台应用,掌握大数据平台?#38469;?#26550;构、大数据分析的基本理论。

板块
    需求理解
    Hadoop 设计之初的目标?#25237;?#20301;于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop 一出现就受到众多大公司的青睐,同时也引起?#25628;?#31350;界的普遍关注。
    对电信运营商而言,用户上网日?#26223;?#21547;了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好地了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop 平台,引入大数据处理?#38469;?#30340;方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。本课程将全面介绍Hadoop平台开发和运维的各项?#38469;酰?#23545;学员使用该项?#38469;?#20855;有很高的应用价值。
    培训课程架构与设计思路
    (1)培训架构:
    本课程分为三个主要部分:
    第一部分:重点讲述大数据?#38469;?#22312;的应用,使学员对大数据?#38469;?#30340;广泛应用有清晰的认识,在这?#26041;?#24403;中会重点介绍Hadoop?#38469;?#22312;整个大数据?#38469;?#24212;用中的重要地位和应用情况。
    第二部分:具体对hadoop?#38469;?#36827;行模块化分拆,从大数据文件存储系统?#38469;?#21644;分?#38469;?#25991;件系统平台及其应用谈起,介绍Hadoop?#38469;?#21508;主要应用工具和方法,以及在运维维护当中的主流做法,使学员全面了解和掌握Hadoop?#38469;?#30340;精华。
    第三部分:重点剖析大数据的应用案例,使学员在案例当中对该项?#38469;?#26377;更深入的感观印象
    (2)设计思路:
    本课程采用模块化教学方法,以案例分析为主线,由浅入深、循序渐进、由理论到实践操作进行设计。
    (3)与企业的贴合点:
    本课程结合企业转型发展及大数据发展战略,围绕企业大数据业务及行业应用市场拓展发展目标,重点讲授Hadoop的应用?#38469;酰?#25552;升企业IT?#38469;?#20154;员?#30446;?#21457;和运维能力,有很强的贴合度。
    大数据建模与挖掘板块
    本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型?#26657;?#32467;合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。
    结合业界使用最广泛的主流大数据平台?#38469;酰?#37325;点剖析基于大数据分析算法与BI?#38469;?#24212;用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系?#24120;?#20197;及电商(或内容)推荐系统引擎。
    本课程基本的实践环境是Linux集?#28023;琂DK1.8, Hadoop 2.7.*,Spark 2.1.*。
    学员需要准备的电脑最好是i5及以上CPU,4GB及以上内存,?#25165;?#31354;间预留50GB(可用移动?#25165;蹋?#22522;本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。
    本课程采用?#38469;?#21407;理与项目实战相结合的方式进行教学,在讲授原理的过程?#26657;?#31359;插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
Python
相关内容导读“Python”
Python语言基础及数据分析?#38469;?  ?#26412;?nbsp;2019/3/6(3天)

Python语言基础及数据分析?#38469;?#22521;训,将对基于Python语言进行数据处理、数据探索的基本方法,并对Python语言算法原理及实现进行讲解,使学员学习Python的核心?#38469;?#26041;法以及应用特征,深入使用Python在数据分析中的使用,全面了解Python语言的相关知识。

全国高校大数据(Hadoop、spark、Python)师资培训班  其他 2019/4/20(10天)

大数据(Hadoop、spark、Python)培训,让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分?#38469;?#31995;统平台应用,掌握大数据平台?#38469;?#26550;构、大数据分析的基本理论。

Python大数据机器学习实战  上海 2019/4/26(4天)

Python大数据机器学习实战培训,从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等,强化矩阵运算、概率论、数理统计的知?#23545;?#29992;,掌握机器学习根本,提高在实际工作中选择算法的能力。

机器学习板块
1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序。
2.“Python数据清洗和特征提取”,提升学习深度、降低学习坡度。
    3.增加网络爬虫的原理和编写,从获取数据开始,重视将实践问题转换成实际模型的能力,分享工作中的实际案例或Kaggle案例:广告销量分析、环境数据异常检测和分析、数字图像?#20013;?#20307;识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。
    4.强化矩阵运算、概率论、数理统计的知?#23545;?#29992;,掌握机器学习根本。
    5.阐述机器学习原理,提供配套源码和数据。
    6.以直观解释,增强?#34892;?#29702;解。
    7.?#21592;?#19981;同的特征选择带来的预测效果差异。
    8.重视项目实践,重视落地。思考不同算法之间的区别和联系,提高在实际工作中选择算法的能力。
    9.涉及和讲解的部分Python库?#26657;篘umpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。
    培训目标
    掌握大数据处理平台(Hadoop、Spark、Storm)?#38469;?#26550;构、以及平台的安?#23433;?#32626;、运维配置、应用开发;掌握主流大数据Hadoop平台和Spark实时处理平台的?#38469;?#26550;构和实际应用;利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的?#38469;?#24212;用;讲解Hadoop生态系统组件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大数据存储管理、分?#38469;?#25968;据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分?#38469;?#22788;理?#38469;?div class="conDivbLank">
    让学员充分掌握大数据平台?#38469;?#26550;构、大数据分析的基本理论、机器学习的常用算法、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。
    强调主流的大数据分析挖掘算法?#38469;?#30340;应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分?#38469;?#31995;统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
    让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系?#22330;?#26085;志分析和电商推荐系统为案例,串联常用的数据挖掘?#38469;?#36827;行应用教学。
    从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。

课程大纲

培训大纲
Hadoop培训内容介绍
模块一移动互联网、大数据、云计算相关?#38469;?#20171;绍
数据中心与云计算?#38469;?#24212;用
智慧城市与云计算?#38469;?#24212;用
移动互联网、大数据与云计算关联?#38469;?div class="spctrl">
移动云计算的生态系统及产业链
大数据?#38469;?#22312;运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践
国内外主流的大数据解决方案介绍
当前大数据解决方案与传统数据库方案的剖析比较
Cloudera Hadoop 大数据平台方案剖析
开源的大数据生态系统平台剖析
模块二大数据的挑战和发展方向
大数据时代的挑战
战略决策能力
?#38469;?#24320;发和数据处理能力
组织和运营能力
大数据时代的发展方向
云计算是基础设施架构
大数据是灵魂资产
分析、挖掘是手段
发现和预测是最终目标
大数据挖掘在各行业应用情况
电信行业应用及案例分析
互联网行业应用及案例分析
金融行业应用及案例研究
销售行业应用案例分析
模块三大数据文件存储系统?#38469;?#21644;分?#38469;?#25991;件系统平台及其应用
Hadoop的发展历程
Hadoop大数据平台架构
基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
Hadoop 的核心组件剖析
分?#38469;?#25991;件系统HDFS
概述、功能、作用、优势
应用范畴、应用现状
发展趋势
分?#38469;?#25991;件系统HDFS架构及原理
核心关键?#38469;?div class="spctrl">
设计精髓
基本工作原理
系统架构
文件存储模式
工作机制
存储扩容与吞吐性能扩展
分?#38469;?#25991;件系统HDFS操作
SHELL命令操作
I/O流?#35762;?#20316;
文件数据读取、写入、追加、?#22659;?div class="spctrl">
文件状态查询
数据块分布机制
数据同步与一致性
元数据管理?#38469;?div class="spctrl">
主节点与从节点工作机制
大数据负载均衡?#38469;?div class="spctrl">HDFS大数据存储集群管理?#38469;?div class="spctrl">Hadoop生态系统组件
Storm
HDFS
MapReduce
HIVE
HBase
Spark
GraphX
MLib
Shark
模块四Hadoop文件系统HDFS最佳实战
HDFS的设计
HDFS的概念
数据块
namenode和datanode
联邦HDFS
HDFS的高可用性
命令行接口
Hadoop文件系统
Java接口
从Hadoop URL读取数据
通过FileSystem API读取数据
写入数据
目录
查询文件系统
?#22659;?#25968;据
数据流
剖析文件读取
剖析文件写入
一致模型
通过Flume和Sqoop导入数据
通过distcp并行复制
Hadoop存档
使用Hadoop存档工具
不足
模块五Hadoop运维管理与性能调优
第二代大数据处理框架
Yarn的工作原理及
DAG并行执行机制
Yarn大数据分析处理案例分析
Yarn 框架并行应用程序实践
集?#21495;?#32622;管理
Hadoop集?#21495;?#32622;
Hadoop性能调优与参数配置
Hadoop机架感知策略与配置
Hadoop压缩机制
Hadoop任务负载均衡
Hadoop 集群维护
Hadoop监控管理
HDFS的静态调优技巧
HDFS 的高吞吐量I/O性能调优技巧
MapReduce/Yarn的并行处理性能调优技巧
Hadoop集群的运行?#25910;?#21078;析,以及解决方案
基于Hadoop大数据应用程序的性能瓶颈剖析与提
Hadoop 大数据运维监控管理系统 HUE 平台的安?#23433;?#32626;与应用配置
Hadoop运维管理监控系统Ambari平台的安?#23433;?#37197;置
Hadoop 集群运维系统 Ganglia, Nagios的安?#23433;?#32626;与应用配置
模块六NOSQL数据库Hbase与RedisNOSQL基础
CAP理论
Base与ACID
NOSQL数据库存储类型
键值存储
列存储
文档存储
图形存储
HBase分?#38469;?#25968;据基础
安装Hbase
Hbase应用
HBase的逻辑数据模型,HBase的表、行、列族、?#23567;?#21333;元格、版本、row key排序
HBase的物理模型,命名空间(表空间)、表模式(Schema)的设?#21697;?#21017;
HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优
HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
HBase表设计与数据操作以及数据库管理操作
HBase集群的安?#23433;?#32626;、参数配置和性能优化
HBase分?#38469;?#25968;据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处
HBase分?#38469;?#25968;据库集群的主从式平台架构和关键?#38469;?#21078;析
HBase伪分?#38469;?#21644;物理集群分?#38469;降目?#21046;与运行配置
HBase从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
HBase表设计与数据操作以及数据库管理操作
HBase集群的安?#23433;?#32626;、参数配置和性能优化
ZooKeeper分?#38469;?#21327;调服务系统的工作原理、平台架构、集群部署应用实战
ZooKeeper集群的原理架构,以及应用配置
Redis内存数据库介绍,以及业界应用案例
Redis内存数据库集群架构以及核心?#38469;?#21078;析
Redis 集群的安?#23433;?#32626;与应用开发实战
模块七类SQL语句工具——Hive安装Hive
示例
运行Hive
配置Hive
Hive服务
Metastore
Hive与传统数据库相比
读时模式vs.写时模式
更新、事务和索引
HiveQL
数据类型
操作与函数
托管表和外部表
分区和桶
存储格式
导入数据
表的修改
表的丢弃
查询数据
排序和聚集
MapReduce脚本
连接
子查询
视图
用户定义函数
写UDF
写UDAF
模块八数据挖掘SPARK建模基础介绍
Spark简介
Spark是什么
Spark生态系统BDAS
Spark架构 
Spark分?#38469;?#26550;构与单机多核架构的异同 
Spark集群的安装与部署 
Spark的安装与部署 
Spark集群初试
Spark?#24067;?#37197;置 
Spark?#24067;?div class="spctrl">Spark?#24067;?#37197;置流程
模块九Kafka基础介绍
Kafka介绍
kafka体?#21040;?#26500;
kafka设计理念简介
kafka通信协议
kafka的伪分布安装、集群安装
kafka的shell操作、java操作
kafka设计理念*
kafka producer和consumer开发
Kafka分?#38469;较?#24687;订?#21335;?#32479;的应用介绍、平台架构、集群部署与配置应用实战
Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
Hadoop与DBMS之间数据?#25442;?#24037;具Sqoop的应用实践,
Sqoop导入导出数据以及Sqoop集群部署与配置
Kettle 集群的平台架构、核心?#38469;酢?#37096;署配置和应用实战
利用Sqoop实现 MySQL 与 Hadoop 集群之间
模块十大数据典型应用与开发案例分析:互联网数据运营
案例1:贵州数据交易中心
交易所交易?#38382;劍?#30005;子交易
交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台?#38469;?#24320;发
大数据交易安全性?#25945;?#20998;析
数据交易中心商?#30340;?#24335;?#25945;?#20998;析
案例2:大数据应用案例:公?#27493;?#36890;线路的智能规划
UrbanInsights:为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务
Urban Insights数据源、数据收集、数据仓库、数据分析——设计运营线路
Urban Insights通过互联网数据的运营
讨论:浙江移动大数据应用与开发方向
模块十一当前数据中心的?#33041;?#21644;转换分析-以国内外运营商、互联网公司为例流商业大数据解决方案比较 
主流开源云计算系统比较  
国内外代表性大数据平台比较  
各厂商最新的大数据产品介绍
案例分析
Facebook的SNS平台应用
Google的搜索引擎应用
Rackspace的日志处理
Verizon成立精?#38469;?#22330;营销部
TelefonicaDynamicInsights推出的名为“智慧足迹”的商业服务
中国联通的“移动通信用户上网记?#25216;?#20013;查询与分析支撑系?#22330;?nbsp;
大数据建模与分析挖掘培训内容
内容提要
业界主流的数据仓库工具和大数据分析挖掘工具
业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案
业界数据仓库与数据分析挖掘平台软件工具
Hadoop数据仓库工具Hive
Spark实时数据仓库工具SparkSQL
Hadoop数据分析挖掘工具Mahout
Spark机器学习与数据分析挖掘工具MLlib
大数据分析挖掘项目的实施步骤
配置数据仓库工具Hadoop Hive和SparkSQL
部署数据分析挖掘工具Hadoop Mahout和Spark MLlib
大数据分析挖掘项目的数据集成操作训练
日志数据解析和导入导出到数据仓库的操作训练
从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库
数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库
同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用
去除噪声
项目数据集加载ETL到Hadoop Hive数据仓库并建立多维模型
基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模应用实践基于Hadoop的大型分?#38469;?#25968;据仓库在行业中的数据仓库应用案例
Hive数据仓库集群的平台体?#21040;?#26500;、核心?#38469;?#21078;析
Hive Server的工作原理、机制与应用
Hive数据仓库集群的安?#23433;?#32626;与配置优化
Hive应用开发技巧
Hive SQL剖析与应用实践
Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
Hive数据仓库报表设计
将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群?#26657;?#29992;于共享访问利用HIVE构建大型数据仓库项目的操作训练实践
Spark大数据分析挖掘平台实践操作训练
Spark大数据分析挖掘平台的部署配置
Spark数据分析库MLlib?#30446;?#21457;部署
Spark数据分析挖掘示例操作,从Hive表中读取数据并在分?#38469;?#20869;存中运行
聚类分析建模与挖掘算法的实现原理和?#38469;?#24212;用
聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:
Canopy聚类(canopy clustering)
K均值算法(K-means clustering)
模糊K均值(Fuzzy K-means clustering)
EM聚类,即期望最大化聚类(Expectation Maximization)
以上算法在Spark MLib中的实现原理和实际场景中的应用案例。
Spark聚类分析算法程序示例
基于Spark MLlib的聚类分析算法,实现日志数据集中的用户聚类
分类分析建模与挖掘算法的实现原理和?#38469;?#24212;用 
分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括:
Spark决策树算法实现
逻辑回归算法(logistics regression)
贝?#31471;?#31639;法(Bayesian与Cbeyes)
支持向量机(Support vector machine)
以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。
Spark客户资料分析与给用户贴标签的程序示例
Spark实现给商品贴标签的程序示例
Spark实现用户行为的自动标签和深度?#38469;?div class="spctrl">基于Spark MLlib的分类分析算法模型与应用操作
关联分析建模与挖掘算法的实现原理和?#38469;?#24212;用 
预测、推荐分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:
Spark频繁模式挖掘算法(parallel FP Growth Algorithm)应用
Spark关联规则挖掘(Apriori)算法及其应用
以上算法在Spark MLib中的实现原理和实际场景中的应用案例。
Spark关联分析程序示例
基于Spark MLlib的关联分析操作
推荐分析挖掘模型与算法?#38469;?#24212;用
推荐算法原理及其在Spark MLlib中的实现与应用,包括:
Spark协同过滤算法程序示例
Item-based协同过滤与推荐
User-based协同过滤与推荐
交叉销售推荐模?#22270;?#20854;实现
推荐分析实现步骤与操作(重点)
回归分析模型与预测算法利用线性回归(多元回归)实现访问量预测
利用非线性回归预测成交量和访问量的关系
基于R+Spark实现回归分析模?#22270;?#20854;应用操作
Spark回归程序实现异常点检测的程序示例
回归分析预测操作例子
图关?#21040;?#27169;与分析挖掘及其链接分析和社交分析操作 
利用Spark GraphX实现网页链接分析,计算网页重要性排名
实?#20013;?#24687;传播的社交关系传递分析,互联网用户的行为关系分析任务的操作训练
图数据的分析挖掘操作,实现微博数据集的社交网络建模与关系分析
神经网络与深度学习算法模?#22270;?#20854;应用实践
神经网络算法Neural Network的实现方法和挖掘模型应用
基于人工神经网络的深度学习的训练过程
传?#25104;?#32463;网络的训练方法
Deep Learning的训练方法
深度学习的常用模型和方法
CNN(Convolutional Neural Network)卷积神经网络
RNN(Recurrent Neural Network)循环神经网络模型
Restricted Boltzmann Machine(RBM)限制波尔兹曼机
基于Spark的深度学习算法模型库的应用程序示例
基于Spark或TensorFlow神经网络深度学习库实现文本与图片数据挖掘
项目实践日志分析系统与日志挖掘项目实践
Hadoop,Spark,ELK?#38469;?#26500;建日志数据仓库
互联网微博日志分析系统项目
推荐系统项目实践
电影数据分析与个性化推荐关联分析项目
项目数据集和详细的实验指?#38469;?#20876;由讲师提供
培训总结
项目方案?#30446;?#22530;讨论,讨论实际业务中的分析需求,剖析各个?#26041;?#30340;?#35757;恪?#30171;点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台?#38469;?#30693;识以及应用技能
讨论交流
Python机器学习培训内容
模块一机器学习的数学基础1 - 数学分析
1. 机器学习的一般方法和横向比较
2. 数学是有用的:以SVD为例
3. 机器学习的角度看数学
4. 复习数学分析
5. 直观解释常数e
6. 导数/梯度
7. 随机梯度下降
8. Taylor展式的落地应用
9. gini系数
10. ?#36141;?#25968;
11. Jensen不等式
12. 组合数与信息熵的关系
模块二机器学习的数学基础2 - 概率论与贝?#31471;?#20808;验
1. 概率论基础
2. 古典概型
3. 贝?#31471;构?#24335;
4. 先验分布/后验分布/?#26597;?#20998;布
5. 常见概率分布
6. 泊松分布和指数分布的物理意义
7. 协?#35762;?矩阵)和相关系数
8. 独立和不相关
9. 大数定律和中心极限定理的实践意义
10. 深刻理解最大似然估计MLE和最大后验估计MAP
11. 过拟合的数学原理与解决方案
模块三机器学习的数学基础3 - 矩阵和线?#28304;?#25968;
1. 线?#28304;?#25968;在数学科学中的地位
2. 马尔?#21697;?#27169;型
3. 矩阵乘法的直观表达
4. 状态转移矩阵
5. 矩阵和向量组
6. 特征向量的思考和实践计算
7. QR分解
8. 对?#26222;蟆?#27491;交阵、正定阵
9. 数据白化及其应用
10. 向量对向量求导
11. 标量对向量求导
12. 标量对矩阵求导工作机制
模块四Python基础1 - Python及其数学库
1. 解释器Python2.7与IDE:Anaconda/Pycharm
2. Python基础:列表/元组/?#20540;?类/文件
3. Taylor展式的代码实现
4. numpy/scipy/matplotlib/panda的介绍和典型使用
5. 多元高斯分布
6. 泊松分布、幂律分布
7. 典型图像处理
8. 蝴蝶效应
9. ?#20013;?#19982;可视化
模块五Python基础2 - 机器学习库
1. scikit-learn的介绍和典型使用
2. 损失函数的绘制
3. 多种数学曲线
4. 多项式拟合
5. 快速?#36947;?#21494;变换FFT
6. 奇异值分解SVD
7. Soble/Prewitt/Laplacian算子与卷积网络
8. 卷积与(指数)移动平均线
9. 股票数据分析
模块六Python基础3 - 数据清洗和特征选择
1. 实际生产问题中算法和特征的关系
2. 股票数据的特征提取和应用
3. 一致性检验
4. 缺失数据的处理
5. 环境数据异常检测和分析
6. 模糊数据查询和数据校正方法、算法、应用
7. 朴素贝?#31471;?#29992;于鸢?#19981;?#25968;据
8. GaussianNB/MultinomialNB/BernoulliNB
9. 朴素贝?#31471;?#29992;于18000+篇/Sogou新闻文本的分类
模块七 回归
1. 线性回归
2. Logistic/Softmax回归
3. 广义线性回归
4. L1/L2正则化
5. Ridge与LASSO
6. Elastic Net
7. 梯度下降算法:BGD与SGD
8. 特征选择与过拟合
模块八Logistic回归
1. Sigmoid函数的直观解释
2. Softmax回归的概念源头
3. Logistic/Softmax回归
4. 最大熵模型
5. K-L散度
6. 损失函数
7. Softmax回归的实现与调参
模块九回归实践
1. 机器学习sklearn库介绍
2. 线性回归代码实现和调参
3. Softmax回归代码实现和调参
4. Ridge回归/LASSO/Elastic Net
5. Logistic/Softmax回归
6. 广告投入与销售额回归分析
7. 鸢?#19981;?#25968;据集的分类
8. 交叉验证
9. 数据可视化
模块十决策树和随机森林
1. 熵、联合熵、条件熵、KL散度、互信息
2. 最大似然估计与最大熵模型
3. ID3、C4.5、CART详解
4. 决策树的正则化
5. 预剪枝和后剪枝
6. Bagging
7. 随机森林
8. 不平衡数据集的处理
9. 利用随机森林做特征选择
10. 使用随机森林计算样本相似度
11. 数据异常?#23548;?#27979;
模块十一随机森林实践
1. 随机森林与特征选择
2. 决策树应用于回归
3. 多标记的决策树回归
4. 决策树和随机森林?#30446;?#35270;化
5. 葡萄酒数据集的决策树/随机森林分类
6. 波士顿房价预测
模块十二提升
1. 提升为什?#20174;行?div class="spctrl">2. 梯度提升决策树GBDT
3. XGBoost算法详解
4. Adaboost算法
5. 加法模型与指数损失
模块十三提升实践
1. Adaboost用于蘑菇数据分类
2. Adaboost与随机森林的比较
3. XGBoost库介绍
4. Taylor展式与学习算法
5. KAGGLE简介
6. 泰坦尼?#39034;?#23458;存活?#20351;?#35745;
模块十四SVM
1. 线性可分支持向量机
2. 软间隔的改进
3. 损失函数的理解
4. 核函数的原理和选择
5. SMO算法
6. 支持向量回归SVR
模块十五SVM实践
1. libSVM代码库介绍
2. 原始数据和特征提取
3. 葡萄酒数据分类
4. 数字图像的?#20013;?#20307;识别
5. SVR用于时间序列曲线预测
6. SVM、Logistic回归、随机森林三者的横向比较
模块十六聚类(一)
1. 各种相似度度量及其相互关系
2. Jaccard相似度和准确率、召回率
3. Pearson相关系数与余弦相似度
4. K-means与K-Medoids及变种
5. AP算法(Sci07)/LPA算法及其应用
模块十七聚类(二)
1. 密度聚类DBSCAN/DensityPeak(Sci14)
2. DensityPeak(Sci14)
3. 谱聚类SC
4. 聚类评价AMI/ARI/Silhouette
5. LPA算法及其应用
模块十?#21496;?#31867;实践
1. K-Means++算法原理和实现
2. 向量量化VQ及图像近似
3. 并查集的实践应用
4. 密度聚类的代码实现
5. 谱聚类用于图片分割
模块十九EM算法
1. 最大似然估计
2. Jensen不等式
3. 朴素理解EM算法
4. 精确推导EM算法
5. EM算法的深入理解
6. 混合高斯分布
7. 主题模型pLSA
模块二十EM算法实践
1. 多元高斯分布的EM实现
2. 分类结果的数据可视化
3. EM与聚类的比较
4. Dirichlet过程EM
5. 三维及等高线等图件的绘制
6. 主题模型pLSA与EM算法
模块二十一主题模型LDA
1. 贝?#31471;?#23398;派的模型认识
2. Beta分布与二项分布
3. ?#26597;?#20808;验分布
4. Dirichlet分布
5. Laplace平滑
6. Gibbs采样详解
模块二十二LDA实践
1. 网络爬虫的原理和代码实现
2. 停止词和高频词
3. 动手自己实现LDA
4. LDA开源包的使用和过程分析
5. Metropolis-Hastings算法
6. MCMC
7. LDA与word2vec的比较
8. TextRank算法与实践
模块二十三隐马尔?#21697;?#27169;型HMM
1. 概?#22987;?#31639;问题
2. 前向/后向算法
3. HMM的参数学习
4. Baum-Welch算法详解
5. Viterbi算法详解
6. 隐马尔?#21697;?#27169;型的应用优劣比较
模块二十四HMM实践
1. 动手自己实现HMM用于中文分词
2. 多个语言分词开源包的使用和过程分析
3. 文件数据格式UFT-8、Unicode
4. 停止词和标点符号对分词的影响
5. 前向后向算法计算概率溢出的解决方案
6. 发?#20013;?#35789;和分?#24066;?#26524;分析
7. 高斯混合模型HMM
8. GMM-HMM用于股票数据特征提取
模块二十五课堂提问与互动讨论

课程主讲

    张老师:
    阿里大数据高级专家,国内资深的Spark、Hadoop?#38469;?#19987;家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark
相关内容导读“spark”
大数据平台搭建与高性能计算最佳实战  珠海 2019/3/26(4天)

大数据平台搭建与高性能计算最佳实战课程,旨在培养专业的大数据Hadoop与Spark?#38469;?#26550;构专家,培养大数据?#38469;?#21644;应用创新型人才,促进大数据?#38469;?#22312;各行?#30340;?#37096;及跨行业进行实施应用,以及企事业单位的大数据项目开发和落地,并利用大数据提升竞争力优势。

全国高校大数据(Hadoop、spark、Python)师资培训班  其他 2019/4/20(10天)

大数据(Hadoop、spark、Python)培训,让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分?#38469;?#31995;统平台应用,掌握大数据平台?#38469;?#26550;构、大数据分析的基本理论。

和openTSDB等Hadoop生态系统中的?#38469;?#36827;行了多年的深入的研究,更主要的是这些?#38469;?#22312;大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目?#26657;耗车?#20449;集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系?#22330;?#20013;国银联大数据数据票据详单平台、某大型银行大数据记录系?#22330;?#26576;大型通信运营商全国用户上网记录、某省交通部门违章系?#22330;⒛城?#22495;医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

课程对象

?#28304;?#35838;程?#34892;?#36259;的学员
备  注
课程费用:9800元/人(含教材、培训费、考证费以及学习用具等费用) ?#20056;?#32479;一安排,费用自理

上?#40644;?/span>企业教练?#38469;酰?#39640;阶篇)
下?#40644;?/span>管理者成长地图:员工辅导与激励?#38469;?/a>
推荐课程
相关专题推荐
相关文档下载
相关文章
课程主题:
全国高校大数据(Hadoop、spark、Python)师资培训班
课程编号:273581 
*开课计划:
  • 成都 2019-08-22
  • ?#26412;?nbsp;2019-09-19
  • 苏州 2019-10-22
  • 珠海 2019-11-20
  • ?#26412;?nbsp;2019-12-20
*姓  名:
*性  别:  
*职务:
*部门:
*电话:
*手机:
传真:
*E-Mail:
*参加人数:
其他人员:
   
   
   
   
   
   
   
*单位名称:
通信地址:
备注:
(如多人报名、需代订?#39057;?#31561;补充信息请填写到备注栏)
*验证码:
  看不清?点一下验证码换一组
 
(* 为必填项)
   
暂无评论,快来添加一条!
点击这里提交你的留言
莱万特和巴塞罗那
幸运赛车开奖结果官方 重庆极速时时彩官方开奖结果 新疆福彩喜乐彩走势图 福彩广西快三开奖结果 1993年第55期开码结果 快乐时时开奖查询结果 澳洲幸运10开奖公正吗 江西快3投注 2019年香港金牌谜语 安徽时时十一选五结果走势图 四川快乐十分走势图 辽宁福彩12选5选号规律 福彩pk10彩票控 河南快三app 安徽时时预测 691234开奖结果今晚