Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等;除此之外,Ambari还支持Spark、Storm等计算框架及资源调度平台YARN。
Apache Ambari 从集群节点和服务收集大量信息,并把它们表现为容易使用的,集中化的接口:Ambari Web。
Ambari Web显示诸如服务特定的摘要、图表以及警报信息。可通过Ambari Web对Hadoop集群进行创建、管理、监控、添加主机、更新服务配置等;也可以利用Ambari Web执行集群管理任务,例如启用 Kerberos 安全以及执行Stack升级。任何用户都可以查看Ambari Web特性。拥有administrator-level 角色的用户可以访问比 operator-level 或 view-only 的用户能访问的更多选项。例如,Ambari administrator 可以管理集群安全,一个 operator 用户可以监控集群,而 view-only 用户只能访问系统管理员授予他的必要的权限。
Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent。简单来说,用户通过Ambari Server通知 Ambari Agent 安装对应的软件;Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server,最终这些状态信息会呈现在 Ambari 的 GUI,方便用户了解到集群的各种状态,并进行相应的维护。
Ambari Server 从整个集群上收集信息。每个主机上都有 Ambari Agent, Ambari Server 通过 Ambari Agent 控制每部主机。
通过KMR管理工具进入Ambari控制台。
仪表盘页为Ambari Web主页,用来查看集群的操作状态。
左侧一栏显示当前运行的Hadoop服务列表。在下边Actions下拉菜单中可进行服务列表的全部启动及全部暂停,以及下载全部客户端的配置信息,所下载文件为tar.gz
格式,将其解压后可看各组件配置信息。
仪表盘包括Metrics、Heatmaps、Config History选项卡;默认显示 Metrics。
在Metrics页面上,有多个小程序(widget), 显示 Hadoop集群服务的操作状态信息。小程序以Graph (图)、Gauge (百分比)、Number (数字)及Template(模板)四种形式进行展示。
如下图,在Metrics中,可进行小程序的添加及查看特定时间段内的信息。
将鼠标移至小程序页面上时,其展现出具体信息内容;点击X,可对其进行移除;点击**编辑(铅笔)**图标,可对其进行编辑。
模块 | 小程序 | 描述 |
---|---|---|
HDFS metrics | HDFS Disk Usage | 分布式文件系统(DFS) 已使用的百分比,包括 DFS 和 non-DFS |
Data Nodes Live | 运转中的 DataNodes 的数量,由 NameNode 报告 | |
NameNode Heap | NameNode Java Virtual Machine (JVM) 堆内存使用的百分数 | |
NameNode RPC | 潜在 RPC 队列平均水平 (The average RPC queue latency) | |
NameNode CPU WIO | CPU wait I/O 百分比 | |
NameNode Uptime | NameNode 正常运行时间计算值(uptime calculation) | |
YARN metrics (HDP 2.1 or later) | ResourceManager Heap | 已使用的 ResourceManager JVM 堆内存百分比 |
ResourceManager Uptime | ResourceManager uptime | |
NodeManagers Live | 运转中的 DataNodes 数量,由 ResourceManager 报告 | |
YARN Memory | 可用的 YARN 内存百分数(已用/总可用) | |
HBase metrics | HBase Master Heap | 已使用的 NameNode JVM 对内存百分数 |
HBase Ave Load | HBase server 上的平均负载 | |
HBase Master Uptime | HBase master uptime | |
Region in Transition | 转换中的 HBase regions 数量 | |
Storm metrics (Hadoop 2.1 or later) | Supervisors Live | 运转中的 supervisor 的数量,由 Nimbus Server 报告 |
在HeatMaps中显示小程序的操作状态及条目
颜色 | 状态 |
---|---|
实心绿 (solid green) | 所有主节点正常(All masters are running) |
闪烁绿(blinking green) | 启动中(Starting up) |
实心红 (solid red) | 至少一个主节点停止(At least one master is down) |
闪烁红 (blinking red) | 正在停止(Stopping) |
也可在Select Metrics中查看其他条目状态
组件 | 类别 | 解释 |
---|---|---|
HDFS | HDFS Bytes Written | HDFS写入字节数 |
DataNode Garbage Collection Time | DataNode垃圾收集时间 | |
DataNode JVM Heap Memory Used | DataNode 虚拟机堆内存使用 | |
DataNode JVM Heap Memory Committed | DataNode 虚拟机已提交堆内存 | |
DataNode Process Disk I/O Utilization | DataNode进程磁盘I/O使用 | |
DataNode Process Network I/O Utilization | DataNode进程网络I/O使用 | |
HDFS Space Utilization | HDFS空间使用 | |
HDFS Bytes Read | HDFS读取字节数 | |
YARN | Total Allocatable CPU Utilized per NodeManager | 每个NodeManager可分配CPU总量 |
Container Failures | Container故障数 | |
NodeManager GC Time | NodeManger垃圾收集时间 | |
NodeManager JVM Heap Memory Used | NodeManger JVM 堆内存使用 | |
Allocated Containers | 所分配Container | |
NodeManager RAM Utilized | NodeManger RAM使用情况 | |
NodeManager CPU Utilized | NodeManger CPU使用情况 | |
Total Allocatable RAM Utilized per NodeManage | 每个NodeManager可分配RAM总量 | |
HBase | HBase Memstore Sizes | HBase Memstore量 |
HBase Read Request Count | HBase读请求数 | |
HBase Write Request Count | HBase写请求数 | |
HBase Regions | HBase分区 | |
HBase Compaction Queue Size | HBase可压缩队列大小 |
可在此页面中查看各栏目的配置历史信息。
利用 Services 选项卡可监控和管理运行于集群上选定的服务。集群上安装的所有服务列于左侧的面板上。
在Service页面中点击Service Actions下拉菜单,可对左侧所选服务进行启动,停止,重启等操作。
组件 | 操作 | 解释 |
---|---|---|
HDFS | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart DataNodes | 重启所有DataNode | |
Restart JournalNodes | 重启所有JournalNode | |
Restart ZKFailoverControllers | 重启所有ZKFailoverController | |
Manage JournalNodes | 管理JournalNode | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Rebalance HDFS | HDFS重平衡 | |
Download Client Configs | 下载客户端配置文件 | |
YARN | Start | 启动 |
Stop | 停止 | |
Refresh YARN Capacity Scheduler | 刷新YARN容量调度 | |
Restart All | 全部重启 | |
Restart NodeManagers | 重启所有NodeManager | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Download Client Configs | 下载客户端配置文件 | |
MapReduce2 | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Download Client Configs | 下载客户端配置文件 | |
Tez | Run Service Check | 运行服务检查 |
Refresh configs | 刷新配置 | |
Download Client Config | 下载客户端配置文件 | |
Hive | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Restart LLAP | 重启LLAP | |
Download Client Configs | 下载客户端配置文件 | |
HBase | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart RegionServers | 重启所有RegionServer | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Download Client Configs | 下载客户端配置文件 | |
Pig | Run Service Check | 运行服务检查 |
Refresh Configs | 刷新配置文件 | |
Download Client Configs | 下载客户端配置文件 | |
Oozie/Zookeeper | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Storm | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart Supervisors | 重启所有Sepervisor | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Ambari Metrics | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart Metrics Monitors | 重启所有Metrics Monitor | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Kafka | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart Kafka Brokers | 重启所有Kafka Broker | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Spark2 | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Restart Livy for Spark2 Servers | 重启所有Spark2服务器的Livy | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Download Client Configs | 下载客户端配置文件 | |
ElasticSearch | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Run Service Check | 运行服务检查 | |
Turn On Maintenance Mode | 开启维护模式 | |
Hue | Start | 启动 |
Stop | 停止 | |
Restart All | 全部重启 | |
Turn On Maintenance Mode | 开启维护模式 | |
Usersync | 用户同步 | |
Metastoresync | 元数据存储同步 | |
Slider | Run Service Check | 运行配置检查 |
Refresh Configs | 刷新配置文件 | |
Download Client Configs | 下载所有客户端配置信息 |
在Summary页面下显示有关所选服务操作状态的基本信息,包括警报。要刷新监控面板并显示另一个服务的信息,可以在服务列表上单击一个不同的服务名称。注意服务名称后面带有颜色的图标,指出服务的操作状态和该服务生成的警报。可以单击一个 View Host 链接来查看组件和运行选定组件的主机。可单击页面中的 Alerts 来查看所有健康检查列表以及所选中服务的状态,重要警报首先显示。要查看警报定义,可以单击列表中每个警报消息的文本标题来查看警报定义。
在表盘中可对Widget进行添加、移除、创建和删除。将鼠标移至下方Metrics面板中的widget,可对其进行操作。
HeatMaps和Config history信息见Dasboard相关说明,其在两页面中作用相同。
作为集群系统管理员或集群操作员,需要知道每部主机的操作状态。也需要知道哪部主机有问题需要处理。可以使用 Ambari Web Hosts 页面来管理多个Hortonworks Data Platform (HDP) 组件,例如运行在整个集群上 DataNodes, NameNodes, NodeManagers, 和 RegionServers。举例来说,可以重启所有的DataNode 组件,可选地控制滚动重启任务。Ambari Hosts 可以过滤进行管理的主机组件选取,基于操作状态,主机健康状况,以及定义的主机分组。
可在Ambari Web Hosts页面查看集群上单个主机的状态。主机以 fully qualified domain name (FDQN)的形式列出,并附有一个带有颜色的图标指示出主机的操作状态。
可点击主机后Components下component数目查看主机上具体组件。
颜色 | 状态 |
---|---|
红色三角形 | 该主机上至少有一个 master 组件挂掉了,鼠标悬停图标上查看一个工具提示列出受影响的组件 |
橘色 | 该主机上至少有一个 slave 组件挂掉了,鼠标悬停图标上查看一个工具提示列出受影响的组件 |
黄色 | Ambari Server 没有从该主机上收到心跳包超过 3 分钟 |
绿色 | 正常运行状态 |
Maintenace Mode | 黑色 “医药箱” 图标指出一部主机处于维护模式 |
Alert | 红色方框带有一个数字指明该主机上的警报数量 |
在主机状态中,红色图标覆盖橘色图标,橘色图标覆盖黄色图标。换句话说,一部主机有 master component 宕机附有一个红色图标,即便它可能也有slave component和连接问题。主机处于维护模式或遇到警报,图标出现在主机名右侧。
在主机列表页面,可通过上方搜索框对主机由Host、Service及Component中相应栏目进行相应搜索。
点击主机列表页面中主机信息,可查看主机中的具体组件及Host Metrics信息;点击Host Actions下拉菜单,可对所有组件进行启动、暂停、重启等操作。
在Components下可对每一个组件进行启动、停止、重启及开启维护模式。
选择所需操作的主机,点击上方Actions下拉菜单,选择Selected Hosts,选择Hosts;此后可对此主机组件进行操作:
操作 | 解释 |
---|---|
Start All Components | 启动所有组件 |
Stop All Components | 停止所有组件 |
Restart All Components | 重启所有组件 |
Reinstall Failed Components | 重新安装所有失败组件 |
Turn on Maintenance Mode | 开启维护模式 |
Turn off Maintenance Mode | 关闭维护模式 |
Set Rack | 设置Rack |
注:
设置维护模式的四个一般场景为:执行维护,测试配置修改,彻底删除一个服务,处理警报。
要在一部主机上执行硬件或操作系统维护
执行维护时,要能够做如下操作:
阻止这部主机上所有组件生产警报
能够停止、启动、以及重启主机上的每一个组件
阻止该主机 host-level 或 service-level 的 starting, stopping, 或 restarting 组件批操作
为了达成这些目标,显示设置主机的维护模式,将这部主机上所有的组件隐式地设置为维护模式。
要测试一个服务配置的修改。应该停止、启动、以及重启服务来测试重启是否激活了配置的变化。
要测试配置信息的变化,要确保如下条件:
这个服务上没有任何组件生成警报
这个服务上没有 host-level 或 service-level 的批操作启动、停止、或 重启组件
为了达成这些目标,显示设置服务维护模式。将一个服务设置为维护模式隐式地为该服务的所有组件打开维护模式。
警告管理展示了集群的全部监控项,请注意查看** “WARNING” **和 **“CRITICAL” **状态的警告项。
可单击Alerts,看各项状态,可以直接点击集群名称后的红色alert按钮,进行相应报警查看。
找到报警主机,进入相应报警处,进行处理后报警消除。下例为Kafka Broker停止,启动后报警解除。
单击Admin按钮,可查看相应组件及对应版本信息。
可在Ambari中进行文件查看,新建文件夹,文件搜索及上传文件操作。
点击Admin右侧九宫格形状按钮,选择Files View,可在页面中查看HDFS中文件。
一次点击Select All, New Folder和Upload按钮,可选择全部文件(夹),创建新文件夹及上传文件操作;在下方还可以进行文件(夹)搜索操作。
HDFS文件权限格式为用户权限组权限其他用户权限,d表示目录,r表示读,w表示写,x表示执行。
例如下图的权限为:
对于apps目录,hdfs用户有用rwx,即可以读写执行这个目录,hdfs用户组的权限为r-x,即只可以读和执行而没有写的权限,而其他组的权限也为r-x,即有读和执行的权限而没有写的权限。
您也可以在此栏目中查看YARN Queue Manager, Hive及Tez相关信息。
KMR集群为了保证Ambari 访问的安全性,会对访问进行token认证,token过期后的访问会被拒绝。
注意:如果删除token认证,请注意管理帐号及访问权限(在安全组中仅开放限定IP的访问权限)
如果需要删除token认证机制,需要进行如下操作:
1、登入到KMR集群master1节点中。
2、编辑ngnix.conf
。
vim /opt/nginx/conf/nginx.conf
210行附近
location / {
# secure_link $arg_kmr_token,$arg_kmr_exp;
# secure_link_md5 4d145a527973363cf5f96da451727bf2$arg_kmr_exp;
# if ( $secure_link = "" ) {
# return 402;
# }
# if ( $secure_link = "0" ) {
# return 405;
# }
注释掉secure_link相关的几行,210-217行。
3、重新加载nginx配置,重启nginx服务。
service nginx reload
service nginx restart
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!