Ambari使用指南

最近更新时间:2018-09-05 12:55:07

Ambari使用指南

Ambari简介

Ambari概述

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等;除此之外,Ambari还支持Spark、Storm等计算框架及资源调度平台YARN。

Apache Ambari 从集群节点和服务收集大量信息,并把它们表现为容易使用的,集中化的接口:Ambari Web.

Ambari Web显示诸如服务特定的摘要、图表以及警报信息。可通过Ambari Web对Hadoop集群进行创建、管理、监视、添加主机、更新服务配置等;也可以利用Ambari Web执行集群管理任务,例如启用 Kerberos 安全以及执行Stack升级。任何用户都可以查看Ambari Web特性。拥有administrator-level 角色的用户可以访问比 operator-level 或 view-only 的用户能访问的更多选项。例如,Ambari administrator 可以管理集群安全,一个 operator 用户可以监控集群,而 view-only 用户只能访问系统管理员授予他的必要的权限。

Ambari体系结构

Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent。简单来说,用户通过Ambari Server通知 Ambari Agent 安装对应的软件;Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server,最终这些状态信息会呈现在 Ambari 的 GUI,方便用户了解到集群的各种状态,并进行相应的维护。

Ambari Server 从整个集群上收集信息。每个主机上都有 Ambari Agent, Ambari Server 通过 Ambari Agent 控制每部主机。

KMR中Ambari的入口

通过KMR管理工具进入“Ambari控制台”

Ambari Web基本操作

仪表盘(Dashboard)

仪表盘页为Ambari Web主页,用来查看集群的操作状态。

左侧一栏显示当前运行的Hadoop服务列表。在下边Actions下拉菜单中可进行服务列表的全部启动及全部暂停,以及下载全部客户端的配置信息,所下载文件为tar.gz格式,将其解压后可看各组件配置信息。

image.png

仪表盘包括Metrics、Heatmaps、Config History选项卡;默认显示 Metrics。

Metrics

在Metrics页面上,有多个小程序(widget), 显示 Hadoop集群服务的操作状态信息。小程序以Graph (图)、Gauge (百分比)、Number (数字)及Template(模板)四种形式进行展示。

如下图,在Metrics中,可进行小程序的添加及查看特定时间段内的信息;

image.png

将鼠标移至小程序页面上时,其展现出具体信息内容;点击X,可对其进行移除;点击编辑(铅笔)图标,可对其进行编辑。

image.png

度量小程序及描述

模块 小程序 描述
HDFS metrics HDFS Disk Usage 分布式文件系统(DFS) 已使用的百分比,包括 DFS 和 non-DFS
Data Nodes Live 运转中的 DataNodes 的数量,由 NameNode 报告
NameNode Heap NameNode Java Virtual Machine (JVM) 堆内存使用的百分数
NameNode RPC 潜在 RPC 队列平均水平 (The average RPC queue latency)
NameNode CPU WIO CPU wait I/O 百分比
NameNode Uptime NameNode 正常运行时间计算值(uptime calculation)
YARN metrics (HDP 2.1 or later) ResourceManager Heap 已使用的 ResourceManager JVM 堆内存百分比
ResourceManager Uptime ResourceManager uptime
NodeManagers Live 运转中的 DataNodes 数量,由 ResourceManager 报告
YARN Memory 可用的 YARN 内存百分数(已用/总可用)
HBase metrics HBase Master Heap 已使用的 NameNode JVM 对内存百分数
HBase Ave Load HBase server 上的平均负载
HBase Master Uptime HBase master uptime
Region in Transition 转换中的 HBase regions 数量
Storm metrics (Hadoop 2.1 or later) Supervisors Live 运转中的 supervisor 的数量,由 Nimbus Server 报告

HeatMaps

在HeatMaps中显示小程序的操作状态及条目

颜色 状态
实心绿 (solid green) 所有主节点正常(All masters are running)
闪烁绿(blinking green) 启动中(Starting up)
实心红 (solid red) 至少一个主节点停止(At least one master is down)
闪烁红 (blinking red) 正在停止(Stopping)

image.png

也可在Select Metrics中查看其他条目状态

image.png

各组件具体信息解释如下:

组件 类别 解释
HDFS HDFS Bytes Written HDFS写入字节数
DataNode Garbage Collection Time DataNode垃圾收集时间
DataNode JVM Heap Memory Used DataNode 虚拟机堆内存使用
DataNode JVM Heap Memory Committed DataNode 虚拟机已提交堆内存
DataNode Process Disk I/O Utilization DataNode进程磁盘I/O使用
DataNode Process Network I/O Utilization DataNode进程网络I/O使用
HDFS Space Utilization HDFS空间使用
HDFS Bytes Read HDFS读取字节数
YARN Total Allocatable CPU Utilized per NodeManager 每个NodeManager可分配CPU总量
Container Failures Container故障数
NodeManager GC Time NodeManger垃圾收集时间
NodeManager JVM Heap Memory Used NodeManger JVM 堆内存使用
Allocated Containers 所分配Container
NodeManager RAM Utilized NodeManger RAM使用情况
NodeManager CPU Utilized NodeManger CPU使用情况
Total Allocatable RAM Utilized per NodeManage 每个NodeManager可分配RAM总量
HBase HBase Memstore Sizes HBase Memstore量
HBase Read Request Count HBase读请求数
HBase Write Request Count HBase写请求数
HBase Regions HBase分区
HBase Compaction Queue Size HBase可压缩队列大小

Config History

可在此页面中查看各栏目的配置历史信息。

Service管理服务

利用 Services 选项卡可监控和管理运行于集群上选定的服务。集群上安装的所有服务列于左侧的面板上。

服务管理

在Service页面中点击Service Actions下拉菜单,可对左侧所选服务进行启动,停止,重启等操作。

image.png

对各组件操作及解释如下:

组件 操作 解释
HDFS Start 启动
Stop 停止
Restart All 全部重启
Restart DataNodes 重启所有DataNode
Restart JournalNodes 重启所有JournalNode
Restart ZKFailoverControllers 重启所有ZKFailoverController
Manage JournalNodes 管理JournalNode
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Rebalance HDFS HDFS重平衡
Download Client Configs 下载客户端配置文件
YARN Start 启动
Stop 停止
Refresh YARN Capacity Scheduler 刷新YARN容量调度
Restart All 全部重启
Restart NodeManagers 重启所有NodeManager
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Download Client Configs 下载客户端配置文件
MapReduce2 Start 启动
Stop 停止
Restart All 全部重启
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Download Client Configs 下载客户端配置文件
Tez Run Service Check 运行服务检查
Refresh configs 刷新配置
Download Client Config 下载客户端配置文件
Hive Start 启动
Stop 停止
Restart All 全部重启
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Restart LLAP 重启LLAP
Download Client Configs 下载客户端配置文件
HBase Start 启动
Stop 停止
Restart All 全部重启
Restart RegionServers 重启所有RegionServer
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Download Client Configs 下载客户端配置文件
Pig Run Service Check 运行服务检查
Refresh Configs 刷新配置文件
Download Client Configs 下载客户端配置文件
Oozie/Zookeeper Start 启动
Stop 停止
Restart All 全部重启
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Storm Start 启动
Stop 停止
Restart All 全部重启
Restart Supervisors 重启所有Sepervisor
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Ambari Metrics Start 启动
Stop 停止
Restart All 全部重启
Restart Metrics Monitors 重启所有Metrics Monitor
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Kafka Start 启动
Stop 停止
Restart All 全部重启
Restart Kafka Brokers 重启所有Kafka Broker
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Spark2 Start 启动
Stop 停止
Restart All 全部重启
Restart Livy for Spark2 Servers 重启所有Spark2服务器的Livy
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Download Client Configs 下载客户端配置文件
ElasticSearch Start 启动
Stop 停止
Restart All 全部重启
Run Service Check 运行服务检查
Turn On Maintenance Mode 开启维护模式
Hue Start 启动
Stop 停止
Restart All 全部重启
Turn On Maintenance Mode 开启维护模式
Usersync 用户同步
Metastoresync 元数据存储同步
Slider Run Service Check 运行配置检查
Refresh Configs 刷新配置文件
Download Client Configs 下载所有客户端配置信息

Summary

在Summary页面下显示有关所选服务操作状态的基本信息,包括警报。要刷新监控面板并显示另一个服务的信息,可以在服务列表上单击一个不同的服务名称。注意服务名称后面带有颜色的图标,指出服务的操作状态和该服务生成的警报。可以单击一个 View Host 链接来查看组件和运行选定组件的主机。可单击页面中的 Alerts 来查看所有健康检查列表以及所选中服务的状态,重要警报首先显示。要查看警报定义,可以单击列表中每个警报消息的文本标题来查看警报定义。

image.png

在表盘中可对Widget进行添加、移除、创建和删除。将鼠标移至下方Metrics面板中的widget,可对其进行操作。

image.png

HeatMapsConfig history信息见Dasboard相关说明,其在两页面中作用相同。

主机(Hosts)管理

作为集群系统管理员或集群操作员,需要知道每部主机的操作状态。也需要知道哪部主机有问题需要处理。可以使用 Ambari Web Hosts 页面来管理多个Hortonworks Data Platform (HDP) 组件,例如运行在整个集群上 DataNodes, NameNodes, NodeManagers, 和 RegionServers。举例来说,可以重启所有的DataNode 组件,可选地控制滚动重启任务。Ambari Hosts 可以过滤进行管理的主机组件选取,基于操作状态,主机健康状况,以及定义的主机分组。

主机状态

可在Ambari Web Hosts页面查看集群上单个主机的状态。主机以 fully qualified domain name (FDQN)的形式列出,并附有一个带有颜色的图标指示出主机的操作状态。

可点击主机后Components下component数目查看主机上具体组件。

颜色 状态
红色三角形 该主机上至少有一个 master 组件挂掉了,鼠标悬停图标上查看一个工具提示列出受影响的组件
橘色 该主机上至少有一个 slave 组件挂掉了,鼠标悬停图标上查看一个工具提示列出受影响的组件
黄色 Ambari Server 没有从该主机上收到心跳包超过 3 分钟
绿色 正常运行状态
Maintenace Mode 黑色 "医药箱" 图标指出一部主机处于维护模式
Alert 红色方框带有一个数字指明该主机上的警报数量

在主机状态中,红色图标覆盖橘色图标,橘色图标覆盖黄色图标。换句话说,一部主机有 master component 宕机附有一个红色图标,即便它可能也有slave component和连接问题。主机处于维护模式或遇到警报,图标出现在主机名右侧。

image.png

主机搜索

在主机列表页面,可通过上方搜索框对主机由Host、Service及Component中相应栏目进行相应搜索。

image.png

主机管理

点击主机列表页面中主机信息,可查看主机中的具体组件及Host Metrics信息;点击Host Actions下拉菜单,可对所有组件进行启动、暂停、重启等操作。

image.png

在Components下可对每一个组件进行启动、停止、重启及开启维护模式。

image.png

主机操作

选择所需操作的主机,点击上方Actions下拉菜单,选择Selected Hosts,选择Hosts;此后可对此主机组件进行操作:

操作 解释
Start All Components 启动所有组件
Stop All Components 停止所有组件
Restart All Components 重启所有组件
Reinstall Failed Components 重新安装所有失败组件
Turn on Maintenance Mode 开启维护模式
Turn off Maintenance Mode 关闭维护模式
Set Rack 设置Rack

image.png

设置维护模式的四个一般场景为:执行维护,测试配置修改,彻底删除一个服务,处理警报。

要在一部主机上执行硬件或操作系统维护

执行维护时,要能够做如下操作:

  • 阻止这部主机上所有组件生产警报

  • 能够停止、启动、以及重启主机上的每一个组件

  • 阻止该主机 host-level 或 service-level 的 starting, stopping, 或 restarting 组件批操作

为了达成这些目标,显示设置主机的维护模式,将这部主机上所有的组件隐式地设置为维护模式。

要测试一个服务配置的修改。应该停止、启动、以及重启服务来测试重启是否激活了配置的变化

要测试配置信息的变化,要确保如下条件:

  • 这个服务上没有任何组件生成警报

  • 这个服务上没有 host-level 货 service-level 的批操作启动、停止、或 重启组件

为了达成这些目标,显示设置服务维护模式。将一个服务设置为维护模式隐式地为该服务的所有组件打开维护模式

监控管理/Alerts

警告管理展示了集群的全部监控项,请注意查看 “WARNING” 和 “CRITICAL” 状态的警告项

可单击Alerts,看各项状态,可以直接点击集群名称后的红色alert按钮,进行相应报警查看

image.png

找到报警主机,进入相应报警处,进行处理后报警消除。下例为Kafka Broker停止,启动后报警解除

image.png

image.png

Admin/管理

单击Admin按钮,可查看相应组件及对应版本信息

image.png

文件查看

可在ambari中进行文件查看,新建文件夹,文件搜索及上传文件操作

点击Admin右侧九宫格形状按钮,选择Files View,可在页面中查看HDFS中文件

image.png

一次点击Select All, New Folder和Upload按钮,可选择全部文件(夹),创建新文件夹及上传文件操作;在下方还可以进行文件(夹)搜索操作

image.png

文件权限

HDFS文件权限格式为用户权限组权限其他用户权限,d表示目录,r表示读,w表示写,x表示执行

例如下图的权限为:

image.png

对于apps目录,hdfs用户有用rwx,即可以读写执行这个目录,hdfs用户组的权限为r-x,即只可以读和执行而没有写的权限,而其他组的权限也为r-x,即有读和执行的权限而没有写的权限

您也可以在此栏目中查看YARN Queue Manager, Hive及Tez相关信息

Ambari去除Token认证

KMR集群为了保证Ambari 访问的安全性,会对访问进行token认证,token过期后的访问会被拒绝。

如果删除token认证,请注意管理帐号及访问权限(在安全组中仅开放限定IP的访问权限)

如果需要删除token认证机制,需要进行如下操作:

1、登入到KMR集群master1节点中

2、编辑ngnix.conf

vim /opt/nginx/conf/nginx.conf 210行附近

        location / {

           # secure_link $arg_kmr_token,$arg_kmr_exp;

           # secure_link_md5 4d145a527973363cf5f96da451727bf2$arg_kmr_exp;

           # if ( $secure_link = "" ) {

           #     return 402;

           # }

           # if ( $secure_link = "0" ) {

           #     return 405;

           # }

注释掉secure_link相关的几行,210-217行。

3、重新加载nginx配置,重启nginx服务

service nginx reload

service nginx restart

金山云,开启您的云计算之旅

注册有礼