XL-LightHouse日常维护

1. 前言

XL-Lighthouse虽然是一套大数据集群，默认集成的存储服务是HBase，当前的运算引擎采用Spark，但是它的使用成本和运维成本其实都是比较低的。

一方面在于XL-LightHouse在架构设计层面是在保证功能实现的前提下，尽可能减少维护不必要数据，并减少任务冗余和项目的复杂度；另一方面在于已对各组件的稳定性和组件之间的兼容性进行充分的测试；再者它提供很多自动化脚本程序，涉及部署、启动、停止、重启、系统升级、日志导出、数据备份等相关功能，后续也将根据用户反馈增加更多实用的一键操作运维工具；

XL-LightHouse期望为用户提供更为便捷实用的技术方案，很多复杂的内部处理细节都已经过反复的测试，并进行很好的封装，即便是缺乏大数据相关经验的朋友或业务团队也大可不必担心，您依然可以轻松驾驭！

2. 运维核心观察点

一般来说，集群运维只需要关注以下几点即可！

2.1. 观察日志异常

定时观察./logs/lighthouse-tasks、./logs/lighthouse-ice、./logs/lighthouse-insights目录下是否存在异常日志信息，如果有相关异常信息请提Issue。可以使用logpack目录下的日志导出工具将集群日志打包导出。

2.2. 观察服务器负载状况

请先确保您已根据服务器配置情况对config.json参数进行优化（没有相关经验的朋友，可参考config.json优化章节直接拷贝即可）。

定时观察集群内所有节点的负载状况，一般来说服务器内存使用率在60%~70%之间较为适宜，系统负载可按照cpu核数*0.6，比如您是16核，系统负载在9.6以内则基本正常。（以上为个人观点，对集群运维有较多实战经验的朋友期望提供反馈意见！）如果超出以上阈值可考虑适当增加集群资源。

此外，注意观察服务器的磁盘使用率。

2.3. 观察数据指标是否有明显延迟

系统正常情况数据延迟约有1分钟，如果数据已经明显出现大幅度延迟，则可以考虑适当增加集群资源。

2.4. 观察数据备份任务是否正常

您可以按小时配置自动数据备份任务，如果备份文件没有正常导出，请及时提Issue。

3. 重启操作

请使用部署账号登录系统（部署账号为：deploy.json中的deploy_user参数，密码为：deploy_user_passwd参数）

# 该命令将重启lighthouse及其依赖组件
./restart-all.sh

# 该命令只重启lighthouse
./restart.sh

4. 监控集群运行状态

访问以下页面，个人电脑需要配置远程服务器对应hosts文件。（可以直接将服务器/etc/hosts文件中的对应配置添加到个人电脑）

spark集群监控页面：http://10.206.0.7:8081?user.name=ldp 任务运行监控：http://10.206.0.7:4040?user.name=ldp
hadoop集群监控页面：http://10.206.0.7:9870?user.name=ldp 
hadoop集群Yarn任务页面：http://10.206.0.7:9399/cluster?user.name=ldp
hbase集群监控页面：http://10.206.0.7:16010

5. 日志导出

将XL-LightHouse和所依赖组件的日志打包导出，可执行以下操作：

使用部署账号登录操作系统，

# 进入操作路径
cd /opt/soft/lighthouse-2.1.4/bin/tools/logpack

# 执行命令
./logpack.sh

参数：
./logpack.sh 5 ,将最近5天的日志文件导出，默认为2，最大值30天

日志输出路径为：

/opt/soft/lighthouse-2.1.4/temp/logpack/lighthouse-summary-2024-04-19.tar.gz

6. 注意事项

1、集群中所有节点必须配置时间服务器、并保证时区准确；
2、部署完成，线上使用时建议关闭外网访问权限，防止外网的端口扫描、探测请求影响服务正常运行，Web端服务建议通过内网访问，避免数据泄漏的风险；
3、对于有条件的企业，建议将存储引擎替换为有专业团队维护的存储引擎服务，比如：云服务厂商的hbase/mysql存储服务或公司内部DB团队维护的hbase/mysql存储服务，并对数据进行周期性备份，防范数据丢失风险；

日常维护