前言
XL-Lighthouse虽然是一套大数据集群,但是它的使用成本和运维成本其实都是非常低的。
一方面在于XL-LightHouse在架构设计层面是在保证功能实现的前提下,减少不必要数据维护,减少任务冗余,并对每一种底层算子进行反复的性能优化; 另一方面对各组件的稳定性和组件之间的兼容性进行充分的测试; 再者它提供完善的自动化程序,涉及部署、启动、停止、重启、系统升级、日志导出、数据备份等几乎所有面向用户的功能;
XL-LightHouse期望为用户提供更为便捷实用的技术方案,很多复杂的内部处理细节都已进行很好的封装,即便是缺乏大数据相关经验的朋友或业务团队也大可不必担心,您依然可以轻松驾驭!
运维核心观察点
一般来说,集群运维只需要关注以下几点即可!
观察服务器负载状况
请先确保您已根据服务器配置情况对config.json参数进行优化(没有相关经验的朋友,可参考config.json优化章节直接拷贝配置即可)。
定时观察集群内所有节点的负载状况,一般来说服务器内存使用率在80%之内较为适宜,系统负载可按照cpu核数*0.6,比如您是16核,系统负载在9.6以内则基本正常。 如果超出以上阈值可考虑适当增加集群资源。
此外,注意观察服务器的磁盘使用率。
观察数据指标是否有明显延迟
系统正常情况数据延迟约有1分钟,如果数据已经明显出现大幅度延迟,则可以考虑适当增加集群资源。
观察数据备份任务是否正常
您可以按小时配置自动数据备份任务,如果备份文件没有正常导出,请及时提Issue。
观察日志异常
定时观察./logs/lighthouse-tasks、./logs/lighthouse-ice、./logs/lighthouse-insights目录下是否存在异常日志信息,如果有相关异常信息请提Issue。 可以使用logpack目录下的日志导出工具将集群日志打包导出。
重启操作
请使用部署账号登录系统(部署账号为:deploy.json中的deploy_user参数,密码为:deploy_user_passwd参数)
# 该命令将重启lighthouse及所有依赖组件
./restart-all.sh
# 该命令只重启lighthouse
./restart.sh
日志导出
将XL-LightHouse和所依赖组件的日志打包导出,可执行以下操作:
使用部署账号登录操作系统,
# 进入操作路径
cd /opt/soft/lighthouse-2.1.4/bin/tools/logpack
# 执行命令
./logpack.sh
参数:
./logpack.sh 5 ,将最近5天的日志文件导出,默认为2,最大值30天
日志输出路径为:
/opt/soft/lighthouse-2.1.4/temp/logpack/lighthouse-summary-2024-04-19.tar.gz