DTStep - 全景式实时业务监控系统

前言

XL-Lighthouse虽然是一套大数据集群，但是它的使用成本和运维成本其实是非常低的。

原因在于：

XL-LightHouse在架构设计层面是在保证功能的前提下，减少不必要数据维护，减少任务冗余，并对每一种底层算子进行反复的性能优化，从技术层面保障系统具有极高的可靠性和运行效率；
不需要您对集群的性能参数、资源参数进行定制优化，根据您的服务器配置情况拷贝相关参数信息即可，最大程度减少由于配置错误导致的集群不稳定情况；
XL-LightHouse虽然依赖一些较为复杂的组件，比如：HBase、Spark，但这些组件都已经进行了很好的封装，开发者已对各组件的稳定性和组件之间的兼容性进行了充分的测试，用户并不需要直接面对这些复杂组件（部分企业使用自定义存储引擎除外）；
提供完善的自动化程序，涉及部署、启动、停止、重启、系统升级、日志导出、数据备份、数据导入等几乎所有面向用户的功能；

XL-LightHouse期望为用户提供更为便捷实用的技术方案，倾力打造“零运维”项目，即便是缺乏大数据相关经验的朋友或业务团队也大可不必担心，您只要具备基础的Linux操作经验，就可以完全驾驭XL-Lighthouse！

运维核心观察点

一般来说，集群运维只需要关注以下几点即可！

观察服务器负载状况

请先确保您已根据服务器配置情况对config.json参数进行优化（没有相关经验的朋友，可参考config.json优化章节直接拷贝配置即可）。

定时观察集群内所有节点的负载状况，一般来说服务器内存使用率在80%之内较为适宜，系统负载可按照cpu核数*0.6，比如您是16核，系统负载在9.6以内则基本正常。如果超出以上阈值可考虑适当增加集群资源。

此外，注意观察服务器的磁盘使用率。

观察数据指标是否有明显延迟

系统正常情况数据延迟约有1分钟，如果数据已经明显出现大幅度延迟，则可以考虑适当增加集群资源。

观察数据备份任务是否正常

您可以按小时配置自动数据备份任务，如果备份文件没有正常导出，请及时提Issue。

观察日志异常

定时观察./logs/lighthouse-tasks、./logs/lighthouse-ice、./logs/lighthouse-insights目录下是否存在异常日志信息，如果有相关异常信息请提Issue。可以使用logpack目录下的日志导出工具将集群日志打包导出。

操作命令

请使用部署账号登录系统（部署账号为：deploy.json中的deploy_user参数，密码为：deploy_user_passwd参数）

进入部署路径${LDP_HOME}/bin/

# 该命令将重启lighthouse及所有依赖组件
./restart-all.sh

# 该命令只重启lighthouse
./restart.sh

# 该命令停止lighthouse及所有依赖组件
./stop-all.sh

# 该命令只停止lighthouse服务
./stop.sh

# 该命令启动lighthouse及所有依赖组件
./start-all.sh

# 该命令只启动lighthouse服务
./start.sh

日志导出

将XL-LightHouse和所依赖组件的日志打包导出，可执行以下操作：

使用部署账号登录操作系统，

# 进入操作路径
cd /opt/soft/lighthouse-2.1.4/bin/tools/logpack

# 执行命令
./logpack.sh

参数：
./logpack.sh 5 ,将最近5天的日志文件导出，默认为2，最大值30天

日志输出路径为：

/opt/soft/lighthouse-2.1.4/temp/logpack/lighthouse-summary-2024-04-19.tar.gz

如果您在使用过程中遇到任何问题，请您及时联系开发者~

日常维护