Ctrl+K

王小扬博客

云原生

🗒️ kubectl安装配置

Git

🗒️ fatal: could not read Username Device not configured

🗒️ git github 配置代理

🗒️ Linux Github Token 长期使用

🗒️ Git 系列问题

🗒️ Git规范

Elasticsearch

🗒️ _reindex 数据迁移｜迁移索引

Apollo

🗒️ Apollo配置中心搭建

🗒️ Apollo本地缓存文件位置

产品

🗒️ AI产品分析

🗒️ 产品分析

🗒️ Excel AI 助手

Think

🗒️ Saas的困境

🗒️ AI时代下云厂商的困境

🗒️ 2024技术行业的思考

🗒️ The Romance of Coder

🗒️ 为什么要多元化发展

生活技巧

🗒️ 甲沟炎预防

软件开发

🗒️ 软件行业经验

🗒️ 工作量评估

🗒️ CR代码

🗒️ spring Boot、nestjs、flask web服务框架对比

🗒️ 字节5000WQPS 从DNS到Kubernetes集群负载均衡分析

🗒️ 通用软件架构设计参考

🗒️ BizDevOps落地实践

🗒️ 是时候放弃全栈开发了

计算机网络

🗒️ 同源跨域解决方案

🗒️ whistle和Clash共存双层代理

🗒️ clash 防止规则覆盖

🗒️ Clash 或者 AdGuard 广告拦截

CI

🗒️ Jenkins实践

🗒️ jenkins docker 容器配置 proxy

🗒️ jenkins 远程 Remote root is not absolute, getting absolute directory from PWD；

🗒️ docker安装的jenkins如何在宿主机启动jar包

DB

🗒️ 先ORDER后JOIN引发乱序，附解决方法

🗒️ MySQL 批量修改表名

🗒️ Mysql OPTIMIZE TABLE

🗒️ RDS清理历史数据释放空间

🗒️ RDS Mysql历史数据清理

🗒️ The MySQL server is running with the --read-only option so it cannot execute this statement

🗒️ MySQL bit 和 thinyint

🗒️ MySQL索引区分度低特殊情况执行扫表CPU100%

设计

🗒️ 秒杀系统时间配置、Nginx查看服务器系统时间

🗒️ 微服务技术选型

缓存

🗒️ 二级缓存版本号设计

Docker

🗒️ Docker绑定CPU

🗒️ Jenkins Docker构建存在缓存

🗒️ 容器内获取宿主机名称和容器ID

🗒️ Docker软件安装

Node

🗒️ pm2基础使用

🗒️ node nestjs 异步异常处理

🗒️ 飞书群机器人接入

🗒️ 简易并发锁

🗒️ Promise

🗒️ Node文件计算Hash

🗒️ mac arm nvm install node14 failing

🗒️ Node CPU100% 问题分析解决

🗒️ 代码腐化｜Node如何规避致命错误

🗒️ Node原子计数器

🗒️ Node FormData传输文件

🗒️ npm install node-pre-gyp WARN Hit error response status 404 Not Found

🗒️ NPM系列问题

🗒️ pm2 日志大小设置

操作系统

🗒️ linux系统信息查看

🗒️ cron 规范和不同实现

🗒️ windows美化 mac

🗒️ mac基础软件安装

🗒️ mac host切换

🗒️ linux ssh密钥生成

🗒️ Ubuntu安装Cron

🗒️ Ubuntu安装Redis

🗒️ Ubuntu安装Node

🗒️ Linux系统和负载信息查看

🗒️ Linux使用SSH端口转发

🗒️ conda迁移目录

🗒️ diebian切换镜像源安装基础软件

🗒️ 程序CPU100% | 内存泄漏通用排查步骤

🗒️ CPU每秒多少次运算

🗒️ windows多个音频同时输出

🗒️ ubuntu禁用挂起

🗒️ mac lrzsz iterm 配置

🗒️ mac安装软件｜无法打开｜不信任

Java

🗒️ 基于布隆过滤器快速匹配敏感词、关键词、品牌词

🗒️ 项目加密措施

🗒️ Java 模板变量替换——字符串替换器{}、${}、${}map

🗒️ spring动态修改service类的属性

🗒️ java反编译；将class变成java；利用idea进行反编译

🗒️ Java微服务生态系统构建指南

🗒️ HashMap初始化容量计算

🗒️ mac arm Java maven等环境安装

🗒️ maven-assembly-plugin打包 scope system 级别文件｜本地 lib

🗒️ maven打包配置SpringBoot

🗒️ Maven引入本地jar包

🗒️ Redisson延迟队列

🗒️ Java字符串比较 == 和 equals 的区别 intern

🗒️ jar包添加到本地

🗒️ spring-boot-maven-plugin打包 scope system 级别文件｜本地 lib

🗒️ Maven常见问题

🗒️ SpringBoot Maven系列错误

🗒️ Jprofile程序闪断

🗒️ Docker tini start Java

🗒️ SpringBoot优雅停机

🗒️ SpringBoot跨域配置

🗒️ 代码规范

🗒️ SpringBoot banner config

🗒️ Java Code Style 配置

🗒️ Java 8 date/time type `java.time.LocalDateTime` not supported by default:

大前端

🗒️ 升级npm-check-updates

🗒️ overrides 覆盖配置

🗒️ 阿里npm镜像源更新不及时

🗒️ 电商平台产品ID｜CDN与预渲染｜前端边缘计算

🗒️ Session Cookie Jwt Token常见web授权

🗒️ nrm｜npm快速切源

🗒️ patch-package|npm补丁修复

🗒️ windows ESLint: Expected linebreaks to be 'LF' but found 'CRLF'.(linebreak-style)

🗒️ npm install reason: certificate has expired

Nestjs

🗒️ nestjs fastify 频繁重启

🗒️ Nestjs Fastify 上传文件

🗒️ Nestjs fastify 接入Swagger

🗒️ typeorm用法

🗒️ Nestjs Pipe用法

🗒️ Nestjs Middleware

🗒️ nestjs/schedule nestjs定时任务

🗒️ proxy 网络代理

🗒️ class-validator nestjs dto参数校验

🗒️ 优雅关闭k8s pod docker pm2 nestjs bull

🗒️ NestJs bull 用法

🗒️ Nestjs Cron @handleCron" because it is defined in a non static provider.

🗒️ nest redis mq

🗒️ nest @Public() 注解免校验 token

其他

PHP

🗒️ PHP配置跨域支持

🗒️ php strtr其他语言实现Node

🗒️ 为什么大家还在用php

🗒️ PHP 实现 redis 分布式锁

AI

🗒️ Cursor Rules 配置

🗒️ Cursor 设置

SRE指标

SRE方法论之监控设计-腾讯云开发者社区-腾讯云

《SRE：Google运维解密》中提出，监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）。

SRE方法论之监控设计-腾讯云开发者社区-腾讯云

https://cloud.tencent.com/developer/article/2359940

SRE方法论之监控设计-腾讯云开发者社区-腾讯云

监控的4个黄金指标

《SRE：Google运维解密》中提出，监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）。

SRE的四个黄金指标是构建成功的监控和告警系统的一些基本原则和最佳实践

延迟：延迟是信息发送方和接收方之间的时间延迟，以毫秒（ms）为单位。而原因往往是由于数据包丢失网络拥塞和网络抖动造成的，称为“数据包延迟差异”延迟对客户体验有直接影响，转化为成功请求的延迟和失败请求的延迟。

流量：流量是系统工作量带来的压力。它通过每秒查询数（QPS）或每秒事务数（TPS）来衡量。企业通过数量来衡量这一点：关键绩效指标（KPI）是在给定时间来到站点的人数。这与商业价值有直接关系。

错误：错误是根据整个系统中发生的错误来衡量的。被认为是服务错误率的重要指标！有两类错误：显式错误，如失败的HTTP请求（500个错误代码，例如）；隐含错误是成功的响应，但内容错误或响应时间长。

饱和度：饱和度定义了服务的过载程度。它衡量系统利用率，强调服务的资源和整体容量。这通常适用于CPU利用率、内存使用、磁盘容量和每秒操作数等资源。仪表板和监控警报是帮助你密切关注这些资源并帮助你在容量饱和之前主动调整容量的理想工具

监控指标设计原则

长尾问题

假设一个web服务的http请求平均耗时为100ms,单看这个数据觉得服务性能没问题，但可能有1%的请求耗时超过5s，而这1%的请求就有可能引发用户投诉或其它风险。由于是计算的平均值而容易被忽略，最好的方法是将请求延迟分段统计。

采用合适的精度

监控数据的高频率收集、存储、分析成本很高，要根据监控对象以及监控目标合理设置监控周期、监控频率等。

减少告警误报

现在很多公司抱着“宁可错杀一万，也不能放走一个”的原则制定监控标准，这样做的后果就是运维人员疲于奔命，时间一长就会造成"狼来了"的后果。增加新的监控规则时，可以遵循以下原则：

收到紧急告警时，应该立即需要进行某种操作。每天只能进入紧急状态几次，太多就会导致“狼来了”效应。

紧急告警都应该是可以具体操作的。

紧急告警的回复都应该需要某种智力分析过程。如果某个紧急告警只是需要一个固定的机械动作，那么它就不应该成为紧急告警。

紧急告警都应该是关于某个新问题的，不应该彼此重叠。

监控系统建设原则

以上关于监控指标的讨论累加起来就会形成一个复杂的监控系统。

监控系统尽量简化

复杂是没有止境的，过于复杂的监控系统维护起来麻烦，而且经常出问题。

那些最能反映真实故障的规则应该越简单越好。

那些不常用的数据收集、汇总，以及告警配置应该定时删除。

收集到的信息，但是没有暴露给任何监控台，或者被任何告警规则使用的应该定时删除。

监控系统应作为一个独立的系统运行

保持监控系统相对独立、清晰简单。和其他系统保持松耦合，可以采用API来收集性能数据。

监控系统需要长期维护

监控系统需要跟随不断演变的软件一起变化，软件经常重构，负载特性和性能目标也经常变化。现在的某个不常见的、自动化比较困难的告警可能很快就会变成一个经常触发、需要一个临时的脚本来应对的问题。这时，应该去寻找和消除背后的根源问题：如果这种解决办法不可行，那么这条告警的应对就必须要完全自动化。

Loading...

目录

Last update: 2024-8-14

文章列表

王小扬博客

云原生

🗒️ kubectl安装配置

Git

🗒️ fatal: could not read Username Device not configured

🗒️ git github 配置代理

🗒️ Linux Github Token 长期使用

🗒️ Git 系列问题

🗒️ Git规范

Elasticsearch

🗒️ _reindex 数据迁移｜迁移索引

Apollo

🗒️ Apollo配置中心搭建

🗒️ Apollo本地缓存文件位置

产品

🗒️ AI产品分析

🗒️ 产品分析

🗒️ Excel AI 助手

Think

🗒️ Saas的困境

🗒️ AI时代下云厂商的困境

🗒️ 2024技术行业的思考

🗒️ The Romance of Coder

🗒️ 为什么要多元化发展

生活技巧

🗒️ 甲沟炎预防

软件开发

🗒️ 软件行业经验

🗒️ 工作量评估

🗒️ CR代码

🗒️ spring Boot、nestjs、flask web服务框架对比

🗒️ 字节5000WQPS 从DNS到Kubernetes集群负载均衡分析

🗒️ 通用软件架构设计参考

🗒️ BizDevOps落地实践

🗒️ 是时候放弃全栈开发了

计算机网络

🗒️ 同源跨域解决方案

🗒️ whistle和Clash共存双层代理

🗒️ clash 防止规则覆盖

🗒️ Clash 或者 AdGuard 广告拦截

CI

🗒️ Jenkins实践

🗒️ jenkins docker 容器配置 proxy

🗒️ jenkins 远程 Remote root is not absolute, getting absolute directory from PWD；

🗒️ docker安装的jenkins如何在宿主机启动jar包

DB

🗒️ 先ORDER后JOIN引发乱序，附解决方法

🗒️ MySQL 批量修改表名

🗒️ Mysql OPTIMIZE TABLE

🗒️ RDS清理历史数据释放空间

🗒️ RDS Mysql历史数据清理

🗒️ The MySQL server is running with the --read-only option so it cannot execute this statement

🗒️ MySQL bit 和 thinyint

🗒️ MySQL索引区分度低特殊情况执行扫表CPU100%

设计

🗒️ 秒杀系统时间配置、Nginx查看服务器系统时间

🗒️ 微服务技术选型

缓存

🗒️ 二级缓存版本号设计

Docker

🗒️ Docker绑定CPU

🗒️ Jenkins Docker构建存在缓存

🗒️ 容器内获取宿主机名称和容器ID

🗒️ Docker软件安装

Node

🗒️ pm2基础使用

🗒️ node nestjs 异步异常处理

🗒️ 飞书群机器人接入

🗒️ 简易并发锁

🗒️ Promise

🗒️ Node文件计算Hash

🗒️ mac arm nvm install node14 failing

🗒️ Node CPU100% 问题分析解决

🗒️ 代码腐化｜Node如何规避致命错误

🗒️ Node原子计数器

🗒️ Node FormData传输文件

🗒️ npm install node-pre-gyp WARN Hit error response status 404 Not Found

🗒️ NPM系列问题

🗒️ pm2 日志大小设置

操作系统

🗒️ linux系统信息查看

🗒️ cron 规范和不同实现

🗒️ windows美化 mac

🗒️ mac基础软件安装

🗒️ mac host切换

🗒️ linux ssh密钥生成

🗒️ Ubuntu安装Cron

🗒️ Ubuntu安装Redis

🗒️ Ubuntu安装Node

🗒️ Linux系统和负载信息查看

🗒️ Linux使用SSH端口转发

🗒️ conda迁移目录

🗒️ diebian切换镜像源安装基础软件

🗒️ 程序CPU100% | 内存泄漏通用排查步骤

🗒️ CPU每秒多少次运算

🗒️ windows多个音频同时输出

🗒️ ubuntu禁用挂起

🗒️ mac lrzsz iterm 配置

🗒️ mac安装软件｜无法打开｜不信任

Java

🗒️ 基于布隆过滤器快速匹配敏感词、关键词、品牌词

🗒️ 项目加密措施

🗒️ Java 模板变量替换——字符串替换器{}、${}、${}map

🗒️ spring动态修改service类的属性

🗒️ java反编译；将class变成java；利用idea进行反编译

🗒️ Java微服务生态系统构建指南

🗒️ HashMap初始化容量计算

🗒️ mac arm Java maven等环境安装

🗒️ maven-assembly-plugin打包 scope system 级别文件｜本地 lib

🗒️ maven打包配置SpringBoot

🗒️ Maven引入本地jar包

🗒️ Redisson延迟队列

🗒️ Java字符串比较 == 和 equals 的区别 intern

🗒️ jar包添加到本地

🗒️ spring-boot-maven-plugin打包 scope system 级别文件｜本地 lib

🗒️ Maven常见问题

🗒️ SpringBoot Maven系列错误

🗒️ Jprofile程序闪断

🗒️ Docker tini start Java

🗒️ SpringBoot优雅停机

🗒️ SpringBoot跨域配置

🗒️ 代码规范

🗒️ SpringBoot banner config

🗒️ Java Code Style 配置

🗒️ Java 8 date/time type `java.time.LocalDateTime` not supported by default:

大前端

🗒️ 升级npm-check-updates

🗒️ overrides 覆盖配置

🗒️ 阿里npm镜像源更新不及时

🗒️ 电商平台产品ID｜CDN与预渲染｜前端边缘计算

🗒️ Session Cookie Jwt Token常见web授权

🗒️ nrm｜npm快速切源

🗒️ patch-package|npm补丁修复

🗒️ windows ESLint: Expected linebreaks to be 'LF' but found 'CRLF'.(linebreak-style)

🗒️ npm install reason: certificate has expired

Nestjs

🗒️ nestjs fastify 频繁重启

🗒️ Nestjs Fastify 上传文件

🗒️ Nestjs fastify 接入Swagger

🗒️ typeorm用法

🗒️ Nestjs Pipe用法

🗒️ Nestjs Middleware

🗒️ nestjs/schedule nestjs定时任务

🗒️ proxy 网络代理

🗒️ class-validator nestjs dto参数校验

🗒️ 优雅关闭k8s pod docker pm2 nestjs bull

🗒️ NestJs bull 用法

🗒️ Nestjs Cron @handleCron" because it is defined in a non static provider.

🗒️ nest redis mq

🗒️ nest @Public() 注解免校验 token

其他

PHP

🗒️ PHP配置跨域支持

🗒️ php strtr其他语言实现Node

🗒️ 为什么大家还在用php

🗒️ PHP 实现 redis 分布式锁

AI

🗒️ Cursor Rules 配置

🗒️ Cursor 设置