最直接可靠的方式是用 prometheus/client_golang 启动独立 HTTP metrics 端点,通过 promhttp.Handler() 暴露 /metrics,避免手动拼接或混入业务路由;自定义指标须按语义选 Counter/Gauge/Histogram;禁用 Pushgateway 于长服务。
Go 程序想暴露指标供 Prometheus 抓取,最直接可靠的方式是用 prometheus/client_golang 官方库启动一个 HTTP metrics 端点——不是手动拼接文本格式,也不是自己实现 /metrics 路由逻辑。
promhttp.Handler() 暴露标准 metrics 端点这是最常见也最推荐的做法。Prometheus 官方客户端已内置符合规范的文本格式生成器和 HTTP handler,只需注册到 HTTP server 即可。
关键点:
promhttp.Handler()(不是 http.HandlerFunc 自己写)——它自动处理 Accept 头、gzip 压缩、Content-Type 和指标格式校验http.ServeMux 里再用 http.ListenAndServe;建议单独开一个监听地址(如 :9091),避免干扰主服务gin / echo 等框架,需调用其 Use 或 GET 注册时,仍应包裹 promhttp.Handler() 实例,而非裸写 handler 函数package main
import (
"log"
"net/http"
"github.com/prometheus/client_golang/prometheus"
"github.com/prometheus/client_golang/prometheus/promhttp"
)
func main() {
// 注册自定义指标
httpRequestsTotal := prometheus.NewCounterVec(
prometheus.CounterOpts{
Name: "http_requests_total",
Help: "Total number of HTTP requests.",
},
[]string{"method", "status"},
)
prometheus.MustRegister(httpRequestsTotal)
// 单独启动 metrics server
go func() {
http.Handle("/metrics", promhttp.Handler())
log.Println("Metrics server started on :9091")
log.Fatal(http.ListenAndServe(":9091", nil))
}()
// 主业务逻辑(略)
select {}
}
Counter、Gauge 还是 Histogram?选错类型会导致 PromQL 查询结果异常或聚合语义错误,比如用 Gauge 记请求计数,会导致 rate() 计算失败。
典型场景对应关系:
Counter:只增不减的累计值,如 http_requests_total、db_queries_total —— 必须用 Inc() 或 Add()
Gauge:可升可降的瞬时值,如 go_goroutines、memory_usage_bytes —— 可用 Set()、Inc()、Dec()
Histogram:观测分布(如请求耗时),自动分桶并提供 _sum / _count / _bucket —— 用 Observe(float64),别手写分桶逻辑注意:Summary 不适合服务端监控(client-side only),且无法被 rate() 正确聚合,生产环境优先用 Histogram。
scrape_timeout 和 handler 阻塞Prometheus 默认 scrape_timeout 是 10s,但若你的 /metrics handler 执行超过该时间,就会报 context deadline exceeded 错误。
常见诱因:
prometheus.NewGaugeFunc)WithLabelValues 预分配,每次调用都新建 label map —— 触发 GC 压力,拖慢响应Counter 但没用 prometheus.NewCounterVec 分离维度,导致锁竞争验证方式:用 curl -v http://localhost:9091/metrics 测延时;加 log.Printf("metrics handler start") / end 看是否卡住。
Pushgateway 是反模式

若真要用:
job + 唯一 instance 标签,否则多次推送会覆盖前值PushAdd,改用 PushCollectors 显式管理 collector 生命周期pusher.Delete() 清理过期指标,否则 Pushgateway 内存泄漏绝大多数 Web 服务不需要 Pushgateway,强行用只会让监控链路变脆弱、数据时效性下降、调试更困难。
真正容易被忽略的是:指标命名必须带单位(如 _seconds、_bytes)、label 维度不宜过多(超过 5 个 label 组合易爆炸)、以及所有自定义指标必须显式 MustRegister——漏注册等于没上报。