Datadog 监控入门¶
一句话概述:Datadog 是全栈云监控平台,一站式覆盖基础设施监控、APM、日志管理、用户体验监控,是企业级可观测性的标杆产品。
核心知识点¶
| 概念 | 白话解释 |
|---|---|
| Agent | 代理 = 安装在服务器上采集数据的程序 |
| Metric | 指标 = 数值型监控数据(CPU、内存、QPS) |
| Dashboard | 仪表盘 = 可视化监控大屏 |
| Monitor | 监控器 = 告警规则(指标超阈值就通知) |
| APM | 应用性能监控 = 追踪请求在各服务间的耗时 |
| Log | 日志 = 收集和分析应用日志 |
| Tag | 标签 = 给数据打标(如 env:prod, service:api) |
安装配置¶
# 安装 Datadog Agent(Linux)
DD_API_KEY=<your-api-key> DD_SITE="datadoghq.com" bash -c \
"$(curl -L https://install.datadoghq.com/scripts/install_script_agent7.sh)"
# Docker
docker run -d --name datadog-agent \
-e DD_API_KEY=<your-api-key> \
-e DD_SITE="datadoghq.com" \
-v /var/run/docker.sock:/var/run/docker.sock:ro \
-v /proc/:/host/proc/:ro \
-v /sys/fs/cgroup/:/host/sys/fs/cgroup:ro \
gcr.io/datadoghq/agent:7
基本使用¶
Python APM 集成¶
# pip install ddtrace
# 启动时: ddtrace-run python app.py
from ddtrace import tracer
@tracer.wrap(service="bioinfo-api", resource="run_analysis")
def run_analysis(sample_id):
"""被 Datadog 追踪的函数"""
span = tracer.current_span()
span.set_tag("sample_id", sample_id) # 添加自定义标签
# 执行分析...
自定义指标¶
from datadog import statsd
statsd.increment('analysis.started', tags=['type:fastqc']) # 计数器
statsd.gauge('queue.size', 42) # 当前值
statsd.histogram('analysis.duration', 120.5) # 分布
常见报错¶
| 报错信息 | 原因 | 解决方法 |
|---|---|---|
API key not valid | API Key 错误 | 检查 DD_API_KEY |
Agent not running | Agent 未启动 | systemctl start datadog-agent |
No data | 数据未上报 | 检查网络和 Agent 状态 |
速查表¶
datadog-agent status # Agent 状态
datadog-agent health # 健康检查
datadog-agent configcheck # 配置检查
datadog-agent flare # 打包诊断信息
参考:Datadog 文档 | 更新于 2026 年