跳转至

Datadog 监控入门

一句话概述:Datadog 是全栈云监控平台,一站式覆盖基础设施监控、APM、日志管理、用户体验监控,是企业级可观测性的标杆产品。

核心知识点

概念白话解释
Agent代理 = 安装在服务器上采集数据的程序
Metric指标 = 数值型监控数据(CPU、内存、QPS)
Dashboard仪表盘 = 可视化监控大屏
Monitor监控器 = 告警规则(指标超阈值就通知)
APM应用性能监控 = 追踪请求在各服务间的耗时
Log日志 = 收集和分析应用日志
Tag标签 = 给数据打标(如 env:prod, service:api)

安装配置

# 安装 Datadog Agent(Linux)
DD_API_KEY=<your-api-key> DD_SITE="datadoghq.com" bash -c \
  "$(curl -L https://install.datadoghq.com/scripts/install_script_agent7.sh)"

# Docker
docker run -d --name datadog-agent \
  -e DD_API_KEY=<your-api-key> \
  -e DD_SITE="datadoghq.com" \
  -v /var/run/docker.sock:/var/run/docker.sock:ro \
  -v /proc/:/host/proc/:ro \
  -v /sys/fs/cgroup/:/host/sys/fs/cgroup:ro \
  gcr.io/datadoghq/agent:7

基本使用

Python APM 集成

# pip install ddtrace
# 启动时: ddtrace-run python app.py

from ddtrace import tracer

@tracer.wrap(service="bioinfo-api", resource="run_analysis")
def run_analysis(sample_id):
    """被 Datadog 追踪的函数"""
    span = tracer.current_span()
    span.set_tag("sample_id", sample_id)  # 添加自定义标签
    # 执行分析...

自定义指标

from datadog import statsd

statsd.increment('analysis.started', tags=['type:fastqc'])  # 计数器
statsd.gauge('queue.size', 42)  # 当前值
statsd.histogram('analysis.duration', 120.5)  # 分布

常见报错

报错信息原因解决方法
API key not validAPI Key 错误检查 DD_API_KEY
Agent not runningAgent 未启动systemctl start datadog-agent
No data数据未上报检查网络和 Agent 状态

速查表

datadog-agent status          # Agent 状态
datadog-agent health          # 健康检查
datadog-agent configcheck     # 配置检查
datadog-agent flare           # 打包诊断信息

参考:Datadog 文档 | 更新于 2026 年