COCO 数据集

COCO（Common Objects in Context）是一个广泛使用的计算机视觉数据集和基准，主要用于以下任务：

下面分别解释 COCO 目标检测 与 COCO 实例分割 的含义：

目标：在图像中定位并识别出属于特定类别的物体。

输入：一张图像。
输出：
- 每个检测到的物体的类别（如“人”、“汽车”、“狗”等，共80个类别）；
- 一个边界框（Bounding Box），用 (x, y, width, height) 表示，框出物体的位置；
- 一个置信度分数（表示模型对该检测结果的信心）。

示例：一张街景图中，模型检测出3辆汽车、2个人，并为每个物体画出矩形框。

目标：不仅要知道每个物体在哪里（像目标检测那样），还要精确地分割出每个物体的像素级轮廓。

与语义分割的区别：

示例：图像中有两只猫挨在一起，实例分割会为每只猫生成独立的、精确到像素的轮廓。

mAP（mean Average Precision）：
- 对 IoU（交并比）从 0.5 到 0.95（步长 0.05）取平均；
- 同时考虑不同尺度（小、中、大物体）的表现；
- 是 COCO 榜单上最核心的评估标准。

任务	输出内容	关键区别
目标检测	类别 + 边界框	定位粗略（矩形框）
实例分割	类别 + 像素级掩码（+ 边界框）	定位精细（轮廓级别），区分同一类别的不同实例

COCO 是衡量这些任务性能的黄金标准之一，广泛用于学术研究和工业应用。

CS Notes