昨日计划完成情况

  • 去50所好好上班 —— 完成,搞道路病害计算
  • 闲下来折腾小程序 —— 没来得及,太累了

今日记录

白天 @ 50所

  • 道路病害计算任务推进,用A4纸面积迁移的算法思路,跑通了但效果一般,后续还得优化
  • 三创赛报名折腾了好久,各种小问题连续填了三次,差点被填崩溃

晚上

  • 回来比较累,吃了顿大的(大份鸡柳+鸡腿饭),吃撑了
  • 散步半小时,顺便给爱车充电
  • 读完Day08论文,没怎么干其他活

状态

精力 6/10,情绪 6/10

三创赛报名反复填表把心态搞崩了,感情上也有点爆炸,整个人像个没有感情的杀手。

健康打卡

  • 早餐:牛肉饼
  • 午餐:50所食堂
  • 晚餐:大份鸡柳 + 鸡腿饭(吃撑了,25元的大份)
  • 散步:✅ 半小时
  • 喝水:✅ 2000ml

今日收获

  • 道路病害算法思路跑通,虽然效果待优化
  • DETR论文读完,Day08打卡成功

今日卡点

  • 道路病害计算效果不理想,A4面积迁移方案有局限
  • 三创赛报名系统反复折腾

感悟

故事的主角在失败后都这样,他们会陷入无尽的沉思和沮丧中,自责到无法自拔。

但主角之所以是主角,是因为他们最后都爬起来了。累了就歇,明天继续。

明日计划

  • 专注搞小程序
  • 看论文 Day09

今日论文 #day08

DETR《End-to-End Object Detection with Transformers》
ECCV 2020 | FAIR | Nicolas Carion等

核心痛点

目标检测的”人工痕迹”太重——Faster R-CNN需要设计anchor(9种尺度+比例)、NMS去重、一堆手工超参。检测器更像在调参,而不是在学习。

解法

把检测变成集合预测问题,端到端干掉anchor和NMS。

DETR架构三步走:

  1. CNN backbone(ResNet-50)提取特征
  2. Transformer Encoder-Decoder处理
  3. FFN预测类别和bbox

核心大招:Hungarian Loss(二分匹配)

  • 100个可学习的object query通过decoder
  • 每个query预测一个bbox
  • 训练时用匈牙利算法找GT和预测的最优匹配(一对一)
  • 不需要NMS,天然一一对应

关键发现

简单,但慢:

  • COCO上42.0 AP,对标Faster R-CNN-FPN
  • 致命问题:收敛慢——Faster R-CNN 36 epochs就行,DETR需要300-500 epochs
  • 小目标差距明显:APs 20.5 vs 24.2(全局注意力对高分辨率特征图太贵)

读后感

Day03 Transformer说”Attention Is All You Need”,今天DETR说”NMS和Anchor Are All You Don’t Need”。代价是训练时间和小目标检测——这些痛点催生了Deformable DETR、DAB-DETR等后续工作。DETR的伟大在于:它证明了检测可以端到端,把检测从”工程问题”变成了纯粹的”学习问题”。