2026年1月10日 | Leo的笔记本

昨日计划完成情况

专注搞小程序 —— 完成，下午开发+晚上修bug
看论文 Day09 —— 完成，Swin Transformer

今日记录

上午

睡到10点多，打了两把王者，周六放松一下
和景哥、涂涂去遇上西雅图吃火锅烤肉自助
顺便给电车充电，检查三创赛审核——实战赛和常规赛都通过了✅

下午 @ 实验室

研究教师资格证报名，纠结报中职还是高中数学（后来发现大学老师需要的是高校教资，另一套体系）
用Gemini把蓝底照片换成白底
16:00开始搞小程序开发

晚上

和仕缘吃麻辣烫
回来继续修小程序bug
20:50-21:30散步，期间看论文
完成Day09论文，补了不少基础知识

状态

精力 7/10，情绪 5/10

周六节奏比较健康，休息、社交、学习都有。但情绪一般。

健康打卡

午餐：遇上西雅图火锅烤肉自助（81元）
晚餐：麻辣烫（27元）
散步：✅ 40分钟
喝水：✅ 2000ml

今日收获

三创赛实战赛+常规赛审核通过
小程序开发推进+bug修复
Swin Transformer论文读完，理解了Shifted Window Attention的精髓

今日卡点

论文基础知识欠缺，需要花大量时间追根溯源补课

感悟

失败是常态，要勇敢战斗，永不言弃。

明日计划

完成小程序
本周复盘
整理工作内容，想清楚怎么推进
归纳整理自己的东西
好好休息

今日论文 #day09

Swin Transformer《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》
ICCV 2021 | 微软亚研 | Ze Liu等

核心痛点

ViT的O(n²)复杂度限制了高分辨率图像处理能力。分类用224×224还行，检测/分割需要高分辨率就吃不消。非分层结构也难构建多尺度特征。

解法

Shifted Window Attention：

图像切分成不重叠的window（7×7），window内做self-attention，复杂度O(n²)→O(n)
下一层shift window（移动半个window），让跨window信息流动
用masked attention处理边界问题
层级下采样产生特征金字塔：4个stage，分辨率逐层减半，通道数逐层翻倍

关键发现

ImageNet-1K：Swin-L 87.3% top-1，超越ViT和ResNeSt
COCO检测：Swin-L 58.7 box AP，51.1 mask AP
ADE20K分割：53.5 mIoU，SOTA

读后感

Day06 ViT说”CNN的归纳偏置是枷锁”，今天Swin说”局部性其实是个好东西”。Swin把attention限制在window内，通过shift实现全局连接——本质上融合了CNN的局部性和Transformer的全局建模能力。Transformer不是要完全取代CNN，而是要学习CNN的优点。