2026年1月7日
上午 | 常熟研学考察
- 参观三家企业:北京大学苏州工程苏南研究院(材料方向,校政企合作)、常熟国家大学科技园(低空经济等高科技)、昆承湖周边
- 了解常熟人才引进策略,整体还不错
下午 | 尚湖游玩
- 5A级景区,风景很美,逛到2点集合
- 撞了9次钟,仪式感拉满,拍了一堆照片
- 4点回到学校
晚上 | 学习+折腾
- 看完罗永浩访谈Tim,全程3h,信息量巨大,整理了完整笔记
- 论文阅读Day06:ViT
- 把近30天论文重命名+编号,研究生系统录入科研成果
- 折腾ChatGPT老兵认证,Discord+电报搞了半小时没搞定,心态爆炸,止损
罗永浩访谈Tim笔记摘要
关于Tim的成长路径:
- 出身杭州工薪家庭,童年全托幼儿园,初中沉迷《冒险岛》成绩暴跌,后赴英留学
- 高中因拍毕业典礼视频”首次获得现实世界认可”,从此入行
- 从个体户发展到160人团队,五年才20万粉,2019年爆发式增长
商业模式启发:
- “羊毛不出在羊身上”——内容免费获客,电商变现,获客成本仅同行1/15
- 坚持不融资,保持财务独立
- 评测标”体验”不标”评测”,维持内容独立性
AI判断:
- “AI将在2年内替代剪辑、制图等执行性工作,创意和人生经历成为核心竞争力”
- 团队已用AI做文稿校验和真实性核查
内容方法论:
- “短剧化长视频”——20分钟拆成8个刺激点,提升完播率
- 高信息密度+真实感是核心
论文阅读笔记
Day06 | Vision Transformer(ViT)
《AN IMAGE IS WORTH 16X16 WORDS》(ICLR 2021,Google Research)
核心痛点: CNN的归纳偏置(局部性+平移等变性)是小数据时代的智慧,但数据量够大时,这些”人为设计”反而成了天花板。
解法: 把图像当文本处理——图片切成16×16小方块,每块展平成token,加[class] token和位置编码,扔进Transformer Encoder。跟BERT一模一样。
关键发现: ViT在JFT-300M(3亿图片)预训练后,ImageNet达88.55% top-1,干翻ResNet。但直接在ImageNet从头训练不如ResNet——数据不够时,CNN先验还是管用。
读后感: Day03的Transformer把NLP从RNN带进Attention时代,今天ViT把CV从CNN带进Attention时代。”当数据够多时,让模型自己学,比人类设计卷积核更有效。”
吃喝记录
- 中午:王四酒家(鳝丝+冬笋+大排+水果),本地特色,好吃
- 喝水:2000ml ✓
- 散步:5km ✓(尚湖暴走)
状态评分
- 精力:8/10(昨晚2点睡但今天还顶得住)
- 情绪:7/10(认证没搞定有点烦,但整体还行)
今日金句
人生不设限,做自己的冠军。
明日计划
- 搞定博客整合
- Gemini + ChatGPT认证(1h上限,搞不定就彻底放弃)
- 小程序改完部署
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Leo的笔记本!
评论
ValineDisqus







