AI研究周报(十二)：代码模型开始进入主线

By Dear宅学长

发表于 2021-02-06

过去我们会把代码生成看作一个有点偏门的方向：自动补全、模板生成、简单翻译。但随着语言模型能力上升，再回头看这条线，会发现它正在从“辅助功能”逐渐走向更核心的位置。代码，天然就是一种结构化语言，而这正好非常适合大模型发挥。

AI研究周报(十一)：检索增强生成的前夜

By Dear宅学长

发表于 2021-01-30

语言模型越大，知识似乎记得越多，但与此同时也会出现另一个问题：参数里“记住”的知识很难随时更新，也不容易追踪来源。最近再看检索结合生成这条思路，会觉得它特别像一个即将爆发的方向——模型不必把一切都死记在参数里，而可以在需要时去查。

AI研究周报(十)：RLHF 之前的对齐信号

By Dear宅学长

发表于 2021-01-23

最近再回看语言模型的发展，会发现一个趋势已经越来越明显：模型变强之后，问题不再只是“会不会生成”，而是“会生成什么、按谁的偏好生成、如何更稳定地生成”。虽然 RLHF 这个名字还没有真正成为行业主旋律，但“让模型更贴近人类偏好”这件事，其实已经在冒头。

AI研究周报(九)：稀疏注意力与长上下文

By Dear宅学长

发表于 2021-01-16

随着大模型参数越来越大，一个更现实的问题开始浮出来：就算模型本身足够强，如果它一次只能高成本地处理有限上下文，那么很多真实任务依然会被卡住。最近回看稀疏注意力这一批工作，会感觉它们其实是在回答一个很工程、但也很核心的问题：Transformer 怎么才能看得更远。

AI研究周报(八)：DALL·E 与离散生成

By Dear宅学长

发表于 2021-01-09

最近看 DALL·E 相关工作，最值得注意的不是“能根据文字生成图片”这句表面描述，而是它把文本生成和图像生成之间的距离进一步拉近了。多模态建模这件事，突然变得不再只是检索和匹配，而是开始触及真正的创造性生成。

AI研究周报(七)：扩散模型的早期信号

By Dear宅学长

发表于 2021-01-02

生成模型这条线这些年一直很热闹，GAN 曾经是最亮眼的主角，但最近再看 DDPM 一类扩散模型的工作，会感觉到一种不太一样的气质：它不靠极度激进的对抗训练，而是走了一条更稳定、更物理、更逐步逼近数据分布的路线。

AI研究周报(六)：AlphaFold2 与科学 AI

By Dear宅学长

发表于 2020-12-26

这一阵子看 AlphaFold2 的进展，最大的感受不是“又一个 benchmark 被刷了”，而是 AI 开始在一些传统科学难题上展现出真正的突破性价值。蛋白质折叠并不是一个容易被营销化理解的话题，但它的重要性非常实在。

AI研究周报(五)：CLIP 与跨模态预训练

By Dear宅学长

发表于 2020-12-19

最近重新回看 CLIP 这条路线，会明显感觉到一个变化：图像理解这件事，开始不再只是“把图片分到固定标签里”，而是逐渐转向“把图像放进语言所构成的语义空间里”。

AI研究周报(四)：自监督学习的新趋势

By Dear宅学长

发表于 2020-12-12

如果说监督学习依赖昂贵标注，那么自监督学习最吸引人的地方，就是它试图把“数据本身”变成监督信号。最近重新回顾 SimCLR、MoCo、BYOL 这些工作，会发现表示学习的主线已经越来越清晰了。

AI研究周报(三)：DETR 与端到端目标检测

By Dear宅学长

发表于 2020-12-05

目标检测这个方向长期都在和各种手工设计纠缠：anchor、NMS、正负样本分配、候选框筛选，每一步都有大量经验参数。DETR 的出现，第一次让我觉得这个方向有机会被重新整理。

SeniorZhai's blog

苟利国家生死以，起因福祸趋避之

AI研究周报(十二)：代码模型开始进入主线

AI研究周报(十一)：检索增强生成的前夜

AI研究周报(十)：RLHF 之前的对齐信号

AI研究周报(九)：稀疏注意力与长上下文

AI研究周报(八)：DALL·E 与离散生成

AI研究周报(七)：扩散模型的早期信号

AI研究周报(六)：AlphaFold2 与科学 AI

AI研究周报(五)：CLIP 与跨模态预训练

AI研究周报(四)：自监督学习的新趋势

AI研究周报(三)：DETR 与端到端目标检测