发布时间:2026/7/6 4:00:56
:NLP任务的首次大一统
把分类、摘要、问答、翻译等一切 NLP 任务都塞进一个框架里输入是文本输出也是文本。从地位和后续影响来说T5 可以说是现代自然语言指令对话的起点是对 NLP 任务形式的首次大一统因此本篇同样先展开 T5 本身的架构再说明其 RPE 逻辑。1. 如何训练统一模型#如何统一训练统一模型其实这部分内容就是整篇论文的核心思路T5 将模型训练分为两部分使用 span corruption 的无监督预训练。使用 task prefix 的监督多任务训练。下面就来分点展开1.1 跨度破坏 Span Corruption#T5 本身的整体架构仍然是原始 Transformer 的编码-解码架构。而这部分是模型的第一阶段训练它使用 C4 数据集一个包含数百亿个 token 的语料库进行无监督预训练。这里的关键词就是题目里的Span Corruption概括来说是这样的从输入序列中随机选取一些连续的 token 片段,替换为哨兵 token以预测这些哨兵 token 为目标训练整个模型的基础语言理解能力。这部分其实和我们之前讲的 Word2Vec 的逻辑是类似的只是前者训练的是词向量表而现在我们训练的是整个模型的所有相关参数。其实还有另外一个相关的概念是 BERT它的想法是遮住单个 token 后判别恢复而 T5 改为了遮住连续 token 生成恢复等涉及到相关内容我们再展开。拿一个英文句子举例Thank you for inviting me to your party last week假设我们抹掉两个 spanfor inviting →Xlast week →Y现在模型的输入和标签其实是这样的输入[替换 span 后的原句子] Thank you X me to your party Y 目标输出[哨兵 token 序号对应预测内容···结束符] X for inviting Y last week Z你会发现多了一个Z实际上这是在训练阶段我们手动添加的作为生成任务的结束符加入学习内容。这和我们之前的 语言模型中提到的EOS是一个道理。按这种方式使用海量数据进行训练后模型便拥有了基础的语言理解能力。但要注意我们要的不是一个“填空模型”这种做其实就是为了给模型的参数进行一个具备语言理解能力的初始化所以才被称为“预训练”。而下面这步才是实现“统一”的逻辑。1.2 任务前缀 task prefix#这部分其实是最好理解的部分但也是实现 NLP 任务统一的最大前提给所有使用的数据加一个任务前缀让 Transformer 架构按前缀生成对应类型的输出序列。就像这样任务传统做法T5 的做法翻译Encoder-Decoder 架构标准 Seq2Seq输入translate English to German: ...输出译文摘要专门的 Seq2Seq 模型输入summarize: ...输出摘要分类BERT 分类头输入cola sentence: ...输出acceptable/unacceptable相似度双塔 回归头输入stsb sentence1: ... sentence2: ...输出3.8问答专门的抽取式/生成式模型输入question: ... context: ...输出答案你会发现这种设计就是把任务类型放到了输入序列中通过大量数据让模型学习到相应的生成模式实现把所有任务塞进 Seq2Seq 框架的逻辑。这样我们不再需要为每个任务单独写一个输出头 → 损失函数的代码了整个训练流程只有一个入口一个出口使用统一的 Seq2Seq CrossEntropy 损失函数。但显然你也会发现相应的局限使用这样的数据格式训练就一定要使用这样的格式推理甚至真实应用。所以虽然可以通过预处理脚本完善相应的下游逻辑但这种格式仍然有些僵硬因此也指引了后续的改进方向。从今天的视角看Task Prefix 本质上已经是 Prompt Engineering 的早期雏形任务本身被编码成自然语言输入让模型通过上下文理解“现在应该做什么”。2. Pre-LN 与去掉 LayerNorm 的偏置#看完了 T5 的核心框架和预训练除去我们单独搁置的 RPE 逻辑外T5 还有一处较小的改进度点我们也简单展开一下2.1 Post-Norm 到 Pre-Norm 的回归#我们在 Transformer Block 那篇里中已经展开过 Post-Norm 和 Pre-Norm 了T5 同样采用了 Pre-Norm即 LayerNorm 放在残差之前(())这个选择并非 T5 首创但它结合了另一个改动2.2 去掉 LayerNorm 的偏置 β#我们知道标准的 LayerNorm 公式是⊙−其中 γ 是可学习的缩放参数β 是可学习的偏置参数。现在T5 把 β 砍掉了只剩下

相关新闻

AI大模型应用开发实战:从零构建RAG智能问答系统
2026/7/6 3:00:56

AI大模型应用开发实战:从零构建RAG智能问答系统

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 最近在技术社区里,一个名为“AI大模型入门教程”的项目获得了惊人的80K星标,这背后反映了一个普遍现象&#x…

阅读更多
从概念到落地:主流开源AI Agent开发平台选型与工程实践指南
2026/7/6 3:00:56

从概念到落地:主流开源AI Agent开发平台选型与工程实践指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 最近在尝试把一些重复性的数据处理、信息搜集和文档整理工作交给 AI Agent 去跑,结果发现一个挺有意思的现象:…

阅读更多
AI时代,B2B公司官网应交给市场部维护
2026/7/6 3:00:56

AI时代,B2B公司官网应交给市场部维护

很多B2B公司,对官网的理解还停留在十多年前。 在早期的理解里,官网就是一个展示窗口。公司介绍、产品列表、联系方式,放上去就行。如果有余力,再做一个SEM落地页,配合竞价广告承接流量。至于维护——找个研发搭个框架&…

阅读更多
ANI-RSS刮削功能完全指南:3分钟打造专业级媒体库元数据
2026/7/6 5:00:58

ANI-RSS刮削功能完全指南:3分钟打造专业级媒体库元数据

ANI-RSS刮削功能完全指南:3分钟打造专业级媒体库元数据 【免费下载链接】ani-rss 基于RSS自动追番、订阅、下载、刮削、洗版 项目地址: https://gitcode.com/gh_mirrors/an/ani-rss 还在为杂乱无章的动漫收藏烦恼吗?想让你的媒体库像Netflix一样精…

阅读更多
硅基流动递表港交所:Token 工厂的“高增长、高亏损“困局
2026/7/6 5:00:58

硅基流动递表港交所:Token 工厂的“高增长、高亏损“困局

6 月 30 日,北京硅基流动科技股份有限公司向港交所递交上市申请,拟按第 18C 章"特专科技公司"规则在主板挂牌,华泰国际和海通国际担任联席保荐人。这家 2023 年 8 月才成立的公司,把自己定位成 AI 时代的"Token 工…

阅读更多
如何快速提升Linux游戏性能:DXVK 2.7.1完整指南
2026/7/6 5:00:58

如何快速提升Linux游戏性能:DXVK 2.7.1完整指南

如何快速提升Linux游戏性能:DXVK 2.7.1完整指南 【免费下载链接】dxvk Vulkan-based implementation of D3D8, 9, 10 and 11 for Linux / Wine 项目地址: https://gitcode.com/gh_mirrors/dx/dxvk 你是否曾在Linux系统上运行Windows游戏时遭遇卡顿和性能瓶颈…

阅读更多
学习计划表:鸿蒙AI应用开发实战——AI学习规划,高效备考不焦虑v
2026/7/6 5:00:58

学习计划表:鸿蒙AI应用开发实战——AI学习规划,高效备考不焦虑v

学习计划表:鸿蒙AI应用开发实战——AI学习规划,高效备考不焦虑 一、引言 “我要学习!”——这是很多人立下的flag,但真正执行起来却困难重重。没有明确的学习计划、不知道每天学什么、如何分配时间,这些问题往往导致学…

阅读更多
Python实现仿射密码:从古典密码原理到加解密实战
2026/7/6 5:00:58

Python实现仿射密码:从古典密码原理到加解密实战

1. 项目概述:从古典密码到Python实现如果你对密码学感兴趣,想找一个既有数学美感又容易上手的入门项目,仿射密码绝对是个绝佳的选择。它不像现代密码学那样涉及复杂的数学理论,但其核心的线性变换思想,却是理解更高级加…

阅读更多
【译】组织好你的Asp.Net MVC解决方案
2026/7/6 4:00:56

【译】组织好你的Asp.Net MVC解决方案

最近,Twitter上发起了一个一个关于“你最爱的Asp.net MVC项目组织方式”,我自己研究了一些组织项目文件的方法。而我现在一直喜欢用的方式是一个几句灵活性的方式,此外,这个方式还非常简单。如上图,整个解决方案里只有两个项目,首…

阅读更多
通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御
2026/7/5 0:00:50

通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时,通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中,是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…

阅读更多
3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略
2026/7/5 0:00:50

3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略

3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…

阅读更多
GXDE OS下Wayland兼容性实战:从deepin-mutter原理到VMware Tools修复
2026/7/5 0:00:50

GXDE OS下Wayland兼容性实战:从deepin-mutter原理到VMware Tools修复

如果你正在用 GXDE OS 或者任何基于 Deepin 的发行版,并且遇到了“检测到窗口系统采用 Wayland 协议,程序即将退出”这类弹窗,或者发现 VMware Tools 在 Ubuntu 24.04 这类默认 Wayland 的系统上启动失败,那这篇文章就是为你准备的…

阅读更多
星露谷物语终极MOD指南:5个步骤打造智能自动化农场
2026/7/6 0:00:56

星露谷物语终极MOD指南:5个步骤打造智能自动化农场

星露谷物语终极MOD指南:5个步骤打造智能自动化农场 【免费下载链接】StardewMods Mods for Stardew Valley using SMAPI. 项目地址: https://gitcode.com/gh_mirrors/st/StardewMods 你是否厌倦了在星露谷物语中重复收割、加工、存储的繁琐操作?梦…

阅读更多
免费二维码修复工具终极指南:三步拯救损坏二维码
2026/7/6 0:00:56

免费二维码修复工具终极指南:三步拯救损坏二维码

免费二维码修复工具终极指南:三步拯救损坏二维码 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 你是否曾经面对一个损坏的二维码束手无策?模糊、破损、打印质量差的二…

阅读更多
acme.sh私钥加密存储:基于OpenSSL的自动化证书安全管理方案
2026/7/6 0:00:56

acme.sh私钥加密存储:基于OpenSSL的自动化证书安全管理方案

1. 项目概述:为什么我们需要加密存储私钥?在运维和开发领域,使用 Let‘s Encrypt 等免费 CA 通过 ACME 协议自动化签发和管理 SSL/TLS 证书,已经成为标准实践。acme.sh作为这个领域的佼佼者,以其轻量、强大和脚本化的特…

阅读更多
基于Dify与DeepSeek构建私有知识库问答系统实战指南
2026/7/4 11:17:16

基于Dify与DeepSeek构建私有知识库问答系统实战指南

在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…

阅读更多
FAE放射组学分析工具:医学影像特征探索的完整解决方案
2026/7/4 5:24:16

FAE放射组学分析工具:医学影像特征探索的完整解决方案

FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…

阅读更多
DesktopNaotu:你的终极离线思维导图解决方案,告别网络依赖!
2026/7/5 15:33:35

DesktopNaotu:你的终极离线思维导图解决方案,告别网络依赖!

DesktopNaotu:你的终极离线思维导图解决方案,告别网络依赖! 【免费下载链接】DesktopNaotu 桌面版脑图 (百度脑图离线版,思维导图) 跨平台支持 Windows/Linux/Mac OS. (A cross-platform multilingual Mind Map Tool) 项目地址:…

阅读更多