Transformer_世界百事通

首页 > 资讯 > > 内容页

Transformer_世界百事通

发表时间：2023-04-23 14:49:31 来源：博客园

(资料图)

参考：transform的paper出处:https://blog.csdn.net/qq_40585800/article/details/112427990

发展

Transformer是由谷歌于2017年提出的具有里程碑意义的模型，同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础（RNN, LSTM等）。从本质上来讲，RNN是以串行的方式来处理数据，对应到NLP任务上，即按照句中词语的先后顺序，每一个时间步处理一个词语。

相较于这种串行模式，Transformer的巨大创新便在于并行化的语言处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

什么是 Transformer？

Transformer 是 Google 的研究者于 2017 年在《Attention Is All You Need》一文中提出的一种用于 seq2seq 任务的模型，它没有 RNN 的循环结构或 CNN 的卷积结构，在机器翻译等任务中取得了一定提升。

transformer的优势

1.Transformer能够利用分布式GPU进行并行训练，提升模型训练效率2.Transformer能够分析预测较长的序列，捕获较长的语义信息3.自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。

Transformer架构

小细节

Layer normalization

在transformer中，每一个子层（自注意力层，全连接层）后都会有一个Layer normalization层，如下图所示：Normalize层的目的就是对输入数据进行归一化，将其转化成均值为0方差为1的数据。

CV领域论文

这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中，在 ImageNet 得到的结果相较于 ResNet 较差，这是因为Transformer模型缺乏归纳偏置能力，例如并不具备CNN那样的平移不变性和局部性，因此在数据不足时不能很好的泛化到该任务上。

然而，当训练数据量得到提升时，归纳偏置的问题便能得到缓解，即如果在足够大的数据集上进行与训练，便能很好地迁移到小规模数据集上。

在实验中，作者发现，在中等规模的数据集上（例如ImageNet），transformer模型的表现不如ResNets；而当数据集的规模扩大，transformer模型的效果接近或者超过了目前的一些SOTA结果。作者认为是大规模的训练可以鼓励transformer学到CNN结构所拥有的translation equivariance 和locality.3.2.4 Deformable-DETRXizhou Zhu, Weijie Su2, Lewei Lu, Bin Li , Xiaogang Wang, Jifeng Dai. DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION. SenseTime Research, University of Science and Technology of China, The Chinese University of Hong Kong

Transformer_世界百事通

发展

什么是 Transformer？

transformer的优势

Transformer架构

小细节

Layer normalization

CV领域论文

Transformer_世界百事通

速讯：海军某岸导部队军营开放 主战装备纷纷亮相

揭秘C罗健康习惯：吃好睡好 涂黑色指甲油保护脚趾_天天速看料

开源证券给予彩讯股份买入评级，公司信息更新报告：业绩持续高增长，AIGC打开成长空间

世界关注：一季度同比增长29.3% 福建机电产品出口迎来春天

贝里精英集团（ACE）SAP S/4HANA PCE升级项目启动大会顺利召开 环球今热点

珀莱雅单品牌卖了52亿！

【世界聚看点】怎么起诉车贷利息过高？从三个方面深入解读

克洛普：诺丁汉森林的界外球很有威胁，每次都能让我们陷入混乱

天天快报!开始反击了，拒绝洋垃圾QLC割韭菜，买爆这5款长存晶圆的国产SSD

环网柜_关于环网柜介绍_天天热讯

位居六区第一 思明区GDP一季度增长6.9%

速递！委内瑞拉副总统痛斥美国制裁

江苏一地宣布：公务员工资用数字人民币发放|当前最新

快报：NB季后赛战报：76人96-88总比分4-0横扫篮网,哈里斯25+12,丁威迪20分

蔚来Power Journeys｜西双版纳线正式贯通 全程约560km

泽连斯基签令制裁 焦点热讯

排卵期腹痛是什么原因（突然小腹痛是什么原因）

前沿热点：捷豹C-X17跨界车泄漏的第一张照片

癸卯年黄帝故里拜祖大典昨日隆重举行 环球播报

内蒙古电力学校有哪些专业_内蒙古工业大学电力学院

每日快播：探索多元融合导学 推进美术“双新”落实

每日观点：2022高压风机十大品牌排行榜_高压风机哪个牌子好

洛克王国可爱猿怎么抓_洛克王国可爱猿|世界时快讯

61岁邝美云不婚不育，三拒豪门，19岁当选港姐，38岁拥有亿万身家_天天热议

【忘羡】谁是孩子的父亲 三 (双洁)

每日快讯!民族服饰特点有哪些（民族服饰特点）

人生选择的作文800字 人生选择 全球头条

中国法律史学会会长张生：调查研究需要有客观性问题指向

颠覆传统混动 吉利银河 L7 携“智爱座舱”亮相上海车展-天天微资讯

天天精选！斯科帕斯_关于斯科帕斯简介

根据民法典写字楼业主权利有哪些

ACCA只通过一科有用处吗？报名要哪些资料？

天天视点！重挫65.77点，关键原因找到了！

【新要闻】拜合拉木：亚青赛比亚冠压力大，踢日本感觉5分钟就有些跑不动

春季守护行动｜严重超员非法改装 10座车21人坐

全球短讯！拳皇－梦幻之战 试玩版

娄底市娄星区大科中心学校携手武警娄底支队开展“军营开放”实践活动 天天亮点

世界热消息：choose是什么中文意思_ldquo choose rdquo 是什么意思

重磅微视频：读书之美

活动课程具有以下特征_活动课程

每日消息!百济神州PD-1达胃癌3期试验主要终点；恒瑞医药吡咯替尼获批用于乳腺癌一线治疗

环球观天下！手机污染条目数是多少_手机污染条目数

三老四严是什么意思啊 三老四严是什么_环球动态

心酸！3月销量下滑榜TOP5：奔驰GLC上榜，宏光MINIEV含泪提第1

负隅顽抗的意思及成语解释_负隅顽抗的近义词

新手练瑜伽要注意什么_新手练瑜伽要注意事项

三代“谋女郎”同场：章子怡暗秀珠宝、周冬雨转型，倪妮忙擤鼻涕

巴黎人报：姆巴佩“吃好睡好”的言论不是针对内马尔，而是维拉蒂

【世界新视野】小时候最恨的菜，长大后爱惨了！清润下火无敌好吃！

3 款苹果尚未发布的 Mac 机型曝光-全球热文

因为这两大因素，国内LNG价格同比大跌超四成

袁堃蔡杰_袁堃-环球今日讯

前3战布克面对威少14中5&命中率35.7% 面对其他人命中率均超五成

每日观点：不到一年，云南南滚河亚洲象群再添新成员

高端市场份额超30%，欧莱雅中国要画出第二增长曲线 全球快资讯

@高校毕业生 别踩坑！求职“五防三要”攻略请收下

三国战记诸葛亮怎么选出来的_三国战记诸葛亮怎么选_天天观焦点

如何学粤语歌漫步人生路_如何学粤语-环球最资讯

世界热文：她的万千魅力，藏在这张斑斓色卡里

大交易啊！特雷杨加盟湖人？又想笑尿整个NBA....-全球观速讯

环球资讯：go的数据类型-其他数据类型-channel（一）

今年五一旅游市场有哪些新特点 淄博迎接五一大烤 时快讯

全球今头条！咸阳舰亮相 中国海军八艘055型万吨大驱到位

天天速讯：元琛科技：4月21日融资买入183.57万元，融资融券余额1.24亿元

“食尚梅陇”品牌发布 助推食品行业上下游产业链高质量发展 全球短讯

LCK官宣亚运会预选大名单，LPL的还在憋气！网友：突破口在下路！-环球报资讯

2020年 凯迪拉克XT6三排相交凹槽在最新的谍照镜头中填充了迷彩_环球今热点

于晴的全部小说作品集_于晴言情小说大全

海航控股：国际客运量同比上升52.55%，市场复苏加速盈利

世界资讯：牛肉面的故事在线观看 牛肉面的故事

事关中小银行！多省区密集行动，细节曝光！

速讯：海军某岸导部队军营开放主战装备纷纷亮相

揭秘C罗健康习惯：吃好睡好涂黑色指甲油保护脚趾_天天速看料

贝里精英集团（ACE）SAP S/4HANA PCE升级项目启动大会顺利召开环球今热点

位居六区第一思明区GDP一季度增长6.9%

蔚来Power Journeys｜西双版纳线正式贯通全程约560km

泽连斯基签令制裁焦点热讯

癸卯年黄帝故里拜祖大典昨日隆重举行环球播报

每日快播：探索多元融合导学推进美术“双新”落实

【忘羡】谁是孩子的父亲三 (双洁)

人生选择的作文800字人生选择全球头条

颠覆传统混动吉利银河 L7 携“智爱座舱”亮相上海车展-天天微资讯

全球短讯！拳皇－梦幻之战试玩版

娄底市娄星区大科中心学校携手武警娄底支队开展“军营开放”实践活动天天亮点

三老四严是什么意思啊三老四严是什么_环球动态

高端市场份额超30%，欧莱雅中国要画出第二增长曲线全球快资讯

@高校毕业生别踩坑！求职“五防三要”攻略请收下

今年五一旅游市场有哪些新特点淄博迎接五一大烤时快讯

全球今头条！咸阳舰亮相中国海军八艘055型万吨大驱到位

“食尚梅陇”品牌发布助推食品行业上下游产业链高质量发展全球短讯

2020年凯迪拉克XT6三排相交凹槽在最新的谍照镜头中填充了迷彩_环球今热点

世界资讯：牛肉面的故事在线观看牛肉面的故事

Crypto和AI谁将主导未来风投市场？揭秘两者竞争力背后的故事今日播报

当前播报:上海车展新看点：能力迁移跨界融合全面革新座舱体验

每日精选：葫芦丝音乐论坛婚誓葫芦丝音乐论坛

甲乙两只普通照明灯泡的铭牌如图所示下列说法中正确的是-天天新动态

IU朴叙俊携手拍公益杂志写真郎才女貌好吸睛！世界关注

养元饮品最新公告：2022年度拟10派18元今年一季度净利增39.92%|世界看热讯

4K IPS显示器跌至659元！世界新资讯

科大讯飞：副总裁杜兰辞职于继栋接任

天天观察：唐人神：生猪产能逐步释放前3月销售收入12.37亿元同比上升141.22%

3月份山西居民消费价格同比涨0.4％食品价格涨1.6％

成都社保缴纳比例表2023年,2022-~2023年成都社保缴费标准基数及比例一览表世界观天下

江苏三部门联合发文继续面向农村和脱贫地区实施重点高校招生专项计划

张掖甘州芦水湾生态旅游景区花卉组团形成翡翠般景观天天报资讯

中签新股后几天开始交易上市快播

国乒8人进八强！樊振东再赢李尚洙，孙颖莎让二追三王楚钦丢一局今日热门

走，去“串门”丨四代人守“味”的官渡小吃环球热点

热门看点：突然暴走！布克第三节7投全中轰下18分帮助球队取得领先

天天日报丨老友记！卡纳瓦罗晒与翻译李白合影昔日旧主正征战中甲

【全球时快讯】宝立食品(603170.SH)签署房屋征收补偿协议补偿总额7998.28万元

上海土拍第二日四幅地块全部溢价成交总成交价94.632亿元-世界讯息

2023国象世界冠军赛半程战罢丁立人第七轮憾负涅波暂时落后

嘉奖申请单模板嘉奖申请

第十三届国家综合防灾减灾与可持续发展论坛在雅安举办提升综合减灾能力保障高质量发展-天天热门

中际旭创（300308）：4月20日北向资金增持101.74万股快讯