Adaptive Attention Span in Transformers

Tani ·

更新时间:2024-09-20

· 758 次阅读

简介

这篇论文作者提出了一种独特的自注意力机制，能够学习到最佳的attention覆盖文本的范围。
Transoformer很难关注一个超过千个单词的句子，但是在字符语言模型中，会出现跳跃千个字符的关联。作者提出了一种多头注意力的改进版，让多头注意力学习到最优的注意力关联，减少计算量。这种改进版的Transformer在低层关注很少的文本，而在深层能够关注到更多的文本内容。自我决定需要关注多长的内容。

具体内容 adaptive attention span

作者发现传统的transformer中的多头注意力中，有些注意力学习的是这个单词与前文的关系，有的学习到的是全文的关系。那么如何让多头注意力学习到不相关的内容呢？作者对于每个头，都添加了一个masking fuction来控制attention的范围。公式是 $m_z(x)=min[max[(1/R)*(R+z-x),0],1]$ 小于z都是1，然后从z到z+R的范围里递减到0。此外在loss中添加了了l1 penalization（在损失函数基础上加上权重参数的绝对值）。

dynamic attention span

除上面的方法之外，作者补充了一个动态attention span的方法。通过前面的输入来控制后面的attention span。

实验

在enwiki8和text8上都达到了很好地效果。

作者：Tyyy`

attention IN span

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Java 数组

Onida 2021-02-08

661

利用css代码实现纸飞机效果实例源码

Alanni 2021-03-13

633

php面试实现反射注入的详细方法

Dora 2020-08-28

742

轻量级ORM框架Dapper应用之实现In操作

Octavia 2022-10-03

206

MySQL存储过程输入参数(in),输出参数(out),输入输出参数(inout)

Gitana 2022-10-13

1417

T-SQL查询为何慎用IN和NOT IN详解

Hayley 2022-10-23

301

mysql中not in隐含陷阱详解

Anne 2022-10-23

1789

Android自定义Span实现文字渐变效果

Elita 2022-10-24

1367

Reactcss-in-js基础介绍与应用

Beatrice 2022-11-06

1669

解决vue vite启动项目报错ERROR: Unexpected “\x88“ in JSON 的问题

Antonia 2022-11-06

1639

echarts报错:Error in mounted hook的解决方法

Bonita 2022-11-09

1981

SafeList in Flutter and Dart小技巧

Oria 2022-12-09

1710

Css-In-Js实现classNames库源码解读

Elina 2022-12-29

1031

解决MySQL报错:You can‘t specify target table ‘region‘ for update in FROM clause

Kande 2023-02-02

1681

Mysql查询优化之IN子查询优化方法详解

Olinda 2023-02-10

856

C++20中的std::span详解

Malinda 2023-03-04

1558

C++20中的span容器及用法小结

Nora 2023-03-04

1108

sql in查询元素超过1000条的解决方案

Grizelda 2023-03-04

1774

Mysql中关于on,in,as,where的区别

Tia 2023-03-21

1791

解决java启动时报线程占用报错:Exception in thread “Thread-14“ java.net.BindException: Address already in use: bind

Pandora 2023-04-18

466

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座