内容参考自Denis Rothman 《深入理解 Transformer 自然语言处理》,北京理工大学出版社,马勇 曾小健 任玉柱 梁理智 译, 2023年10月
(原著在2021年由Packt Publishing在2021年1月出版)
代码可以参考:GITHUB仓库链接
Attention is all you need.