亚马逊的X-Transformer解决了产业规模的文本分类问题
在Arxiv.org发表的预印本中,来自亚马逊、卡耐基梅隆大学和德克萨斯大学奥斯汀分校的研究人员描述了X-Transformer,这是一种调整语言算法以解决从大数据集返回标签问题的方法。他们说,它已经在几个基准和亚马逊的产品查询数据集上取得了最新的结果。
X-Transformer的目标是研究人员所说的“极端”多标签文本分类(XMC):给定一个输入文本实例,它将尝试从集合中返回最相关的标签,其中标签的数量可能在数百万(或更多)。XMC本质上是一个工业规模的文本分类挑战。除了缺乏训练数据,这个挑战还需要克服硬件限制。
这位合著者写道:“亚马逊面临的很多问题,相当于从潜在候选人的巨大输出空间中找到相关结果:比如,向在亚马逊上开始新广告系列的广告商建议关键词,并根据客户之前键入的查询预测他们接下来将键入的查询。“关键词推荐系统为广告商提供用于创建广告系列的关键词建议.……XMC模型在接受来自产品查询数据集(如产品查询客户购买记录)的培训后,可以使用产品信息来建议与任何给定产品相关的查询,如标题、描述或[或]品牌。”
X-Transformer基于Google现有的Transformer架构,由语义标签索引组件、深度神经匹配组件和整体排名组件组成。语义标签索引通过一个称为标签聚类的过程将原始的XMC问题分解成一组子问题。接下来,深度神经匹配组件为由SLI引起的每个XMC子问题微调Transformer模型。然后,利用综合排名组件对每个子问题的得分进行组合,进一步提高理论上的性能。
在实验中,研究人员声称,提出的X-Transformer在四个XMC基准上实现了最新的技术成果,并导致了真假XMC应用的改进。
例如,在拥有50万个标签的维基百科数据集上,X-Transformer的“prec@1”(一个指示排名最高的文档的相关性的索引)为77.28%,与完美的分层标签树方法Parabel(高达68.70%)和竞争机器学习方法AttentionXML(76.95%)相比。当内部数据集Prod2Query-1M应用于Prod2Query-1M时,数据集由Amazon.com的1400万个产品和100万个标签(查询)组成,与Parabel相比提高了10.7%。
X-Transformer数据集、代码和模型可以从GitHub上的开源代码中获得。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
最近收到一位患者的留言,说自己这几天总感觉肛门有下坠胀感,特别难受,上网一查,好多信息都指向癌症,这可...浏览全文>>
-
腹痛、腹泻总反复!可能是小肠、大肠在抗议。基于症状特征区分小肠疾病与大肠疾病的具体差异分析:一、核心症状...浏览全文>>
-
近日,中国中医药信息学会肛肠分会·肿瘤分会·治未病分会·河北名医学会肛肠分会·盆底与便秘分会·河北省中...浏览全文>>
-
安徽蚌埠的长安启源E07作为一款备受关注的新能源车型,其价格和配置一直是消费者热议的话题。如果你正考虑入手...浏览全文>>
-
近年来,随着新能源汽车市场的快速发展,插电式混合动力车型逐渐成为消费者关注的焦点。生活家PHEV作为一款备...浏览全文>>
-
在2025款生活家PHEV车型正式上市之前,提前了解相关费用明细对于购车者来说至关重要。这款插电式混合动力车型...浏览全文>>
-
大众途昂作为一款中大型SUV,凭借其宽敞的空间和强劲的动力配置,在市场上一直拥有不错的口碑。对于计划购买20...浏览全文>>
-
阜阳地区的长安启源Q05 2025款车型凭借其时尚的外观设计和丰富的配置,吸引了众多消费者的关注。这款车型作为...浏览全文>>
-
阜阳揽巡作为一款备受关注的中型SUV,凭借其豪华的配置和超值的价格吸引了众多消费者的目光。这款车不仅在外观...浏览全文>>
-
淮南长安启源A07自上市以来便凭借其卓越的性能和亲民的价格赢得了众多消费者的青睐。作为2025款的新车型,它在...浏览全文>>