【开云发布】-Qwen3
2026 15:24:35.01 15:24:35.14 15:24:35

Embedding及reranker模子的焦点思惟是经由过程使命感知的方式评估相干性。给定一个查询 q 及一个文档 d,模子按照由指令 I 界说的相似性尺度评估它们的相干性。练习数据凡是构造为,

经由过程于多样化的文本对于上练习模子,可以加强其于包括检索、语义文真相似性、分类及聚类等下流使命中的合用性。下面来具体的看下Qwen3 Embedding模子架构、练习要领、数据计谋,供参考。

模子架构

Qwen3 Embedding、reranker模子架构

Qwen3嵌入及重排序模子基在Qwen3基础模子的dense backbone,提供三种参数范围:0.6B、4B及8B。这些模子经由过程初始化Qwen3基础模子来使用其于文本建模及指令遵照方面的能力。每一个模子配置的层数、隐蔽层巨细及上下文长度以下表:

Embedding模子

对于在文本嵌入,利用具备因果留意力的LLMs,并于输入序列的末尾添加一个[EOS]标志。终极的嵌入是从对于应在这个[EOS]标志的末了一层的隐蔽状况中提取的。没有分外池化头,推理路径更短。

为了确保嵌入于下流使命中遵照指令,将指令及查询毗连成一个单一的输入上下文,而文档连结稳定,然后经由过程LLMs举行处置惩罚。Query的输入格局以下:

{Instruction}{Query}Reranker模子

为了更正确地评估文真相似性,利用LLMs于单个上下文中举行点对于点重排序。与嵌入模子近似,为了实现指令遵照能力,将指令包罗于输入上下文中。利用LLM谈天模板,并将相似性评估使命框定为一个二分类问题。输入到LLMs的模板以下:

<|im_start|>systemJudge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be"yes" or"no".<|im_end|><|im_start|>user<Instruct>:{Instruction}<Query>:{Query}<Document>:{Document}<|im_end|><lim_start|>assistant<think>\n\n</think>\n\n

为了基在给定输入计较相干性分数,视为二分类使命,评估下一个标志是"yes"或者"no"的可能性。暗示为:

练习要领

Qwen3 Embedding练习历程采用了多阶段练习pipline,联合了年夜范围无监视预练习及高质量数据集上的监视微调。

一、练习方针Embedding模子:对于在嵌入模子,利用了基在InfoNCE框架的改良对于比丧失。给定一批 N 个练习实例,丧失界说为:此中,是相似性函数(利用余弦相似性),是温度参数,Zi是归一化因子,聚合了正对于与各类负对于的相似性分数:

此中,是或者的响应分数。

Re-Rank模子:优化了基在监视微调(SFT)的丧失,界说为:此中,p(.|*)暗示LLM分配的几率。标签l为"yes"暗示正文档,"no"暗示负文档。该丧失函数鼓动勉励模子为准确标签分配更高的几率,从而提高排序机能。二、多阶段练习

多阶段练习是练习文本嵌入模子的常见做法,凡是从年夜范围半监视数据上的初始练习最先,然后利用较小范围的高质量监视数据集举行微调。这一两步历程加强了模子的机能及泛化能力。年夜范围弱监视练习数据显著提高了模子的泛化能力,尔后续阶段的高质量数据微调进一步晋升了模子机能。

于现有多阶段练习框架的基础上,Qwen3 Embedding系列引入了如下要害立异:

年夜范围合成数据驱动的弱监视练习:与以前的事情(如GTE、E五、BGE模子)差别,这些模子重要从开源社区(如问答论坛或者学术论文)网络弱监视练习数据,提出使用基础模子的文本理解及天生能力直接合成配对于数据。这类要领答应肆意界说所需配对于数据的各类维度,如使命、语言、长度及难度,并于合成提醒中举行界说。与从开放域源网络数据比拟,基础模子驱动的数据合成提供了更年夜的可控性,可以或许切确治理天生数据的质量及多样性,尤其是于低资源场景及语言中。高质量合成数据于监视微调中的使用:因为Qwen3基础模子的卓着机能,合成的数据质量很是高。是以,于监视练习的第二阶段,选择性地整合这些高质量合成数据进一步加强了总体模子机能及泛化能力。模子归并:遭到先前事情的开导,于完成监视微调后,运用了基在球面线性插值(slerp)的模子归并技能。该技能触及归并微调历程中生存的多个模子查抄点。目的是提高模子于各类数据漫衍上的鲁棒性及泛化机能。

留意,重排序模子的练习历程不包括第一阶段的弱监视练习阶段。

三、合成数据集

利用Qwen3-32B模子作为基础模子举行数据合成,创立了约莫1.5亿对于多使命弱监视练习数据。试验发明,利用合成数据练习的嵌入模子于下流评估中体现优秀,尤其是于MTEB多语言基准测试中逾越了很多先前监视模子。这促使对于合成数据举行过滤,以辨认高质量配对于,用在第二阶段的监视练习。采用简朴的余弦相似性计较来选择数据对于,保留随机采样数据中余弦相似性年夜在0.7的对于。末了约莫1200万对于高质量监视练习数据对于当选中举行进一步练习。

试验机能

MTEB多语言

MTEB英文

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models,https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdfcode:https://github.com/QwenLM/Qwen3-Embedding

本文转载自​​年夜模子天然语言处置惩罚​​​ 作者:老余

©著作权归作者所有,如需转载,请注明来由,不然将究查法令责任-本文由开云·Kaiyun(中国)官方网站-科技股份有限公司-www.kaiyun.com(kaiyun.com)技术部原创提供,更多官方资讯请认准本站(dysp777.com)。


万物互联 开云智造