搜索引擎rag召回效果评测mteb介绍与使用入门-kb88凯时官网登录

时间：2024-02-26

阅读：

rag 评测数据集建设尚处于初期阶段，缺乏针对特定领域和场景的专业数据集。市面上常见的 ms-marco 和 beir 数据集覆盖范围有限，且在实际使用场景中效果可能与评测表现不符。目前最权威的检索榜单是 huggingface mteb，今天我们来学习使用mteb，并来评测自研模型recall效果。

mteb 是一个包含广泛文本嵌入（text embedding）的基准测试，它提供了多种语言的数十个数据集，用于各种 nlp 任务，例如文本分类、聚类、检索和文本相似性。mteb 提供了一个公共排行榜，允许研究人员提交他们的结果并跟踪他们的进展。mteb 还提供了一个简单的 api，允许研究人员轻松地将他们的模型与基准测试进行比较。

安装使用

pip install mteb

使用入门

最简单的用法就是，直接编写python代码来测试 (see and for more):

from mteb import mteb
from sentence_transformers import sentencetransformer
# define the sentence-transformers model name
model_name = "average_word_embeddings_komninos"
model = sentencetransformer(model_name)
evaluation = mteb(tasks=["banking77classification"])
results = evaluation.run(model, output_folder=f"results/{model_name}")

也可以使用官方提供的 cli

mteb --available_tasks
mteb -m average_word_embeddings_komninos \
    -t banking77classification  \
    --output_folder results/average_word_embeddings_komninos \
    --verbosity 3

高级用法

测试数据集选择

mteb支持指定数据集，可以通过下面的形式

按task_type任务类型（例如“聚类”或“分类”)

evaluation = mteb(task_types=['clustering', 'retrieval']) # only select clustering and retrieval tasks

按类别划分, 例如“句子到句子 "s2s" (sentence to sentence) "p2p" (paragraph to paragraph)

evaluation = mteb(task_categories=['s2s']) # only select sentence2sentence datasets

按照文本语言

evaluation = mteb(task_langs=["en", "de"]) # only select datasets which are "en", "de" or "en-de"

还可以针对数据集选择语言：

from mteb.tasks import amazonreviewsclassification, buccbitextmining
evaluation = mteb(tasks=[
        amazonreviewsclassification(langs=["en", "fr"]) # only load "en" and "fr" subsets of amazon reviews
        buccbitextmining(langs=["de-en"]), # only load "de-en" subset of bucc
])

可为某些任务集合提供预设

from mteb import mteb_main_en
evaluation = mteb(tasks=mteb_main_en, task_langs=["en"])

自定义评测 split

有的数据集有多个split，评测会比较耗时，可以指定splits，来减少评测时间，比如下面的就指定了只用test split。

evaluation.run(model, eval_splits=["test"])

自定义评测模型

如果想自定义评测模型，可以自定义一个类，只要实现一个encode函数，输入是一个句子列表，返回的是一个嵌入向量列表（嵌入可以是np.array、torch.tensor等）。可以参考仓库。

class mymodel():
    def encode(self, sentences, batch_size=32, **kwargs):
        """
        returns a list of embeddings for the given sentences.
        args:
            sentences (`list[str]`): list of sentences to encode
            batch_size (`int`): batch size for the encoding
        returns:
            `list[np.ndarray]` or `list[tensor]`: list of embeddings for the given sentences
        """
        pass
model = mymodel()
evaluation = mteb(tasks=["banking77classification"])
evaluation.run(model)

如果针对query和corpus需要使用不同的encode方法，可以独立提供encode_queries and encode_corpus两个方法。

class mymodel():
    def encode_queries(self, queries, batch_size=32, **kwargs):
        """
        returns a list of embeddings for the given sentences.
        args:
            queries (`list[str]`): list of sentences to encode
            batch_size (`int`): batch size for the encoding
        returns:
            `list[np.ndarray]` or `list[tensor]`: list of embeddings for the given sentences
        """
        pass
    def encode_corpus(self, corpus, batch_size=32, **kwargs):
        """
        returns a list of embeddings for the given sentences.
        args:
            corpus (`list[str]` or `list[dict[str, str]]`): list of sentences to encode
                or list of dictionaries with keys "title" and "text"
            batch_size (`int`): batch size for the encoding
        returns:
            `list[np.ndarray]` or `list[tensor]`: list of embeddings for the given sentences
        """
        pass

自定义评测task（数据集）

要添加一个新任务，你需要实现一个从与任务类型相关的abstask继承的新类（例如，对于重排任务是abstaskreranking）。你可以在找到支持的任务类型。

比如下面的自定义重排任务：

from mteb import mteb
from mteb.abstasks.abstaskreranking import abstaskreranking
from sentence_transformers import sentencetransformer
class mindsmallreranking(abstaskreranking):
    @property
    def description(self):
        return {
            "name": "mindsmallreranking",
            "hf_hub_name": "mteb/mind_small",
            "description": "microsoft news dataset: a large-scale english dataset for news recommendation research",
            "reference": "https://www.microsoft.com/en-us/research/uploads/prod/2019/03/nl4se18linkso.pdf",
            "type": "reranking",
            "category": "s2s",
            "eval_splits": ["validation"],
            "eval_langs": ["en"],
            "main_score": "map",
        }
model = sentencetransformer("average_word_embeddings_komninos")
evaluation = mteb(tasks=[mindsmallreranking()])
evaluation.run(model)

源码分析

retrieval召回评测

召回评测是通过retrievalevaluator类实现的。

def __init__(
        self,
        queries: dict[str, str],  # qid => query
        corpus: dict[str, str],  # cid => doc
        relevant_docs: dict[str, set[str]],  # qid => set[cid]
        corpus_chunk_size: int = 50000,
        mrr_at_k: list[int] = [10],
        ndcg_at_k: list[int] = [10],
        accuracy_at_k: list[int] = [1, 3, 5, 10],
        precision_recall_at_k: list[int] = [1, 3, 5, 10],
        map_at_k: list[int] = [100],
        show_progress_bar: bool = false,
        batch_size: int = 32,
        name: str = "",
        score_functions: list[callable[[torch.tensor, torch.tensor], torch.tensor]] = {
            "cos_sim": cos_sim,
            "dot": dot_score,
        },  # score function, higher=more similar
        main_score_function: str = none,
        limit: int = none,
        **kwargs
    ):
        super().__init__(**kwargs)
        self.queries_ids = []
        for qid in queries:
            if qid in relevant_docs and len(relevant_docs[qid]) > 0:
                self.queries_ids.append(qid)
                if limit and len(self.queries_ids) >= limit:
                    break
        self.queries = [queries[qid] for qid in self.queries_ids]
        self.corpus_ids = list(corpus.keys())
        self.corpus = [corpus[cid] for cid in self.corpus_ids]
        self.relevant_docs = relevant_docs
        self.corpus_chunk_size = corpus_chunk_size
        self.mrr_at_k = mrr_at_k
        self.ndcg_at_k = ndcg_at_k
        self.accuracy_at_k = accuracy_at_k
        self.precision_recall_at_k = precision_recall_at_k
        self.map_at_k = map_at_k
        self.show_progress_bar = show_progress_bar
        self.batch_size = batch_size
        self.name = name
        self.score_functions = score_functions
        self.score_function_names = sorted(list(self.score_functions.keys()))
        self.main_score_function = main_score_function

构造函数几个重要的参数：

- queries: dict[str, str], # qid => query qid到query的dict
- corpus: dict[str, str], # cid => doc docid到doc的dict
- relevant_docs: dict[str, set[str]], # qid => set[cid] qid到相关docid的dict

因此，要自定义评测任务，需要提供这些数据。

具体的评测函数在compute_metrics里：

def compute_metrics(self, model, corpus_model=none, corpus_embeddings: torch.tensor = none) -> dict[str, float]:
        if corpus_model is none:
            corpus_model = model
        max_k = max(
            max(self.mrr_at_k),
            max(self.ndcg_at_k),
            max(self.accuracy_at_k),
            max(self.precision_recall_at_k),
            max(self.map_at_k),
        )
        # compute embedding for the queries
        logger.info("encoding the queries...")
        # we don't know if encode has the kwargs show_progress_bar
        kwargs = {
            "show_progress_bar": self.show_progress_bar
        } if "show_progress_bar" in inspect.signature(model.encode).parameters else {}
        query_embeddings = np.asarray(model.encode(self.queries, batch_size=self.batch_size, **kwargs))
        queries_result_list = {}
        for name in self.score_functions:
            queries_result_list[name] = [[] for _ in range(len(query_embeddings))]
        # iterate over chunks of the corpus
        logger.info("encoding chunks of corpus, and computing similarity scores with queries...")
        for corpus_start_idx in trange(
            0,
            len(self.corpus),
            self.corpus_chunk_size,
            desc="corpus chunks",
            disable=not self.show_progress_bar,
        ):
            # encode chunk of corpus
            if corpus_embeddings is none:
                corpus_end_idx = min(corpus_start_idx   self.corpus_chunk_size, len(self.corpus))
                sub_corpus_embeddings = np.asarray(corpus_model.encode(
                    self.corpus[corpus_start_idx:corpus_end_idx],
                    batch_size=self.batch_size,
                ))
            else:
                corpus_end_idx = min(corpus_start_idx   self.corpus_chunk_size, len(corpus_embeddings))
                sub_corpus_embeddings = corpus_embeddings[corpus_start_idx:corpus_end_idx]
            # compute cosine similarites
            for name, score_function in self.score_functions.items():
                pair_scores = score_function(query_embeddings, sub_corpus_embeddings)
                # get top-k values
                pair_scores_top_k_values, pair_scores_top_k_idx = torch.topk(
                    pair_scores,
                    min(max_k, len(pair_scores[0])),
                    dim=1,
                    largest=true,
                    sorted=false,
                )
                pair_scores_top_k_values = pair_scores_top_k_values.cpu().tolist()
                pair_scores_top_k_idx = pair_scores_top_k_idx.cpu().tolist()
                for query_itr in range(len(query_embeddings)):
                    for sub_corpus_id, score in zip(
                        pair_scores_top_k_idx[query_itr],
                        pair_scores_top_k_values[query_itr],
                    ):
                        corpus_id = self.corpus_ids[corpus_start_idx   sub_corpus_id]
                        queries_result_list[name][query_itr].append({"corpus_id": corpus_id, "score": score})
        # compute scores
        logger.info("computing metrics...")
        scores = {name: self._compute_metrics(queries_result_list[name]) for name in self.score_functions}
        return scores

model（embedding模型），corpus_model（如果doc用单独的embedding模型，需要传入这个参数，否则默认使用和query一样的model）
首先会计算query_embedding query_embeddings = np.asarray(model.encode(self.queries, batch_size=self.batch_size, **kwargs))
然后计算corpus_embeddings
通过score_function，计算tok_k，结果放到queries_result_list
根据召回结果计算指标_compute_metrics, 会计算"mrr@k", "ndcg@k", "accuracy@k", "precision_recall@k", "map@k"等指标

reranking 精排

精排是通过rerankingevaluator来实现的。

class rerankingevaluator(evaluator):
    """
    this class evaluates a sentencetransformer model for the task of re-ranking.
    given a query and a list of documents, it computes the score [query, doc_i] for all possible
    documents and sorts them in decreasing order. then, mrr@10 and map is compute to measure the quality of the ranking.
    :param samples: must be a list and each element is of the form:
        - {'query': '', 'positive': [], 'negative': []}. query is the search query, positive is a list of positive
        (relevant) documents, negative is a list of negative (irrelevant) documents.
        - {'query': [], 'positive': [], 'negative': []}. where query is a list of strings, which embeddings we average
        to get the query embedding.
    """
    def __init__(
        self,
        samples,
        mrr_at_k: int = 10,
        name: str = "",
        similarity_fct=cos_sim,
        batch_size: int = 512,
        use_batched_encoding: bool = true,
        limit: int = none,
        **kwargs,
    ):

给定一个query和一组文档，模型计算文档得分，并按降序排列，最后计算mrr@10和map指标来衡量排名的质量。

__init__方法接收以下参数：

samples：必须是一个列表，每个元素的形式为：
- {'query': '', 'positive': [], 'negative': []}。查询是搜索查询，正文档是相关（正面）文档的列表，负文档是无关（负面）文档的列表。
- {'query': [], 'positive': [], 'negative': []}。其中查询是一个字符串列表，我们将这些字符串的平均嵌入作为查询嵌入。
mrr_at_k：默认值为10，表示计算mrr时考虑的前k个结果。
name：默认值为空字符串，表示评估器的名称。
similarity_fct：默认值为cos_sim，表示用于计算相似度的函数。

在compute_metrics_batched 计算得分，还是计算的cos得分，这里相当于直接计算的embedding的排序能力，如果要计算cross模型的排序能力，默认的代码不适用，需要重新定制。

评测实践

说了这么多，现在切入正题：

评测自研模型的召回能力 —— 自定义模型
自定义评测集，对比开源模型和自研模型的效果 —— 自定义评测任务

自研模型召回效果评测

我们先评估模型召回效果，训练好的模型导出为onnx，因此我们通过onnxrutime来进行推理，先自定义模型：

from mteb import mteb
import onnxruntime as ort
from paddlenlp.transformers import autotokenizer
import math
from tqdm import tqdm
# 模型路径
model_path = "onnx/fp16_model.onnx"
tokenizer_path = "model_520000"
class mymodel():
    def __init__(self, use_gpu=true):
        providers = ['cudaexecutionprovider'] if use_gpu else ['cpuexecutionprovider']
        sess_options = ort.sessionoptions()
        self.predictor = ort.inferencesession( 
            model_path, sess_options=sess_options, providers=providers)
        self.tokenizer = autotokenizer.from_pretrained(tokenizer_path)
        
    def encode(self, sentences, batch_size=64, **kwargs):
        all_embeddings = []
        # 向上取整
        batch_count = math.ceil(len(sentences) / batch_size)
        
        for i in tqdm(range(batch_count)):
            # 按batch
            sub_sentences = sentences[i * batch_size : min(len(sentences), (i   1) * batch_size)]
            features = self.tokenizer(sub_sentences, max_seq_len=128,
                                    pad_to_max_seq_len=true, truncation_strategy="longest_first")
            vecs = self.predictor.run(none, features.data)
            all_embeddings.extend(vecs[0])
        return all_embeddings

由于传进来的sentences是所有的数据，我们需要按照batch_size，分批进行embedding计算，计算好的放入all_embeddings，最后返回即可。

自定义召回评测任务

上面分析源代码时提到了，自定义时需要提供qurey，doc，以及query的相关doc

假设我们的自定义测试为jsonline格式，每行包含query，以及相关的doc，json格式如下：

{
    "query": "《1984》是什么",
    "data": [
        {
            "title": "《1984》介绍-知乎",
            "summary": "《1984》是伪装成小说的政治思想...",
            "url": "",
            "id": 5031622209044687985,
            "answer": "完全相关",
            "accuracy": "无错",
            "result": "good"
        }
    ]
}

那么我们可以编写自定义召回评测任务：

class ssretrieval(abstaskretrieval):
    @property
    def description(self):
        return {
            'name': 'ssretrieval',
            'description': 'ssretrieval是s研发部测试团队准备的召回测试集',
            'type': 'retrieval',
            'category': 's2p',
            'json_path': '/data/xapian-core-1.4.24/demo/result.json',
            'eval_splits': ['dev'],
            'eval_langs': ['zh'],
            'main_score': 'recall_at_10',
        }
    
    def load_data(self, **kwargs):
        if self.data_loaded:
            return
        self.corpus = {} # doc_id => doc
        self.queries = {}  # qid => query
        self.relevant_docs = {} # qid => set[doc_id]
        query_index = 1
        with open(self.description['json_path'], 'r', encoding='utf-8') as f:
            for line in f:
                if "完全相关" not in line:
                    continue
                line =  json.loads(line)
                query =  line['query']
                query_id = str(query_index)
                self.queries[query_id] = query
                query_index = query_index   1
                query_relevant_docs = []
                for doc in line['data']:
                    doc_id = str(doc['id'])
                    self.corpus[doc_id] = {"title": doc["title"], "text": doc["summary"]}
                    if doc['answer'] == "完全相关":
                        if query_id not in self.relevant_docs:
                            self.relevant_docs[query_id] = {}
                        self.relevant_docs[query_id][doc_id] = 1 
                
                # debug使用
                # if query_index == 100:
                #     break
        self.queries = datasetdict({"dev": self.queries})
        self.corpus = datasetdict({"dev": self.corpus})
        self.relevant_docs = datasetdict({"dev": self.relevant_docs})
        
        self.data_loaded = true

用自定义模型，评测自定义任务

if __name__ == '__main__':
    model = mymodel()
    
    # task_names = [t.description["name"] for t in mteb(task_types='retrieval',
    #                                                   task_langs=['zh', 'zh-cn']).tasks]
    
    task_names = ["ssretrieval"]
    for task in task_names:
        model.query_instruction_for_retrieval = none
        evaluation = mteb(tasks=[task], task_langs=['zh', 'zh-cn'])
        evaluation.run(model, output_folder=f"zh_results/256_model", batch_size=64)

总结

mteb 最为embedding召回效果测试，是一个权威的榜单，本身提供的工具框架也具备较好的扩展性，方便开发者自定义模型和自定义评测任务。

问题描述a 页面有个按钮，点击后会跳转到一个新页面 b，如果我们跳转之后再打开 devtools 工具条就会无法看到 b 页面初始化发起的请求，那你会说我刷新下不就好了吗？大多数时候这

2024-10-18 23:12:41

在 rust 中，*、ref、mut、& 和 ref mut 是用于处理引用、解引用和可变性的关键字和操作符，它们在不同的上下文中有不同的用法。一、* 解引用* 属于操作符1. 作用用于解引用指

2024-07-25 21:49:58

目录一.系统环境二.前言三.open policy agent 简介四.rego 语言简介五.配置基本环境六.docker安装opa插件 6.1 安装docker 6.2 docker安装opa插件 6.3 启用opa

2024-06-05 22:14:00

http 长连接，也称为 http 持久连接（http persistent connection）或 http 连接重用，是一种在 http 协议中实现的机制。在传统的 http 通信中，每个 http 请求和响应都会伴随着 tcp

2024-06-05 22:11:55

先给出公式 ans = n - lps[n-1]其中ans为最小周期,n为给出的由假设的周期字符串中提取出的子串长度,lps为前缀函数,n-1为字符串最后的位置下标证明如下
证明ans = n - lps[n

2024-05-26 14:39:26

原文出处：改造 kubernetes 自定义调度器 | jayden's blog (jaydenchang.top)overviewkubernetes 默认调度器在调度 pod 时并不关心特殊资源例如磁盘、gpu 等，因此突发奇想

2024-05-26 14:38:11

检索增强生成 (retrieval augmented generation，rag) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模

2024-05-25 11:53:26

目录 ceph存储池 1. ceph的存储流程 1. 数据写入 2. 数据读取 2. 资源池的配置 2.1 资源池创建 pgp是什么（placement group for placement purpose）

2024-05-25 11:48:13

rust 处理错误，不使用 try catch，而是使用 result。简单的处理rust错误在各种关于rust错误处理的文档中，为了解释清楚其背后的机制，看着内容很多，不好理解。比如我们写一

2024-05-10 21:43:40

在上文中我们学会学会更改加载路径，加载对应文件夹下的lua脚本。默认解析加载的lua脚本存在的文件位置非ab包或者resources文件夹下往往不能随包体更新，这显然不符合热更需要

2024-05-10 21:29:47

方便我们在项目中使用lua解析方法，我们封装管理一个lua解析器，管理luastate的方法执行。解析器脚本：using luainterface;namespace baseframework{ ///

/// 自

2024-05-10 21:29:22

使用自定义委托来调用lua脚本中的多返回值函数和长参数类型的函数。先看代码，依旧是上篇文章中所贴的脚本。新增调用两个函数testfuncusing system;using baseframework;usin

2024-05-10 21:28:53

访问数组类型的tablecallluaentrance测试脚本中内容： //--------------------------------------访问table-----------------------------//4.1 访问list/数组类型的table//

2024-05-10 21:28:16

在并发的世界中，最常见的并发安全问题就是数据竞争，也就是两个线程同时对一个变量进行读写操作。但当你在 safe rust 中写出有数据竞争的代码时，编译器会直接拒绝编译。那么它

2024-04-30 21:37:14

使用ollama anythingllm快速且简单的在本地部署llama3不多说，直接开始一、安装ollamaollamad88尊龙官网手机app官网：https://ollama.com/
下载地址：https://ollama.com/download打开以后注册并

2024-04-23 22:31:56

为什么需要 cni在 kubernetes 中，pod 的网络是使用 network namespace 隔离的，但是我们有时又需要互相访问网络，这就需要一个网络插件来实现 pod 之间的网络通信。cni 就是为了

2024-04-21 22:16:12

背景我是有个基于dom实现的简历编辑器项目的，因为暂时找不到可以用canvas实现的比较有意思的场景，所以才选择了继续做简历编辑器，最开始做简历编辑器就是因为很多简历网站都是

2024-04-15 11:46:07

前言在canvas2d中实现圆形的绘制比较简单，只要调用arc指令就能在canvas画布上绘制出一个圆形，类似的，在svg中我们也只需要一个标签就能在页面上绘制一个圆形。那么在we

2024-04-13 21:52:27

第一章：引言导言在当今数字化时代，数据安全和完整性变得至关重要。消息摘要算法是一种用于验证数据完整性和安全性的重要工具。在众多消息摘要算法中，md5（message
digest algori

2024-04-11 21:57:55

1.概述传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在ai大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如openai的gpt-4按照token

2024-03-31 22:20:53

目录简介架构 application 和组件简单入门示例先决条件创建项目编译库文件引用库文件运行项目界面交互示例创建项目编译库文件实现应用函数引

2024-03-26 11:54:50

目录简介 hello world 常用功能动态路径多个片段(segments) 静态文件服务器简单webapi示例添加依赖实现接口接口测试参考链接简介rust中最知名的两个web

2024-03-19 23:21:01

一、rabbitmq的集群模式主要有两种：普通集群模式和镜像队列模式。下面分别介绍这两种模式的原理：1.普通集群模式：在普通集群模式下，rabbitmq的集群节点之间主要同步元数据，而不

2024-03-19 23:07:45

0 前言在物联网领域中，mqtt消息一直是海量设备连接到平台的标配协议，而平台向移动端开放的操作接口往往是http协议，这就要求平台为两种协议作消息一一适配。在某些情况下，这些设

2024-03-19 23:04:15

目录前言 git rm 命令 git reset 命令 git rm 和 git reset 的比较不同用例的适用性比较对文件状态的影响比较 git update-index 命令 git clean 命令实际应用

2024-03-18 21:30:10

一、?=、?!、?＜=、?＜!、?:的解释1. 先看一下比较官方的解释 (?=pattern)：正向先行断言，表示匹配位置后面必须紧跟着满足 pattern 的字符串，但不包括这个字符串在匹配结果中。 (?!

2024-03-18 21:24:29

4）playbook4.1）playbook 介绍playbook 与 ad-hoc 相比，是一种完全不同的运用 ansible 的方式，类似与 saltstack 的 state 状态文件。ad-hoc 无法持久使用，playbook 可以持久使用

2024-03-17 23:18:56

尽管ggez提供了很多相关特性的demo供运行查看，但笔者第一次使用的时候还是有很多疑惑不解。经过仔细阅读demo代码并结合自己的实践，逐步了解了ggez在不同场景下的绘图方式，在此

2024-03-17 22:57:09

前言最近在学习 es，所以需要在服务器上装一个单节点的 es服务器环境：centos 7.9安装下载镜像目前最新版本是 8.12.2docker pull docker.elastic.co/elasticsearch/elasticsear

2024-03-15 20:55:15

md5算法起源：md5（message digest algorithm 5）算法是由mit的计算机科学家ronald rivest于1991年设计的一种消息摘要算法。md5算法最初被用于提供数据完整性和一致性的验证，后来

2024-03-15 20:51:05

2020-09-27

2018-09-21

2018-09-02

2021-03-15

2022-12-16

2021-03-10

2019-08-24

2020-09-16

2019-07-29

2022-12-12