Fix leaderboard metrics and COIR tasks #26

Samoed · 2024-08-27T23:10:13Z

Add models from embeddings-benchmark/results#19

# Conflicts: # EXTERNAL_MODEL_RESULTS.json # all_data_tasks/0/default.jsonl # all_data_tasks/33/default.jsonl # all_data_tasks/34/default.jsonl # all_data_tasks/36/default.jsonl # all_data_tasks/37/default.jsonl # all_data_tasks/38/default.jsonl # all_data_tasks/39/default.jsonl # all_data_tasks/40/default.jsonl # all_data_tasks/41/default.jsonl # all_data_tasks/42/default.jsonl # all_data_tasks/43/default.jsonl # all_data_tasks/44/default.jsonl # boards_data/bright/data_tasks/Retrieval/default.jsonl # boards_data/en/data_tasks/Classification/default.jsonl # boards_data/ru/data_overall/default.jsonl # boards_data/ru/data_tasks/Classification/default.jsonl # boards_data/ru/data_tasks/Clustering/default.jsonl # boards_data/ru/data_tasks/Reranking/default.jsonl # boards_data/ru/data_tasks/Retrieval/default.jsonl # boards_data/ru/data_tasks/STS/default.jsonl # refresh.py

# Conflicts: # all_data_tasks/0/default.jsonl # all_data_tasks/1/default.jsonl # all_data_tasks/10/default.jsonl # all_data_tasks/11/default.jsonl # all_data_tasks/12/default.jsonl # all_data_tasks/13/default.jsonl # all_data_tasks/15/default.jsonl # all_data_tasks/16/default.jsonl # all_data_tasks/17/default.jsonl # all_data_tasks/18/default.jsonl # all_data_tasks/19/default.jsonl # all_data_tasks/2/default.jsonl # all_data_tasks/20/default.jsonl # all_data_tasks/21/default.jsonl # all_data_tasks/22/default.jsonl # all_data_tasks/23/default.jsonl # all_data_tasks/26/default.jsonl # all_data_tasks/27/default.jsonl # all_data_tasks/28/default.jsonl # all_data_tasks/29/default.jsonl # all_data_tasks/3/default.jsonl # all_data_tasks/30/default.jsonl # all_data_tasks/37/default.jsonl # all_data_tasks/38/default.jsonl # all_data_tasks/39/default.jsonl # all_data_tasks/4/default.jsonl # all_data_tasks/5/default.jsonl # all_data_tasks/6/default.jsonl # all_data_tasks/8/default.jsonl # all_data_tasks/9/default.jsonl # boards_data/da/data_tasks/Classification/default.jsonl # boards_data/en/data_overall/default.jsonl # boards_data/en/data_tasks/Classification/default.jsonl # boards_data/en/data_tasks/Clustering/default.jsonl # boards_data/en/data_tasks/PairClassification/default.jsonl # boards_data/en/data_tasks/Reranking/default.jsonl # boards_data/en/data_tasks/Retrieval/default.jsonl # boards_data/en/data_tasks/STS/default.jsonl # boards_data/en/data_tasks/Summarization/default.jsonl # boards_data/fr/data_overall/default.jsonl # boards_data/fr/data_tasks/Classification/default.jsonl # boards_data/fr/data_tasks/Clustering/default.jsonl # boards_data/fr/data_tasks/PairClassification/default.jsonl # boards_data/fr/data_tasks/Reranking/default.jsonl # boards_data/fr/data_tasks/Retrieval/default.jsonl # boards_data/fr/data_tasks/STS/default.jsonl # boards_data/fr/data_tasks/Summarization/default.jsonl # boards_data/no/data_tasks/Classification/default.jsonl # boards_data/other-sts/data_tasks/STS/default.jsonl # boards_data/pl/data_overall/default.jsonl # boards_data/pl/data_tasks/Classification/default.jsonl # boards_data/pl/data_tasks/Clustering/default.jsonl # boards_data/pl/data_tasks/PairClassification/default.jsonl # boards_data/pl/data_tasks/Retrieval/default.jsonl # boards_data/pl/data_tasks/STS/default.jsonl # boards_data/se/data_tasks/Classification/default.jsonl # boards_data/zh/data_overall/default.jsonl # boards_data/zh/data_tasks/Classification/default.jsonl # boards_data/zh/data_tasks/Clustering/default.jsonl # boards_data/zh/data_tasks/PairClassification/default.jsonl # boards_data/zh/data_tasks/Reranking/default.jsonl # boards_data/zh/data_tasks/Retrieval/default.jsonl # boards_data/zh/data_tasks/STS/default.jsonl

Samoed · 2024-09-11T09:56:04Z

After c21efc7, the metrics for datasets are taken from config.yaml for each dataset. However, the current implementation uses unique metrics directly from the dataset, not from the config. Also, the dataset name for COIR is incorrect in the config.
Also I've updated external models results after embeddings-benchmark/results#25

Coir tab

RuMTEB tab

@KennethEnevoldsen @Muennighoff
Fixes #27

KennethEnevoldsen

Would love a check from @Muennighoff and @orionw, but otherwise I can't see any issues here.

model_meta.yaml

KennethEnevoldsen · 2024-09-11T11:00:43Z

config.yaml

@@ -20,7 +20,7 @@ tasks:
    task_description: "Clustering is the task of grouping similar documents together."
  PairClassification:
    icon: "🎭"
-    metric: ap
+    metric: max_ap


won't this cause issues with external results? (@Muennighoff I believe we have discussed this before)

I don't think so, but I would add these metrics to refresh.py for compatibility

I've changed refresh.py, but I'll leave comment open until @Muennighoff review

I changed refresh.py, but I'll leave the comment open until @Muennighoff reviews it. But I rather left max_ap in config, because after embeddings-benchmark/mteb#1037 there is no ap in model results.

Samoed · 2024-09-11T11:58:50Z

CI fix in embeddings-benchmark/results#30

orionw

LGTM with the CI fixed!

Muennighoff

LGTM (once CI is fixed)

Muennighoff · 2024-09-11T15:08:37Z

config.yaml

    metric_description: "Spearman correlation based on the model's similarity metric (usually cosine)"
    task_description: "Semantic Textual Similarity is the task of determining how similar two texts are."
  Summarization:
    icon: "📜"
-    metric: spearman
+    metric: cosine_spearman


I think we had changed this so that future models can have their own distance metrics and it does not have to be cosine - only the use of spearman would be the same across models; but since there are no such models yet I think, reverting this works for me! cc @KennethEnevoldsen

It's better to left it as spearman?

If the current code allows submitting results of models with other distance metrics, then maybe yes; @KennethEnevoldsen probably knows best?

For summarization:

"pearson" "spearman" "cosine_spearman" "cosine_pearson" "dot_spearman" "dot_pearson"

I checked main_score for summarization tasks and they have cosine_spearman as main_score

spearman will often just be cosine spearman, but I think it is nicer to leave to up to the model developer to choose their comparison metric. I.e. would leave it as spearman

But the issue that metrics will filter based on metric specied in config, but in results there is no metric with name spearman. I can extend metrics in results file to avoid this, but I don't know if it good solution

If this is the case I am fine with keeping it as cosine_spearman (we can make a change to custom similarity metrics at a later point)

# Conflicts: # all_data_tasks/0/default.jsonl # all_data_tasks/1/default.jsonl # all_data_tasks/10/default.jsonl # all_data_tasks/11/default.jsonl # all_data_tasks/12/default.jsonl # all_data_tasks/13/default.jsonl # all_data_tasks/16/default.jsonl # all_data_tasks/17/default.jsonl # all_data_tasks/18/default.jsonl # all_data_tasks/19/default.jsonl # all_data_tasks/2/default.jsonl # all_data_tasks/20/default.jsonl # all_data_tasks/21/default.jsonl # all_data_tasks/22/default.jsonl # all_data_tasks/3/default.jsonl # all_data_tasks/38/default.jsonl # all_data_tasks/39/default.jsonl # all_data_tasks/4/default.jsonl # all_data_tasks/5/default.jsonl # all_data_tasks/6/default.jsonl # all_data_tasks/8/default.jsonl # all_data_tasks/9/default.jsonl # boards_data/en/data_overall/default.jsonl # boards_data/en/data_tasks/Classification/default.jsonl # boards_data/en/data_tasks/Clustering/default.jsonl # boards_data/en/data_tasks/PairClassification/default.jsonl # boards_data/en/data_tasks/Reranking/default.jsonl # boards_data/en/data_tasks/Retrieval/default.jsonl # boards_data/en/data_tasks/STS/default.jsonl # boards_data/en/data_tasks/Summarization/default.jsonl # boards_data/fr/data_overall/default.jsonl # boards_data/fr/data_tasks/Classification/default.jsonl # boards_data/fr/data_tasks/Clustering/default.jsonl # boards_data/fr/data_tasks/PairClassification/default.jsonl # boards_data/fr/data_tasks/Reranking/default.jsonl # boards_data/fr/data_tasks/Retrieval/default.jsonl # boards_data/fr/data_tasks/STS/default.jsonl # boards_data/fr/data_tasks/Summarization/default.jsonl # boards_data/other-sts/data_tasks/STS/default.jsonl # boards_data/zh/data_overall/default.jsonl # boards_data/zh/data_tasks/Classification/default.jsonl # boards_data/zh/data_tasks/Clustering/default.jsonl # boards_data/zh/data_tasks/PairClassification/default.jsonl # boards_data/zh/data_tasks/Reranking/default.jsonl # boards_data/zh/data_tasks/Retrieval/default.jsonl # boards_data/zh/data_tasks/STS/default.jsonl

Samoed · 2024-09-12T13:44:06Z

@KennethEnevoldsen CI is now passing

add rumteb

f7e2abb

artemsnegirev mentioned this pull request Sep 2, 2024

Update results for Russian models embeddings-benchmark/results#19

Merged

Samoed added 3 commits September 10, 2024 19:54

fix leaderboard

0bc04d1

Samoed changed the title ~~add tasks from rumteb benchmark~~ Fix leaderboard metrics and COIR tasks Sep 11, 2024

remove overall

349cded

KennethEnevoldsen approved these changes Sep 11, 2024

View reviewed changes

fix

b1a066d

orionw approved these changes Sep 11, 2024

View reviewed changes

Muennighoff approved these changes Sep 11, 2024

View reviewed changes

Samoed added 2 commits September 12, 2024 15:53

update results

4094cf4

KennethEnevoldsen merged commit 01b06df into embeddings-benchmark:main Sep 12, 2024
1 check passed

Samoed deleted the add_rumteb branch September 12, 2024 14:07

Samoed mentioned this pull request Sep 12, 2024

update external results #29

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix leaderboard metrics and COIR tasks #26

Fix leaderboard metrics and COIR tasks #26

Samoed commented Aug 27, 2024 •

edited

Loading

Samoed commented Sep 11, 2024 •

edited

Loading

KennethEnevoldsen left a comment

KennethEnevoldsen Sep 11, 2024

Samoed Sep 11, 2024

Samoed Sep 11, 2024

Samoed Sep 11, 2024 •

edited

Loading

Samoed commented Sep 11, 2024

orionw left a comment

Muennighoff left a comment •

edited

Loading

Muennighoff Sep 11, 2024

Samoed Sep 11, 2024

Muennighoff Sep 11, 2024

Samoed Sep 11, 2024 •

edited

Loading

KennethEnevoldsen Sep 12, 2024

Samoed Sep 12, 2024 •

edited

Loading

KennethEnevoldsen Sep 12, 2024

Samoed commented Sep 12, 2024

Fix leaderboard metrics and COIR tasks #26

Fix leaderboard metrics and COIR tasks #26

Conversation

Samoed commented Aug 27, 2024 • edited Loading

Samoed commented Sep 11, 2024 • edited Loading

KennethEnevoldsen left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Samoed Sep 11, 2024 • edited Loading

Choose a reason for hiding this comment

Samoed commented Sep 11, 2024

orionw left a comment

Choose a reason for hiding this comment

Muennighoff left a comment • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Samoed Sep 11, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Samoed Sep 12, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Samoed commented Sep 12, 2024

Samoed commented Aug 27, 2024 •

edited

Loading

Samoed commented Sep 11, 2024 •

edited

Loading

Samoed Sep 11, 2024 •

edited

Loading

Muennighoff left a comment •

edited

Loading

Samoed Sep 11, 2024 •

edited

Loading

Samoed Sep 12, 2024 •

edited

Loading