update

CLUEbenchmark · Mar 15, 2024 · 3b97895 · 3b97895
1 parent 4f9a8ee
commit 3b97895
Show file tree

Hide file tree

Showing 2 changed files with 390 additions and 99 deletions.
diff --git a/README.md b/README.md
@@ -151,125 +151,107 @@ SC-Safety大模型安全类测评，包含以下三大能力的检验：传统
 ## 模型与榜单
 
 ### SC-Safety安全总榜
-| 排名 | 模型 | 机构 | 总分 | 传统<br/>安全类 | 负责<br/>任类 | 指令<br/>攻击类 | 许可 |
-|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|  
-| 🏅️ | AndesGPT | OPPO | 90.87 | 87.46 | 90.81 | 94.60 | 闭源 |
-| 🥈 | Yi-34B-Chat | 零一万物 | 89.30 | 85.89 | 88.07 | 94.06 | 开源 |  
-| 🥉 | 文心一言4.0 | 百度 | 88.91 | 88.41 | 85.73 | 92.45 | 闭源 |
+| 排名 | 模型 | 机构 | 总分 | 传统安全类 | 责任类 | 指令攻击类 | 许可 |
+|:---:|:----:|:----:|:---:|:---------:|:----:|:--------:|:---:|
+| 🏅️ | BlueLM | vivo | 92.51 | 87.21 | 96.59 | 94.16 | 闭源 |
+| 🥈 | AndesGPT | OPPO | 90.87 | 87.46 | 94.60 | 90.81 | 闭源 |
+| 🥉 | Yi-34B-Chat | 零一万物 | 89.30 | 85.89 | 94.06 | 88.07 | 开源 |
+| 4 | 文心一言4.0 | 百度 | 88.91 | 88.41 | 92.45 | 85.73 | 闭源 |
 | - | GPT4 | OpenAI | 87.43 | 84.51 | 91.22 | 86.70 | 闭源 |
-| 4 | 讯飞星火(v3.0) | 科大讯飞 | 86.24 | 82.51 | 85.45 | 91.75 | 闭源 |
-| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.98 | 80.65 | 89.78 | 84.77 | 闭源 |
+| 5 | 讯飞星火(v3.0) | 科大讯飞 | 86.24 | 82.51 | 91.75 | 85.45 | 闭源 |
+| 6 | 360gpt-pro | 360 | 85.31 | 82.82 | 90.35 | 82.75 | 闭源 |
+| 7 | 讯飞星火(v2.0) | 科大讯飞 | 84.98 | 80.65 | 89.78 | 84.77 | 闭源 |
 | - | gpt-3.5-turbo | OpenAI | 83.82 | 82.82 | 87.81 | 80.72 | 闭源 |
-| 6 | 文心一言3.5 | 百度 | 81.24 | 79.79 | 84.52 | 79.42 | 闭源 |
-| 7 | ChatGLM2-Pro | 清华&智谱AI | 79.82 | 77.16 | 87.22 | 74.98 | 闭源 |
-| 8 | ChatGLM2-6B | 清华&智谱AI | 79.43 | 76.53 | 84.36 | 77.45 | 开源 |
-| 9 | Baichuan2-13B-Chat | 百川智能 | 78.78 | 74.70 | 85.87 | 75.86 | 开源 |
-| 10 | Qwen-7B-Chat | 阿里巴巴 | 78.64 | 77.49 | 85.43 | 72.77 | 开源 |
-| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 78.21 | 77.37 | 87.51 | 69.30 | 开源 |
+| 8 | 文心一言3.5 | 百度 | 81.24 | 79.79 | 84.52 | 79.42 | 闭源 |
+| 9 | ChatGLM2-Pro | 清华&智谱AI | 79.82 | 77.16 | 87.22 | 74.98 | 闭源 |
+| 10 | ChatGLM2-6B | 清华&智谱AI | 79.43 | 76.53 | 84.36 | 77.45 | 开源 |
+| 11 | Baichuan2-13B-Chat | 百川智能 | 78.78 | 74.70 | 85.87 | 75.86 | 开源 |
+| 12 | Qwen-7B-Chat | 阿里巴巴 | 78.64 | 77.49 | 85.43 | 72.77 | 开源 |
+| 13 | OpenBuddy-Llama2-70B | OpenBuddy | 78.21 | 77.37 | 87.51 | 69.30 | 开源 |
 | - | Llama-2-13B-Chat | Meta | 77.49 | 71.97 | 85.54 | 75.16 | 开源 |
-| 12 | 360GPT_S2_V94 | 360 | 76.52 | 71.45 | 85.09 | 73.12 | 闭源 |
-| 13 | Chinese-Alpaca2-13B | yiming cui | 75.39 | 73.21 | 82.44 | 70.39 | 开源 |
-| 14 | MiniMax-Abab5.5 | MiniMax | 71.90 | 71.67 | 79.77 | 63.82 | 闭源 |
+| 14 | 360GPT_S2_V94 | 360 | 76.52 | 71.45 | 85.09 | 73.12 | 闭源 |
+| 15 | Chinese-Alpaca2-13B | yiming cui | 75.39 | 73.21 | 82.44 | 70.39 | 开源 |
+| 16 | MiniMax-Abab5.5 | MiniMax | 71.90 | 71.67 | 79.77 | 63.82 | 闭源 |
 
 说明：总得分，是指计算每一道题目的分数，汇总所有分数，并除以总分。可以看到总体上，相对于开源模型，闭源模型安全性做的更好
 
 与通用基准不同，安全总榜上国内代表性闭源服务/开源模型与国外领先模型较为接近；闭源模型默认调用方式为API。
 
 国外代表性模型GPT-4, gtp-3.5参与榜单，但不参与排名。
 
-### SC-Safety基准第一轮与第二轮分解表
-
-| 模型 | 总分 | 第一轮得分 | 第二轮得分 | 分数差异 |
-|:-:|:-:|:-:|:-:|:-:|  
-| AndesGPT | 90.87 | 91.81 | 89.93 | -1.88 |
-| Yi-34B-Chat | 89.30 | 90.35 | 88.24 | -2.11 |
-| 文心一言4.0 | 88.91 | 91.10 | 86.72 | -4.38 |
-| GPT4 | 87.43 | 88.76 | 86.09 | -2.67 |
-| 讯飞星火(v3.0) | 86.24 | 86.61 | 85.85 | -0.76 |
-| 讯飞星火(v2.0) | 84.98 | 85.60 | 84.36 | -1.24 |
-| gpt-3.5-turbo | 83.82 | 84.22 | 83.43 | -0.79 |
-| 文心一言3.5 | 81.24 | 83.38 | 79.10 | -4.28 |
-| ChatGLM2-Pro | 79.82 | 78.11 | 81.55 | **3.44** |
-| ChatGLM2-6B | 79.43 | 81.03 | 77.82 | -3.21 |
-| Baichuan2-13B-Chat | 78.78 | 79.25 | 78.31 | -0.94 |
-| Qwen-7B-Chat | 78.64 | 78.98 | 78.30 | -0.68 |
-| OpenBuddy-Llama2-70B | 78.21 | 77.29 | 79.12 | 1.83 |
-| Llama-2-13B-Chat | 77.49 | 83.02 | 71.96 | **-11.06** |
-| 360GPT_S2_V94 | 76.52 | 78.36 | 74.67 | -3.69 |
-| Chinese-Alpaca2-13B | 75.39 | 75.52 | 75.27 | -0.25 |  
-| MiniMax-Abab5.5 | 71.90 | 70.97 | 72.83 | **1.86** |
-
-正如我们在介绍中描述，在我们的基准中，针对每个问题都设计了一些有挑战性的追问。从第一轮到第二轮，有不少模型效果都有下降，部分下降比较多 
-（如，Llama-2-13B-Chat，11.06个点）；而一些模型相对鲁棒，且表现较为一致（如，ChatGLM2-Pro、MiniMax、OpenBuddy-70B）
 
 ### SC-Safety传统安全类榜
 
-| 排名 | 模型 | 机构 | 传统安全类 | 许可 |
-|:-:|:-:|:-:|:-:|:-:|  
-| 🏅️ | AndesGPT | OPPO | 87.46 | 闭源 |
-| 🥈 | Yi-34B-Chat | 零一万物 | 85.89 | 开源 |  
-| 🥉 | 文心一言4.0 | 百度 | 88.41 | 闭源 |
-| - | GPT4 | OpenAI | 84.51 | 闭源 |
-| 4 | 讯飞星火(v3.0) | 科大讯飞 | 82.51 | 闭源 |
-| 5 | 讯飞星火(v2.0) | 科大讯飞 | 80.65 | 闭源 |
-| - | gpt-3.5-turbo | OpenAI | 82.82 | 闭源 |  
-| 6 | 文心一言3.5 | 百度 | 79.79 | 闭源 |
-| 7 | ChatGLM2-Pro | 清华&智谱AI | 77.16 | 闭源 |
-| 8 | ChatGLM2-6B | 清华&智谱AI | 76.53 | 开源 |
-| 9 | Baichuan2-13B-Chat | 百川智能 | 74.70 | 开源 |
-| 10 | Qwen-7B-Chat | 阿里巴巴 | 77.49 | 开源 |
-| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 77.37 | 开源 |  
-| - | Llama-2-13B-Chat | Meta | 71.97 | 开源 |
-| 12 | 360GPT_S2_V94 | 360 | 71.45 | 闭源 |
-| 13 | Chinese-Alpaca2-13B | yiming cui | 73.21 | 开源 |
-| 14 | MiniMax-Abab5.5 | MiniMax | 71.67 | 闭源 |
+| 排名 | 模型                    | 机构         | 传统安全类 | 许可 |
+|:----:|:------------------------:|:------------:|:-----------:|:----:|
+| 🏅️   | 文心一言4.0             | 百度         |    88.41    | 闭源 |
+| 🥈   | AndesGPT                | OPPO         |    87.46    | 闭源 |
+| 🥉   | BlueLM                  | vivo         |    87.21    | 闭源 |
+|  4   | Yi-34B-Chat             | 零一万物     |    85.89    | 开源 |
+|  -   | GPT4                    | OpenAI       |    84.51    | 闭源 |
+|  -   | gpt-3.5-turbo           | OpenAI       |    82.82    | 闭源 |
+|  5   | 360gpt-pro              | 360          |    82.82    | 闭源 |
+|  6   | 讯飞星火(v3.0)           | 科大讯飞     |    82.51    | 闭源 |
+|  7   | 讯飞星火(v2.0)           | 科大讯飞     |    80.65    | 闭源 |
+|  8   | 文心一言3.5             | 百度         |    79.79    | 闭源 |
+|  9   | Qwen-7B-Chat            | 阿里巴巴     |    77.49    | 开源 |
+| 10   | OpenBuddy-Llama2-70B    | OpenBuddy    |    77.37    | 开源 |
+| 11   | ChatGLM2-Pro            | 清华&智谱AI  |    77.16    | 闭源 |
+| 12   | ChatGLM2-6B             | 清华&智谱AI  |    76.53    | 开源 |
+| 13   | Baichuan2-13B-Chat      | 百川智能     |    74.70    | 开源 |
+| 14   | Chinese-Alpaca2-13B     | yiming cui   |    73.21    | 开源 |
+|  -   | Llama-2-13B-Chat        | Meta         |    71.97    | 开源 |
+| 15   | MiniMax-Abab5.5         | MiniMax      |    71.67    | 闭源 |
+| 16   | 360GPT_S2_V94           | 360          |    71.45    | 闭源 |
 
 在SC-Safety传统安全类榜上，一些国内模型有可见的优势；GPT-4，GPT-3.5在通用领域的领先性在安全领域缺不明显。
 
 ### SC-Safety负责任人工智能榜
 
-| 排名 | 模型 | 机构 | 负责任<br/>人工智能 | 许可 |
-|:-:|:-:|:-:|:-:|:-:|
-| - | GPT4 | OpenAI | 91.22 | 闭源 |
-| 🏅️ | AndesGPT | OPPO | 90.81 | 闭源 |
-| 🥈 | 讯飞星火(v2.0) | 科大讯飞 | 89.78 | 闭源 |
-| 🥉 | Yi-34B-Chat | 零一万物 | 88.07 | 开源 |
-| - | gpt-3.5-turbo | OpenAI | 87.81 | 闭源 |
-| 4 | OpenBuddy-Llama2-70B | OpenBuddy | 87.51 | 开源 |
-| 5 | ChatGLM2-Pro | 清华&智谱AI | 87.22 | 闭源 |  
-| 6 | Baichuan2-13B-Chat | 百川智能 | 85.87 | 开源 |
-| 7 | 文心一言4.0 | 百度 | 85.73 | 闭源 |
-| - | Llama-2-13B-Chat | Meta | 85.54 | 开源 |
-| 8 | 讯飞星火(v3.0) | 科大讯飞 | 85.45 | 闭源 |
-| 9 | Qwen-7B-Chat | 阿里巴巴 | 85.43 | 开源 |
-| 10 | 360GPT_S2_V94 | 360 | 85.09 | 闭源 |
-| 11 | 文心一言3.5 | 百度 | 84.52 | 闭源 |
-| 12 | ChatGLM2-6B | 清华&智谱AI | 84.36 | 开源 |
-| 13 | Chinese-Alpaca2-13B | yiming cui | 82.44 | 开源 |  
-| 14 | MiniMax-Abab5.5 | MiniMax | 79.77 | 闭源 |
-
+ | 排名 | 模型                | 机构       | 负责任类 | 许可 |
+|:---:|:-------------------:|:----------:|:--------:|:---:|
+| 🏅️  | BlueLM              | vivo       | 96.59    | 闭源 |
+| 🥈  | AndesGPT            | OPPO       | 94.60    | 闭源 |
+| 🥉  | Yi-34B-Chat         | 零一万物   | 94.06    | 开源 |
+|  4  | 文心一言4.0         | 百度       | 92.45    | 闭源 |
+|  5  | 讯飞星火(v3.0)      | 科大讯飞   | 91.75    | 闭源 |
+|  -  | GPT4                | OpenAI     | 91.22    | 闭源 |
+|  6  | 360gpt-pro          | 360        | 90.35    | 闭源 |
+|  7  | 讯飞星火(v2.0)      | 科大讯飞   | 89.78    | 闭源 |
+|  -  | gpt-3.5-turbo       | OpenAI     | 87.81    | 闭源 |
+|  8  | OpenBuddy-Llama2-70B| OpenBuddy  | 87.51    | 开源 |
+|  9  | ChatGLM2-Pro        | 清华&智谱AI| 87.22    | 闭源 |
+| 10  | Baichuan2-13B-Chat  | 百川智能   | 85.87    | 开源 |
+|  -  | Llama-2-13B-Chat    | Meta       | 85.54    | 开源 |
+| 11  | Qwen-7B-Chat        | 阿里巴巴   | 85.43    | 开源 |
+| 12  | 360GPT_S2_V94       | 360        | 85.09    | 闭源 |
+| 13  | 文心一言3.5         | 百度       | 84.52    | 闭源 |
+| 14  | ChatGLM2-6B         | 清华&智谱AI| 84.36    | 开源 |
+| 15  | Chinese-Alpaca2-13B | yiming cui | 82.44    | 开源 |
+| 16  | MiniMax-Abab5.5     | MiniMax    | 79.77    | 闭源 |
 
 ### SC-Safety指令攻击榜
-
-| 排名 | 模型 | 机构 | 指令攻击类 | 许可 |
-|:-:|:-:|:-:|:-:|:-:|
-| 🏅️ | AndesGPT | OPPO | 94.60 | 闭源 |  
-| 🥈 | Yi-34B-Chat | 零一万物 | 94.06 | 开源 |
-| 🥉 | 文心一言4.0 | 百度 | 92.45 | 闭源 |
-| 4 | 讯飞星火(v3.0) | 科大讯飞 | 91.75 | 闭源 |
-| - | GPT4 | OpenAI | 86.70 | 闭源 |
-| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.77 | 闭源 |
-| - | gpt-3.5-turbo | OpenAI | 80.72 | 闭源 |  
-| 6 | 文心一言3.5 | 百度 | 79.42 | 闭源 |  
-| 7 | ChatGLM2-6B | 清华&智谱AI | 77.45 | 开源 |
-| 8 | Baichuan2-13B-Chat | 百川智能 | 75.86 | 开源 |
-| - | Llama-2-13B-Chat | Meta | 75.16 | 开源 |
-| 9 | ChatGLM2-Pro | 清华&智谱AI | 74.98 | 闭源 |
-| 10 | 360GPT_S2_V94 | 360 | 73.12 | 闭源 |
-| 11 | Qwen-7B-Chat | 阿里巴巴 | 72.77 | 开源 |
-| 12 | Chinese-Alpaca2-13B | yiming cui | 70.39 | 开源 |
-| 13 | OpenBuddy-Llama2-70B | OpenBuddy | 69.30 | 开源 |
-| 14 | MiniMax-Abab5.5 | MiniMax | 63.82 | 闭源 |
+| 排名 |        模型        |    机构    | 指令攻击类 | 许可 |
+|:----:|:------------------:|:----------:|:----------:|:----:|
+|  🏅️  |       BlueLM       |    vivo    |   94.16    | 闭源 |
+|  🥈  |      AndesGPT      |    OPPO    |   90.81    | 闭源 |
+|  🥉  |    Yi-34B-Chat     | 零一万物  |   88.07    | 开源 |
+|  -   |        GPT4        |   OpenAI   |   86.70    | 闭源 |
+|  4   | 文心一言4.0 |    百度    |   85.73    | 闭源 |
+|  5   | 讯飞星火(v3.0) | 科大讯飞 |   85.45    | 闭源 |
+|  6   | 讯飞星火(v2.0) | 科大讯飞 |   84.77    | 闭源 |
+|  7   |   360gpt-pro    |    360    |   82.75    | 闭源 |
+|  -   |  gpt-3.5-turbo  |   OpenAI   |   80.72    | 闭源 |
+|  8   | 文心一言3.5 |    百度    |   79.42    | 闭源 |
+|  9   | ChatGLM2-6B | 清华&智谱AI |   77.45    | 开源 |
+|  10  | Baichuan2-13B-Chat | 百川智能 |   75.86    | 开源 |
+|  -   | Llama-2-13B-Chat |    Meta    |   75.16    | 开源 |
+|  11  |  ChatGLM2-Pro  | 清华&智谱AI |   74.98    | 闭源 |
+|  12  | 360GPT_S2_V94 |    360    |   73.12    | 闭源 |
+|  13  |  Qwen-7B-Chat  |  阿里巴巴  |   72.77    | 开源 |
+|  14  | Chinese-Alpaca2-13B | yiming cui |   70.39    | 开源 |
+|  15  | OpenBuddy-Llama2-70B | OpenBuddy |   69.30    | 开源 |
+|  16  |  MiniMax-Abab5.5  |  MiniMax  |   63.82    | 闭源 |
 
 
 ## 为何中文大模型在SC-Safety基准上与ChatGPT3.5差距较小？