update

CLUEbenchmark · Jan 4, 2024 · c12b447 · c12b447
1 parent 70f460a
commit c12b447
Show file tree

Hide file tree

Showing 2 changed files with 395 additions and 113 deletions.
diff --git a/README.md b/README.md
@@ -148,129 +148,102 @@ SC-Safety大模型安全类测评，包含以下三大能力的检验：传统
 ## 模型与榜单
 
 ### SC-Safety安全总榜
-|序号| 模型 |机构| 总分 | 传统安全类 | 负责任类 | 指令攻击类 | 使用方式|
-|:--------:|:--------:|:--------:|:------:|:--------------:|:----------:|:------------:|:------------:|
-|-|  [GPT-4 ↗](https://openai.com/)   |OpenAI| 87.43 | 84.51 | 91.22 | 86.70 |闭源|
-|🏅️| [BlueLM↗](https://www.vivo.com.cn/) |vivo| 85.17 | 84.39 | 92.88 | 77.99 |闭源|
-|🥈| [讯飞星火4.0 ↗](https://xinghuo.xfyun.cn/) |科大讯飞| 84.98 | 80.65 | 89.78 | 84.77 |闭源|
-|-|  [gpt-3.5-turbo ↗](https://openai.com/) |OpenAI| 83.82 | 82.82 | 87.81 | 80.72 |闭源|
-|🥉|  [文心一言 ↗](https://yiyan.baidu.com/welcome) |百度| 81.24 | 79.79 | 84.52 | 79.42 |闭源|
-|4|  [ChatGLM2-pro ↗](https://chatglm.cn)    |清华&智谱| 79.82 | 77.16 | 87.22 | 74.98 |闭源|
-|5|  [ChatGLM2-6B ↗](https://github.com/THUDM/ChatGLM2-6B)    |清华&智谱| 79.43 | 76.53 | 84.36 | 77.45 |开源|
-|6|  [Baichuan2-13B-Chat ↗](https://huggingface.co/baichuan-inc/Baichuan2)|百川智能 | 78.78 | 74.7 | 85.87 | 75.86 |开源|
-|7|  [Qwen-7B-Chat ↗](https://huggingface.co/Qwen/Qwen-7B-Chat)    |阿里巴巴| 78.64 | 77.49 | 85.43 | 72.77 |开源|
-|8|  [OpenBuddy-Llama2-70B ↗](https://huggingface.co/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16)  |OpenBuddy| 78.21 | 77.37 | 87.51 | 69.30 |开源|
-|-| [Llama-2-13B-Chat↗](https://huggingface.co/meta-llama/Llama-2-13b-chat-hf) |Meta|77.49|71.97|85.54|75.16|开源|
-|9|   [360智脑(S2_V94) ↗](https://ai.360.cn) | 360 | 76.52 | 71.45 | 85.09 | 73.12 |闭源|
-|10|  [Chinese-Alpaca-2-13B ↗](https://huggingface.co/ziqingyang/chinese-alpaca-2-13b)  |Yiming Cui | 75.39 | 73.21 | 82.44 | 70.39 |开源|
-|11|   [MiniMax-abab5.5 ↗](https://api.minimax.chat/)    |MiniMax| 71.90 | 71.67 | 79.77 | 63.82 |闭源|
-
-说明：总得分，是指计算每一道题目的分数，汇总所有分数，并除以总分。可以看到总体上，相对于开源模型，闭源模型安全性做的更好，前6个模型都是闭源模型；
-
-与通用基准不同，安全总榜上国内代表性闭源服务/开源模型与国外领先模型较为接近；文心一言，指ERNIE-3.5-Turbo。闭源模型默认调用方式为API。
+| 排名 | 模型 | 机构 | 总分 | 传统<br/>安全类 | 负责<br/>任类 | 指令<br/>攻击类 | 许可 |
+|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|  
+| 🏅️ | AndesGPT | OPPO | 90.87 | 87.46 | 90.81 | 94.60 | 闭源 |
+| 🥈 | Yi-34B-Chat | 零一万物 | 89.30 | 85.89 | 88.07 | 94.06 | 开源 |  
+| 🥉 | 文心一言4.0 | 百度 | 88.91 | 88.41 | 85.73 | 92.45 | 闭源 |
+| - | GPT4 | OpenAI | 87.43 | 84.51 | 91.22 | 86.70 | 闭源 |
+| 4 | 讯飞星火(v3.0) | 科大讯飞 | 86.24 | 82.51 | 85.45 | 91.75 | 闭源 |
+| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.98 | 80.65 | 89.78 | 84.77 | 闭源 |
+| - | gpt-3.5-turbo | OpenAI | 83.82 | 82.82 | 87.81 | 80.72 | 闭源 |
+| 6 | 文心一言3.5 | 百度 | 81.24 | 79.79 | 84.52 | 79.42 | 闭源 |
+| 7 | ChatGLM2-Pro | 清华&智谱AI | 79.82 | 77.16 | 87.22 | 74.98 | 闭源 |
+| 8 | ChatGLM2-6B | 清华&智谱AI | 79.43 | 76.53 | 84.36 | 77.45 | 开源 |
+| 9 | Baichuan2-13B-Chat | 百川智能 | 78.78 | 74.70 | 85.87 | 75.86 | 开源 |
+| 10 | Qwen-7B-Chat | 阿里巴巴 | 78.64 | 77.49 | 85.43 | 72.77 | 开源 |
+| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 78.21 | 77.37 | 87.51 | 69.30 | 开源 |
+| - | Llama-2-13B-Chat | Meta | 77.49 | 71.97 | 85.54 | 75.16 | 开源 |
+| 12 | 360GPT_S2_V94 | 360 | 76.52 | 71.45 | 85.09 | 73.12 | 闭源 |
+| 13 | Chinese-Alpaca2-13B | yiming cui | 75.39 | 73.21 | 82.44 | 70.39 | 开源 |
+| 14 | MiniMax-Abab5.5 | MiniMax | 71.90 | 71.67 | 79.77 | 63.82 | 闭源 |
+
+说明：总得分，是指计算每一道题目的分数，汇总所有分数，并除以总分。可以看到总体上，相对于开源模型，闭源模型安全性做的更好
+
+与通用基准不同，安全总榜上国内代表性闭源服务/开源模型与国外领先模型较为接近;闭源模型默认调用方式为API。
 
 国外代表性模型GPT-4, gtp-3.5参与榜单，但不参与排名。
 
-### SC-Safety安全开源榜单
-|得到| 模型名称 | 总得分 | 传统安全类_总分 | 负责任类_总分 | 指令攻击类_总分 |
-|:--------:|:--------:|:------:|:--------------:|:----------:|:------------:|
-|-| GPT-4  | 87.43 | 84.51 | 91.22 | 86.7 |
-|-| gpt-3.5-turbo | 83.82 | 82.82 | 87.81 | 80.72 |
-|🏅️| ChatGLM2-6B | 79.43 | 76.53 | 84.36 | 77.45 |
-|🥈| Baichuan2-13B-Chat | 78.78 | 74.7 | 85.87 | 75.86 |
-|🥉| Qwen-7B-Chat | 78.64 | 77.49 | 85.43 | 72.77 |
-|4| OpenBuddy-Llama2-70B | 78.21 | 77.37 | 87.51 | 69.3 |
-|-| Llama-2-13B-Chat|77.49|71.97|85.54|75.16|
-|5| Chinese-Alpaca-2-13B | 75.39 | 73.21 | 82.44 | 70.39 |
-
-与通用基准与gpt-3.5-turbo差异较大不同，安全开源榜单上6B到13B的模型与gpt-3.5-turbo有差距，但总体上差距没有那么明显。
-
-GLM2，Baichuan2，千问Qwen的开源模型分别获得了第一、二、三名。
-
-### SC-Safety基准第一轮与第二轮分解表
-
-| 模型名称 | 总得分 | 第一轮得分 | 第二轮得分 | 分数差异 |
-|:--------:|:------:|:--------:|:--------:|:--------:|
-| GPT-4  | 87.43 | 88.76 | 86.09 | -2.67 |
-| BlueLM | 85.17 | 84.80 | 85.55 | 0.75 |
-| 讯飞星火4.0 | 84.98 | 85.6 | 84.36 | -1.24 |
-| gpt-3.5-turbo | 83.82 | 84.22 | 83.43 | -0.79 |
-| 文心一言(ERNIE-3.5-Turbo)  | 81.24 | 83.38 | 79.1 | -4.28 |
-| ChatGLM2-pro | 79.82 | 78.11 | 81.55 | **3.44** |
-| ChatGLM2-6B | 79.43 | 81.03 | 77.82 | -3.21 |
-| Baichuan2-13B-Chat | 78.78 | 79.25 | 78.31 | -0.94 |
-| Qwen-7B-Chat | 78.64 | 78.98 | 78.3 | -0.68 |
-| OpenBuddy-Llama2-70B | 78.21 | 77.29 | 79.12 | 1.83 |
-|Llama-2-13B-Chat|77.49|83.02|71.96|**-11.06**|
-| 360GPT_S2_V94 | 76.52 | 78.36 | 74.67 | -3.69 |
-| Chinese-Alpaca-2-13B | 75.39 | 75.52 | 75.27 | -0.25 |
-| MiniMax-abab5.5 | 71.9 | 70.97 | 72.83 | 1.86 |
-
-正如我们在介绍中描述，在我们的基准中，针对每个问题都设计了一些有挑战性的追问。从第一轮到第二轮，有不少模型效果都有下降，部分下降比较多
-（如，Llama-2-13B-Chat、文心一言、360GPT）；而一些模型相对鲁棒，且表现较为一致（如，ChatGLM2、MiniMax、OpenBuddy-70B）
-
 
 ### SC-Safety传统安全类榜
+
+| 排名 | 模型 | 机构 | 传统安全类 | 许可 |
+|:-:|:-:|:-:|:-:|:-:|  
+| 🏅️ | AndesGPT | OPPO | 87.46 | 闭源 |
+| 🥈 | Yi-34B-Chat | 零一万物 | 85.89 | 开源 |  
+| 🥉 | 文心一言4.0 | 百度 | 88.41 | 闭源 |
+| - | GPT4 | OpenAI | 84.51 | 闭源 |
+| 4 | 讯飞星火(v3.0) | 科大讯飞 | 82.51 | 闭源 |
+| 5 | 讯飞星火(v2.0) | 科大讯飞 | 80.65 | 闭源 |
+| - | gpt-3.5-turbo | OpenAI | 82.82 | 闭源 |  
+| 6 | 文心一言3.5 | 百度 | 79.79 | 闭源 |
+| 7 | ChatGLM2-Pro | 清华&智谱AI | 77.16 | 闭源 |
+| 8 | ChatGLM2-6B | 清华&智谱AI | 76.53 | 开源 |
+| 9 | Baichuan2-13B-Chat | 百川智能 | 74.70 | 开源 |
+| 10 | Qwen-7B-Chat | 阿里巴巴 | 77.49 | 开源 |
+| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 77.37 | 开源 |  
+| - | Llama-2-13B-Chat | Meta | 71.97 | 开源 |
+| 12 | 360GPT_S2_V94 | 360 | 71.45 | 闭源 |
+| 13 | Chinese-Alpaca2-13B | yiming cui | 73.21 | 开源 |
+| 14 | MiniMax-Abab5.5 | MiniMax | 71.67 | 闭源 |
 
-| 序号 | 模型名称 | 传统安全类_总分 | 传统安全类_第一轮 | 传统安全类_第二轮 |
-|:----:|:--------:|:--------------:|:----------------:|:----------------:|
-| - | GPT-4  | 84.51 | 84.97 | 84.05 |
-| 🏅 | BlueLM |84.39| 83.24| 85.55 |
-| - | gpt-3.5-turbo | 82.82 | 82.02 | 83.62 |
-|🥈| 讯飞星火4.0 | 80.65 | 78.53 | 82.77 |
-| 🥉| 文心一言(ERNIE-3.5-Turbo)  | 79.79 | 80.67 | 78.9 |
-| 4 | Qwen-7B-Chat | 77.49 | 76.82 | 78.16 |
-| 5 | OpenBuddy-Llama2-70B | 77.37 | 75.98 | 78.76 |
-| 6 | ChatGLM2-pro | 77.16 | 73.79 | 80.56 |
-| 7 | ChatGLM2-6B | 76.53 | 75.69 | 77.37 |
-| 8 | Baichuan2-13B-Chat | 74.7 | 74.05 | 75.35 |
-| 9 | Chinese-Alpaca-2-13B | 73.21 | 72.11 | 74.30 |
-|-| Llama-2-13B-Chat|71.97|76.68|67.25|
-| 10 | MiniMax-abab5.5 | 71.67 | 69.91 | 73.44 |
-| 11 | 360GPT_S2_V94 | 71.45 | 71.70 | 71.21 |
-
-在SC-Safety传统安全类榜上，讯飞星火、 文心一言有可见的优势；但量级相对较小的7B通义千问模型（Qwen-7B-Chat）表现亮眼，取得了第三的位置，
-并且与gpt-3.5-turbo仅相差5.3分。
 
 ### SC-Safety负责任人工智能榜
-| 序号 | 模型名称 | 负责任_总分 | 负责任_第一轮 | 负责任_第二轮 |
-|:----:|:--------:|:----------:|:------------:|:------------:|
-| 🏅 | BlueLM  | 92.88 | 92.94 | 92.81 |
-| - | GPT-4  | 91.22 | 93.14 | 89.3 |
-|🥈 | 讯飞星火4.0 | 89.78 | 92.51 | 87.04 |
-| - | gpt-3.5-turbo | 87.81 | 88.04 | 87.59 |
-| 🥉 | OpenBuddy-Llama2-70B | 87.51 | 87.32 | 87.70 |
-| 4 | ChatGLM2-pro | 87.22 | 86.21 | 88.24 |
-| 5 | Baichuan2-13B-Chat | 85.87 | 87.76 | 83.97 |
-|-|Llama-2-13B-Chat|85.54|90.99|80.09|
-| 6 | Qwen-7B-Chat | 85.43 | 86.6 | 84.26 |
-| 7 | 360GPT_S2_V94 | 85.09 | 87.39 | 82.78 |
-| 8 | 文心一言(ERNIE-3.5-Turbo)  | 84.52 | 87.18 | 81.85 |
-| 9 | ChatGLM2-6B | 84.36 | 86.54 | 82.19 |
-| 10 | Chinese-Alpaca-2-13B | 82.44 | 82.76 | 82.13 |
-| 11 | MiniMax-abab5.5| 79.77 | 80.12 | 79.42 |
-
-在SC-Safety负责任人工智能榜上，基于Llama2的700亿中文开源模型OpenBuddy-Llama2-70B表现优异，取得第二名，与gpt-3.5-turbo成绩高度接近。
+
+| 排名 | 模型 | 机构 | 负责任类人工智能 | 许可 |
+|:-:|:-:|:-:|:-:|:-:|
+| - | GPT4 | OpenAI | 91.22 | 闭源 |
+| 🏅️ | AndesGPT | OPPO | 90.81 | 闭源 |
+| 🥈 | 讯飞星火(v2.0) | 科大讯飞 | 89.78 | 闭源 |
+| 🥉 | Yi-34B-Chat | 零一万物 | 88.07 | 开源 |
+| - | gpt-3.5-turbo | OpenAI | 87.81 | 闭源 |
+| 4 | OpenBuddy-Llama2-70B | OpenBuddy | 87.51 | 开源 |
+| 5 | ChatGLM2-Pro | 清华&智谱AI | 87.22 | 闭源 |  
+| 6 | Baichuan2-13B-Chat | 百川智能 | 85.87 | 开源 |
+| 7 | 文心一言4.0 | 百度 | 85.73 | 闭源 |
+| - | Llama-2-13B-Chat | Meta | 85.54 | 开源 |
+| 8 | 讯飞星火(v3.0) | 科大讯飞 | 85.45 | 闭源 |
+| 9 | Qwen-7B-Chat | 阿里巴巴 | 85.43 | 开源 |
+| 10 | 360GPT_S2_V94 | 360 | 85.09 | 闭源 |
+| 11 | 文心一言3.5 | 百度 | 84.52 | 闭源 |
+| 12 | ChatGLM2-6B | 清华&智谱AI | 84.36 | 开源 |
+| 13 | Chinese-Alpaca2-13B | yiming cui | 82.44 | 开源 |  
+| 14 | MiniMax-Abab5.5 | MiniMax | 79.77 | 闭源 |
+
+
 
 ### SC-Safety指令攻击榜
-| 序号 | 模型名称 | 指令攻击_总分 | 指令攻击_第一轮 | 指令攻击_第二轮 |
-| :--: | :--: | :--: | :--: | :--: |
-| - | GPT-4  | 86.70 | 88.39 | 85.00 |
-| 🏅| 讯飞星火4.0 | 84.77 | 86.22 | 83.31 |
-| - | gpt-3.5-turbo | 80.72 | 82.64 | 78.80 |
-| 🥈 | 文心一言(ERNIE-3.5-Turbo)  | 79.42 | 82.41 | 76.42 |
-| 🥉 | BlueLM  | 77.99| 77.92 | 78.06 |
-| 4 | ChatGLM2-6B | 77.45 | 81.19 | 73.70 |
-| 5 | Baichuan2-13B-Chat | 75.86 | 76.07 | 75.65 |
-|-|Llama-2-13B-Chat|75.16|81.69|68.61|
-| 6| ChatGLM2-pro | 74.98 | 74.39 | 75.58 |
-| 7 | 360GPT_S2_V94 | 73.12 | 76.26 | 69.99 |
-| 8 | Qwen-7B-Chat | 72.77 | 73.35 | 72.19 |
-| 9 | Chinese-Alpaca-2-13B | 70.39 | 71.69 | 69.09 |
-| 10 | OpenBuddy-Llama2-70B | 69.3 | 68.18 | 70.43 |
-| 11 | MiniMax-abab5.5| 63.82 | 62.47 | 65.18 |
-
-在SC-Safety指令攻击榜榜上，量级较小的开源模型ChatGLM2-6B表现良好，取得第三名；与gpt-3.5-turbo差距，仅有3.2分。
+
+| 排名 | 模型 | 机构 | 指令攻击类 | 许可 |
+|:-:|:-:|:-:|:-:|:-:|
+| 🏅️ | AndesGPT | OPPO | 94.60 | 闭源 |  
+| 🥈 | Yi-34B-Chat | 零一万物 | 94.06 | 开源 |
+| 🥉 | 文心一言4.0 | 百度 | 92.45 | 闭源 |
+| 4 | 讯飞星火(v3.0) | 科大讯飞 | 91.75 | 闭源 |
+| - | GPT4 | OpenAI | 86.70 | 闭源 |
+| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.77 | 闭源 |
+| - | gpt-3.5-turbo | OpenAI | 80.72 | 闭源 |  
+| 6 | 文心一言3.5 | 百度 | 79.42 | 闭源 |  
+| 7 | ChatGLM2-6B | 清华&智谱AI | 77.45 | 开源 |
+| 8 | Baichuan2-13B-Chat | 百川智能 | 75.86 | 开源 |
+| - | Llama-2-13B-Chat | Meta | 75.16 | 开源 |
+| 9 | ChatGLM2-Pro | 清华&智谱AI | 74.98 | 闭源 |
+| 10 | 360GPT_S2_V94 | 360 | 73.12 | 闭源 |
+| 11 | Qwen-7B-Chat | 阿里巴巴 | 72.77 | 开源 |
+| 12 | Chinese-Alpaca2-13B | yiming cui | 70.39 | 开源 |
+| 13 | OpenBuddy-Llama2-70B | OpenBuddy | 69.30 | 开源 |
+| 14 | MiniMax-Abab5.5 | MiniMax | 63.82 | 闭源 |
+
 
 ## 为何中文大模型在SC-Safety基准上与ChatGPT3.5差距较小？