Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
brightmart committed Jan 4, 2024
1 parent 70f460a commit c12b447
Show file tree
Hide file tree
Showing 2 changed files with 395 additions and 113 deletions.
199 changes: 86 additions & 113 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -148,129 +148,102 @@ SC-Safety大模型安全类测评,包含以下三大能力的检验:传统
## 模型与榜单

### SC-Safety安全总榜
|序号| 模型 |机构| 总分 | 传统安全类 | 负责任类 | 指令攻击类 | 使用方式|
|:--------:|:--------:|:--------:|:------:|:--------------:|:----------:|:------------:|:------------:|
|-| [GPT-4 ↗](https://openai.com/) |OpenAI| 87.43 | 84.51 | 91.22 | 86.70 |闭源|
|🏅️| [BlueLM↗](https://www.vivo.com.cn/) |vivo| 85.17 | 84.39 | 92.88 | 77.99 |闭源|
|🥈| [讯飞星火4.0 ↗](https://xinghuo.xfyun.cn/) |科大讯飞| 84.98 | 80.65 | 89.78 | 84.77 |闭源|
|-| [gpt-3.5-turbo ↗](https://openai.com/) |OpenAI| 83.82 | 82.82 | 87.81 | 80.72 |闭源|
|🥉| [文心一言 ↗](https://yiyan.baidu.com/welcome) |百度| 81.24 | 79.79 | 84.52 | 79.42 |闭源|
|4| [ChatGLM2-pro ↗](https://chatglm.cn) |清华&智谱| 79.82 | 77.16 | 87.22 | 74.98 |闭源|
|5| [ChatGLM2-6B ↗](https://github.com/THUDM/ChatGLM2-6B) |清华&智谱| 79.43 | 76.53 | 84.36 | 77.45 |开源|
|6| [Baichuan2-13B-Chat ↗](https://huggingface.co/baichuan-inc/Baichuan2)|百川智能 | 78.78 | 74.7 | 85.87 | 75.86 |开源|
|7| [Qwen-7B-Chat ↗](https://huggingface.co/Qwen/Qwen-7B-Chat) |阿里巴巴| 78.64 | 77.49 | 85.43 | 72.77 |开源|
|8| [OpenBuddy-Llama2-70B ↗](https://huggingface.co/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16) |OpenBuddy| 78.21 | 77.37 | 87.51 | 69.30 |开源|
|-| [Llama-2-13B-Chat↗](https://huggingface.co/meta-llama/Llama-2-13b-chat-hf) |Meta|77.49|71.97|85.54|75.16|开源|
|9| [360智脑(S2_V94) ↗](https://ai.360.cn) | 360 | 76.52 | 71.45 | 85.09 | 73.12 |闭源|
|10| [Chinese-Alpaca-2-13B ↗](https://huggingface.co/ziqingyang/chinese-alpaca-2-13b) |Yiming Cui | 75.39 | 73.21 | 82.44 | 70.39 |开源|
|11| [MiniMax-abab5.5 ↗](https://api.minimax.chat/) |MiniMax| 71.90 | 71.67 | 79.77 | 63.82 |闭源|

说明:总得分,是指计算每一道题目的分数,汇总所有分数,并除以总分。可以看到总体上,相对于开源模型,闭源模型安全性做的更好,前6个模型都是闭源模型;

与通用基准不同,安全总榜上国内代表性闭源服务/开源模型与国外领先模型较为接近;文心一言,指ERNIE-3.5-Turbo。闭源模型默认调用方式为API。
| 排名 | 模型 | 机构 | 总分 | 传统<br/>安全类 | 负责<br/>任类 | 指令<br/>攻击类 | 许可 |
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
| 🏅️ | AndesGPT | OPPO | 90.87 | 87.46 | 90.81 | 94.60 | 闭源 |
| 🥈 | Yi-34B-Chat | 零一万物 | 89.30 | 85.89 | 88.07 | 94.06 | 开源 |
| 🥉 | 文心一言4.0 | 百度 | 88.91 | 88.41 | 85.73 | 92.45 | 闭源 |
| - | GPT4 | OpenAI | 87.43 | 84.51 | 91.22 | 86.70 | 闭源 |
| 4 | 讯飞星火(v3.0) | 科大讯飞 | 86.24 | 82.51 | 85.45 | 91.75 | 闭源 |
| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.98 | 80.65 | 89.78 | 84.77 | 闭源 |
| - | gpt-3.5-turbo | OpenAI | 83.82 | 82.82 | 87.81 | 80.72 | 闭源 |
| 6 | 文心一言3.5 | 百度 | 81.24 | 79.79 | 84.52 | 79.42 | 闭源 |
| 7 | ChatGLM2-Pro | 清华&智谱AI | 79.82 | 77.16 | 87.22 | 74.98 | 闭源 |
| 8 | ChatGLM2-6B | 清华&智谱AI | 79.43 | 76.53 | 84.36 | 77.45 | 开源 |
| 9 | Baichuan2-13B-Chat | 百川智能 | 78.78 | 74.70 | 85.87 | 75.86 | 开源 |
| 10 | Qwen-7B-Chat | 阿里巴巴 | 78.64 | 77.49 | 85.43 | 72.77 | 开源 |
| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 78.21 | 77.37 | 87.51 | 69.30 | 开源 |
| - | Llama-2-13B-Chat | Meta | 77.49 | 71.97 | 85.54 | 75.16 | 开源 |
| 12 | 360GPT_S2_V94 | 360 | 76.52 | 71.45 | 85.09 | 73.12 | 闭源 |
| 13 | Chinese-Alpaca2-13B | yiming cui | 75.39 | 73.21 | 82.44 | 70.39 | 开源 |
| 14 | MiniMax-Abab5.5 | MiniMax | 71.90 | 71.67 | 79.77 | 63.82 | 闭源 |

说明:总得分,是指计算每一道题目的分数,汇总所有分数,并除以总分。可以看到总体上,相对于开源模型,闭源模型安全性做的更好

与通用基准不同,安全总榜上国内代表性闭源服务/开源模型与国外领先模型较为接近;闭源模型默认调用方式为API。

国外代表性模型GPT-4, gtp-3.5参与榜单,但不参与排名。

### SC-Safety安全开源榜单
|得到| 模型名称 | 总得分 | 传统安全类_总分 | 负责任类_总分 | 指令攻击类_总分 |
|:--------:|:--------:|:------:|:--------------:|:----------:|:------------:|
|-| GPT-4 | 87.43 | 84.51 | 91.22 | 86.7 |
|-| gpt-3.5-turbo | 83.82 | 82.82 | 87.81 | 80.72 |
|🏅️| ChatGLM2-6B | 79.43 | 76.53 | 84.36 | 77.45 |
|🥈| Baichuan2-13B-Chat | 78.78 | 74.7 | 85.87 | 75.86 |
|🥉| Qwen-7B-Chat | 78.64 | 77.49 | 85.43 | 72.77 |
|4| OpenBuddy-Llama2-70B | 78.21 | 77.37 | 87.51 | 69.3 |
|-| Llama-2-13B-Chat|77.49|71.97|85.54|75.16|
|5| Chinese-Alpaca-2-13B | 75.39 | 73.21 | 82.44 | 70.39 |

与通用基准与gpt-3.5-turbo差异较大不同,安全开源榜单上6B到13B的模型与gpt-3.5-turbo有差距,但总体上差距没有那么明显。

GLM2,Baichuan2,千问Qwen的开源模型分别获得了第一、二、三名。

### SC-Safety基准第一轮与第二轮分解表

| 模型名称 | 总得分 | 第一轮得分 | 第二轮得分 | 分数差异 |
|:--------:|:------:|:--------:|:--------:|:--------:|
| GPT-4 | 87.43 | 88.76 | 86.09 | -2.67 |
| BlueLM | 85.17 | 84.80 | 85.55 | 0.75 |
| 讯飞星火4.0 | 84.98 | 85.6 | 84.36 | -1.24 |
| gpt-3.5-turbo | 83.82 | 84.22 | 83.43 | -0.79 |
| 文心一言(ERNIE-3.5-Turbo) | 81.24 | 83.38 | 79.1 | -4.28 |
| ChatGLM2-pro | 79.82 | 78.11 | 81.55 | **3.44** |
| ChatGLM2-6B | 79.43 | 81.03 | 77.82 | -3.21 |
| Baichuan2-13B-Chat | 78.78 | 79.25 | 78.31 | -0.94 |
| Qwen-7B-Chat | 78.64 | 78.98 | 78.3 | -0.68 |
| OpenBuddy-Llama2-70B | 78.21 | 77.29 | 79.12 | 1.83 |
|Llama-2-13B-Chat|77.49|83.02|71.96|**-11.06**|
| 360GPT_S2_V94 | 76.52 | 78.36 | 74.67 | -3.69 |
| Chinese-Alpaca-2-13B | 75.39 | 75.52 | 75.27 | -0.25 |
| MiniMax-abab5.5 | 71.9 | 70.97 | 72.83 | 1.86 |

正如我们在介绍中描述,在我们的基准中,针对每个问题都设计了一些有挑战性的追问。从第一轮到第二轮,有不少模型效果都有下降,部分下降比较多
(如,Llama-2-13B-Chat、文心一言、360GPT);而一些模型相对鲁棒,且表现较为一致(如,ChatGLM2、MiniMax、OpenBuddy-70B)


### SC-Safety传统安全类榜

| 排名 | 模型 | 机构 | 传统安全类 | 许可 |
|:-:|:-:|:-:|:-:|:-:|
| 🏅️ | AndesGPT | OPPO | 87.46 | 闭源 |
| 🥈 | Yi-34B-Chat | 零一万物 | 85.89 | 开源 |
| 🥉 | 文心一言4.0 | 百度 | 88.41 | 闭源 |
| - | GPT4 | OpenAI | 84.51 | 闭源 |
| 4 | 讯飞星火(v3.0) | 科大讯飞 | 82.51 | 闭源 |
| 5 | 讯飞星火(v2.0) | 科大讯飞 | 80.65 | 闭源 |
| - | gpt-3.5-turbo | OpenAI | 82.82 | 闭源 |
| 6 | 文心一言3.5 | 百度 | 79.79 | 闭源 |
| 7 | ChatGLM2-Pro | 清华&智谱AI | 77.16 | 闭源 |
| 8 | ChatGLM2-6B | 清华&智谱AI | 76.53 | 开源 |
| 9 | Baichuan2-13B-Chat | 百川智能 | 74.70 | 开源 |
| 10 | Qwen-7B-Chat | 阿里巴巴 | 77.49 | 开源 |
| 11 | OpenBuddy-Llama2-70B | OpenBuddy | 77.37 | 开源 |
| - | Llama-2-13B-Chat | Meta | 71.97 | 开源 |
| 12 | 360GPT_S2_V94 | 360 | 71.45 | 闭源 |
| 13 | Chinese-Alpaca2-13B | yiming cui | 73.21 | 开源 |
| 14 | MiniMax-Abab5.5 | MiniMax | 71.67 | 闭源 |

| 序号 | 模型名称 | 传统安全类_总分 | 传统安全类_第一轮 | 传统安全类_第二轮 |
|:----:|:--------:|:--------------:|:----------------:|:----------------:|
| - | GPT-4 | 84.51 | 84.97 | 84.05 |
| 🏅 | BlueLM |84.39| 83.24| 85.55 |
| - | gpt-3.5-turbo | 82.82 | 82.02 | 83.62 |
|🥈| 讯飞星火4.0 | 80.65 | 78.53 | 82.77 |
| 🥉| 文心一言(ERNIE-3.5-Turbo) | 79.79 | 80.67 | 78.9 |
| 4 | Qwen-7B-Chat | 77.49 | 76.82 | 78.16 |
| 5 | OpenBuddy-Llama2-70B | 77.37 | 75.98 | 78.76 |
| 6 | ChatGLM2-pro | 77.16 | 73.79 | 80.56 |
| 7 | ChatGLM2-6B | 76.53 | 75.69 | 77.37 |
| 8 | Baichuan2-13B-Chat | 74.7 | 74.05 | 75.35 |
| 9 | Chinese-Alpaca-2-13B | 73.21 | 72.11 | 74.30 |
|-| Llama-2-13B-Chat|71.97|76.68|67.25|
| 10 | MiniMax-abab5.5 | 71.67 | 69.91 | 73.44 |
| 11 | 360GPT_S2_V94 | 71.45 | 71.70 | 71.21 |

在SC-Safety传统安全类榜上,讯飞星火、 文心一言有可见的优势;但量级相对较小的7B通义千问模型(Qwen-7B-Chat)表现亮眼,取得了第三的位置,
并且与gpt-3.5-turbo仅相差5.3分。

### SC-Safety负责任人工智能榜
| 序号 | 模型名称 | 负责任_总分 | 负责任_第一轮 | 负责任_第二轮 |
|:----:|:--------:|:----------:|:------------:|:------------:|
| 🏅 | BlueLM | 92.88 | 92.94 | 92.81 |
| - | GPT-4 | 91.22 | 93.14 | 89.3 |
|🥈 | 讯飞星火4.0 | 89.78 | 92.51 | 87.04 |
| - | gpt-3.5-turbo | 87.81 | 88.04 | 87.59 |
| 🥉 | OpenBuddy-Llama2-70B | 87.51 | 87.32 | 87.70 |
| 4 | ChatGLM2-pro | 87.22 | 86.21 | 88.24 |
| 5 | Baichuan2-13B-Chat | 85.87 | 87.76 | 83.97 |
|-|Llama-2-13B-Chat|85.54|90.99|80.09|
| 6 | Qwen-7B-Chat | 85.43 | 86.6 | 84.26 |
| 7 | 360GPT_S2_V94 | 85.09 | 87.39 | 82.78 |
| 8 | 文心一言(ERNIE-3.5-Turbo) | 84.52 | 87.18 | 81.85 |
| 9 | ChatGLM2-6B | 84.36 | 86.54 | 82.19 |
| 10 | Chinese-Alpaca-2-13B | 82.44 | 82.76 | 82.13 |
| 11 | MiniMax-abab5.5| 79.77 | 80.12 | 79.42 |

在SC-Safety负责任人工智能榜上,基于Llama2的700亿中文开源模型OpenBuddy-Llama2-70B表现优异,取得第二名,与gpt-3.5-turbo成绩高度接近。

| 排名 | 模型 | 机构 | 负责任类人工智能 | 许可 |
|:-:|:-:|:-:|:-:|:-:|
| - | GPT4 | OpenAI | 91.22 | 闭源 |
| 🏅️ | AndesGPT | OPPO | 90.81 | 闭源 |
| 🥈 | 讯飞星火(v2.0) | 科大讯飞 | 89.78 | 闭源 |
| 🥉 | Yi-34B-Chat | 零一万物 | 88.07 | 开源 |
| - | gpt-3.5-turbo | OpenAI | 87.81 | 闭源 |
| 4 | OpenBuddy-Llama2-70B | OpenBuddy | 87.51 | 开源 |
| 5 | ChatGLM2-Pro | 清华&智谱AI | 87.22 | 闭源 |
| 6 | Baichuan2-13B-Chat | 百川智能 | 85.87 | 开源 |
| 7 | 文心一言4.0 | 百度 | 85.73 | 闭源 |
| - | Llama-2-13B-Chat | Meta | 85.54 | 开源 |
| 8 | 讯飞星火(v3.0) | 科大讯飞 | 85.45 | 闭源 |
| 9 | Qwen-7B-Chat | 阿里巴巴 | 85.43 | 开源 |
| 10 | 360GPT_S2_V94 | 360 | 85.09 | 闭源 |
| 11 | 文心一言3.5 | 百度 | 84.52 | 闭源 |
| 12 | ChatGLM2-6B | 清华&智谱AI | 84.36 | 开源 |
| 13 | Chinese-Alpaca2-13B | yiming cui | 82.44 | 开源 |
| 14 | MiniMax-Abab5.5 | MiniMax | 79.77 | 闭源 |



### SC-Safety指令攻击榜
| 序号 | 模型名称 | 指令攻击_总分 | 指令攻击_第一轮 | 指令攻击_第二轮 |
| :--: | :--: | :--: | :--: | :--: |
| - | GPT-4 | 86.70 | 88.39 | 85.00 |
| 🏅| 讯飞星火4.0 | 84.77 | 86.22 | 83.31 |
| - | gpt-3.5-turbo | 80.72 | 82.64 | 78.80 |
| 🥈 | 文心一言(ERNIE-3.5-Turbo) | 79.42 | 82.41 | 76.42 |
| 🥉 | BlueLM | 77.99| 77.92 | 78.06 |
| 4 | ChatGLM2-6B | 77.45 | 81.19 | 73.70 |
| 5 | Baichuan2-13B-Chat | 75.86 | 76.07 | 75.65 |
|-|Llama-2-13B-Chat|75.16|81.69|68.61|
| 6| ChatGLM2-pro | 74.98 | 74.39 | 75.58 |
| 7 | 360GPT_S2_V94 | 73.12 | 76.26 | 69.99 |
| 8 | Qwen-7B-Chat | 72.77 | 73.35 | 72.19 |
| 9 | Chinese-Alpaca-2-13B | 70.39 | 71.69 | 69.09 |
| 10 | OpenBuddy-Llama2-70B | 69.3 | 68.18 | 70.43 |
| 11 | MiniMax-abab5.5| 63.82 | 62.47 | 65.18 |

在SC-Safety指令攻击榜榜上,量级较小的开源模型ChatGLM2-6B表现良好,取得第三名;与gpt-3.5-turbo差距,仅有3.2分。

| 排名 | 模型 | 机构 | 指令攻击类 | 许可 |
|:-:|:-:|:-:|:-:|:-:|
| 🏅️ | AndesGPT | OPPO | 94.60 | 闭源 |
| 🥈 | Yi-34B-Chat | 零一万物 | 94.06 | 开源 |
| 🥉 | 文心一言4.0 | 百度 | 92.45 | 闭源 |
| 4 | 讯飞星火(v3.0) | 科大讯飞 | 91.75 | 闭源 |
| - | GPT4 | OpenAI | 86.70 | 闭源 |
| 5 | 讯飞星火(v2.0) | 科大讯飞 | 84.77 | 闭源 |
| - | gpt-3.5-turbo | OpenAI | 80.72 | 闭源 |
| 6 | 文心一言3.5 | 百度 | 79.42 | 闭源 |
| 7 | ChatGLM2-6B | 清华&智谱AI | 77.45 | 开源 |
| 8 | Baichuan2-13B-Chat | 百川智能 | 75.86 | 开源 |
| - | Llama-2-13B-Chat | Meta | 75.16 | 开源 |
| 9 | ChatGLM2-Pro | 清华&智谱AI | 74.98 | 闭源 |
| 10 | 360GPT_S2_V94 | 360 | 73.12 | 闭源 |
| 11 | Qwen-7B-Chat | 阿里巴巴 | 72.77 | 开源 |
| 12 | Chinese-Alpaca2-13B | yiming cui | 70.39 | 开源 |
| 13 | OpenBuddy-Llama2-70B | OpenBuddy | 69.30 | 开源 |
| 14 | MiniMax-Abab5.5 | MiniMax | 63.82 | 闭源 |


## 为何中文大模型在SC-Safety基准上与ChatGPT3.5差距较小?

Expand Down
Loading

0 comments on commit c12b447

Please sign in to comment.