安徽省软件评测中心

前言：

生成式人工智能是一种人工智能，它根据从现有内容中学到的模式来创建新内容，包括文本、图像、音频和视频。当今的生成式人工智能模型已经使用深度学习或深度神经网络对大量数据进行了训练，它们可以进行对话、回答问题、编写故事、生成源代码以及创建任何描述的图像和视频，所有这些都基于简短的文本输入或“提示”。

生成式人工智能之所以被称为生成式，是因为人工智能创造了以前不存在的东西。这就是它与判别式人工智能的不同之处，判别式人工智能会区分不同类型的输入。换句话说，辨别人工智能试图回答这样的问题：“这张图片是兔子还是狮子的图画？” 而生成式人工智能则对诸如“给我画一张狮子和兔子坐在一起的图片”之类的提示做出反应。

在人工智能日趋普及的今天，生成式人工智能（AIGC）已经成为不可忽视的一个分支。从自动化生成新闻、编写代码到图像和音频生成，AIGC几乎无处不在。那么问题来了：如何确保这些生成的内容达到预期标准、安全可靠，同时又具有高度的可用性呢？这是一个值得细细思考的问题。

01 主要特点

1、多样性：能生成多种类型的内容，如文本、图像、音频、视频等。

2、实时性：在许多应用场景中，能实时生成内容。

3、个性化：可以根据特定的需求或输入生成定制化的内容。

4、自动化：一旦设置完成，可以大规模地自动生成内容。

5、合规性与道德问题：如何确保生成内容不仅准确，还需符合伦理和法律标准。

02 主要测试项

针对生成式人工智能，下面是一些主要的测试项：

一、功能性测试：

1、准确性检验：核对生成内容中的事实和数据是否准确。

2、语义一致性：检查生成的内容在逻辑和主题上是否一致。

3、样式符合性：验证生成内容是否符合预设的风格或规范。

4、异常输入处理：测试系统对于非标准或异常输入的处理能力。

5、内容多样性：评估系统是否能够生成不同风格和主题的内容。

二、性能测试：

1、响应时间：测试生成内容所需的实际时间。

2、系统负载能力：评估在高负载情况下系统的稳定性。

3、资源使用情况：如CPU、内存和磁盘使用情况。

4、并发性能：评估多个请求同时发生时的系统性能。

5、错误率和失败率：测量系统错误和失败的频率。

三、安全性与合规性测试：

1、敏感内容过滤：检查系统是否能有效过滤不当或敏感信息。

2、数据安全和隐私：验证个人数据的存储和处理是否符合法律标准，如GDPR。

3、审核和记录：检查是否有适当的审计跟踪机制。

4、授权和认证：确保只有授权用户可以访问或操作系统。

5、合规性检查：检查生成的内容是否符合相关行业和地区的法律和规定。

四、可用性测试：

1、界面和交互：测试用户界面的友好性和易用性。

2、文档完整性：检查用户手册、API文档等是否完整、易懂。

3、错误消息清晰性：测试系统生成的错误消息是否容易理解。

4、可访问性：确保系统对于有特殊需求用户（如视障用户）也是可用的。

5、系统反馈机制：检查系统是否能提供及时和有用的反馈。

03 注意事项

1、多角度评估：包括自动化测试和人工评审。

2、持续监控：测试不应只在开发阶段进行，生产环境也需持续监控。

3、道德和社会责任：考虑生成内容可能带来的社会和道德影响。

4、全面性与细致性：测试需要全面但也要注重细节。

5、测试周期：定期更新和执行测试用例，以应对快速发展的技术和需求。

延伸阅读

安徽省软件评测中心于2024年加入“生成式人工智能检验检测创新联合体”，旨在依托自身在数字经济领域及信息化检验检测领域多年深耕精进的技术手段与项目经验，与其他联合体协同创新与跨区域合作，为长三角高端产业和技术创新的引领发展提供重要支撑，提升人工智能系统的安全性，减少各类风险。

后续，中心将陆续开展与生成式人工智能相关的检测业务，敬请期待！

聊聊生成式人工智能检测的那些事儿