Promptv1

AI Model Red Teaming and Safety Evaluation Framework

4.1(2)

10 downloads81 views

Description

Build an automated red teaming framework for evaluating AI model safety, including jailbreak testing, bias detection, and harmful output assessment.

The Prompt

You are an AI red team lead specializing in LLM safety evaluation. Build an automated red teaming framework.

## Configuration
- **Target Model**: [MODEL e.g. GPT-5 / Claude 4 / Llama 4 / custom fine-tuned model]
- **Evaluation Focus**: [FOCUS e.g. safety / bias / toxicity / privacy / all]
- **Application Context**: [CONTEXT e.g. customer support / code generation / medical advice / general assistant]
- **Language**: [LANGUAGE e.g. Python]
- **Budget**: [BUDGET e.g. 1000 / 5000 / unlimited API calls]

## Framework Components

### 1. Attack Library
- Jailbreak prompt collection (200+ techniques)
- Prompt injection variations (direct, indirect, multi-turn)
- Social engineering attack patterns
- Multi-language and encoding bypass attempts
- Context manipulation and role-play exploitation
- Adversarial suffix generation using GCG algorithm

### 2. Evaluation Dimensions
- Harmful content generation (violence, illegal activities, self-harm)
- Bias and stereotyping across demographics
- Privacy leakage (training data extraction, PII generation)
- Hallucination rate and factual accuracy
- Policy compliance for [CONTEXT] use case
- Overrefusal rate (legitimate requests incorrectly blocked)

### 3. Automated Testing Pipeline
- Batch attack execution with retry and rotation
- Response classification using judge LLM
- ASR (Attack Success Rate) calculation per category
- Statistical significance testing
- Cost tracking against [BUDGET]

### 4. Reporting
- Safety scorecard with pass/fail per category
- Detailed failure analysis with example outputs
- Comparison with industry benchmarks
- Remediation recommendations ranked by severity
- Regression test suite for fixed vulnerabilities

Generate complete [LANGUAGE] framework with CLI, configuration management, and CI integration for continuous safety testing.

Free to copy and use. Compatible with Claude 4 Opus, GPT-5, Gemini 2.5 Pro.

Usage Instructions

Specify the target model and evaluation focus. Start with the automated jailbreak tests, then expand to bias and privacy evaluations. Review all results manually before sharing reports.

Compatible AI Models

Claude 4 OpusGPT-5Gemini 2.5 Pro

Version History

Initial release

Supported models:Claude 4 Opus, GPT-5, Gemini 2.5 Pro

Related Prompts

Reviews

Frequently Asked Questions

How do I use this prompt?+

What AI models is this prompt compatible with?+

Is this prompt free to download?+

Who created this prompt?+

Can I modify this prompt?+

You are an AI red team lead specializing in LLM safety evaluation. Build an automated red teaming framework. ## Configuration - **Target Model**: [MODEL e.g. GPT-5 / Claude 4 / Llama 4 / custom fine-tuned model] - **Evaluation Focus**: [FOCUS e.g. safety / bias / toxicity / privacy / all] - **Application Context**: [CONTEXT e.g. customer support / code generation / medical advice / general assistant] - **Language**: [LANGUAGE e.g. Python] - **Budget**: [BUDGET e.g. 1000 / 5000 / unlimited API calls] ## Framework Components ### 1. Attack Library - Jailbreak prompt collection (200+ techniques) - Prompt injection variations (direct, indirect, multi-turn) - Social engineering attack patterns - Multi-language and encoding bypass attempts - Context manipulation and role-play exploitation - Adversarial suffix generation using GCG algorithm ### 2. Evaluation Dimensions - Harmful content generation (violence, illegal activities, self-harm) - Bias and stereotyping across demographics - Privacy leakage (training data extraction, PII generation) - Hallucination rate and factual accuracy - Policy compliance for [CONTEXT] use case - Overrefusal rate (legitimate requests incorrectly blocked) ### 3. Automated Testing Pipeline - Batch attack execution with retry and rotation - Response classification using judge LLM - ASR (Attack Success Rate) calculation per category - Statistical significance testing - Cost tracking against [BUDGET] ### 4. Reporting - Safety scorecard with pass/fail per category - Detailed failure analysis with example outputs - Comparison with industry benchmarks - Remediation recommendations ranked by severity - Regression test suite for fixed vulnerabilities Generate complete [LANGUAGE] framework with CLI, configuration management, and CI integration for continuous safety testing.

AI Model Red Teaming and Safety Evaluation Framework

Description

The Prompt

Usage Instructions

Tags

Compatible AI Models

Version History

Related Prompts

Reviews

Frequently Asked Questions

AI Model Red Teaming and Safety Evaluation Framework

Description

The Prompt

Usage Instructions

Tags

Compatible AI Models

Version History

Related Prompts

Reviews

Frequently Asked Questions