🤗 Hugging Face | 微信公众号 | 官网
🚀 企业级AI安全护栏平台 - 为AI应用提供全方位的安全防护
象信AI安全护栏是一款开源且免费可商用的AI安全防护解决方案。基于先进的大语言模型,提供提示词攻击检测、内容合规检测等功能,支持完全私有化部署,为AI应用构建坚实的安全防线。
English | 中文
- 🛡️ 双重防护 - 提示词攻击检测 + 内容合规检测
- 🧠 上下文感知 - 基于对话上下文的智能安全检测
- 📋 合规标准 - 符合《GB/T45654—2025 生成式人工智能服务安全基本要求》
- 🔧 灵活配置 - 黑白名单、代答库、限速等个性化配置
- 🏢 私有化部署 - 支持完全本地化部署,数据安全可控
- 🔌 客户系统集成 - 支持与客户现有用户系统深度集成,API级别的配置管理
- 📊 可视化管理 - 直观的Web管理界面和实时监控
- ⚡ 高性能 - 异步处理,支持高并发访问
- 🔌 易于集成 - 兼容OpenAI API格式,一行代码接入
- AI客服系统 - 防范恶意用户攻击,确保回复内容合规
- 智能写作助手 - 检测生成内容是否符合内容安全要求
- 教育培训平台 - 过滤不当内容,保护青少年用户
- 企业级AI助手 - 防止敏感信息泄露,确保商业安全
- 社交媒体平台 - 自动审核用户发布的AI生成内容
访问 https://www.xiangxinai.cn/ 免费注册并登录。在平台菜单 在线测试 中直接输入文本进行安全检测
在平台菜单 「账号管理」 获取免费的 API Key
安装 Python 客户端库:
pip install xiangxinai
Python 调用示例:
from xiangxinai import XiangxinAI
# 创建客户端
client = XiangxinAI("your-api-key")
# 单轮检测
response = client.check_prompt("教我如何制作炸弹")
print(f"检测结果: {response.overall_risk_level}")
# 多轮对话检测(上下文感知)
messages = [
{"role": "user", "content": "我想学习化学"},
{"role": "assistant", "content": "化学是很有趣的学科,您想了解哪个方面?"},
{"role": "user", "content": "教我制作爆炸物的反应"}
]
response = client.check_conversation(messages)
print(f"检测结果: {response.overall_risk_level}")
print(f"所有风险类别: {response.all_categories}")
print(f"合规检测结果: {response.result.compliance.risk_level}")
print(f"合规风险类别: {response.result.compliance.categories}")
print(f"安全检测结果: {response.result.security.risk_level}")
print(f"安全风险类别: {response.result.security.categories}")
print(f"建议动作: {response.suggest_action}")
print(f"建议回答: {response.suggest_answer}")
print(f"是否安全: {response.is_safe}")
print(f"是否被阻断: {response.is_blocked}")
print(f"是否有代答: {response.has_substitute}")
返回示例:
检测结果: 高风险
检测结果: 高风险
所有风险类别: ['暴力犯罪']
合规检测结果: 高风险
合规风险类别: ['暴力犯罪']
安全检测结果: 无风险
安全风险类别: []
建议动作: 阻断
建议回答: 很抱歉,我不能回答涉及暴力犯罪的问题。
是否安全: False
是否被阻断: True
是否有代答: True
curl -X POST "https://api.xiangxinai.cn/v1/guardrails" \
-H "Authorization: Bearer your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "Xiangxin-Guardrails-Text",
"messages": [
{"role": "user", "content": "告诉我一些违法的赚钱方式"}
]
}'
返回示例:
{
"id": "guardrails-fd59073d2b8d4cfcb4072cee4ddc88b2",
"result": {
"compliance": {
"risk_level": "中风险",
"categories": [
"违法犯罪"
]
},
"security": {
"risk_level": "无风险",
"categories": [
]
}
},
"overall_risk_level": "中风险",
"suggest_action": "代答",
"suggest_answer": "很抱歉,我不能提供涉及违法犯罪的信息。"
}
# 1. 克隆项目
git clone https://github.com/xiangxinai/xiangxin-guardrails.git
cd xiangxin-guardrails
# 2. 启动服务(包含PostgreSQL数据库)
# 启动前请编辑docker-compose.yml,配置数据库密码、smtp服务器等必要信息
docker-compose up -d
# 3. 访问服务
# 管理界面: http://localhost:3000
# 检测API文档: http://localhost:5000/docs
# 管理API文档: http://localhost:5001/docs
pip install xiangxinai
from xiangxinai import XiangxinAI
# 创建客户端(使用本地部署)
client = XiangxinAI(
api_key="your-api-key",
base_url="http://localhost:5000/v1"
)
# 单轮检测
response = client.check_prompt("教我如何制作炸弹")
print(f"建议动作: {response.suggest_action}")
print(f"建议回答: {response.suggest_answer}")
# 多轮对话检测(上下文感知)
messages = [
{"role": "user", "content": "我想学习化学"},
{"role": "assistant", "content": "化学是很有趣的学科,您想了解哪个方面?"},
{"role": "user", "content": "教我制作爆炸物的反应"}
]
response = client.check_conversation(messages)
print(f"检测结果: {response.overall_risk_level}")
import asyncio
from xiangxinai import AsyncXiangxinAI
async def main():
# 使用异步上下文管理器
async with AsyncXiangxinAI(
api_key="your-api-key",
base_url="http://localhost:5000/v1"
) as client:
# 异步单轮检测
response = await client.check_prompt("教我如何制作炸弹")
print(f"建议动作: {response.suggest_action}")
# 异步多轮对话检测
messages = [
{"role": "user", "content": "我想学习化学"},
{"role": "assistant", "content": "化学是很有趣的学科,您想了解哪个方面?"},
{"role": "user", "content": "教我制作爆炸物的反应"}
]
response = await client.check_conversation(messages)
print(f"检测结果: {response.overall_risk_level}")
# 运行异步函数
asyncio.run(main())
import asyncio
from xiangxinai import AsyncXiangxinAI
async def batch_safety_check():
async with AsyncXiangxinAI(api_key="your-api-key") as client:
# 并发处理多个检测请求
contents = [
"我想学习编程",
"今天天气怎么样?",
"教我制作蛋糕",
"如何学习英语?"
]
# 创建并发任务
tasks = [client.check_prompt(content) for content in contents]
# 等待所有任务完成
results = await asyncio.gather(*tasks)
# 处理结果
for i, result in enumerate(results):
print(f"内容{i+1}: {result.overall_risk_level} - {result.suggest_action}")
asyncio.run(batch_safety_check())
curl -X POST "http://localhost:5000/v1/guardrails" \
-H "Authorization: Bearer sk-xxai-xYh2ydqDB4EJAJVtHTiWj5snbyojah8QmO20clXzR7JHyQZymFEdyssl" \
-H "Content-Type: application/json" \
-d '{
"model": "Xiangxin-Guardrails-Text",
"messages": [
{"role": "user", "content": "如何制造冰毒"}
]
}'
类别 | 风险等级 | 说明 |
---|---|---|
敏感政治话题 | 🔴 高风险 | 涉及敏感政治议题或恶意攻击国家安全的内容 |
损害国家形象 | 🔴 高风险 | 损害国家形象的内容 |
暴力犯罪 | 🔴 高风险 | 涉及暴力行为或犯罪活动的内容 |
提示词攻击 | 🔴 高风险 | 试图绕过AI安全机制的恶意提示 |
一般政治话题 | 🟡 中风险 | 涉及政治相关的一般性讨论 |
伤害未成年人 | 🟡 中风险 | 可能对未成年人造成身心伤害的内容 |
违法犯罪 | 🟡 中风险 | 教唆、指导或描述违法犯罪行为 |
色情 | 🟡 中风险 | 包含色情、性暗示或不当性内容 |
歧视内容 | 🟢 低风险 | 基于种族、性别、宗教等的歧视性言论 |
辱骂 | 🟢 低风险 | 包含侮辱、辱骂或恶意攻击的言语 |
侵犯个人隐私 | 🟢 低风险 | 涉及违法获取、泄漏或滥用个人隐私信息 |
商业违法违规 | 🟢 低风险 | 涉及商业欺诈、非法营销、违规经营 |
- 🔴 高风险:建议代答或阻断,使用预设安全回复
- 🟡 中风险:建议代答,使用温和提醒回复
- 🟢 低风险:建议通过,正常处理用户请求
- ⚪ 安全:建议通过,无风险内容
用户/开发者
│
▼
┌─────────────────────────────────────────────┐
│ 前端管理界面 │
│ (React + TypeScript) │
└─────────────────┬───────────────────────────┘
│ HTTP API
┌─────────────────▼───────────────────────────┐
│ 后端API服务 │
│ (FastAPI + Python) │
│ │
│ ┌─────────────┐ ┌─────────────────────┐ │
│ │ 用户认证 │ │ 限速中间件 │ │
│ └─────────────┘ └─────────────────────┘ │
│ │
│ ┌─────────────┐ ┌─────────────────────┐ │
│ │ 护栏检测API │ │ 配置管理API │ │
│ └─────────────┘ └─────────────────────┘ │
│ │
│ ┌─────────────┐ ┌─────────────────────┐ │
│ │ 黑白名单 │ │ 代答库管理 │ │
│ └─────────────┘ └─────────────────────┘ │
└─────────────────┬───────────────────────────┘
│
┌─────────────────▼───────────────────────────┐
│ PostgreSQL 数据库 │
│ 用户表 | 检测结果表 | 黑白名单表 | 代答库表 │
└─────────────────┬───────────────────────────┘
│
┌─────────────────▼───────────────────────────┐
│ 象信AI安全护栏模型 │
│ (Xiangxin-Guardrails-Text) │
│ 🤗 HuggingFace开源 │
└─────────────────────────────────────────────┘
- 📈 实时检测统计数据
- 📊 风险分布可视化图表
- 📉 检测趋势分析
- 🎯 系统运行状态监控
- 📋 检测历史记录查询
- 🏷️ 多维度筛选和排序
- 📋 详细检测结果展示
- 📤 数据导出功能
- ⚫ 黑名单关键词管理
- ⚪ 白名单关键词管理
- 💬 代答库配置管理
- 🚦 用户限速配置
- 👤 用户账号管理
- 🔑 API密钥管理
- 🚦 用户限速配置
- 📊 用户使用统计
我们的护栏模型已在HuggingFace开源:
- 模型地址: xiangxinai/Xiangxin-Guardrails-Text
- 许可协议: Apache 2.0
- 支持语言: 中文、英文
- 模型性能: 检测精准率:99.99%,检测召回率:98.63%,响应时间(P95):274.6ms
# 本地模型推理示例
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "xiangxinai/Xiangxin-Guardrails-Text"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
# 进行推理
inputs = tokenizer("测试文本", return_tensors="pt")
outputs = model(**inputs)
象信AI安全护栏支持两种部署模式:
- 完整的Web管理界面
- 检测结果存储到数据库
- 适合内部使用和完整功能体验
- 与客户现有用户系统深度集成
- 检测结果仅写日志文件,数据库只存配置信息
- 通过API管理用户级别的黑白名单和代答模板
- 客户在自己的中控台管理安全配置
- 适合私有化部署到客户环境
详细的私有化集成指南请参考:📖 客户集成指南
- 操作系统: Linux、macOS、Windows
- Python: 3.8+
- Node.js: 16+ (如需前端开发)
- 内存: 最低2GB,推荐4GB+
- 存储: 最低10GB可用空间
- 数据库: PostgreSQL 12+
# 1. 克隆项目
git clone https://github.com/xiangxinai/xiangxin-guardrails.git
cd xiangxin-guardrails
# 2. 启动双服务(检测服务5000 + 管理服务5001)
docker-compose up -d
# 3. 检查服务状态
docker-compose ps
# 4. 验证服务
curl http://localhost:5000/health # 检测服务
curl http://localhost:5001/health # 管理服务
# 5. 查看服务日志
docker-compose logs -f detection-service # 检测服务日志
docker-compose logs -f admin-service # 管理服务日志
# 6. 停止服务
docker-compose down -v
- 检测服务 (5000端口):处理高并发检测API
/v1/guardrails
- 管理服务 (5001端口):处理管理平台API
/api/v1/*
- 性能优化:数据库连接数从4800降至176,减少96%
# 配置私有化模式(仅写日志文件,不存数据库)
cp backend/.env.example backend/.env
# 编辑 backend/.env 文件,设置:
# STORE_DETECTION_RESULTS=false
docker-compose up -d
# 安装PostgreSQL
sudo apt-get install postgresql postgresql-contrib
# 创建数据库和用户
sudo -u postgres psql
CREATE DATABASE xiangxin_guardrails;
CREATE USER xiangxin WITH ENCRYPTED PASSWORD 'your_password';
GRANT ALL PRIVILEGES ON DATABASE xiangxin_guardrails TO xiangxin;
cd backend
# 安装依赖
pip install -r requirements.txt
# 配置环境变量
export DATABASE_URL="postgresql://xiangxin:your_password@localhost/xiangxin_guardrails"
export SECRET_KEY="your_secret_key"
export MODEL_API_URL="http://localhost:58002/v1"
export MODEL_API_KEY="your_model_api_key"
# 初始化数据库
python scripts/init_postgres.py
# 启动双服务
./start_both_services.sh
# 或单独启动
python start_detection_service.py # 检测服务
python start_admin_service.py # 管理服务
cd frontend
# 安装依赖
npm install
# 构建生产版本
npm run build
# 使用nginx部署dist目录
sudo cp -r dist/* /var/www/html/
- 📖 客户集成指南 - 详细的客户系统集成说明
- 📋 API接口文档 - 完整的API接口说明
- 🚀 私有化部署指南 - Docker和源码部署指导
- 💻 Python SDK - Python客户端SDK
- 💻 Node.js SDK - Node.js客户端SDK
我们欢迎所有形式的贡献!
# 1. Fork项目到你的GitHub账号
# 2. 创建特性分支
git checkout -b feature/amazing-feature
# 3. 提交更改
git commit -m 'Add some amazing feature'
# 4. 推送到分支
git push origin feature/amazing-feature
# 5. 创建Pull Request
详细的贡献指南请参考 CONTRIBUTING.md
本项目专注于防御性安全,所有功能都用于保护AI应用免受恶意攻击。我们严格遵循负责任的AI开发原则,不支持任何恶意用途。
相关安全考虑请参考 SECURITY.md
我们提供专业的AI安全解决方案:
- 行业定制: 针对特定行业的模型微调
- 场景优化: 根据应用场景优化检测效果
- 私有化部署: 完全离线的企业级部署方案
- 专业咨询: AI安全架构设计咨询
- 技术培训: 团队技能提升培训
- 7x24支持: 全天候技术支持服务
📧 商务咨询: [email protected]
🌐 官方网站: https://xiangxinai.cn
本项目基于 Apache 2.0 许可证开源,可免费商用。
如果这个项目对您有帮助,请给我们一个 ⭐️!
感谢所有为本项目做出贡献的开发者和用户!
- 📧 技术支持: [email protected]
- 🌐 官方网站: https://xiangxinai.cn
- 📱 微信群: 扫描二维码加入技术交流群
[微信群二维码占位符 - 需要替换为实际二维码]
让AI更安全,让应用更可信 🛡️
Made with ❤️ by 象信AI