AI 伦理与安全 · FisherHub Docs

为什么 AI 伦理至关重要

随着 AI 系统越来越多地参与到医疗诊断、司法判决、信贷审批等关键决策中，其伦理问题不再是理论上的担忧，而是迫在眉睫的现实挑战。一个不公正的 AI 系统可能对社会造成深远影响。

算法偏见

偏见的来源

算法偏见并不始于模型，而是贯穿 AI 系统的全生命周期：

数据偏见 — 历史数据中存在的偏见被模型学习。例如，训练数据中男性工程师照片远多于女性，导致招聘模型对女性候选人产生歧视
标注偏见 — 标注者的主观判断引入偏见
特征偏见 — 选择了与敏感属性（种族、性别）相关的代理特征
部署偏见 — 模型在目标人群上的分布与训练分布不一致

真实案例

COMPAS 累犯预测系统被揭示对非洲裔美国人存在系统性偏见
某些人脸识别系统对深色肤色人群的准确率显著低于浅色肤色人群
招聘算法因历史数据原因对女性候选人降级评分

缓解方法

# 检查模型在不同群体上的表现差异
def evaluate_fairness(model, X_test, y_test, sensitive_attr):
    groups = X_test[sensitive_attr].unique()
    results = {}
    for group in groups:
        mask = X_test[sensitive_attr] == group
        y_pred = model.predict(X_test[mask])
        acc = accuracy_score(y_test[mask], y_pred)
        results[group] = acc
    
    # 计算不同群体间的最大准确率差异
    disparity = max(results.values()) - min(results.values())
    print(f"准确率差异: {disparity:.3f}")
    return results

常用缓解策略包括：数据再平衡、对抗去偏、后处理校准。

可解释性

深度学习模型的”黑箱”特性给实际部署带来了巨大挑战。当模型做出错误的医学诊断或拒绝贷款申请时，我们需要知道原因。

可解释性方法

LIME（Local Interpretable Model-agnostic Explanations） — 在预测点附近训练一个简单的可解释模型来近似复杂的模型
SHAP（SHapley Additive exPlanations） — 基于博弈论的 Shapley 值，量化每个特征对预测的贡献
Grad-CAM — 可视化 CNN 模型关注图像中的哪些区域
注意力可视化 — 展示 Transformer 模型在生成输出时关注了哪些输入位置

import shap

# 使用 SHAP 解释模型预测
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 可视化单个样本的解释
shap.force_plot(
    explainer.expected_value,
    shap_values[0],
    X_test.iloc[0]
)

隐私保护

AI 系统需要大量数据来训练，这些数据往往包含敏感的个人信息。

关键风险

模型逆向攻击 — 攻击者可以从模型的输出中推断出训练数据中的个人信息
成员推断攻击 — 判断特定的个人是否在训练集中
数据泄露 — 模型可能”记住”并输出训练数据中的敏感信息

隐私保护技术

差分隐私（Differential Privacy） — 在训练过程中添加噪声，使得模型的输出不依赖于任何单个训练样本的存在与否

# 差分隐私 SGD 示意
def dp_sgd(model, data, epsilon=1.0, batch_size=64):
    sensitivity = 1.0 / batch_size
    noise_scale = sensitivity / epsilon

    for batch in data_loader:
        loss = compute_loss(model, batch)
        loss.backward()

        # 梯度裁剪
        torch.nn.utils.clip_grad_norm_(
            model.parameters(), max_norm=1.0
        )

        # 添加高斯噪声
        for param in model.parameters():
            noise = torch.normal(0, noise_scale, 
                                 size=param.grad.shape)
            param.grad += noise

        optimizer.step()

联邦学习（Federated Learning） — 数据保存在本地设备上，只上传模型更新而不上传原始数据
同态加密 — 在加密数据上直接进行计算
数据脱敏 — 去除或模糊化个人身份信息

AI 对齐

AI 对齐（Alignment）研究如何确保 AI 系统的目标和人类的目标保持一致。

RLHF（基于人类反馈的强化学习）

RLHF 是当前最有效的对齐技术之一，被广泛应用于 ChatGPT 等大语言模型：

监督微调 — 在高质量人类演示数据上微调
奖励建模 — 训练一个奖励模型来预测人类的偏好
强化学习 — 使用 PPO 算法根据奖励模型优化策略

# RLHF 简化流程
# Step 1: 奖励模型
class RewardModel(nn.Module):
    def __init__(self, base_model):
        super().__init__()
        self.base = base_model
        self.reward_head = nn.Linear(768, 1)

    def forward(self, input_ids):
        features = self.base(input_ids)
        return self.reward_head(features)

# Step 2: PPO 优化（伪代码）
def ppo_step(policy, reward_model, batch):
    responses = policy.generate(batch["prompts"])
    rewards = reward_model(responses)
    loss = ppo_loss(policy, responses, rewards)
    loss.backward()
    optimizer.step()

对齐的核心挑战

奖励欺骗 — AI 找到人类监督漏洞去获得高奖励
目标错位 — 追求字面任务目标而忽视用户真实意图
可扩展监督 — 当任务超过人类的评估能力时如何保持对齐

负责任的 AI 实践原则

透明性 — 公开模型的能力、局限性和训练数据来源
问责制 — 明确 AI 系统的决策责任归属
隐私保护 — 最小化数据收集，实施隐私保护技术
公平性 — 定期审计模型在不同群体上的表现差异
安全性 — 防范对抗攻击和恶意使用
人文关怀 — 确保 AI 服务于人类福祉

AI 伦理不是发展的束缚，而是确保 AI 技术长期可持续发展的必要条件。