数据伦理
FastAI
2026-01-06 2515字

Lesson 03: 数据伦理 (Data Ethics)

本章主要讨论了机器学习模型可能带来的负面社会影响,以及作为开发者应该如何识别和应对这些问题。这不仅仅是哲学探讨,更关乎产品的实际质量和安全性。

1. 为什么数据伦理很重要?

深度学习是一个强大的工具,但如果使用不当(无论是无意的 Bug 还是有意的滥用),都会产生严重的后果。

2. 核心概念与案例分析

通过以下四个主要案例,展示了数据伦理中常见的问题:

A. 追索权与错误的算法 (Recourse & Bugs)

B. 反馈循环 (Feedback Loops)

C. 偏见 (Bias)

D. 虚假信息 (Disinformation)

3. 深入理解偏见 (Understanding Bias) - 关键知识点

偏见(Bias)在数据伦理中不仅指统计学上的偏差,更指社会偏见。MIT 的研究者归纳了多种偏见类型:

偏见类型 解释 例子
历史偏见 (Historical Bias) 数据反映了现实世界中已存在的偏见。即使数据采样完美,如果世界本身是不公平的,数据也会包含这种不公平。 医生对不同种族患者的治疗建议不同;历史上某种族被逮捕率更高。
表示偏见 (Representation Bias) 训练数据未能涵盖所有群体,主要集中在某些特定群体。 ImageNet 数据集主要包含西方国家的图片;面部识别系统训练数据中缺乏深色皮肤样本。
测量偏见 (Measurement Bias) 我们测量的数据并不是我们真正想要预测的目标,而是一个有偏差的代理变量。 预测“中风”风险时,使用的是“因中风症状去看医生”的数据。这忽略了那些因为贫穷或歧视而没有去看医生的人。
聚合偏见 (Aggregation Bias) 用单一模型处理所有人群,忽略了不同亚群体的特性。 糖尿病治疗方案在不同种族有不同效果,如果模型不区分种族,可能导致部分人群治疗不当。

4. 难以理解的点与常见误区

5. 如何应对?(Actionable Steps)

A. 项目分析清单 (Project Integration Checklist)

在模型开发过程中,不仅仅要问技术问题,不仅要问“能不能做”,还要问“该不该做”:

B. 团队多样性 (Diversity)

C. 政策与监管 (Policy)


附:模型设计时的技术考量清单

(这也是你在构建产品时需要时刻反问自己的问题)