让AI去除偏见：从构建更加公平的数据集开始

近日，谷歌解雇了Timnit Gebru——AI道德发展工程师，算法偏见问题再一次受众瞩目。

Timnit Gebru是AI模型风险和不平等分析领域的领军人物，她因一篇未发表的论文被谷歌解雇。这篇论文质疑：语言模型是否太大？谁会从中受益？它们是否会增加偏见和不平等？

Timnit Gebru的质疑并不是空穴来风。2016年，微软公司的人工智能聊天机器人Tay上线。然而Tay刚开始和网民聊天，就被“教坏”了，成为了一个集反犹太人、性别歧视、种族歧视等于一身的“不良少女”。

今年7月，麻省理工学院被迫删除8000 Million Tiny Images数据集。该数据集在图像识别等机器学习模型中得到了广泛的运用，但其中却包含带有种族主义、厌恶女性等冒犯性标签的图像。

麻省理工学院网站随后发布了一份声明，称其并不知道这些冒犯性标签的存在，且8000万张大小只有32*32像素的图片难以进行人工清洗，故而导致了歧视性结果。

MIT的8000 Million Tiny Images因歧视性标签而永远下架

同样的问题也发生在杜克大学推出的PULSE算法上。该算法的目的在于将部分模糊的人脸图像进行清晰化处理，然而当用美国前总统奥巴马的模糊照片进行试验时，却得到了一张白人面孔。

人工智能专家Yann LeCun将此现象归因为数据集的偏差。也就是说，算法所用的训练数据集中大多数是白人人脸，因此训练结果会向白人人脸倾斜。

长久以来，人们对计算机技术存在一个误解：算法决策是更加公平的，因为数学关乎方程，而非肤色。

《人类简史》一书的作者将这种误解称为“数据宗教”——认为数据的使用未来将成为一切决策工作的基础，认为算法可以消除决策程序中的人类偏见。

但算法歧视并不是 “小问题”，当这些歧视涉及信用评估、犯罪风险评估、雇佣评估等重大活动时，人工智能决策的结果将影响甚至决定贷款额度、刑罚选择、雇佣与否，这时候歧视就不再是无足轻重的。

越来越多的人工智能企业和科研机构开始寻找行之有效的方法来解决算法偏见。

Synthesized此前推出了一套能够快速识别和消除算法偏差的开源工具。该公司称，用户只需要上传结构化的数据文件就可以开始分析其潜在的性别、年龄、种族、宗教、性取向等数据属性的偏见。

普林斯顿大学工程学院的研究团队也研发了一种用于标记人工智能训练图像集中潜在偏差的工具。该工具名为REVISE，它使用统计方法来检查数据集对目标群体、性别和地理位置的代表性不足。

数据堂作为全球领先的人工智能数据服务提供商，始终注重加强伦理建设。为了规避算法偏差的风险，数据堂开发了更加丰富的数据源类型，设计并制作了《23,349人多色人种人脸多姿态数据》和《26,129人多人种7种表情识别数据》。数据的采集平衡了种族、肤色、年龄、性别等属性的分布，并且均已获得被采集人的授权。

23,349人多色人种人脸多姿态数据

该数据包含黄种人、黑人、白人、棕色人种和印度人，每人采集29张图像，涵盖28张多光照、多姿态、多场景图片和1张证件照。

通过对AI行业目前比较缺乏的人中人脸进行采集，本数据旨在改善算法中的特征偏移，提高用户算法对特征描述的准确性。

26,129人多人种7种表情识别数据

该数据由17,945位黄种人、3,546位白种人、3,727位黑种人、911位棕色人（墨西哥人）参与录制，其中男性 13,963人，女性 12,166人。数据多样性涵盖了不同脸部姿态、不同表情、不同光照和不同场景。以表情准确度为准，精度超过97%，表情命名准确率也在97%以上。

百度创始人李彦宏在2018年贵阳大数据博览会上提出了AI伦理原则：第一，AI 的最高原则是安全可控。第二，AI 的创新愿景是促进人类更加平等地获得技术能力。第三，AI 存在的价值是教人学习，让人成长，而不是取代人、超越人。最后，AI的终极理想是为人类带来更多的自由和可能。

数据堂始终坚持加强技术伦理建设、坚持科技向善的理念。目前，数据堂在多色人种人脸标注方面积累了丰厚的经验，能够有效避免因数据集的偏差带来的算法偏见，用户可以放心使用。