让AI去除偏见:从构建更加公平的数据集开始

颈椎病专家
• 阅读 1154

近日,谷歌解雇了Timnit Gebru——AI道德发展工程师,算法偏见问题再一次受众瞩目。

Timnit Gebru是AI模型风险和不平等分析领域的领军人物,她因一篇未发表的论文被谷歌解雇。这篇论文质疑:语言模型是否太大?谁会从中受益?它们是否会增加偏见和不平等?

Timnit Gebru的质疑并不是空穴来风。2016年,微软公司的人工智能聊天机器人Tay上线。然而Tay刚开始和网民聊天,就被“教坏”了,成为了一个集反犹太人、性别歧视、种族歧视等于一身的“不良少女”。

今年7月,麻省理工学院被迫删除8000 Million Tiny Images数据集。该数据集在图像识别等机器学习模型中得到了广泛的运用,但其中却包含带有种族主义、厌恶女性等冒犯性标签的图像。

麻省理工学院网站随后发布了一份声明,称其并不知道这些冒犯性标签的存在,且8000万张大小只有32*32像素的图片难以进行人工清洗,故而导致了歧视性结果。

MIT的8000 Million Tiny Images因歧视性标签而永远下架

同样的问题也发生在杜克大学推出的PULSE算法上。该算法的目的在于将部分模糊的人脸图像进行清晰化处理,然而当用美国前总统奥巴马的模糊照片进行试验时,却得到了一张白人面孔。

人工智能专家Yann LeCun将此现象归因为数据集的偏差。也就是说,算法所用的训练数据集中大多数是白人人脸,因此训练结果会向白人人脸倾斜。

长久以来,人们对计算机技术存在一个误解:算法决策是更加公平的,因为数学关乎方程,而非肤色。

《人类简史》一书的作者将这种误解称为“数据宗教”——认为数据的使用未来将成为一切决策工作的基础,认为算法可以消除决策程序中的人类偏见。

但算法歧视并不是 “小问题”,当这些歧视涉及信用评估、犯罪风险评估、雇佣评估等重大活动时,人工智能决策的结果将影响甚至决定贷款额度、刑罚选择、雇佣与否,这时候歧视就不再是无足轻重的。

越来越多的人工智能企业和科研机构开始寻找行之有效的方法来解决算法偏见。

Synthesized此前推出了一套能够快速识别和消除算法偏差的开源工具。该公司称,用户只需要上传结构化的数据文件就可以开始分析其潜在的性别、年龄、种族、宗教、性取向等数据属性的偏见。

普林斯顿大学工程学院的研究团队也研发了一种用于标记人工智能训练图像集中潜在偏差的工具。该工具名为REVISE,它使用统计方法来检查数据集对目标群体、性别和地理位置的代表性不足。

数据堂作为全球领先的人工智能数据服务提供商,始终注重加强伦理建设。为了规避算法偏差的风险,数据堂开发了更加丰富的数据源类型,设计并制作了《23,349人多色人种人脸多姿态数据》和《26,129人多人种7种表情识别数据》。数据的采集平衡了种族、肤色、年龄、性别等属性的分布,并且均已获得被采集人的授权。

23,349人多色人种人脸多姿态数据

该数据包含黄种人、黑人、白人、棕色人种和印度人,每人采集29张图像,涵盖28张多光照、多姿态、多场景图片和1张证件照。

通过对AI行业目前比较缺乏的人中人脸进行采集,本数据旨在改善算法中的特征偏移,提高用户算法对特征描述的准确性。

26,129人多人种7种表情识别数据

该数据由17,945位黄种人、3,546位白种人、3,727位黑种人、911位棕色人(墨西哥人)参与录制,其中男性 13,963人,女性 12,166人。数据多样性涵盖了不同脸部姿态、不同表情、不同光照和不同场景。以表情准确度为准,精度超过97%,表情命名准确率也在97%以上。

百度创始人李彦宏在2018年贵阳大数据博览会上提出了AI伦理原则:第一,AI 的最高原则是安全可控。第二,AI 的创新愿景是促进人类更加平等地获得技术能力。第三,AI 存在的价值是教人学习,让人成长,而不是取代人、超越人。最后,AI的终极理想是为人类带来更多的自由和可能。

数据堂始终坚持加强技术伦理建设、坚持科技向善的理念。目前,数据堂在多色人种人脸标注方面积累了丰厚的经验,能够有效避免因数据集的偏差带来的算法偏见,用户可以放心使用。

点赞
收藏
评论区
推荐文章
数据堂 数据堂
2年前
大模型数据集:探索新维度,引领AI变革
一、引言在人工智能(AI)的快速发展中,大型预训练模型如GPT、BERT等已经取得了令人瞩目的成果。这些大模型的背后,离不开规模庞大、质量优良的数据集的支撑。本文将从不同的角度来探讨大模型数据集的新维度,以及它们如何引领AI的变革。二、大模型数据集的新维度
数据堂 数据堂
2年前
大模型数据集:力量的源泉,进步的阶梯
一、引言在人工智能的繁荣发展中,大模型数据集的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据集的魅力和潜力。二、大模型数据集:宏大的舞台大模型数据集如广袤的舞台,为AI技术的展现提供了广阔的空间。
高耸入云 高耸入云
2年前
[OJAC近屿智能]2024增量市场——AIGC,普通人如何入局?
📖更多AI资讯请👉🏾AI是否真的会取代你的工作,或者是掌握AI技能的人将会取代你?随着2023年AI技术的爆炸式增长,许多人开始质疑,如果不掌握如ChatGPT、Midjourney或StableDiffusion等AI工具,是否就意味着被时代淘汰?
请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集
作者:京东零售2024年,京东零售技术团队在AI领域发表多篇CCFA类论文,包含CVPR、SIGIR、WWW、AAAI、IJCAI等业界顶会。下面为大家简要介绍被录用的10篇论文,涵盖目标检测、多场景学习、排序模型、意图识别、创意优选、优化大模型幻觉问题等
智能体的“道德底线”该由谁来定?
“AI智能体正在重塑人类生活:从医疗诊断到金融风控,从智能家居到自动驾驶,技术的触角已深入社会毛细血管。然而,当AI的决策能力逼近甚至超越人类时,“道德底线”的界定成为全球热议的焦点——数据隐私泄露、算法偏见歧视、责任归属模糊……这些争议背后,企业该如何平