当前位置:首页社会与法制

再运用学到的东西给新的数据分类

发布日期:2020-07-24 02:10 点击次数:

1966年夏天,麻省理工学院计算机系教授、日后无数“AI之父”之一的马文·明斯基(Marvin Minsky)在波士顿开启了一个名为“夏日远景”(“Summer Vision Project”)的暑期项目。彼时,明斯基未满四十,雄心勃勃,刚和同事一起创立了日后声名远播的麻省理工AI实验室。明斯基雇了个本科生,问他能否用暑假时间将一台照相机和计算机连接起来,然后看看能否让计算机“描述”出照相机里的照片。

多年以后,这个无心插柳的暑期项目被认为是现代计算机视觉 (Computer Vision) 的某个起点。作为当今AI领域里炙手可热的一个分支,计算机视觉经历了狂飙突进的一个时代,现在它几乎无处不在——小区里的摄像头、麦当劳里的刷脸机、无人车的监控系统、医院里X光片的读片设备……在这背后是汗牛充栋的CV项目、算法、图片及其标注的数据集。

标注过的数据集对算法的发展至关重要。现代AI技术的一个重要分支就建立在对标注过的数据的学习之上,亦即所谓的“监督式学习”(supervised learning)——你必须持之以恒地告诉算法“这个是馒头,那个是包子”,这样算法才会对下一个出现的图像进行定义:这个是包子没跑了!

计算机视觉里最有名的数据集叫做ImageNet,是华人女科学家李飞飞 (Fei-fei Li) 在普林斯顿大学担任助理教授时发起的一个研究项目。ImageNet的想法很简单:从网络上大量抓取公开图片,以一个同为普林斯顿研究项目的词汇分类数据库(WordNet)为基础,雇佣亚马逊众包平台 (Amazon Mechanic Turk) 上的工人,让他们以词库为依据,人工分类和标注图片。

起始于1996年,ImageNet以惊人的速度成长为AI界的庞然巨兽:在两万多个类别之下,是将近1500万张各式各样被标注过的图片。依据WordNet里的词汇分类,来自167 个国家、将近五万名工人在众包平台上参与了数据的标注。现在,在ImageNet上打开“苹果”这个类别,你可以找到苹果树,苹果泥,老农民,苹果蛆,苹果锈,苹果酒……和更多的与苹果有关的图片。

过去十年,这个巨大的图像词典一直是计算机视觉领域的“葵花宝典”,被认为是基准测试的黄金数据集。因为里面不仅有海量的“自然”图片,并且每张图片都已经被“客观”且“科学”地归类和标注过了。从2010到2017这七年,健康之路,农民工工资,每一年,全世界最有名的计算机视觉实验室都会以这个数据集的某一个子集为基础举办大赛,参赛的科学家们用某个标注过的数据集训练算法,找出最佳设计,看看谁能以最高的准确率对新的数据集进行分类和检测。

近十年来,这一切都只是计算机视觉领域里的一个再正常不过的科学竞赛。直到2019年的某一天,社会学家凯特·克劳福德(Kate Crawford)和艺术家特雷弗·格伦(Trevor Paglen)一次偶然“僭越”,打开了ImageNet里一个名为“人类” 的数据集。他们惊讶地发现在这个从未用来公开比赛的子数据集里,隐藏着各种各样稀奇古怪的标签和匪夷所思的分类。比如,一个喝啤酒的男人被标注为“酗酒”;一个穿着比基尼的女人被标注为“荡妇”;一个吃三明治的男人被标注为“自私”;一个躺在飞机座椅上的孕妇被标注为“势利者”,一个男孩则被标注为“失败者”。

克劳福德和格伦决定公开“人类”数据集。他们做了一个简单的互动网页,叫做ImageNet Roulette ,允许网民们上传自己的照片,使用ImageNet的数据训练算法,再用算法去标注这些新上传的照片。网民们很快发现,他们上传的自拍被打上了各种标签,不仅缺乏情境和无厘头,还充满偏见和歧视。比如克劳福德和格伦的合影,女人克劳福德被打上了“新闻广播员”的标签,男人格伦则被标注为“微观经济学专家”。这种被ImageNet标注过的自拍上传到Twitter,很快掀起了一场网络风暴,其中赤裸裸的偏见和歧视迫使ImageNet不得不关闭了这个叫做“人类”的数据集。

克劳福德和格伦认为,他们在“人类”数据集里看到的不仅仅是标注和归类过的“自然”图片,而是一系列的“假设、政治和世界观”。为什么同性恋者的身体并不与男性身体和女性身体并列,而是被标注为Hermaphrodite (阴阳人) ,与switch hitter (左右开工的击球手) 归为同类?为什么在ImageNet的数据集里会有一个类别,包含了很多乍看并无联系的女性图片,然后都被标注为 “ball-busters,” 其定义是“摧毁男人自信的苛刻女性”?

“分类是人类行为”,在科技社会学经典《分类》(Sorting Things Out)的开篇,杰弗里·鲍克(Geoffrey C. Bowker)和苏珊·李·斯塔尔(Susan Leigh Star)这样写道。我们可以在更早的法国哲学家福柯 (Michel Foucault) 的《知识考古学》那里找到相似的分析脉络。在这本书里,鲍克和斯塔尔以世卫组织的“国际疾病分类”为例,通过细致的人类学梳理,向人们展示了这一国际通用的疾病分类手册是怎样在庞杂的机构运作中几乎每隔十年就修订一番的,又是如何将一系列“疾病”和“健康”之间模糊不清、相互交缠的界限客观化和正常化的。这种修订并不会“趋向共识”,而是处于不断的变动中。在鲍克和斯塔尔看来,农村,“分类”涉及政治、经济、文化的方方面面,是各方权力明争暗斗的产物;分类的潜规则永远在变,分类的政治没有终点。
相关文章
说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!

返回首页- 环保新闻- 关注健康- 村官论坛- 名村名镇- 农村文化- 社会与法制- 政策解读- 种植技术- 农业资讯- 新农评论- 养殖技术- 国内资讯-

中华百姓网版权及免责声明:

本站所刊载信息,不代表《中华百姓网》网站观点,中华百姓网不承担任何法律责任,刊用本网站稿件,务经书面授权,

未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责,如因作品内容、版权和其它问题需要同本网联系。

客服邮箱:chanabaixing@foxmail.com 地址: 电话:网站地图

公安备案号:京公网安备 11030702000318-9号 中国互联网视听节目服务自律公约 | 12321垃圾信息举报中心 | 中国新闻网站联盟 | 新闻信息服务许可 证 |互联网出版许可证