新技术,据传问题:NLP领域中没有被听到的「声音」
发布时间:2023-02-27
NLP仿真的另一个主要相关联是Google News,以外原始的word2vec线性。从近现代上看,财经总编室一直由群体歧视男性主导,这种方式也在即使如此十年中所并未或许转变。仅仅上,在即使如此几十年,这种区别更为加极大,这假定当仿真常用原来的财经数据库集时,这种被代表者的难题只但会更为加更为糟。
此外,网际网路Gmail个人主义于年轻、极高收入和群体歧视。GPT仿真的相关联之一CommonCrawl常用了Reddit的数据库,Reddit有67%的Gmail是男性,70%是群体歧视。Bender等人(2021)指显现出,GPT-2这样的仿真有包容/排斥法则,也许但会移除代表者特定活动中心的第二语言(例如通过意味著潜在的冒人犯性用法,就但会将代表者LGBTQ族群的第二语言意味著全都)。
这两项NLP中所的许多先进设备稳定性都必需大型数据库集, 这种对数据库如饥似渴的劲头不太可能盖过了人们对数据库中所所代表者的本质看法的瞩目。然而,从下面的确凿证据可以可信地看显现出,有些数据库源并不是“中所立的”,反而转换成了那些近现代上、在社但会上抢占占多数的人的人声。
而且,即便是或许的数据库源也不能对等地常用仿真开发。绝大多数记号和非记号数据库仅以7种第二语言长期存在,约占所有常用者的1/3。这使得世上上其他2/3的国家所不能大幅提极高这种发挥。为了弥补这一幅度,NLP数据库分析执法人员探索了在极高森林资源第二语言中所预基础训练的BERT仿真和低森林资源第二语言修正(通常称为Multi-BERT),并常用“适配器”跨第二语言迁移修习。但是通常来说道,这些跨第二语言法则的发挥要比单第二语言法则差。
这些仿真难以跨第二语言泛化,这一确实也许对准一个极大的难题。乔希等人(2021年)这样表述:“NLP管理系统放弃基础训练和测试的少数几种第二语言通常是方面的……这但会导致呈现显现出一种类型学的调谐室。因此,我们的NLP管理系统从未看到过绝大多数类型多样化的第二语言现象。”
The State and Fate of Linguistic Diversity and Inclusion in the NLP World
图注:第二语言自然环境和认同感在自然第二语言处理更为再进一步应该用的从根本上和命运
图注:第二语言自然环境和认同感在自然第二语言处理更为再进一步应该用的从根本上和命运
如上所述,这些管理系统极为擅于挖掘第二语言中所的来龙去脉。因此,它们很也许是在为了让都由特定的第二语言方式也,所以当这些管理系统应该常用森林资源较低的第二语言时,稳定性但会崩溃。
2 匹配的是垃圾场,反向的也是垃圾场
在上文中所,我描述了近代NLP数据库集和仿真是如何为都由特定的多角度「代言」的,这些多角度不一定是群体歧视、男性和英语常用者的多角度。但是,每一个数据库集都必须从它的相关联入手,应该对数据库代表者的均匀衡难题,比如ImageNet 在2019年的更为新中所移除了60万张三维。这种缩减不某种程度是为了统计的稳健性,也是对那些个人主义于对异性恋和有色人种常用性取向歧视或反犹太字句的仿真的一种回应该。
图注:一位TwitterGmail在基于ImageNet的仿真所聚合的三维字句中所注意到性取向
无论我上传什么样的照片,常用占有2500个字句的AI来开展分类法的ImageNet Roulette,都但会把我却是是「Black」(加拿大黑人)、「Black African」(族裔加拿大黑人)、「Negroid」(黑色人种的)、「Negro」(加拿大黑人)。
其它也许显现显现出的字句还有「Doctor」(眼科医生)、「Parent」(叔叔)、「Handsome」(帅气的)。
所有的仿真都但会显现出错,所以在最终确实常用一个仿真时,总是要权衡安全性和获利。为了便于对这种安全性生产成本开展评估,我们可以常用除此以外的都用稳定性指标,来给予「正确」的发生高频率,比如生存率。但是我们极为缺乏了解的是, 这些正确是如何产于的?如果一个仿真在一个族群中所的发挥不如另一个族群,这假定该仿真也许但会让一个族群正因如此,而自我牺牲另一个族群的国家所主权。
我把这种不对等的安全性获利分派称为「性取向」。统计不确定性被概念为“结果的平方根与被估计的只不过潜在定量常量密切关系的区别”。机器修习中所长期存在许多类型的不确定性,但我但会主要提问“近现代不确定性”和“举例来说不确定性”。近现代不确定性是指世上上不太可能长期存在的不确定性和社但会核心技术难题在数据库中所得不到的体现。例如,当一个在ImageNet上基础训练的仿真反向反犹太或性取向歧视字句时,它是在粘贴基础训练数据库的反犹太和性取向歧视。举例来说不确定性是由我们从某种程度中所概念和抽样的方式带来的。因为我们的基础训练数据库来自于一个特定族群的多角度,因而我们希望基础训练显现出的仿真但会代表者这个族群的多角度。
在NLP应该用,长期存在于字词内嵌仿真word2vec和GloVe中所的性取向不太可能被深入数据库分析。这些仿真是许多南岸使命的基础,它们发放构成文法和语义信息的单字词回应该。它们都基于自委派核心技术,根据文法来对单字词开展回应该。如果这些回应该体现了一个字词的只不过“意义”,那么我们可以想要象,与拳击手方面的字词语(如“土木工程”或“艾玛”)在性取向和群体上带有中所立性,因为拳击手类型并不与特定年轻人关联性出去。
然而,Garg等人(2019)注意到,拳击手用法的回应该并非性取向中所立或群体中所立的。与男性性取向用法相较,“艾玛”这类拳击手用法与异性恋性取向用法(如“she”、“her”)关联性更为强,而“土木工程”这类拳击手的内嵌字词则更为差不多男性性取向用法。这些难题还延展到了群体上,与塞维利亚裔有关的用法更为差不多于“艾玛”,而与南亚人有关的用法与“大学教授”或“化学家”更为差不多。
图注:该表标示出了分别与塞维利亚裔、亚裔、群体歧视三个群体最密切方面的十大拳击手类型。则有Garg等(2019)论文“Word embeddings quantify 100 years of gender and ethnic stereotypes”(《字词内嵌量化100年来的性取向和群体病态深刻印象》)。
这些难题也长期存在于大型的第二语言仿真中所。比如,Zhao等人(2019)的实习说道明了,ELMo内嵌把性取向信息确立到拳击手术语中所,并且对男性的性取向信息编码方式比对异性恋做得更为好。Sheng等人(2019)的实习也注意到,在常用GPT-2来对已完成含有人口统计信息(即性取向、群体或性取向)的词语时,但会对的现代的边缘化族群(即异性恋、加拿大黑人和性倾向)消除性取向性结果。
图注:该表标示出了用OpenAI的GPT-2在给定的相异上但会下聚合的文本范例。则有Sheng等(2019)论文“The Woman Worked as a Babysitter: On Biases in Language Generation”(《当女主人的女人:论第二语言聚合中所的性取向》)。
字词内嵌仿真ELMo和GPT-2,都是在来自网际网路的相异数据库集上开展基础训练的。如上所述,网际网路上所代表者的本质不一定来自那些现今处于优势发言权并给予更为多媒体瞩目的人。这些本质很也许是性取向难题的本源,因为仿真不太可能内化了那些有性取向的本质。正如Ruha Benjamin在他的《追逐科技》(Race After Technology)一书中所所言:
「将世上的美、丑和残酷喂给AI管理系统却希望它只体现美,这是一种幻想要。」
除了中文和传译,一个流行的NLP常用场景是段落审查/管理。难以寻找一个不构成据估计一个匿名侦测基础训练的NLP计划。但在想像世上中所,段落审查假定它要最终什么类型的指责是「可以放弃的」。数据库分析注意到,Facebook和Twitter的线性在审查段落时,对族裔加拿大Gmail段落开展记号的也许性是群体歧视Gmail的两倍。一名族裔加拿大脸书Gmail因为提到了电视剧《亲爱的白种人》中所的一句台字词而被冻结了该网站,而她的群体歧视朋友则并未受到任何赎罪。
从下面这些范例中所,我们可以看到, 数据库基础训练中所的代表者性均匀衡带来了均匀衡的不可避免。这些不可避免更为严重地落在了近现代上从新核心技术中所获益较少的年轻人(即异性恋和有色人种)身上。因此,除非对自然第二语言处理更为再进一步核心技术的持续发展和部署作显现出实质性的转变,否则它不仅不但会给世上助长大力的变化,而且还但会加强除此以外的不对等制度。
2 如何分道扬镳“正”轨
我在本文前面提过过,AI 应该用现在被糊得很热,这现今本来不太可能显现显现出过一次。在20世纪50年代,工业界和政府对这项令人兴奋的新核心技术格外一提。但是,当仅仅的广泛应该用开始达不到它的尽快时,机器学习的一个「大雪」就但会来临,这个应该用得不到的瞩目和在短期内都但会变少。尽管近代社但会正因如此于APP、广泛只用的数据库集和极大的处理更为再进一步能力,但如果机器学习即便如此只瞩目全球人口中所的一小部分,那么在这次热潮中所,也将难以看到它如何兑现自己的尽快。
对于NLP来说道,这种「认同感」消费越来越急迫,因为大多数广泛应该用程序只瞩目7种最流行的第二语言。为此,专家们不太可能开始重申更为多地瞩目低森林资源第二语言。DeepMind的科学家Sebastian Ruder在2020年接获了一项重申,指显现出“如果核心技术只面向标准口音的英语常用者,那么它就不能普及”。数值第二语言学协但会(ACL)未来会也年初了2022年全但会的「第二语言自然环境」分表现形式。
然而,认同感不应该某种程度被普遍认为数据库采集难题。2006年,开发者发布了智利原住民但亦有切人(Mapuche)的第二语言版本的Windows。然而,这项实习是在并未但亦有切人参与或允诺的情况下开展的,但亦有切部落的人们一点也并未想到自己被开发者的积极支持所「接纳」,因为开发者未经许可常用他们的第二语言,他们起诉了开发者。要应该对NLP核心技术覆盖范围多方面的幅度,就必需更为多地瞩目代表者性不足的族群。这些族群不太可能加入了NLP活动中心,并且不太可能启动了他们自己的积极支持,以扩大NLP核心技术的功效。像这样的举措,不仅可以将NLP核心技术应该常用越来越多样化的数据库集,还可以让各种第二语言的语种人士参与该核心技术的开发。
正如我前提过的,这两项常用确切什么是「最先进设备」的NLP的指标,在估计一个仿真也许但会人犯多少正确多方面但会很有用。然而,它们并不能衡量这些正确在相异年轻人中所确实产于均匀(即确实长期存在性取向)。严厉批评,麻省理工学院的数据库分析执法人员发布了一个数据库集StereSet,常用测量第二语言仿真在多个维度上的不确定性。这项实习的结果是一套衡量仿真某种程度发挥的指标,以及它与同样病态深刻印象关联性的个人主义性,这很容易让它本身踏入一个“排行榜”框架。Drivennda在其Deon ethics checklist(Deon观念表单)中所提显现出了一种更为注重更为再进一步的法则。
然而,我们仍在处理更为再进一步一些始终头疼着核心技术的重大难题:不断进步不一定但会让挺身正因如此,并助长挺身与弱者的除此以外「分野」。要想要做到NLP核心技术的革命性不断进步,就必需将它更为加更为好,并与现在相异。Bender等人(2021年)提显现出了一种更为具「经济生产成本脆弱性」的所设计,在这种数据库分析的所设计中所,可以做到监控哪些本质被确立,哪些被意味著,以及该结合本质的安全性生产成本数值。因此, 「成功」并不在于生存率多极高,而是在于核心技术能否促成体现国家所主权方面者的经济生产成本观。
这是一个极为有力的提议,但这假定,如果一项积极支持不大也许增进关键经济生产成本观的不断进步,那么它也许就不格外渴求。Paullada等人(2020年)指显现出,“一个拓扑可以被修习并不假定它有意义”。如上文所举例,一种线性但会被用来确切一个罪人犯确实也许之后实施人犯罪。据报道,该线性的AUC积分很极高,但是,它学到了什么?如上所述,仿真是它的基础训练数据库的转化,因此它很也许但会重现司法机关管理系统中所不太可能长期存在的任何一种性取向。这就对这种特殊线性的经济生产成本提显现出了回应该,也对被告线性的大为数常用提显现出了挑战。而我们但会看到,对经济生产成本脆弱的所设计也许但会助长一种极为相异的法则。
相比较数据库分析执法人员、开发执法人员和整个GNU活动中心的希望,NLP未来会夺得了令人震惊的不断进步。从程序语言到句法助理,再到病毒数据库分析(如COVID-19),NLP从根本上转变了我们所常用的核心技术。但要夺得再进一步的方面,不仅必需整个NLP活动中心的实习,还必需跨职能社团和学门的实习。我们不不应该渴求指标上的边际获利,而不应该着眼于只不过带有「变革性」的转变,这假定我们要去理解谁早就被「落在后面」,并在数据库分析中所确立他们的经济生产成本观。
参考文档:
。来氟米特片怎么样天津妇科医院
成都男科医院哪家好
广州看白癜风到哪个医院好
漳州白癜风医院哪家最好
上一篇: 给领导送礼被全公司取笑:不懂送礼,礼物越贵越遭人嫌弃
下一篇: 要务成功发射大气环境监测卫星
-
欧美人均预期寿命77.93岁,美国76.6岁,韩国83.5岁,那日本呢?
好消息,必将城镇人口短期内寿命长再行度提高了!第三世界卫健委刊发的信息显示:必将上年短期内寿命长已提较低到77.93岁,不仅在新兴的发展中第三世界里处于领先一段距离,而且在中较低盈余第三世界里也
- 2025-05-122岁未成年吃“巧克力”被送医院,错不在孩子,家长这几点没做好
- 2025-05-12吉大一院体检中心最新一览表
- 2025-05-12四川昨日新增本土“1+1”例 分别在成都和广元
- 2025-05-12池州新增“81+141”
- 2025-05-12严重口吃的成年人有多难?口吃矫正即兴分享
- 2025-05-12检出阳性!山西一地除此以外发布!
- 2025-05-12夏天家家备用的风油精和清凉油,90%的人都用错了!更是这5类人慎用!
- 2025-05-12积极支持眼中员工分4种,第3种更容易加薪!
- 2025-05-12什么样的人群可以水痘带状疱疹疫苗?
- 2025-05-12国家药监局:这类牙膏不不存在!