美海军陆战队女兵忆军旅生涯在军中屡遭歧视

参考消息网4月16日报道据美国《自由撰稿明星报》网站4月14日报道称,杰姬·休伯是为数不多的美国海军陆战队女队员之一,但她从来没有为此觉得特别骄傲。

她于1984到2004年在美国海军陆战队服役20年,军衔升至准尉。她曾任职于人力信息系统支持办公室(MISSO),负责输入美国东西海岸军事设施的军人数据。她还曾自愿参加“恢复希望行动”,去索马里从事同样的工作,住过用沙袋垒成的充满泥土和死亡气息的营地。

在美国各军种中,海军陆战队的女性比例最少。美国国防部说,海军陆战队有大约8%的士兵和军官是女性——其他军种至少是它的2倍。

语言模型有几类,对应几种不同的分布。

同一主题、不同开头实验

NLP 研究人员们目前开发的最大的、语言能力最强的语言模型都非常大,动辄有数十亿的参数,训练它们需要大量的计算资源(从零训练一个模型,租算力大概需要六万美元),而且训练这些模型还需要海量的文本数据,即便模型的代码是开源的,这些训练数据也通常不是开源的。在许多意义上,大规模语言模型就像猛犸象一样,它们聪明、有力,但是它们的行动又随意又笨重。

刚步入中国企业工作的哈南由于文化差异,在思维方式、语言交流方面遇到了不少困难。但在她陆续结识的中国同事的帮助下,这些难题化繁为简,与中国同事间的友谊成为了她生活和精神上的“助推剂”。她说:“最初我觉得在中建的工作很复杂,是我的中国朋友不断鼓励我,让我有动力坚持到了今天。”

2017 年谷歌提出的基于注意力的 Transformer 网络架构为自然语言处理开辟了一个全新的时代。从此之后,基于 Transformer 改进的更大、更大的模型层出不穷,基于深度学习的自然语言处理方法也在各种各样的任务中取得越来越好的成绩。

词袋模型固然是一个简单直观的话题表征方式,但对于一些更复杂、深层次的属性,比如正面和负面情绪,我们总还是需要更复杂一些的模型的。这种时候我们就可以使用在标注数据集上训练出的分类模型。

接下来,属性模型的分布是 p(a|x),它是根据给定的句子输入 x 计算句子带有属性 a 的概率。比如,经过属性模型计算,某个句子有 10% 的可能性是正面情绪的,以及有 85% 的可能性是关于政治的。属性模型可以很小、很容易训练,仅从直观上来看,判断某个句子是否含有某种属性就是个分类任务,要比写出这样的句子简单得多;尤其是,如果在语言模型学习的语言表征上训练这样的属性(识别)模型,OpenAI 的论文《Improving Language Understanding by Generative Pre-Training》就已经表明了可以轻松地训练一个表现优秀的小模型。在 Uber AI 的实验中,一个单层的、4000 个参数的属性模型就能在属性识别和文本生成引导中发挥很好的效果。

那么我们想要的条件性语言模型,也就是 p(x|a) 从哪里来呢?幸运的是,根据贝叶斯法则,这个模型可以用第一个和第三个模型表示出来,也就是:

Uber AI 提出的 PPLM 就能在这样的困境面前起到很大帮助,需要符合自己需求、且表现优秀的语言模型的研究者和开发者,不再需要想办法训练自己的模型,只需要用几个小的属性模型控制大预训练模型的生成,就可以达到目标。一个属性模型可以只有预训练模型的百万分之一大,同时仍然有很强的引导能力,就像在猛犸象的头顶坐了一只小老鼠,就能够灵活地控制让猛犸象往哪里走。

Uber AI 这篇论文带来了一种全新的有控制的文本生成方式,他们称之为「the Plug and Play Language Model」(即插即用语言模型,PPLM)。通过 PPLM,用户可以向大型非条件性的生成模型中灵活地插入一个或多个属性模型,这些插入的模型可以代表不同的想要控制的属性。PPLM 的最大优点是不需要对语言模型做任何额外的改动(不需要重新训练或者精细调节),就让资源不足的研究人员也可以直接在预训练语言模型的基础上生成条件文本。

Uber AI 的研究人员们首先尝试了最简单的一类属性模型,词袋模型(Bag-of-words),计算方式也就是直白的「符合主题的似然度等于词袋中每个词单独的似然度的和」,换句话说就是含有越多词袋中的词,就认为句子符合属性的可能性越高。

像哈南一样的“职场女性”在过去的埃及是无法想象的,毕业后毅然选择中企就业的她在当时来看无疑是少数。如今,“一带一路”倡议下中埃多层次、宽领域的合作为埃及当地提供了大量的就业岗位。哈南表示,埃及传统意义上的阿拉伯妇女,她们的社会身份在当地就业趋势多元化的背景下也已悄然发生了转变,她们会主动选择从事户外工作,去承担更多的社会责任。她说:“埃及妇女的择业观现在彻底发生了转变,她们变得更积极自信,在社会的方方面面崭露头角,在各自的家庭中发挥着越来越重要的作用。这也是社会进步的一种体现。”

从 p(x) 中采样得到一个句子 x 把句子 x 输入 p(a|x) 计算它是否是关于政治的 如果不是,重复第一步

避免语言模型生成有害文本

给定一个部分生成的句子,计算 log(p(x)) 、log(p(a|x)),以及两者关于语言模型的隐层表征的梯度。只需要对属性模型和语言模型都做一次高效的前馈传播和反馈传播,这几个值都可以计算出来。 根据计算出的梯度,在反馈传播中,根据属性模型的梯度更新语言模型的隐层表征,向着增加 log(p(a|x)) 和 log(p(x)) 的方向移动一小步,也就是增加了生成的文本带有想要的属性的概率 由于上一步更新,语言模型的分布被改变,然后采样一个词

在此之前,全世界的 NLP 研究人员们提出过各种各样的条件文本生成方式,包括,1,从一个预训练语言模型开始,做精细调节,以便让它始终都能生成某种特定风格的句子;2,从零开始训练一个大型条件生成模型;3,不改变这个大的语言模型,而是通过关键 n 元组替换的方式,调节已经生成的句子的风格。

报复得了谷芹一时,却报复不了一世,你们对此怎么看,认为旭东父母的做法正确吗?

在这项研究中,Uber AI 的研究人员们提出了可以在使用过程中引导大规模预训练语言模型输出不同主题、不同风格文本的 PPLM,而且可以灵活地搭配一个到多个词袋模型、小型判别式模型等等作为属性模型,在细粒度地控制生成文本内容和风格的同时,即保持了文本的合理和流畅,也避免了重新训练或者精细调节语言模型。PPLM 中的预训练语言模型可以使用各种自回归语言模型,属性模型也可以使用各种可微模型,这都意味着 PPLM 还有很大的使用空间。

多个属性模型联合使用

雷锋网版权文章,。详情见转载须知。

在这个实验中,他们想要生成太空主题的文本,词袋中含有「planet、galaxy、space、universe」等等词汇。即便给定不同的开头,模型生成的几组结果都达到了预期效果。

比如,给定一个开头「这里的食物不好吃」,一个语言模型(比如 GPT-2)能续写成这样的看上去相当合理的一段话「这里的食物不好吃,店员又懒又粗鲁。这食物真让人喜欢不起来,即便我的要求一点也不高。」

哈南表示:“我很荣幸能够亲身参与这些中埃共建的合作项目,我也很自豪能够在埃及的中国企业中贡献自己的一份力。与我同龄的一些埃及朋友早早地结婚,在家中相夫教子,不再外出工作。但我有自己的理想,在中建的日子里我不断地获取经验,在工作中学习、进步。如果当初我没有来到中企工作,我也许就会在家中碌碌无为。”

由于 PPLM 使用梯度来更新语言表征,解决这种问题就要简单得多,只需要训练一个恶意文本分类器,把它作为属性模型,然后使用负梯度更新语言表征,也就是减小生成文本符合属性的概率即可。研究人员们选用了能够让原本的 GPT-2 模型输出恶意文本的对抗性文本开头,在应用 PPLM 后,继续输出对抗性文本的概率从原来的 63.6% 降低到了 4.6%。不过,不仅确保模型的输出完全符合设计者的意图还需要更多后续研究,我们也需要用更多方法避免恶意的使用者反倒利用 PPLM 的特点专门生成恶意文本。

其次,条件性语言模型的分布是 p(x|a),这就是我们的目标。在给定某种属性 a 之后,这种假想模型就可以生成带有这种属性的文本。

休伯说:“我们被当作二等公民对待,权利很少,支持我们的人更少,这就是为什么我不希望任何人知道我做过什么。我不想再受到这样的待遇。”

控制一个语言模型的不成功方法

显然,这就是从随机生成的句子里把关于政治的句子挑出来而已,由于 p(x) 覆盖了大量不同的话题,运气不好的话可能很久都无法得到关于政治的句子。对于越长的句子,生成满足要求的整句话也越难(需要越好的运气),花费的时间会指数级增加。这简直像「无数多的猴子在无数多的打字机上随机地打字,并持续无限长的时间,那么在某个时候他们必然会打出莎士比亚的诗集」,理论上正确,但无法用在实践中。

同在斯塔福德的卡丽·林奇是休伯最好的朋友,她也曾在海军陆战队服役20年。两人谈论过她们的经历。林奇是追随她父亲脚步加入海军陆战队的。她说,她的军旅生涯虽然并不总是那么美好,但仍是“我所经历过的最好的事情”。

雷锋网(公众号:雷锋网)年度评选——寻找19大行业的最佳AI落地实践

从十月六号城、萨达特城、开罗国际会议中心到如今在建的埃及新首都中央商务区,哈南随中国建筑参与了在埃及的多个重点工程建设。哈南认为自己是足够幸运的,在中国企业工作、与中国同事朝夕相处的时光令她迅速成长。

直观上讲,随着 PPLM 生成一个个词,它的文本表征也逐渐向着更有可能符合属性要求的方向发生变化(高 log(p(a|x)) ),同时也保持了语言模型本来的语言流畅度(在第二步中保持高 log(p(x),避免语言模型本来的表达能力被破坏)。

不过,虽然这些模型生成的句子体现出了拼写、语法、语言习惯等等复杂的语言知识,但想要具体地控制模型生成的内容仍然非常困难。换句话说,虽然模型有能力生成各种各样不同的句子,或者为一个给定的开头续写出很多不同的段落,但我们很难指定让模型生成某一种风格的、某一种话题的、某一种叙述逻辑的文字。比如,同样是以开头「这里的食物不好吃」进行续写,人类可以欲扬先抑,最后得到一个正面的结论,也可以挂羊头卖狗肉,话说到一半慢慢从讲食物变成讲政治的。想让语言模型做到这些就非常困难。

不同属性模型的不同表现

1987年,哈南从开罗大学文学院毕业。在家人的建议下,她进入中国建筑埃及经理部工作,而与中国企业最初结下的缘分,也与她渴望向外求知、了解世界的梦想不谋而合。她说:“在上学时我就了解到中国人民是勤劳而热情的,进入中国企业工作对我来说是一种全新的经历,最终我抓住了这个机会。”

一个实际的挑战:基于预训练模型的条件文本生成

因此,在她接受自己的退役海军陆战队员身份的同时,这名53岁的老兵正在尽其所能帮助其他军人。她说:“有时候会感觉很糟糕,但这种身为海军陆战队员的自豪感是自己赢得的,是别人夺不走的。”

创立于2017年的「AI最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。

哈南在工作中与中国同事交流

谈及对于中埃合作的愿景,这位埃及“老中建人”的眼中流露出一种别样的期待。哈南坦言,即将成为“非洲第一高楼”的新首都中央商务区项目是埃及人民的骄傲,也会成为见证中埃友谊长存的又一座丰碑。她说:“中埃合作在经济、文化、社会层面都具有广阔的前景。中国为埃及发展给予的支持使我们有能力也有责任为自己的国家带来繁荣。‘一带一路’倡议宏远而伟大,我希望中埃两国在合作的路上越走越好。”

用梯度控制大规模语言模型

林奇还说,有很多人会觉得,“要成为一名真正的海军陆战队员,就必须上战场参加战斗”。林奇认为,她的朋友终于开始认识到,每个人都在作出自己的贡献,不管是否在战场上,“她有时候没充分认识到自己的功劳,但她上过战场,进过战壕,是个了不起的女人。”

谷芹和旭东都是二婚,丈夫之前育有两子女,和她结婚后,两人并未和公婆住在一起,而是在县城租了房子居住,和公婆的关系也一直很好。但丈夫去世后第二天,婆婆就带人将谷芹赶出了家门,现在自己想要恢复单身,必须公公婆婆提供丈夫的死亡证明,身份证和户口也要注销。

公公婆婆说谷芹恢复不了单身,完全是自己造成的,儿子死后需要火化,谷芹曾扣下旭东的身份证及不签字为由,来索要钱财。因为当时赔偿金未下来,公公婆婆只好四处去借钱,借了好几万块,才将儿子的身份证拿回来,使得旭东的遗体在殡仪馆停放了两年,这让公公婆婆觉得心寒而又愤怒。

两年后公公婆婆将儿子的遗体火化了,可无论是儿子火化还是下葬儿媳始终未出现,这让旭东的父母为之寒心。旭东的父母说谷芹之所以不出席,是因为谷芹已经有了别的男人,儿子尸骨未寒,谷芹曾穿着花花绿绿的衣服和新男友到法院去结钱,气急不过的公婆在法院门口打了谷芹一顿。

在下一个实验中,他们用同样的开头、不同内容的词袋模型尝试生成不同的主题。我们可以看到,生成的文本带有词袋中的词的概率提升的同时,不在词袋中、但有相关性的词汇的出现概率也增加了。这是因为,PPLM 中更新文本表征的方式是向着目标方向的连贯自然的迁移,作者们也通过对照实验说明这种做法的效果比直接提升想要的关键词的出现频率的效果更好。

这样的语言模型带来的结果就是,除了那些有最充沛的资源和资金的研究人员之外,其它的研究人员和开发者都只能在无论如何都不理想的情境中三选一:1,直接使用公开的预训练模型(虽然有好的语言建模能力但无法完全匹配他们的需求);2,在小一些的数据集上对预训练模型做精细调节(但一旦出现灾难性遗忘,就会让模型的表现大幅下降);3,需求不符只能从零训练新模型,但预算有限,只能训练小得多的模型(表现也自然也会有明显差距)。

在前面的叙述和例子中我们都看到了,PPLM 架构可以使用任意可微的属性模型引导语言模型生成各种不同属性或者主题的文本。但在应用中我们还会遇到一种问题,由于大规模语言模型都是在海量的互联网文本上训练的,这些文本经常含有偏见或者使用不友善的(骂人)的词汇。论文 arxiv.org/abs/1908.07125 就展示了,如果用对抗性攻击的思路设计文本开头,可以让 GPT-2 续写出带有种族主义的段落。这种状况会限制语言模型的安全应用场景。

今年是哈南在中国建筑埃及分公司工作的第31个年头。从22岁入职至今,她亲历了中国建筑在埃及发展的每一步。

人类有能力在一段话中覆盖多种主题,PPLM 也可以。Uber AI 的研究人员们尝试了把多个词袋模型和一个分类模型一起使用,可以让一段话同时符合「冬天、政治、厨房」的主题,而且有正面情绪。图中第二段同时符合「计算机、幻想、钓鱼链接」主题。

有挑战性的开头和主题

首先,PPLM 的这种控制模式是可以调节的:对隐层文本表征的每一步变化的强度可以调节;当变化强度设为 0 的时候,这就是原本的语言模型。 其次,PPLM 假设原有的基础语言模型是自回归的,许多现代的语言模型都符合这个要求。实际上,如果语言模型是基于 Transformer 架构的,上面的这个方法就可以有高效的实现,因为以往的预测值只能通过 Transformer 的以往的键和值对未来的预测产生影响,和其它的激活值都无关,所以在前向传播中只有张量需要更新和传递。 以及,PPLM 中的采样器的实现,和上面提到的《Exponential convergence of Langevin distributions and their discrete approximations》以及 PPGN,arxiv.org/abs/1612.00005 中的实现有一些重要的不同,感兴趣的研究人员可以阅读论文原文具体了解 最后,Uber AI 这项研究中选用的基础语言模型是 345M 参数的 GPT-2,但对于其他的自回归语言模型也是有效的。

不过,虽然这种方式让我们可以方便地计算概率(「这个句子符不符合我们想要的样子」),但我们很难从这种表达中采样。我们可以先尝试常见的拒绝采样或者重要性采样,从 p(x) 分布开始逐一采样筛选—— 这种做法理论上可行,但实际操作起来,要么会得到有偏倚的结果,要么运行速度非常慢。想用这种方式生成一个谈政治的句子,大概会是这样的状况:

其实公公婆婆要的不是钱财,而是心里堵着一口气,谷芹要做的是要拿出诚恳的态度,公公婆婆会松口帮助谷芹恢复单身的。

哈南与她在中建的第一个中国朋友胡冰

更让公公婆婆无法释怀的是,儿子死后,儿媳发现自己怀孕了,偷偷去医院打掉了儿子的骨血,这让身为爷爷奶奶的他们怒火中烧。谷芹断然反驳了婆婆的说法,声称自己没有怀孕,绝对没有此事。

林奇说:“我不想说她们被视而不见,但当她入伍时,女性并不是那么敢于发声。”她说,相比之下,自己那个时代的女性在指出问题和期待解决方案方面并没有什么困难。

直到半年前,一个男人闯进了谷芹心里,让她死去心再次跳动了起来。两人相爱不久,男友就投资了谷芹开了一家美容店,当他们准备去领结婚证的时候,谷芹发现自己还是已婚身份。丈夫去世三年,可自己居然还是已婚状态,这让谷芹十分纳闷。结婚的事一拖再拖,男友的态度也慢慢发生了改变,害怕男友就此放手离开,这让谷芹更改婚姻状态迫在眉睫。

Uber AI 的研究人员们也对 PPLM 做了一些相关的说明:

随着 BERT、GPT-2 之类的大规模语言模型出现,NLP 研究者们通过实验表明了只需要用简单的目标函数在超大规模的无标注语料上训练,得到的语言模型就可以在语言建模任务(给定一组开头以后向后续写)中得到前所未有的流畅度,文本的自然、合理程度可以接近人类水平。

在苛刻的条件下,PPLM 的表现如何呢?这组实验中,给定和目标话题完全不相关的开头,比如「以各种动物/食物开头,主题是政治」。即便是这样奇怪的开头,PPLM 也能生成合理的句子。

多个属性模型联合,多主题文本生成

所以现在旭东的父母不同意拿出户口本,让谷芹恢复单身身份。谷芹主动提出条件,公公赌气称谷芹拿来100万就恢复她单身,谷芹根本没有这么多钱,只能承诺每个月寄300元给公婆养旭东的儿女,连付三年。

在中国建筑埃及分公司深耕31年的埃及员工哈南

如今生活在斯塔福德县的休伯很高兴情况已经发生了改变。她认为,自己曾经历的一些不公正待遇在海军陆战队内已不复存在。

首先有非条件性的语言模型,它的分布是 p(x),是所有文本上的一个概率分布。GPT-2 之类的非条件性的语言模型就是建模了这样的分布。这样的语言模型是通用的,可以为许多不同种类的话题生成流畅的文本。

结婚不到三个月,丈夫旭东在高空作业时不幸身亡,新婚不到三个月谷芹就失去了丈夫,这种感觉让谷芹痛彻心扉,谷芹只能靠酒精来麻痹自己,整日以泪洗面。

“这是我人生的第一份事业,我想也会是最后一份”,在采访的最后,哈南笑着对记者说出的这句话,不单体现了她对工作的从一而终,也印证了中埃友谊久而弥笃。

Uber AI 的研究人员们设计的分类模型把原本的语言模型中提取出的嵌入表征作为输入,用一个单层分类器结构预测类别标签。这个模型中含有的参数可以不超过 5000 个,相比于语言模型的规模可谓不值一提。

休伯说,在她服役的大部分时间里,当一名海军陆战队员并不是件很酷的事情,那个时候,女军人还没有因为服役而受到尊敬。休伯说,曾与她共事的一些男性明确表示,他们认为女人带来的麻烦比她们的价值更大。

在这篇论文里,Uber AI 的研究人员们在这个问题上做出了一些突破。我们先看一个例子,他们用他们的方法要求模型生成一段正面的续写,效果是:「这里的食物很糟糕,但还有音乐、故事和魔力!Avenged Sevenfold 的摇滚音乐剧演得太精彩,以后在全世界都能看到。」文本表达的情感从负面转变成了正面,但还是挺连贯自然的。

在每个时间步中,这个过程都会进行一次,也就是说表征了以往的值的隐层变量会被一次又一次地更新。

这样得到的 PPLM-Discrim 模型生成正面和负面情感的文本效果如下图

同一开头、不同主题实验

谷芹找到旭东的父母家,希望和前公婆商量自己身份的问题,没成想,遭到公公的一口回绝,公公婆婆非但不让谷芹恢复单身,甚至一度将赶走。婆婆告诉我们,儿子没和谷芹结婚之前,一直平平安安的生活了30多年,和谷芹结婚不到三个月后就意外去世了,婆婆认为谷芹就是克夫命,害死了他儿子。

林奇比休伯小7岁,她认为这一年龄差距是造成巨大差异的原因。