首页 玄幻 武侠 都市 历史 科幻 灵异 游戏 书库 排行 完本 用户中心 作者专区
小米阅读 > 科幻 > 科技入侵现代 > 第148章 你们能比我更懂机器翻译(5k)

第148章 你们能比我更懂机器翻译(5k)

“教授,你不是做语言翻译的,语言是规则的游戏,概率这太不靠谱了。”保罗·加尔文还想再挣扎一下。

当然他确实也不信翻译和统计学能扯上什么关系。

词语之间一一对应。

英文单词和俄语单词一一对应,直接直译,扩充语料库。

在当时的思维里,这才是正道。

也就是所谓穷举法。

把所有的词语做好一一对应之后,自动翻译也就实现了。

统计学,概率游戏,不谈如果林燃是对的,他们的无能会暴露无遗,光是林燃提到的改进原理从直觉上来说就是错误的。

简单来说,反直觉。

就像在gpt大模型出来之前,大家都觉得算法最重要。

gpt出来之后,大家开始都一窝蜂力大飞砖。

等到deepseek的时候,好像算法有点用。

哪怕是顶级的研究人员,也会有盲从的问题,会有迷茫、找不到方向、走不出来的情况。

在这个计算机的混沌年代,会这样再正常不过了。

“精确?精确意味着出错,现在的计算机远远达不到精确这一点。

你们难道不清楚,你们在54年之所以演示出了良好的效果,是因为那些俄语句子是你们精挑细选出来的。

实际自然语言的复杂性要远超你们预期。

你们只做了语料库的扩展,规则覆盖都没有做,上下文依赖处理也没有。

你们能比我更懂机器翻译?”

林燃怒吼道:“你们做了九年都没有进展,现在立刻马上按照我说的去做!”

林燃的地位、实力和权力摆在这,他们根本没有拒绝的选择。

沃森会信林燃就不说了,毕竟深蓝项目才结束,国防部的麦克纳马拉那更是林燃说什么就是什么。

你们这帮搞计算机的能比数学大师更懂计算机?

林燃在博弈论和统计学上展现出来的风采,麦克纳马拉还没忘呢。

ibm的ceo支持林燃,国防部部长支持林燃,乔治敦大学的研究团队只能被按在地上摩擦。

“我们要做的一共五点,优化算法和规则设计,扩充语料和词汇,改进数据处理的效率,引入统计方法和硬件最大化利用。

其中改进数据处理效率和硬件最大化利用由ibm方面负责。

另外三点则由乔治敦大学的成员们负责。

我们先来谈优化算法和规则设计。

你们一直的问题在于,你们对于规则集的扩张没有引入更加细化的句法规则。

因为存储有限,你们觉得扩充对照词汇库就够了。

实际上句法规则显得更加重要。

你们需要做到,引进常见的高频句型。

对上下文进行依赖处理。使词汇翻译考虑前后词,通过有限的上下文窗口来减少歧义。

比如cвet同时有光和世界的意思。

这个完全可以根据前词判断是光还是世界。”

沃森弱弱提醒道:“教授,你还会俄语啊?”

林燃一副理所当然的样子:“当然,我都和科罗廖夫见了两面,我不会俄语怎么和他交流的?

我同时会俄语、德语、英语和汉语。”

多语言大师的身份,给林燃的理论增添了几分可信度。

在这个时代,科学家们会几门语言并不奇怪。

当然一些敏感部门会提高对你的怀疑。

以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。

“另外翻译过程,应该是模块化设计,而不是简单的映射关系。

它应该分成预处理、翻译、后处理三部分。

预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。

这样来降低单次计算的复杂度,提高规则的复用率!”

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用,但有路总比之前没有好。

再者,如果你不好好记下来,到时候被开除只是教授一句话的事。

“好了刚才我们讲了一些简单的内容,现在才是最难的。

因为ibm的机器不是那么强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。

俄语句子mыгoвopnmomnpe

英语翻译:“we speak about peace

对齐结果:“mы”对应“we”

“гoвopnm”对应“speak”

“o”对应“about”

“mnpe”对应“peace”

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如,在语料中,“гoвopnm”在80%的句子中翻译为“speak”,20%翻译为“talk”。

这样对于我们就可以构建概率表了。

将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

另外就是统计相邻词的共现频率。mы经常与гoвopnm一起出现,对应we speak,机器在翻译的时候则优先选择这个组合。

通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!”

林燃从统计学的角度给他们好好上了一课。

不过这只是一个开始。

在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整、尝试和优化。

不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。

前面讲的优化算法和规则设计什么的,他们感觉有道理,但判断不了具体实践是不是真的管用。

但这统计学方法的引入,光靠想象就知道,能够显著提升乔治敦翻译机器的效果。

当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。

加尔文放下笔记本,叹了口气说:“利昂,我们真的是蠢货吗?”

今天听完之后,加尔文都要怀疑人生了。

林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。

一整个团队差不多快十年的研发思路,不如林燃一下午的干货多。

加尔文已经怀疑人生了。

“教授的想法不是超前,而是太实际了。

你会感觉天马行空,但实际上结合在一起想想,又会觉得无比的实际。

小米免费小说网站最新地址:www.071662.com

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
换源
听书
听书
发声
男声 女生 逍遥 软萌
语速
适中 超快
音量
适中
开始播放
推荐
反馈
章节报错
当前章节
报错内容
提交
加入收藏 < 上一章 章节列表 下一章 > 错误举报