第155章你渴望推开那扇门么-穿越：2014

似乎倾听别人的思维路线和研究现状很容易让他们想起早年debug时的痛苦经历一般。

但在林灰这里情况却很不一样，林灰很善于倾听。

在座谈会刚一开始的时候，原本伊芙·卡莉是打算让林灰先发表意见。

结果却被林灰示意让她先说，这让伊芙·卡莉很不适应。

一时半会她竟不知道该说什么好，只能将前不久她发给林灰的邮件再次详细地加以阐述。

伊芙·卡莉之所以介绍这方面，除了想不到合适的话题切入点这个原因之外。

还有另一重原因，那就是伊芙·卡莉很好奇林灰在Lh文本摘要模型的构建时究竟是如何评估文本相似度的。

但这个问题伊芙·卡莉也不好意思直接问，只好旁敲侧击。

刚开始表述的时候伊芙·卡莉还有点紧张，很怕赘述邮件上重复的内容引起林灰的不满。

但林灰似乎毫不介意，就那样认真地听她陈述。

林灰这种态度让伊芙·卡莉没那么紧张了。

在陈述的时候，伊芙·卡莉注意到一个小细节：

在机场往回来的路上，当她向林灰建议找个翻译进行同传的时候林灰几乎不假思索就同意了。

但在实际沟通的时候，伊芙·卡莉从林灰的一些反应判断出林灰其实是能直接听懂她所表达的内容的。

既然如此，林灰当初为什么还答应她的请求？

而不是直接丢掉翻译跟她沟通呢？

或许这一切都是为了给予对等的尊重吧！

这份对等的尊重不光是给予伊芙·卡莉的，主要是给予米娜·卡莉的。

试想一下，如果林灰压根不需要翻译就能和伊芙·卡莉交谈。

似乎最尴尬要数跟伊芙·卡莉一块同行的米娜·卡莉了。

一个男人能够做到这份细心确实不容易。

伊芙·卡莉对林灰的好感增添了零点几个百分点。

妹妹似乎也注意到林灰在同传方面这个善解人意的做法了。

伊芙·卡莉注意到米娜·卡莉有意无意地不知道撩动过几回头发了。

当然米娜的示好也可能仅仅是因为林灰的颜值。

按理说东方男性的外貌在西方人眼里是很难区分的。

但人帅到一定程度是超越地域局限的。

林灰似乎就是这种情况，哪怕以最苛刻的审美体系来评判，林灰的颜值也能打99分，满分10分。

第一眼看到林灰时，如果不是林灰主动表露身份，伊芙·卡莉甚至觉得林灰的身份会是一个模特。

当然这些都是题外话了。

注意到林灰在细节方面有意无意释放的善意之后。

伊芙·卡莉在进行陈述的时候彻底放松了下来。

在向林灰着重介绍了这个时空里人们是如何评估文本相似度的。

伊芙·卡莉注意到林灰听说她的团队先前是利用基于网络知识的方法来评估文本相似度时眉毛蹙了一下。

莫非是林灰并不认同基于网络知识评估文本相似度的方法？

还是说林灰觉得有什么方法比这种方法更好呢？

伊芙·卡莉默默将这件事记在心里。

在伊芙·卡莉陈述完成后。

林灰领略到了她的意思。

不过却并没有正面回答伊芙·卡莉的问题。

而是反问伊芙·卡莉：“关于使用向量介入进行语义文本相似度计算你怎么看？”

虽然这是林灰在这次交流中提出的第一个问题。

但这个问题让伊芙·卡莉多少有点措手不及。

伊芙·卡莉不太清楚林灰为什么提出这个问题。

莫非可以不依靠向量来进行语义文本相似度计算吗？

可这怎么能做到呢？

机器识别文本时为了要机器识别自然语言，往往将自然语言数值化。

而将这些数值进行属性区分则必须进行向量化。

这种方法已经有很长时间历史了，伊芙·卡莉记得在1977年（这个时空）就有研究人员首次提出向量空间模型VS了。

一经提出这种研究方法就比较受欢迎。

虽然很快这种方法就被发现了有不小的漏洞。

利用VS方法的话，当文本量很大时，生成的文本向量是非常稀疏的，这就导致了空间和计算资源的浪费;

另外VS为达到简化模型的效果忽略了词语间的关系，而在很多情况下词语之间是存在联系的，因此简单地认为词语间相互独立是不合理的。

尽管有着明显的漏洞，但在之后近四十年的历史中，人们仍然要引入向量进行语义文本相似度分析。

以伊芙·卡莉先前的团队，虽然他们在先前用的是基于网络知识计算文本相似度的方法。

但本质上也只是将wiki百科中的网页内容映射为高维向量，

再通过基于向量空间的方法进行语义文本相似度计算。

可以说依旧没能离开向量空间的壳子。

虽然四十年后，当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。

但这仅仅是能解决当年遇到的难题而已。

现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。

此时的向量化面对着全新的困难——维度爆炸！

维度灾难（又名维度的诅咒）是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语，用来描述当数学空间维度增加时，分析和组织高维空间（通常有成百上千维），因体积指数增加而遇到各种问题场景。

当在数学空间上额外增加一个维度时，其体积会呈指数级的增长。

这样的难题在低维空间中不会遇到。

比如物理空间很少会遇到这样的问题，毕竟物理上通常只用三维来建模。

说起来很神奇，尽管物理上很难遇到维度爆炸问题。

但在自然语言处理、机器学习方面维度爆炸是常有的事情。

在这一领域随便一点信息量都会轻而易举地突破三维。

其实在很多领域中，如采样、组合数学、机器学习和数据挖掘都有提及到维度爆炸的现象。

这些问题的共同特色是当维数提高时，空间的体积提高太快，因而可用数据变得很稀疏。

在高维空间中，当所有的数据都变得很稀疏，从很多角度看都不相似，因而平常使用的数据组织策略变得极其低效。

事实上伊芙·卡莉她们先前团队所应用的基于网路知识进行文本相似度衡量时。

如果直接对所有网页进行分析，往往会导致知识含量稀疏计算困难。

事实上，这种情况就是因为维度爆炸所导致的。

伊芙·卡莉很清楚现在这种利用向量引入到语义文本相似度的方法会带来维度爆炸。

林灰为什么突然询问她如何看到将向量引入到计算语义文本相似度呢？

莫非林灰真的有什么办法能够妥善处理维度爆炸这一问题吗？

可是在机器学习、自然语言处理方向的维度爆炸并不是那么容易解决的。

还是说林灰打算干脆绕过向量去衡量语义文本相似度吗？

第155章 你渴望推开那扇门么（2 / 2）

第155章你渴望推开那扇门么（2 / 2）