【科技】搜狗"字根嵌入" 或成中文自然语言解决新突破
本篇文章1178字,读完约3分钟
中文自然语言解决作为深入学习相关行业面临的挑战之一,技术上的突破很难。 最近国内有名的各搜索引擎Sogou搜索提出的新构想将进一步推动机器对中文语言的理解。
日前,国际自然语言解决和计算语言学行业最高水平的学术会议ACL ( Annual Meeting OFTHeassociation Forcomputation Allinguistics ), Sogou搜索首席科学家柳超博士率领Sogou数据科学研究院发表的采用词根嵌入( radical embedding )学术的论文中,首次提出了基于词根的中文自然语言解决的深度学习技术,中文自然语言解决和未来
深入学习的基础在于自然语言的分解,而汉语自然语言的解决困难在于,中文在文案和对话等各级具有歧义和多义性,同样的字和词根据语境的不同意义千差万别,根据句子的划分方法,存在句表意义大不相同等各种问题。
这次,Sogou数据科学研究院首次提出了词根嵌入概念。 这是世界上第一种基于词根的汉语自然语言解决的深度学习技术,将词根作为汉语语言解决的最小单位进行研究。 其基本原理是通过某种数学方法将中文词根表示为多维空间中的矢量,汉字也表示为矢量,作为基于深度学习的中文自然语言解决技术的基本单位,使中文更容易正确地计算。 这意味着中文千变万化的表现通过算法得到其背后的意思。
论文展示了根植入技术的实际效果。 用新方法计算,机器在解决中文分词、短文方案分类、页面排名方面的效果大幅度提高,在一定程度上证明了词根嵌入有可能成为中文自然语言解决的基本单位。
每个大搜索引擎产品的本质是洞察顾客的诉求,从大量数据中为顾客提供准确可靠的回答,满足顾客的各种诉求。 其中,如何分解自然语言更好地理解顾客的意图是其基础,也是未来各大搜索引擎技术智能化迅速发展的必由之地。 到目前为止,在图像和声音深度学习这两个比较成熟的行业中,技术流的Sogou搜索一直处于领先地位。 这次,如果能够利用单词根的嵌入技术,则先行解决中文的自然语言是最困难的,是最重要的行业,对顾客的意思理解、检索展示的结果的排序等的效果也会提高,技术上的特征会变得更明显吧。
柳超博士领导的Sogou数据科学研究院团队的照片
根据Sogou检索,Sogou数据科学研究院迄今为止已将许多研究成果应用于Sogou检索、Sogou输入软件的产品开发。 团队领导人柳超博士本人也在icml、sigkdd、sigir、www、tse、tkdd等国际一流会议和期刊上发表了30份复印件 提出了更有效地促进机器客户对中文表达的深入学习,使Sogou检索更智能,更理解客户。
词根嵌入技术有望很快应用于实践行业,未来的Sogou搜索将该技术应用于多个产品,全面提高与Sogou搜索相同产品的中文新闻解决能力,更正确地理解客户的诉求,为客户提出最佳的处理方案
标题:【科技】搜狗"字根嵌入" 或成中文自然语言解决新突破
地址:http://www.greenichiban.com/news/19341.html
免责声明:国际科技时报是中国具有影响力的科技媒体,以全球视角,第一时间呈现最新科技资讯。所著的内容转载自互联网,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,国际科技时报的作者:何鸿宝将予以删除。
上一篇:【科技】分众传媒谋划放弃借壳上市
下一篇:【科技】蔡崇信出山,马云祭出底牌