科协邮局   网上工作平台 回到旧版 | English | 设为首页
   
学会学术 科学普及 智库发展 组织人才 对外交流 创业创新 党的建设
首页  > 地方科协 >  新闻内容
 

“中文十级”难题,AI怎样解读

 
分享: 2018-11-10
     

  “中文十级”难题,AI怎样解读

  工业界

  陶玉祥 本报记者 盛 利

  在人工智能领域,“懂语言者得天下”是普遍的共识。其中,可资助人工智能识别人类语言的自然语言处置惩罚(NLP)被誉为人工智能语言“皇冠上的明珠”。

  当人工智能自然语言处置惩罚手艺遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“绕口令”,“小意思”“意思意思”等多义词时,及“俺们那疙”“中不中”等方言时,该怎样“听懂”这些“中文十级”语句呢?日前在成都举行的科大讯飞未来科栈运动上,记者采访了相关专家。

  能分词会断句 机械尚在起劲

  NLP就是机械让盘算机来明白和处置惩罚人类自然语言的手艺,它和盘算机视觉、语音处置惩罚的区别在于信息处置惩罚的类型。

  “盘算机视觉主要处置惩罚图像,语音手艺处置惩罚声音,而NLP主要是对文字的明白。”云浮科技的首创人兼CEO张文斌说,在人工智能中,语音识别是耳朵,语音合成是嘴巴,盘算机视觉是眼睛,而NLP则卖力将抽象的文字符号转化为盘算性能明白的语言。

  “‘中文十级’的某些语句,人类去明白都有很浩劫度,况且是盘算机。”张文斌说,在口语和誊写上,汉字往往没有词与词之间的界限,即便机械能够准确识别文字,但明白它的意思却很难;再好比种种五花八门的地方口音和方言,也是“绊脚石”。

  “自然语言处置惩罚一样平常从最小的语意单元‘词’最先,即分词算法。这最简朴,也最成熟。”张文斌说, NLP的算法分为语法级别、句子级别剖析等,其中分词就是将字词切开,让机械明确哪几个字组成一个词,哪几个词组成一句话,从而明白整句、整段的意思。但在“分词”现实的应用历程中,仍有种种问题。

  张文斌诠释,首先是分词尺度不确定、存在歧义,及新词和实体词困扰等问题。如“乒乓球,拍卖完了”和“乒乓球拍,卖完了”无论怎么切分都准确,这就要依赖上下文语境。其次,每年都市涌现出的网络词汇,“神马”“不明觉厉”“佛系”等原来不存在的词也需要盘算机明白。

  听语气判关系 AI有新招

  怎样让机械读懂上下文语境,从而进一步相识整段话的寄义?

  “我们会实验使用听人类语言时的停留信息,作为一种分词算法的辅助。”讯飞翻译营业卖力人翟吉博说。

  对于AI工程师们来说,更主要的是深条理的算法,如实体识别、属性抽取等。“就是把人名、地名、机构名等实体识别出来后,再抽取实体之间的关系,搞清晰差别实体在句子中的差别属性。”张文斌说,五花八门的算法另有许多,好比情绪剖析,剖析文本内里蕴藏了什么样的情绪,是正面、负面照旧中性的;文档摘要,把长文天生一两百字简短的摘要等。而基于这些算法层,又可以做许多NLP的衍生应用,包罗自动问答、机械翻译等。

  那怎样识别方言呢?在科大讯飞的新款翻译机装备中,首次推出方言翻译功效,实现河南话、东北话、粤语等方言互译,或将之翻译成外语。翟吉博说,针对差别类型方言,机械接纳差别翻译流程——对同属北方方言区的河南话、东北话等,可先翻译成通俗话再翻译成外语;对于粤语等南方语言,则建设自力的语料库,直接从粤语到外语举行翻译。“思量到方言中带有许多地方特色的说法、语言、词汇,‘雄起’‘中不中’等也可以作为自力的语料,由机械单独学习。”他说,人工智能的优势是在自然语言处置惩罚方面能够不停从用户处积累语料,学习新的词汇和表达方式,不停完成自身数据库和语料库的更新。