自然语言处理(NLP)作为AI领域皇冠上的明珠,主要涵盖两个过程,自然语言理解和自然语言生成,用一个公式来表达,即可表示为:NLP=NLU+NLG。以机器翻译为例,对于两种语言之间的翻译,机器翻译模型充当一个中间角色,首先模型对其中一种语言进行处理的过程(这里就不谈那些深奥的编码过程和解码过程了),包括转换成另一种语言之前所做的工作,称之为自然语言理解;通过语言理解过程,进一步生成另外一种语言,这个过程称之为自然语言生成。概括来讲,NLU指的是将文本或者语音转换成meaning这个中间结果。NLG指的是通过meaning这个中间结果得到文本或者语音。作为认知智能核心的自然语言处理,如果语言智能能够实现突破,那么整个人工智能的研究会迈出一大步。自然语言处理是体现语言智能重要的技术,它可以分析、理解或者生成自然语言,实现人与机器的自然交流,同时也有助于人与人之间的交流。从研究范围来分析,自然语言处理包括三个部分,第一部分是NLP的基础研究,包括分词、词性标注、命名实体识别、句法分析、语义解析;第二部分是在基础之上的核心领域的研究,包括词汇、短语、句子、篇章的表示。主要的核心领域有机器翻译、信息抽取、聊天和对话、阅读理解、语言生成、知识工程、推荐系统、情感分析等;第三部分是NLP的落地应用,指的是如何将NLP技术深入到各个应用系统中,比如智能翻译机、智能客服、搜索引擎、语音助手、知识问答等大型应用系统。
自然语言处理也经历了从传统的基于知识推理的方法到基于数据驱动的浅层机器学习的方法,再到目前大红大紫的基于大数据驱动的深度学习。不论是学术研究和还是工程落地都取得了突飞猛进的发展。随着研究的不断发展,也出现了很多更具挑战的应用领域,比如同声传译技术,无监督的多语言翻译、情感对话(如何改善呆板的对话,让对话更加具备感情色彩)、诗歌生成等。NLP博大精深,虽然基于数据驱动的方法的确有效,然而,如何能够结合语言的特征信息来增加模型的可解释性,这对于进一步改善学习算法具有很重要的意义,也将会是NLP的下一个热点话题。