加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

跨专业自学NLP,这个90后撸出了开源类库HanLP,已在GitHub收获1.5W星

发布时间:2019-11-04 23:19:06 所属栏目:评测 来源:刘燕
导读:副标题#e# 截止 2019 年 10 月底,一款名为 HanLP 的自然语言处理类库在 GitHub Star 数达到了 15.5 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨工业大学的 LTP。这是一款由一系列模型与算法组成的自然语言处理(NLP)开发工具包。 你或

现在,何晗仍在负责 GitHub 上 HanLP 的维护工作。HanLP 令何晗收获了一众粉丝,他们常常来找何晗咨询一些 NLP 专业相关的问题,时间长了,问题越积越多,何晗试图帮助一些初级用户找一些入门资料,却遗憾找不到特别对口的。适逢出版社的编辑找他约稿,何晗索性决定,干脆自己写一本入门资料。

在这样的背景下,这本《自然语言处理入门》的定位很快明确下来:普通人入门时看的第一本 NLP 书,小白也能看懂的工具书。何晗还希望该书能为读者指明下一步的方向,因此在入门内容的基础上,他加上了一些挑战章节。

2019 年 10 月,历时 1 年创作、十几遍校对,《自然语言处理入门》正式出版(了解更多书籍信息可点击阅读原文),该书还得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。

“理论是根,项目是树“,如果说 HanLP 是树,那么这本《自然语言处理入门》便是树的根基。

与创作 HanLP 时期相比,何晗已经从小白蜕变成了领域专家,不变的地方在于,何晗仍将“工程与理论相结合”作为创作的核心理念,他试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡。何晗以自己的开源项目为案例,代码对照公式讲解每一个算法每一个模型,希望让读者知其然并且知其所以。

NLP 现在最大的问题是难以表示世界知识

采访中,何晗对于 NLP 及句法分析、语义分析、问答系统目前的发展现状和发展趋势分享了自己的精彩观点。

Transformer 大家族狂欢的一年

何晗表示,今年是以 BERT 为首的 Transformer 大家族狂欢的一年,自从发现在大规模无标注语料上训练的 Transformer 语言模型可以编码很多知识后,各项任务包括对话系统都在研究怎么接入 Transformer。这些研究令人振奋,在另一层意义上也有些单调无聊。虽然从结果上来看效果的确提升了许多,但模型的可解释性还不够。谁都知道知识肯定编码进去了,但究竟是如何编码、为什么能编码、如何精简参数等等,还在研究当中。

英文句法分析摸到了天花板

句法分析和语义分析都可以归结为为每个单词找被修饰词,然后标注它们的关系。针对这种类型的任务,BiAffine 是比较前沿的做法。它属于基于图的算法家族,天然适合并行化,在 GPU 下速度很快。此后还涌现了许多“改进”研究,大致朝着高阶建模的方向走。不过,何晗认为,英文句法分析基本摸到了天花板,中文句法分析可能不是差在模型而是差在高质量大规模树库上。

至于语义依存分析,与句法分析模型一样,只不过语料库的建设比其滞后。同属语义分析家族的另几项任务,问句转 SQL、抽象语义表示则稍微平凡一些,基本上都是 Seq2Seq 的变种。对于上述的所有任务,如何有效地将问题表示为向量才是核心问题。这时候,又轮到 Transformer 霸榜了。

未来机器学习工程师岗位会减少

谈到 NLP 现在发展中的挑战,何晗表示,NLP 现在最大的问题是难以表示世界知识,举个例子,每个人都有一套对物理世界的认识,但计算机只有一些符号语料。“人们都说百闻不如一见,目前的 NLP 系统别说见了(机器视觉),连闻都很少闻(语音处理)”。

但就学界的前沿动态而言,在模型结构的探索上 AutoML(自动设计神经网络),以及在知识工程上的自动构建知识图谱, 都是未来可预见的发展趋势。

就工业界而言,未来机器学习工程师的岗位反而会减少,因为神经网络可以自行设计神经网络, 就不需要这么多工程师手动设计了。到时候,软件开发将进入 2.0 时代,不用再写代码,而是标注数据。标注数据丢给神经网络学习模型,模型的结构也是神经网络自动探索出来的,这个模型用来解决实际问题。软件工程师不需要写一行代码,或者说,他们标注的数据就是他们的代码。神经网络是他们的编译器,训练出来的神经网络是他们编译后的程序。正如编译器可以编译编译器一样,神经网络也可以训练神经网络。这就是未来最有潜力的技术。

写在最后

现在读到博士了,何晗的生活依旧简单,除了日常学习,他最爱的还是动漫和游戏。

维护 HanLP 之外,何晗还业余经营着一个名为“码农场”的博客,用于自己的课程笔记分享。由于太忙,这几年“码农场”的更新频率已经降到了以“年”为单位,不过,日常仍有数千粉丝来这里翻阅资料。

从该博客的一隅,或许可以一窥何晗的另一面。

在“码农场”的资料介绍处,何晗称自己是一个算法初心者。大二时兼职开发 HanLP,何晗常常一个人坐在教室忙活,同学们完全不知道在干什么,“大部分女同学认为我就是个码农,修电脑的那种;有的男同学觉得我很 low,有的觉得我很酷“,何晗从来不解释,他觉得做自己就好了。

他亦是一位算法坚守者,从兼职接触到如今锁定研究方向,他一直在自己喜欢的领域保持专注。采访最后,何晗告诉我们,毕业后,他会选择继续扎根学术。

【编辑推荐】

  1. Photoshop 2020来了,人工智能让设计更轻松
  2. 央视点名推荐的“家庭智能管家”,疑似阿里人工智能实验室新品
  3. 新的人工智能编程语言超越了深度学习
  4. 媒体近距离接触谷歌量子计算机:还要解决哪些问题
  5. 81页计算机视觉学习指南,助你从萌新长成老司机
【责任编辑:张燕妮 TEL:(010)68476606】
点赞 0

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读