NLP从业人员必须知道的十大必备知识库(附资料下载)

在过去的一年面试了许多NLP相关的技术人员,但是很多人被我内心会称为知乎型面试者,他们对知识的汲取通常以他人的总结来做为知识的全貌,这样的现象在互联网中比比皆是,这也正是说明现在网络知识获取的便捷性。

网盘地址:
链接: https://pan.baidu.com/s/1rzwVUD8mtNW9kA9wZDqYyw 提取码: c7te

     

    希望以下内容给大家带来一些NLP的必备技能,在日后的过程中能为读者提供帮助,写完后发现NLP远远不止十大必备知识库,知识图谱和问答系统两个大头都没说。不过下面这些知识也够大家学段时间了。

文章最后会共享一个百度网盘链接给大家,提供一些资源下载地址,希望大家多多支持一、文本匹配算法:

(1) 无监督:cosine,jaccard,eueclidean,rouge,bleu,meteor , bm25

(2) 有监督:DSSM,Siamese Network (主要区分同构和异构网络)    这几个算法在思想上和应用上都很多区别,比方jaccard适合做短文本,cosine适合做长文本,bm25则适合长短文本匹配是搜索经典匹配方法,siamese network适合做同类文本,dssm适合做非同类文本,rouge/bleu/meteor适合做评价指标,。    不过还有很多有意思的衍生,比方cosine到softcosine,jaccard到log-jaccard(textrank中文本相似度算法的计算方式),DSSM,Siamese Network 更是有无数种变化。    在面试中很多同学连BLEU都没听说过,真的会让面试官的印象分大打折扣。

    二、NLP常用基础包:

(1) 中文分词工具:jieba

(2) 混合学习包:sklearn

(3) NLP专用包:genism,nltk,spacy,pattern

    基础包其实远远不止这些,这里只是罗列下大家最应该去熟悉的,NLTK看上去很简单,但是里面语法树的解析和短语的抽取都是非常值得研究的。尤其刚入门的同学,如果能灵活运用,马上就能达到非常高的baseline。    三、深度学习和图算法框架:

(1)基础框架:Pytorch,tensorflow,Keras,

(2)图框架:Networkx,DGL,PyTorch Geometirc (PyG)

    个人建议,pytorch得熟练使用,其框架优势用一句话概括就是:两年超越了tensorflow 10年成绩。DGL还算不错的框架对化学分子方向支持力度特别高,PyG比较全面。
四、NLP图论算法:

(1) 经典图:HMM,CRF

(2) 怀疑人生图:GNN

    HMM,CRF一般是NLP的必问题目,但是个人感觉其价值在于思想,理解HMM的来源和CRF的优势,更具有价值。 

至于GNN网上资源很多推荐一个csdn,https://www.cnblogs.com/nxf-rabbit75/p/11306198.html#auto_id_16,一般人难以看懂,不必短时间能纠结,在知识积累后,每周反复去思考一小时左右足矣。五、吹牛利器,工作神器:

(1) 通用尖端模型:ALBERT

(2) 哈佛NLP顶尖利器:OpenNMT

(3) NLP检索之王:Elasticsearch

(4) NLP演示:AllenNLP

    在工作中不要试图去创造算法,大多数时候能合理的运用好尖端技术已不是一件容易的事了,在运用好的同时,去理解这些算法原理和思想足够你在工作中吹牛了,先用指标去碾压,再用思想去修饰。    为什么要提到Elasticsearch,在NLP中最常用的绝对就是搜索,在海量数据下,搜索一直是第一优先级,理解这个搜索引擎会让你对NLP有不一样的境界。

接下来的可能会让你崩溃,真的太难了
六、表示学习:

(1) 词向量表示:Fasttext

(2) 图表示:Graph Embedding System,GAN,GCN

(3) 网络结构表示:Struc2vec

(4) 句级别表示:SELF-ATTENTIVE SENTENCE EMBEDDING,ALBERT

    这些算法和知识都适合慢慢读,反复看,半年下来基本也就都懂了,当然不只是懂得其表面意思,git上这些论文的代码都有,如果你真的喜欢算法,有空都可以去拉下来跑一跑。读读源码会让你在思想上升华。七、高端操作-文本生成:

(1)完形填空:MaskGAN

(2)数据到文本:Data-to-Text

    这两个技术看上去其实都很简单,但实际都不容易,MaskGAN是对MLM的升华,让预选训练更加有趣和强大。

    Data-to-Text也是很有意思的方法,可以去看下很多互联网电商自动化短评,都是从商品属性和关联信息中提取信息做到对商品的自动化描述。    八、难以运用的尖端-文本摘要:

(1)最佳:Levenshtein Transformer,LDC,Classical Structured Prediction

(2)经典:PGN

    Point-genertion-network是文本生成的经典,但是出来比较早,没有经历transformer的洗礼,最佳中的三个模型都是2019年新出来的,在文本生成上都是有非常高的评价,github几乎霸榜,无论工作中用不用的到,都值得一学。    九、NLP优质论文获取地址:

‍‍ACL,http://www.aclcargo.com/

EMNLP:https://www.aclweb.org/portal/content/emnlp-2018

NAACL:https://naacl2019.org/

ARXIV,https://arxiv.org/‍‍

十、经典视频和学习资料:

https://www.coursera.org/

http://cs229.stanford.edu/

http://www.deeplearningbook.org/

http://web.stanford.edu/class/cs224n/

http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab

https://github.com/mhagiwara/100-nlp-papers

发表评论

电子邮件地址不会被公开。 必填项已用*标注