Feiyang Chen's Blogs


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

jieba

Posted on 2018-05-01 | In NLP
Words count in article: 2.3k | Reading time ≈ 9
Source官方文档 github地址 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体 ...
Read more »

Formal-language-theory-and-automata

Posted on 2018-05-01 | In NLP
Words count in article: 3.3k | Reading time ≈ 12
形式语言理论的研究对象 , 除了自然语言之外 , 还包括程序语言和其他人工语言。如果一个语言存在对它的识别过程 , 则一定也存在对它的产生过程。反之亦然。由此,刻画某类语言的有效手段, 是文法和自动机。文法用来生成语言的句子, 自动机用来识别语言的句子 , 就描述一种语言 而言 , 两者是统一的。 ...
Read more »

POS-tagging

Posted on 2018-05-01 | In NLP
Words count in article: 1.5k | Reading time ≈ 5
判定给定句子中每个词的语法范畴, 确定其词性并加以标注的过程 (刘开瑛 2001)。词性标注歧义 : 如果词 w 存在两个或两个以上的词性 , 则词 w 具有词性标注歧义。词性标注是一个比较活跃的研究领域,它可以应用到许多领域, 其中包括: 口语识别和生成 , 机器翻译 , 信息检索和词典编篡等。 ...
Read more »

lexical-analysis

Posted on 2018-04-30 | In NLP
Words count in article: 3k | Reading time ≈ 10
1.汉语的自动分词 主要包括下面两个步骤:1 . 根据分词规范 , 建立机器词典。2 . 根据分词算法和机器词典 , 把字串切分为词串。 重要性 汉语的词也是汉语语言中最小的独立运用单位。自动分词是现代汉语进行句法分析的第一步,是后续语法和语义分析的基础。汉语分词的关键在于 , 好的分词算法和好的 ...
Read more »

Introduction-to-Computational-Linguistics

Posted on 2018-04-29 | In NLP
Words count in article: 1.7k | Reading time ≈ 5
1.概念 计算语言学 , 也称自然语言处理或自然语言理解 , 它是研究如何利用计算机来理解和生成自然语言。 计算机对自然语言的研究和处理 , 一般应经过如下 4 个过程 :1 . 从语言学角度提出自然语言处理的问题和理论(linguistic problem)。2 . 把需要研究的问题在语言学上加 ...
Read more »
1…34
Feiyang Chen

Feiyang Chen

35 posts
6 categories
15 tags
RSS
GitHub E-Mail
Friends' Links
  • HelloGitHub
  • asdfv1929's Home
© 2019 Feiyang Chen | Site words total count: 58.6k