博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
条件随机场介绍(一)
阅读量:7291 次
发布时间:2019-06-30

本文共 1236 字,大约阅读时间需要 4 分钟。

本文翻译自Conditional Random Fields: An Introduction. Hanna M. Wallach February 24, 2004

1.序列标注

对一组观察序列进行标注在生物信息学,计算语言学和语音识别等领域都有广泛的应用。例如,考虑下面自然语言处理任务:对一句话中的单词进行成分分析(POS)。在该任务中,每个单词都要赋值一个标签,代表其在句子中的成分。标注的结果形如:

[PRP He] [VBZ reckons] [DT the] [JJ current] [NN account] [NN

deficit] [MD will] [VB narrow] [TO to] [RB only] [# #] [CD 1.8] [CD

billion] [IN in] [NNP September] [. .]

在对句子进行这样标注后,我们就有可能完成做其他高层次的自然语言处理任务。POS带给我们仅仅靠单词无法获得的信息,也即句子的内在结构。

应付这样的任务一个常用的方法是隐式马尔科夫模型()或者概率有限状态机。它们对任意给定的句子中单词的找出最可能标注序列。HMMs是一种生成模型,它定义一个联合概率分布P(X,Y),其中XY分别表示观察序列和相应的标签序列的随机变量。而定义这样的联合概率,生成模型必须列举所有观察序列的可能值,这对多数领域来说是比较困难的,除非观察序列中的每个元素都相互独立。更准确地说,在任何时刻观察值仅仅与状态(即要标注的标签)有关。对于简单的数据集,这个假设倒是合理的。但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。

上面的问题是序列数据标注最基础的问题之一。显然一个支持可推导的模型是必要的,然而一个无需对数据进行不可靠的独立性假设的模型同样是可贵的。一个这样标准的方法就是对给出的观察序列x计算条件概率分布p(Y delim{|}{x}{})而不是在数据和标签上的联合概率分布P(X,Y)。对于一个新的观察序列x_{s},选择y_{s}使得条件概率p(Y_{s} delim{|}{x_{s}}{})最大。条件概率的特性使得我们无需花费精力对观察值进行建模,并无需对数据序列进行不可靠的独立性假设;模型能够从观察序列中提取任意数目的属性,而不用担心它们之间是否相关。

条件随机场(CRFs)是一个用于标注和切分序列数据的概率框架,它基于前面段落对条件概率的描述。一个CRF是一个无向图模型,对给出的观察序列,它定义一个在标签序列上的条件对数线性概率分布。CRF的优于HMM的一个主要地方是它的条件特征,无需对数据进行不必要的独立性假设。另外,CRF避免了标注偏执问题(the label bias problem),这是MEHMMs和其他基于有向图的模型的一个软肋。CRF的性能在一系列的现实世界的序列标注任务中都好于MEHMMs和HMMs。

 

转载于:https://www.cnblogs.com/retrieval/archive/2012/04/23/2466591.html

你可能感兴趣的文章
黑马程序员-面向对象-09天-4
查看>>
小强的HTML5移动开发之路(14)——Video标签详解
查看>>
大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)...
查看>>
在wamp下安装bugfree
查看>>
《大道至简》第二章(是懒人创造了方法)读后感
查看>>
【database】database domain knowledge
查看>>
UVa 455 - Periodic Strings
查看>>
使用JDBC连接数据库
查看>>
20172307 2017-2018-2 《程序设计与数据结构》第6周学习总结
查看>>
c#中使用多线程访问winform中控件的若干问题
查看>>
strong_alias && weak_alias && __attribute__
查看>>
js中三个对数组操作的函数 indexOf()方法 filter筛选 forEach遍历 map遍历
查看>>
Histogram Equalization(直方图均衡化)
查看>>
string::substr()简介
查看>>
[LeetCode] Permutations II
查看>>
献给我老公 - Java枚举类型
查看>>
Hadoop简介
查看>>
AD9857和ADS5542昨天调试通过了。
查看>>
MySQL点滴
查看>>
Servlet学习笔记03——什么是DAO?
查看>>