人工智能之语义识别
中文语义识别定义
一、中文语义识别概述
计算机科学领域的一个重要分支就是“人工智能”,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在自然语言处理方面,如何让计算机识别和理解人类的语言,并且模拟人类思维方式去思考、推理问题,是完成“人工智能”这个人类伟大理想的重要举措。不管是中文,英文语言环境中,除了你、我、他等这类个别的例外以外,词组才是人类表达语义的最小单位。
中文由于其深厚而且博大精深的文化底蕴,“长字符串”形式的书写方式使得计算机在理解中文方面远比理解英文要困难很多。因为英文本身就是以“词”为最小的存在单位,书写方式是以空格区分每个词分割,所以计算机能通过空格来很好的识别英文的一个最小语义表达。
中文的复杂程度、表达语义的能力远远高于英文,同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”,可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”,再比如“XXX行贿中国石油公司”和“中国石油公司行贿XXX”。同样的内容不同的分割、不同的顺序,表达的意思就完全不一样。所以若想让计算机识别中文文本,第一步要做的就是告诉计算机在一句话中,哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性,所以准确分词技术是一项非常复杂和具有挑战性的工作。
中文分词实例。
中文歧义类型有:
1、组合歧义:在分词过程中是最常遇到的,比如:“美国花旗银行”中的“国花”,“苏联想从边境撤军”中的“联想”,“技术和服务”中的“和服”等等非常多。
2、人名歧义:“宁静”、“杨柳”、“黎明”等等,语境歧义
3、语用歧义:“牦牛肉不好吃”,其中的“好”有两种意思,a)“味道不好吃”的意思;b)“不容易吃”的意思;
4、语境歧义:两米二六个头的姚明。并不是说姚明有“26个脑袋”
5、真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知识积累,也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。
6、分词颗粒问题:“中国人民解放军”可以是一个词,也可以是“中国 人民 解放 军”在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不同。
7、分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完全不同,互联网网友的用词方式跟其他领域完全不同。
8、.......更多...
二、中文语义识别技术领域技术发展现状
该领域技术水平可以分为以下几个阵营:
第一阵营:互联网通用领域中文识别技术领先企业。
第二阵营:搜索引擎领域中文语义识别技术领先企业。
第三阵营:互联网通用领域的科研机构。
第四阵营:互联网通用领域的商业机构。
第五阵营:近几年新进企业。
三、自然语言识别的发展方向
“字符层”, “词法层”, “实体层”, “句法层” ,“语义层”。
语义识别算法 “他说的确实在理”是一个很困难的测试用例,“的确”和“实在”碰巧也成词,这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的,因此很多切分方案都会被扣掉不少分: 他/说/的/确实/在理 (罚分:1+1+1+1+1 = 5 ) 他/说/的确/实/在理 (罚分:1+1+1+2+1 = 6 ) 他/说/的确/实在/理 (罚分:1+1+1+1+2 = 6 ) 正确答案胜出。 需要指出的是,这个算法并不需要枚举所有的划分可能。整个问题可以转化为图论中的最短路径问题,利用动态规划效率则会更高。 算法还有进一步加强的余地。大家或许已经想到了,“字不成词”有一个程度的问题。“民”是一个不成词的语素,它是绝对不会单独成词的。“鸭”一般不单独成词,但在儿歌童谣和科技语体中除外。“见”则是一个可以单独成词的语素,只是平时我们不常说罢了。换句话说,每个字成词都有一定的概率,每个词出现的频率也是不同的。 何不用每个词出现的概率,来衡量分词的优劣?于是我们有了一个更标准、更连续、更自动的改进算法:先统计大量真实语料中各个词出现的频率,然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划,不难求出得分最高的方案。 以“有意见分歧”为例,让我们看看最大概率法是如何工作的。查表可知,在大量真实语料中,“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ,因此“有/意见/分歧”的得分为 1.8×10-9 ,但“有意/见/分歧”的得分只有 1.0×10-11 ,正确方案完胜。 这里的假设是,用词造句无非是随机选词连在一块儿,是一个简单的一元过程。显然,这个假设理想得有点不合理,必然会有很多问题。考虑下面这句话: 这/事/的确/定/不/下来 但是概率算法却会把这个句子分成: 这/事/的/确定/不/下来 原因是,“的”字的出现概率太高了,它几乎总会从“的确”中挣脱出来。
语义识别架构 分析/ analysis 上位词/BT: 研究方法/ research methods 下位词/ NT ABC 分析/ abc analysis 综合分析/aggregate analysis 替代分析/ analysis of alternatives 盈利能力分析/ analysis of profitability 基线分析/ baseline analysis 贝叶斯分析/ bayesian analysis 效 益成本分析/benefit cost analysis 盈亏平衡分析/ breakeven analysis 化学分析/ chemical analysis 聚类分析/ cluster analysis 比较分析/ comparative analysis 比较研究 / comparative studies 成分分析/ componential analysis 联合分析 / conjoint analysis 成本分析/ c ost analysis 量本利分析/ cost volume profit analysis 国家分析 / country analysis 协方差分析 / covariance analysis 关键路径 / critical path 跨国分析 / cross country analysis 数据包分析 / data envelopment analysis 需求分析 / demand analysis 描述项目分析 / descriptive project analysis 诊断分析 / diagnostic analysis 判别分析 / discriminant analysis 经济计量分析 / econometric analysis 经济分析 / economic analysis 实证分析 / empirical analysis 环境噪声影 响分析 / environmental noise impact analysis 平衡分析 / equilibrium analysis 财务分析/ financial analysis 财务报表分析/ financial statement analysis 形式分析/ formal analysis 差异管理和持续时间分析 / gap management & duration analysis 性别分析 / gender analysis 历史分析/ historical analysis 影响分析 / impact analysis 投入产出分析/ input output analysis 制度分析 / institutional analysis 投资分析 / investment analysis 区位分析 / location analysis 边际分析/ marginal analysis 马尔可夫分析 / markov analysis 数学分析/ mat hematical analysis 元分析 / meta analysis 小额信贷机构的客户分析 / microfinance institution client analysis 多变量分析 / multivariate analysis 需求分析 / needs analysis 概述 / overviews 渠道分析 / panel analysis 位置分析 / position analysis 盈利能力分析 / profitab ility analysis 定性分析 / qualitative analysis 定量分析 / quantitative analysis 比率分析 / ratio analysis 回归分析 / regression analysis 行业分布分析/ sectoral distribution analysis 证券分析 / securities analysis 安全性分析 / security analysis 敏感性分析 / sensitivity analysis 社会学分析 / sociological analysis 土壤分析 / soil analysis 统计分析/ statistical analysis 工程结构分析 / structural analysis engineering 系统分析 / systems analysis 任务分析 / task analysis 理论分析 / theoretic analysis 时间序列 / time seri es 权衡分析 / tradeoff analysis 城市影响分析 / urban impact analysis 方差分析 / variance analysis 工作负荷分析 / work load analysis …… ` …… 相关词分析方法/ RT:analytical approach 分析工具 / analytical kits 可行性研究 / feasibility studies 现场研究 / field studies 模型 / models 随机变量 / random variables 研究/ studies 理论 / theory …… ……
产品试用:联系我们