header images

人工智能之
语义识别

人工智能之语义识别

中文语义识别定义
        一、中文语义识别概述
        计算机科学领域的一个重要分支就是“人工智能”,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
        在自然语言处理方面,如何让计算机识别和理解人类的语言,并且模拟人类思维方式去思考、推理问题,是完成“人工智能”这个人类伟大理想的重要举措。不管是中文,英文语言环境中,除了你、我、他等这类个别的例外以外,词组才是人类表达语义的最小单位。
        中文由于其深厚而且博大精深的文化底蕴,“长字符串”形式的书写方式使得计算机在理解中文方面远比理解英文要困难很多。因为英文本身就是以“词”为最小的存在单位,书写方式是以空格区分每个词分割,所以计算机能通过空格来很好的识别英文的一个最小语义表达。
        中文的复杂程度、表达语义的能力远远高于英文,同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”,可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”,再比如“XXX行贿中国石油公司”和“中国石油公司行贿XXX”。同样的内容不同的分割、不同的顺序,表达的意思就完全不一样。所以若想让计算机识别中文文本,第一步要做的就是告诉计算机在一句话中,哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性,所以准确分词技术是一项非常复杂和具有挑战性的工作。
        中文分词实例。
        中文歧义类型有:
         1、组合歧义:在分词过程中是最常遇到的,比如:“美国花旗银行”中的“国花”,“苏联想从边境撤军”中的“联想”,“技术和服务”中的“和服”等等非常多。
        2、人名歧义:“宁静”、“杨柳”、“黎明”等等,语境歧义
         3、语用歧义:“牦牛肉不好吃”,其中的“好”有两种意思,a)“味道不好吃”的意思;b)“不容易吃”的意思;
         4、语境歧义:两米二六个头的姚明。并不是说姚明有“26个脑袋”
         5、真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知识积累,也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。
         6、分词颗粒问题:“中国人民解放军”可以是一个词,也可以是“中国 人民 解放 军”在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不同。
         7、分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完全不同,互联网网友的用词方式跟其他领域完全不同。
        8、.......更多...
        二、中文语义识别技术领域技术发展现状
         该领域技术水平可以分为以下几个阵营:
         第一阵营:互联网通用领域中文识别技术领先企业。
         第二阵营:搜索引擎领域中文语义识别技术领先企业。
         第三阵营:互联网通用领域的科研机构。
         第四阵营:互联网通用领域的商业机构。
         第五阵营:近几年新进企业。
        三、自然语言识别的发展方向
        “字符层”, “词法层”, “实体层”, “句法层” ,“语义层”。

语义识别算法
         “他说的确实在理”是一个很困难的测试用例,“的确”和“实在”碰巧也成词,这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的,因此很多切分方案都会被扣掉不少分:
        他/说/的/确实/在理 (罚分:1+1+1+1+1 = 5 ) 他/说/的确/实/在理 (罚分:1+1+1+2+1 = 6 )
         他/说/的确/实在/理 (罚分:1+1+1+1+2 = 6 )
         正确答案胜出。
         需要指出的是,这个算法并不需要枚举所有的划分可能。整个问题可以转化为图论中的最短路径问题,利用动态规划效率则会更高。
         算法还有进一步加强的余地。大家或许已经想到了,“字不成词”有一个程度的问题。“民”是一个不成词的语素,它是绝对不会单独成词的。“鸭”一般不单独成词,但在儿歌童谣和科技语体中除外。“见”则是一个可以单独成词的语素,只是平时我们不常说罢了。换句话说,每个字成词都有一定的概率,每个词出现的频率也是不同的。
         何不用每个词出现的概率,来衡量分词的优劣?于是我们有了一个更标准、更连续、更自动的改进算法:先统计大量真实语料中各个词出现的频率,然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划,不难求出得分最高的方案。
         以“有意见分歧”为例,让我们看看最大概率法是如何工作的。查表可知,在大量真实语料中,“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ,因此“有/意见/分歧”的得分为 1.8×10-9 ,但“有意/见/分歧”的得分只有 1.0×10-11 ,正确方案完胜。
         这里的假设是,用词造句无非是随机选词连在一块儿,是一个简单的一元过程。显然,这个假设理想得有点不合理,必然会有很多问题。考虑下面这句话:
         这/事/的确/定/不/下来
         但是概率算法却会把这个句子分成:
         这/事/的/确定/不/下来
         原因是,“的”字的出现概率太高了,它几乎总会从“的确”中挣脱出来。

语义识别架构
         分析/ analysis
         上位词/BT:
         研究方法/ research   methods
         下位词/ NT
         ABC 分析/ abc  analysis          综合分析/aggregate   analysis         替代分析/ analysis   of   alternatives          盈利能力分析/ analysis   of   profitability          基线分析/ baseline   analysis          贝叶斯分析/ bayesian   analysis         效 益成本分析/benefit   cost   analysis          盈亏平衡分析/ breakeven   analysis          化学分析/ chemical   analysis         聚类分析/ cluster   analysis          比较分析/ comparative   analysis          比较研究 / comparative   studies         成分分析/ componential   analysis          联合分析 / conjoint   analysis          成本分析/ c ost   analysis          量本利分析/ cost   volume   profit   analysis         国家分析 / country   analysis         协方差分析 / covariance   analysis          关键路径 / critical   path          跨国分析 / cross   country   analysis          数据包分析 / data   envelopment   analysis         需求分析 / demand   analysis         描述项目分析 / descriptive   project   analysis          诊断分析 / diagnostic   analysis          判别分析 / discriminant   analysis          经济计量分析 / econometric   analysis          经济分析 / economic   analysis          实证分析 / empirical   analysis          环境噪声影 响分析 / environmental   noise   impact   analysis          平衡分析 / equilibrium   analysis          财务分析/ financial  analysis          财务报表分析/ financial   statement   analysis          形式分析/ formal   analysis          差异管理和持续时间分析 / gap   management   &   duration   analysis          性别分析 / gender   analysis          历史分析/ historical   analysis          影响分析 / impact   analysis         投入产出分析/ input   output   analysis          制度分析 / institutional   analysis         投资分析 / investment   analysis          区位分析 / location   analysis         边际分析/ marginal   analysis          马尔可夫分析 / markov   analysis          数学分析/ mat hematical   analysis         元分析 / meta   analysis          小额信贷机构的客户分析 / microfinance   institution   client   analysis          多变量分析 / multivariate   analysis          需求分析 / needs   analysis          概述 / overviews          渠道分析 / panel   analysis         位置分析 / position   analysis          盈利能力分析 / profitab ility   analysis          定性分析 / qualitative   analysis          定量分析 / quantitative   analysis          比率分析 / ratio   analysis          回归分析 / regression   analysis          行业分布分析/ sectoral   distribution   analysis          证券分析 / securities   analysis          安全性分析 / security   analysis         敏感性分析 / sensitivity   analysis          社会学分析 / sociological   analysis         土壤分析 / soil   analysis          统计分析/ statistical   analysis         工程结构分析 / structural   analysis   engineering          系统分析 / systems   analysis         任务分析 / task   analysis          理论分析 / theoretic   analysis          时间序列 / time   seri es          权衡分析 / tradeoff   analysis          城市影响分析 / urban   impact   analysis          方差分析 / variance   analysis          工作负荷分析 / work   load   analysis …… ` ……           相关词分析方法/ RT:analytical   approach         分析工具 / analytical   kits         可行性研究 / feasibility   studies          现场研究 / field   studies         模型 / models          随机变量 / random   variables          研究/ studies         理论 / theory    ……   ……

产品试用:联系我们

友情连接

pix pix pix pix pix pix

技术优势

北京中航致远科技有限公司,
具有基础研发团队及应用开发能力
具有网络安全技术
部分产品具有简洁、友好的操作界面
部分产品在安全数据传送方式上,具有先进性
公司研发团队通过分析人类思维习惯,不断改进产品的人性化设计

中航致远

北京中航致远科技有限公司(前身:北京畅意达科技发展有限公司),是经过转型和并购后的一家创新型科技企业。 公司拥有一大批获得国内、国际认证(CCNA/CCNP/HCSE/MCSE等)的技术工程师,技术力量雄厚,具有丰富的设计、安装、施工经验。 公司专注于为用户提供信息化建设解决方案和自主研发产品。专业领域,包括信息安全、人工智能、区块链技术、大数据、云计算、物联网、软件开发等等。