灵玖中科软件(北京)有限公司
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2019年10月17日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 计算机的发展实现了万物互联,这种互联形式也使得数据积累达到了一定高度,这些数据均能作为数据分析的重要依据。知识图谱技术对这些数据的分析不仅局限于其数据本身,而且还包括对数据之间关系的探索,也就是说,涉及到数据关系的分析需求,知识图谱都可以发挥自己的功能特色。 知识图谱是一种基于图的数据结构,包括节点和边,节点表示“实体”,而每条边则是“实体”和“实体”的关系,知识图谱的本质是语义网络。 KGB知识图谱凭借其在知识图谱的构建,更新方面的技术优势,现在已经在公共安全,企业文件内容核查,电力系统等得以广泛应用。今天为大家介绍一下KGB知识图谱的主要功能和特色。 KGB知识图谱功能 文档解析 KGB知识图谱引擎,可轻松解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF文件,可直接解析输出为word格式文件,保留文件中表格与文字格式等重要信息。对于图片信息,OCR可自动识别并抽取图片中的文字信息。 知识抽取 KGB知识图谱引擎,可从结构化表格与非结构化文本中自适应识别并抽取关键知识(主体、客体、时间、地点、金额、条款等),准确率高达90%,实现知识的快速生成。 知识关联 KGB知识图谱引擎深入挖掘知识关联,将一个个知识实体链接为具有完整意义的知识事实。并具有强大的知识推理能力,推理出暗含的知识与结论,丰富知识图谱。 知识较验 KGB知识图谱加工厂能够对知识质量智能校验,包括对多种知识错误与冲突进行自动智能核查与修正,更有知识工程师进行知识精准校验,保证知识图谱的准确性。 KGB知识图谱特色 1、跨领域可扩展 知识图谱加工厂具有通用的图谱构建引擎。知识抽取、知识关联与质量核查过程不依赖特定业务知识,结合用户知识图谱构建的需求,可以快速构建用户领域知识图谱。 2、知识质量智能核查 知识图谱加工厂实现对多种知识错误与冲突的智能核查与校验,并对知识库进行实时自动更新,保证知识图谱准确性。 3、人机结合的服务 知识图谱加工场人机构成:90%机器+10%的人工,只需要提供语料,就可以快速得到对应的知识图谱构建成果。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年5月24日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 随着互联网的迅猛发展,网络上的信息与日俱增,互联网已成为人们获取信息的重要来源。互联网和信息技术的发展使我们正面临着一个信息过量而知识贫乏的困境。如何在海量信息中快速有效地发掘有价值和可利用的信息,准确地定位所需信息和作好信息过滤,已成为信息领域的主流技术。目前在互联网产品中很多地方都会通过使用标签来对该段文本所表达的核心思想进行描述,比如博客、微博等,这些产品中基本上都是采用文本提取技术,但是目前的这些产品中都会存在标签的提取不够准确,而且不能够表达核心思想的问题。因此如何快捷、准确地识别和获取有用信息显得越来越重要。 自动获取关键词的功能,大概可以分成三步 1、通过分词算法将标题和内容分别进行分割,提取出关键词和频度。 2、将提取结果与现有词库进行比较,处理,去除无用的词得到最符合规则的关键词。这里主要就是要看词库了,我们可以自己定义词库,也可以使用现有的成熟词库。 3、在处理后的提取结果中选择适当的作为最终的关键词,得到最符合当前内容的关键词,在这个阶段就是具体情况具体分析了。 灵玖软件Nlpir Parser智能平台文章关键词提取系统能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 文章关键词提取系统的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档; 2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征; 3、精准排序:关键词按照影响权重排序,可以输出权重值; 4、开放式接口:文章关键词提取组件作为灵玖软件Nlpir Parser智能平台的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。 随着时代的发展,汉语中新词语的不断涌现是一个客观规律。而当今Nlpir Parser智能平台新词语发现的研究很好地满足人们的现实需求。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年5月9日 |
供求信息分类: |
计算机/互联网 软件开发 |
供求信息描述: | 互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常生活的方方面面,对整个社会起着革命性的影响。网络在为人们提供各种前所未有的便利的同时,也为有害信息的广泛传播提供了便捷。这些信息特别是敏感信息对社会尤其是未成年人的影响日益引起人们的极大关注。如何净化网络环境,有效识别并过滤有害信息成了当前迫切需要解决的问题。 常见的方法是基于中文信息处理技术和多模式匹配技术,结合机器学习方法训练得到的词表,能够有效地识别敏感词,进而识别有害文字。敏感词识别要求能够处理“拆字”、“同音字”、“拼音字”、“缩略词”等几种模式和模式的组合。敏感词识别技术帮助用户摆脱有害信息的侵扰,进一步杜绝各种不文明信息内容的出现,可对各类有害信息及时有效地发起预警,并严防此类严重错误见诸报端。 灵玖软件Nlpir Parser敏感信息过滤系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。 灵玖软件Nlpir Parser敏感信息过滤系统应用 1、敏感内容信息过滤 可以设定敏感关键词,针对文章内容、信息关键词进行扫描,可以对敏感信息、事件、人物等信息进行剔除或抓取,适用于网站、出版、上网行为管理。通过针对特定关键词设定,可以过滤大量垃圾信息,净化互联网环境,适用于信息网站、各种论坛的信息整理。 2、敏感账号扫描 通过设定一个或一组敏感账号进行扫描,可以跟踪相关账号的传播路径、权重、受众群体及社会反响等互联网信息,适用于产品、人物跟踪。 3、特定情报实时发现 可以快速便捷地匹配大量自定义的业务关键词,智能发现不良信息的内容,达到净化网络空间、提取情报的目的,确保国家、社会与个人的信息内容安全。 Nlpir Parser敏感信息过滤系统包括敏感词检测子系统、人工干预操作子系统、敏感信息替换子系统以及敏感词判定分值效果回馈子系统组成,其特征在于所述敏感词检测子系统,它实现对包含敏感数据的检查,即在一定时间间隔内对原始数据建立索引,再通过对已建立索引的检查,分离出包含敏感信息的数据。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年5月4日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 随着计算机通信网络技术的不断发展和进步,基于文本信息的计算机网络服务已经深入到人们生活的各个方面。但是计算机网络服务中的文本信息在给人们带来无障碍交流便利的同时,不可避免地也会散播一些未经证实的消息或不实内容;为了尽可能的限制这些信息的网络传播,越来越多的计算机网络服务中集成了敏感词匹配过滤功能,将不良信息的相关词作为敏感词,以对文本信息进行敏感词匹配和过滤。 目前公知的敏感词匹配技术,通常采用敏感词库中的敏感词向待判定信息全文匹配的方式进行的,具体为:把敏感词库中的所有敏感词依次向待判定信息进行比对,如果敏感词被完全包含在特判定信息中,则认为匹配到敏感词。这样的匹配技术存在的问题是,需要把敏感词库中的每一个敏感词都依次与待判定信息进行从头到尾的匹配尝试,即需要遍历一遍敏感词库以及反复遍历待判定信息进行匹配,过多的匹配次数,使得敏感词匹配的整体耗时长、匹配处理效率低。 Nlpir Parser智能平台敏感词过滤系统由灵玖软件研制,针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。 第一步:业务单位准备敏感词列表(可选,如不设置则默认为系统内置敏感词) 首先整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。 说明如下: 1.关键词与类别完全由自己设置,不限制长度、格式与编码; 2.当前系统支持最大类别数为255个; 3. 权重标准建议为1-10。10表示最大,1表示最小。 4. 同一个词可以设置为不同的类别。 第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词) 然后,导入关键词即可,也可以使用批处理命令ImportUserDict.bat实现。 1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,百万级别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。 第三步:扫描内存或者文件 最后,选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。 大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件。 批量扫描的结果输出到指定的结果文件,输出敏感的行号,并给出敏感的内容。 Nlpir Parser智能平台敏感词过滤系统作用:一方面有效确认了将待处理文本信息中应当参与敏感词匹配的匹配字符数N,避免了因将待处理文本信息中匹配字符数不确定而对待处理文本信息中可能的字符串组合方式进行遍历尝试;另一方面还成功的定位到更有可能匹配成功的敏感词类别中进行敏感词匹配处理;从而尽可能的减少了匹配次数,提高了匹配处理效率。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年4月26日 |
供求信息分类: |
商业服务 咨询/调研 |
供求信息描述: | 互联网的飞速发展与普及使我们的工作、学习、生活和娱乐等各个方面正在发生巨尖变化。也给我们提出了许多亟需解决的实际问题。其中比较重要的问题有:如何帮助用户准确有效及时地从互联网中寻找出自己所需要的信息资料,如何才能为互联网用尸提供具有针对性的个性化信息服务等。 全文智能搜索系统是以人工智能思想与技术方法为基础,结合自然语言处理和数据库等方面的有关技术方法,对上述问题的基本解决方法进行了深入 地研究,并取得了一些令人鼓舞的研究成果。 Nlpir Parser大数据平台是灵玖软件基于网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间系统组成,各个中间系统API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。 Nlpir Parser大数据平台全文智能搜索系统内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。 同时,全文智能搜索系统可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。 其主要特色在于: 1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索; 2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配; 3、 实现的是多线程搜索服务; 4、每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。 5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。 全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年4月21日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。 全文检索的核心技术是将源文档中所有的基本元素的出现信息记录到索引库中。中文全文检索技术在原理上同西文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更为复杂。在西文中,文档的基本元素是单词,可以以单词建立索引库,而且单词与单词之间有天然的间隔符空格,所以索引文件的建立相对简单。在中文系统中,基本元素可以是单个汉字字符,也可以是词。 灵玖Nlpir Parser智能语义平台全文搜索系统内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。 同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。 其主要特色在于: 1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索; 2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配; 3、实现的是多线程搜索服务; 4、 每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。 5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。 Nlpir Parser智能语义平台全文搜索系统可以适用于众多应用场景,它的广泛适用性体现在能处理结构化和非结构化的各类文本数据,能够采集各种来源文本,这些来源可能是跨越广泛地理分布的,也可以是不同介质、不同格式产生的文本。全文检索具有对检索出的文本进行处理的能力,并且以用户乐于接受的形式提供检索并加工处理文本,使检索系统功能得到了延伸。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年4月5日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 语义挖掘是一种从非结构化数据中准确地提取有用信息和知识的新兴数据挖掘技术。利用语义挖掘对这些非结构化数据和信息进行智能采集、分析和处理,可以帮助企业快速建立起经济有效的竞争情报流程。 NLPIR大数据语义智能挖掘平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,构建了一个基于语义数据挖掘的大数据语义智能情报挖掘系统。 NLPIR大数据语义智能挖掘平台是以文本分析挖掘和自然语言处理为核心技术的,集大数据采集、搜索、分析、挖掘和应用为一体的技术平台。平台主要为客户提供语义智能分析和应用的技术服务和解决方案。目前NLPIR大数据语义智能挖掘平台服务主要是以“一个核心、三个平台、四类方案”为主。 一个核心是指以NLPIR语义组件和NLPIR语义云平台为技术核心。 三个平台是指在技术核心基础上,搭建:“情报采集分析平台”(以航天咨询项目开发的平台为基础)、“知识服务平台”(以国家电网报知识挖掘项目开发的平台为基础)、“社交网络人物分析系统”(以网信办的工作为基础)。 四类方案是指“出版行业知识服务解决方案”; “公安警情分析解决方案”; “网络内容安全审计解决方案”; “客户画像与大数据分析解决方案”。 NLPIR大数据语义智能挖掘平台可以面向的潜在客户群体; 围绕我们的产品与服务,凡是有自然语言处理、文本分析挖掘、语义智能理解、知识挖掘服务等需求的对象,都是我们在潜的客户。按照客户属性,我们的客户群有政府机关、事业单位、科研机构、高校院所、企业公司、个人等。从行业的角度来看,凡是用得着我们技术和服务的行业都是潜在客户所处的行业,这些行业和领域包括:工商、安全、法律、环保、检察、纪检、监管,以及出版业、媒体传播(包括传统媒体和新媒体)、金融行业、教育行业、医疗卫生、咨询业、律师服务等等。从用户需求的角度来说,凡是有大数据采集、清洗、整理、加工、分析、建模、应用、评估等需求的客户,都是我们的潜在客户。 |
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年3月29日 |
供求信息分类: |
计算机/互联网 软件开发 |
供求信息描述: | 现在社交网络和视频网站发展都非常迅猛,参与人数非常多,每日UGC量非常可观。也因此经常制造爆炸性新闻,新词的制造和流行也频频出现。不同的社交圈内,由于话题性的不同,其新词分布也不同,所以直接引入搜狗等输入法的新词,会造成新词污染。因此,往往需要基于自营社交圈的语料库做新词发现,才能实现更精确的文本语义分析。 灵玖软件NLPIRParser文本新词智能发现系统可以自动从单篇文章、及批量文章中自动识别词典中没有出现 的新词,适用于新词发现、专业词典自动生成及知识图谱中的语义新概念的自动 提取。系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统 (Windows, Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包 括:C/C++/C#,Java,Python,Hadoop 等)。 灵玖软件NLPIRParser文本新词智能发现系统总结: 1. 凝固度 凝固度是指一个新词单独出现的频次很高,远高于其组合词的概率之和。 假设是二元组词,词A和词B单独出现的概率分别是P(A)和P(B),假设这两个词是独立词,则两个词同时出现的概率为P(A)*P(B)。如果这两个词不是独立的,则两个词同时出现的条件概率会大于P(A)*P(B),即P(C) >>P(A)*P(B)。一般远大于,量级设定为1000倍。 2. 自由度 文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。 左(或右)邻接字频 / 词频 > 0.2。说明左(或右)邻接有其他词和该词经常同时出现,往往邻接词比该词更有代表性。比如“欧丽格” 3. 新词IDF IDF表征了新词在文档中出现的次数,如果出现的频次越高,说明这个词在不同的环境中出现的概率更高(这个和自由度有相似性)。IDF在论坛中提取新词具有特定的意义,表征了新词在不同帖子中的认同度。一般IDF越高,说明其倍认可度越高,越有可能是新词。[但是如果IDF非常高,反而代表这个词非常普通,不一定必要进入到新词库,尤其是为了防止造成新词污染,影响词的原子性。 新词语的产生总是与社会、人口、物质、道德、观念、文化、习俗等的变迁密切相关的,所以最能产生新词语的地方总是起于社会的某些最活跃的领域、人群、媒体,甚至某些地区。它不仅仅是作为新的语言载体、新的交际工具出现在我们的生活中,而且真切地反映了社会生活,记录了整个社会的每一步进程,因此文本智能新词发现就起到了非常重要的作用。 |
请注意所有供求信息都由用户自行发布,本网不对任何信息的真实性及有效性负责