Languagetech - languagetech.cn
General Information:
Latest News:
文本分类:基于关键短语的立体文本分类模型 8 Dec 2011 | 05:14 pm
立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关键短语,提高特征项的完整独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),大类微平均提高了3.1%,小类微平均提高了15%。 立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级...
学术文献情报自动标引 8 Dec 2011 | 04:57 pm
基于关键词主题度计算,自动为学术文献标引类目、主题词或关键词、自动摘要。 集成类目标引(多层级、兼类)、主题词标引(可选叙词、自由词、关键词)和自动摘要(自定义摘要参数)模块: ◆ 类目体系可由用户自定义,支持动态增加删除。 ◆ 支持主题词词表用户管理。 ◆ 新分类体系可完全自动训练,无需人工干预。 ◆ 支持体系类目间的相似度计算。 如果您已经拥有训练文献集合,支持从已有文献中自动训练...
网站新闻自动标引 8 Dec 2011 | 04:45 pm
爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,并以精练简要的形式显示出来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目、主题词和摘要的标引,是信息组织和资源表示的核心。 “网站新闻自动标引”系统将新闻内容以精练准确的形式标引出来,方便用户只须查...
行业知识门户:行业知识 + 深度搜索 8 Dec 2011 | 04:31 pm
“行业知识”+“深度搜索”,有效提高行业门户的竞争力。 ◆ 定向挖掘行业知识 ◆ 构建行业门户网站 ◆ 生成行业分析报告 行业知识门户:针对某一个行业,满足行业专业需求的专业知识性网站,是综合新闻网站的细分和延伸,是对某类网页资源和结构化资源的深度整合,为用户提供专业信息服务。如“钢铁网”、“数码网”等。 爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们利用信息的效率。大部分结构化信...
主题词标引:基于关键词语主题度的主题词自动标引系统 30 Nov 2011 | 04:54 pm
在线演示:http://www.languagetech.cn/keywords_demo.aspx 针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。 基本特点: ◆ 支持叙词标引(词表选词标引)、辅...