网络信息抽取的工具

如题所述

第1个回答 2016-06-05

网络数据抽取工具简介
传统的网络数据抽取是针对抽取对象手工编写一段专门的抽取程序，这个程序称为包装器(wrapper)。近年来，越来越多的网络数据抽取工具被开发出来，替代了传统的手工编写包装器的方法。目前的网络数据抽取工具可分为以下几大类(实际上，一个工具可能会归属于其中若干类)：
开发包装器的专用语言(Languages for Wrapper Development)：用户可用这些专用语言方便地编写包装器。例如Minerva，TSIMMIS，Web-OQL，FLORID，Jedi等。
以HTML为中间件的工具(HTML-aware Tools)：这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前，这些工具先把文档转换成标签树；再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys，MDR。
基于NLP(Natural language processing)的工具(NLP-based Tools)：这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系，推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER，SRV，WHISK。
包装器的归纳工具(Wrapper Induction Tools)：包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于：这些工具不依赖于语言约束，而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有：WIEN，SoftMealy，STALKER。
基于模型的工具(Modeling-based Tools)：这些工具让用户通过图形界面，建立文档中其感兴趣的对象的结构模型，“教”工具学会如何识别文档中的对象，从而抽取出对象。代表工具有：NoDoSE，DEByE。
基于本体的工具(Ontology-based Tools)：这些工具首先需要专家参与，人工建立某领域的知识库，然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力，那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有：BYU，X-tract。

相似回答

请问什么是网络爬虫啊?是干什么的呢?答：爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本，类似一个机器人，能把别人网站的信息弄到自己的电脑上，再做一些过滤，筛选，归纳，整理，排序等等。网络爬虫能做什么：数据采集。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一...

常用的大数据工具有哪些?答：未至科技小蜜蜂网络信息雷达是一款网络信息定向采集产品，它能够对用户设置的网站进行数据采集和更新，实现灵活的网络数据采集目标，为互联网数据分析提供基础。未至科技泵站是一款大数据平台数据抽取工具，实现db到hdfs数据导入功能，借助Hadoop提供高效的集群分布式并行处理能力，可以采用数据库分区、按字段分区、分...

信息抽取的IR &IE区别答：IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。IR和IE不单在目的上不同...

抓词器是什么意思?答：抓词器是一种可以自动化获取文本中词汇信息并进行处理的软件工具。一般而言，它可以帮助用户快速抓取一定量的文本并对其进行词汇分析，并可以将分析结果用于各种应用场景当中，比如文本分类、情感分析、信息抽取等。抓词器的主要工作原理是通过自然语言处理技术对文本进行分词。在分词过程中，抓词器将文本按照...

大数据爬虫技术有什么功能答：网络爬虫是Spider（或Robots、Crawler）等词的意译，是一种高效的信息抓取工具，它集成了搜索引擎技术，并通过技术手段进行优化，用以从互联网搜索、抓取并保存任何通过HTML（超文本标记语言）进行标准化的网页信息。其作用机理是：发送请求给互联网特定站点，在建立连接后与该站点交互，获取HTML格式的信息，...

大家正在搜

积液抽取的工具网页信息抽取抽取工具数据抽取工具 etl抽取工具命令行退出etl抽取工具信息抽取方法自动信息抽取关键信息抽取