Mais

Extraindo uma única área com várias camadas de duas fontes de dados diferentes

Extraindo uma única área com várias camadas de duas fontes de dados diferentes


Sou muito novo em GIS.

Estou usando o ArcMap. Tenho um mapa estadual dos distritos eleitorais de uma fonte de dados. De outra fonte de dados, tenho setores censitários em branco. De ainda uma terceira fonte de dados (este dado não-GIS de um arquivo CSV), juntei-os aos setores censitários, combinando os dados com os setores censitários. Até agora funciona muito bem, posso criar camadas com base nos dados do censo que correspondem a esses setores do censo. Aqui está o problema final:

Preciso de um mapa "limpo" de certos distritos eleitorais, que mostre os setores censitários e todos os seus dados em camadas em apenas um único distrito. Se tento recortar um distrito, é apenas o esboço do distrito. A única solução que encontrei é recortar o distrito e selecionar manualmente cerca de 20 setores censitários, então tenho que recriar completamente todas as camadas para replicar meu mapa estadual. Isso consumiria muito tempo para todos os distritos que preciso controlar. Também tentei selecionar por local, mas ele apenas copiou o distrito e ignorou todos os outros dados.

Alguma ideia ou sugestão?


Conforme comentado por @ MichaelMiles-Stimson:

Talvez exporte os tratos unidos para um arquivo de forma para tornar o atributo de união permanente, depois recorte ... Se você usar União em vez de recortar, poderá definir a consulta de cada distrito por seu identificador exclusivo ... o resultado da união terá todos os atributos dos distritos, tratos e mesa. Se estiver fazendo vários mapas, você pode usar páginas orientadas a dados para agilizar o processo.


Arquitetura de Data Warehouse

Diferentes sistemas de armazenamento de dados têm estruturas diferentes. Alguns podem ter um ODS (armazenamento de dados operacionais), enquanto alguns podem ter vários data marts. Alguns podem ter um pequeno número de fontes de dados, enquanto alguns podem ter dezenas de fontes de dados. Em vista disso, é muito mais razoável apresentar as diferentes camadas de uma arquitetura de data warehouse do que discutir as especificidades de qualquer sistema.

Em geral, todos os sistemas de data warehouse têm as seguintes camadas:

A imagem abaixo mostra as relações entre os diferentes componentes da arquitetura do data warehouse:

Cada componente é discutido individualmente abaixo:

Isso representa as diferentes fontes de dados que alimentam os dados no armazém de dados. A fonte de dados pode ser de qualquer formato - arquivo de texto simples, banco de dados relacional, outros tipos de banco de dados, arquivo Excel, etc., todos podem atuar como uma fonte de dados.

Todas essas fontes de dados juntas formam a camada de fonte de dados.

Camada de extração de dados

Os dados são puxados da fonte de dados para o sistema de data warehouse. Provavelmente, há uma limpeza mínima de dados, mas é improvável que haja qualquer transformação importante de dados.

É onde os dados ficam antes de serem limpos e transformados em um data warehouse / data mart. Ter uma área comum facilita o processamento / integração de dados subsequente.

É aqui que os dados ganham “inteligência”, uma vez que a lógica é aplicada para transformar os dados de uma natureza transacional para uma analítica. Essa camada também é onde ocorre a limpeza de dados. A fase de design ETL costuma ser a que consome mais tempo em um projeto de armazenamento de dados, e uma ferramenta ETL costuma ser usada nessa camada.

É aqui que ficam os dados transformados e limpos. Com base no escopo e na funcionalidade, três tipos de entidades podem ser encontrados aqui: data warehouse, data mart e data store operacional (ODS). Em qualquer sistema, você pode ter apenas um dos três, dois dos três ou todos os três tipos.

É aqui que as regras de negócios são armazenadas. As regras de negócios armazenadas aqui não afetam as regras de transformação de dados subjacentes, mas afetam a aparência do relatório.

Camada de apresentação de dados

Refere-se às informações que chegam aos usuários. Pode ser na forma de um relatório tabular / gráfico em um navegador, um relatório enviado por e-mail que é gerado e enviado automaticamente todos os dias ou um alerta que avisa os usuários sobre exceções, entre outros. Normalmente, uma ferramenta OLAP e / ou uma ferramenta de relatório é usada nesta camada.

É aqui que as informações sobre os dados armazenados no sistema de data warehouse são armazenadas. Um modelo de dados lógico seria um exemplo de algo que está na camada de metadados. Uma ferramenta de metadados é freqüentemente usada para gerenciar metadados.

Camada de operações do sistema

Essa camada inclui informações sobre como o sistema de data warehouse opera, como status do trabalho ETL, desempenho do sistema e histórico de acesso do usuário.


O que é migração de dados?

Em termos gerais, migração de dados é a transferência dos dados históricos existentes para um novo armazenamento, sistema ou formato de arquivo. Este processo não é tão simples quanto pode parecer. Envolve muitas atividades de preparação e pós-migração, incluindo planejamento, criação de backups, testes de qualidade e validação de resultados. A migração termina apenas quando o sistema, banco de dados ou ambiente antigo é encerrado.

O que faz as empresas migrarem seus ativos de dados.

Normalmente, a migração de dados vem como parte de um projeto maior, como

    ou substituição,
  • a expansão do sistema e das capacidades de armazenamento,
  • a introdução de um sistema adicional trabalhando junto com o aplicativo existente,
  • a mudança para um banco de dados centralizado para eliminar silos de dados e alcançar interoperabilidade,
  • mover a infraestrutura de TI para a nuvem, ou
  • atividades de fusão e aquisição (M & ampA) quando os cenários de TI devem ser consolidados em um único sistema.

Explore como a AltexSoft ajudou

A migração de dados às vezes é confundida com outros processos que envolvem movimentos massivos de dados. Antes de prosseguirmos, é importante esclarecer as diferenças entre migração de dados, integração de dados e replicação de dados.

Migração de dados vs integração de dados

Ao contrário da migração que lida com as informações internas da empresa, a integração é a combinação de dados de várias fontes externas e internas da empresa em uma única visão. É um elemento essencial da estratégia de gerenciamento de dados que permite a conectividade entre sistemas e dá acesso ao conteúdo em uma ampla gama de assuntos. Os conjuntos de dados consolidados são um pré-requisito para uma análise precisa, extração de insights de negócios e relatórios.

A migração de dados é uma jornada unilateral que termina quando todas as informações são transportadas para um local de destino. A integração, por outro lado, pode ser um processo contínuo, que envolve o streaming de dados em tempo real e o compartilhamento de informações entre os sistemas.

Migração de dados vs replicação de dados

Na migração de dados, depois que os dados são completamente transferidos para um novo local, você eventualmente abandona o antigo sistema ou banco de dados. Na replicação, você transporta dados periodicamente para um local de destino, sem excluir ou descartar sua origem. Então, ele tem um ponto de partida, mas não tem tempo de conclusão definido.

A replicação de dados pode fazer parte do processo de integração de dados. Além disso, pode se transformar em migração de dados - desde que o armazenamento de origem seja desativado.

Agora, discutiremos apenas a migração de dados - um processo único e unilateral de mudança para uma nova casa, deixando a antiga vazia.


Características do Design de Data Warehouse

Agora que estamos claros sobre os conceitos básicos de um data warehouse, vamos dar uma olhada nas características importantes de um data warehouse.

A seguir estão as principais características de design, desenvolvimento e práticas recomendadas de armazenamento de dados:

Focado no tema

Um design de data warehouse usa um tema específico. Ele fornece informações sobre um assunto, em vez das operações de uma empresa. Esses temas podem estar relacionados a vendas, publicidade, marketing e muito mais.

Em vez de se concentrar nas operações ou transações de negócios, o armazenamento de dados enfatiza a inteligência de negócios (BI), ou seja, a exibição e a análise de dados para a tomada de decisões. Ele também oferece uma interpretação direta e sucinta do tema específico, eliminando dados que podem não ser úteis para os tomadores de decisão.

Unificado

Um projeto de data warehouse unifica e integra dados de diferentes bancos de dados de uma maneira coletivamente adequada usando modelagem de data warehouse. Ele incorpora dados de diversas fontes, como bancos de dados relacionais e não relacionais, arquivos simples, mainframe e sistemas baseados em nuvem. Além disso, um data warehouse deve manter classificação, layout e codificação consistentes para facilitar a análise de dados eficiente.

Variância de Tempo

Ao contrário de outros sistemas operacionais, o data warehouse armazena dados coletados em um horizonte de tempo extenso. Portanto, os dados coletados são identificados dentro de um período de tempo específico e fornecem insights da perspectiva do passado. Além disso, quando os dados são inseridos no warehouse, eles não podem ser reestruturados ou alterados.

Não-volatilidade

Outra característica importante de um data warehouse é a não volatilidade, o que significa que os dados anteriores não são removidos quando novos dados são carregados no data warehouse. Além disso, os dados são apenas legíveis e podem ser atualizados de forma intermitente para fornecer uma imagem completa e atualizada ao usuário.

Trabalhando com data warehouse de alto volume?

Descubra as práticas recomendadas para gerenciar armazéns de dados de alto volume com eficácia


Perguntas da entrevista de teste de ETL

Uma lista de perguntas frequentes Perguntas e respostas da entrevista de teste de ETL são fornecidos abaixo.

1) O que é ETL? Explique.

ETL significa Extração, Transformação e Carregamento. É um conceito essencial em sistemas de Data Warehousing. Existem três etapas básicas no processo de integração de dados. Extração significa extrair os dados de diferentes fontes de dados, como sistemas transacionais ou aplicativos. Transformação significa aplicar as regras de conversão de dados para que se tornem adequados para relatórios analíticos. Carregando processo envolve mover os dados para o sistema de destino, ou seja, Data Warehouse.

2) Explicar o conceito de Extração, Transformação e Carregamento?

Extraiu os dados de uma fonte externa e os moveu para o banco de dados do pré-processador do data Warehouse.

Transformação

A tarefa de transformação de dados permite ponto a ponto gerar, modificar e transformar os dados.

Nesta tarefa, os dados são adicionados à tabela do banco de dados em um warehouse.

3) Qual é a arquitetura de três camadas de um ciclo ETL?

As três camadas do ETL são:

  • Camada de teste: A camada de teste é usada para armazenar os dados que são extraídos dos diferentes sistemas de origem de dados.
  • Camada de integração de dados: A camada de integração transforma os dados da camada de teste e os move para um banco de dados. No banco de dados, os dados são organizados em grupos hierárquicos, que costumam ser chamados dimensão, e em fatos e fatos de agregação. A combinação de fatos e tabela de dimensão em um sistema de data warehouse é chamada um esquema.
  • Camada de acesso: A camada de acesso é usada pelos usuários finais para recuperar os dados para relatórios analíticos.

4) O que é BI?

Business Intelligence é o processo para coletar dados brutos de negócios e transformá-los em uma visão significativa que seja mais útil para os negócios.

5) Quais são as diferenças entre as ferramentas ETL e BI?

FERRAMENTAS ETL FERRAMENTAS BI
As ferramentas ETL são usadas para extrair os dados de diferentes fontes de dados, transformar os dados e carregá-los em um sistema de data warehouse. As ferramentas de BI são usadas para gerar relatórios interativos e ad-hoc para usuários finais, visualização de dados para reuniões mensais, trimestrais e anuais do conselho.
As ferramentas de ETL mais comuns são Informatica, SAP BO data service, Microsoft SSIS, Oracle Data Integrator (ODI) Clover ETL Open Source, etc. As ferramentas de BI mais comuns são SAP Lumira, IBM Cognos, plataforma Microsoft BI, Tableau, Oracle Business Intelligence Enterprise Edition, etc.

6) Quais são as ferramentas ETL disponíveis no mercado?

As ferramentas populares de ETL disponíveis no mercado são:

  • IBM- Websphere DataStage
  • Informatica- Power Center
  • SAP- BODS de serviço de dados de objetos de negócios
  • SAS - Data Integration Studio
  • Oracle- Warehouse Builder
  • Clover ETL de código aberto.

7) Quando precisamos da área de teste no processo ETL?

A área de teste é uma área central que está disponível entre as fontes de dados e os sistemas de data warehouse / data marts. É um local onde os dados são armazenados temporariamente no processo de integração de dados. No teste, os dados da área são limpos e verificados quanto a qualquer duplicação. A área de teste foi projetada para fornecer muitos benefícios, mas o objetivo principal é usar a área de teste. É usado para aumentar a eficiência, garantir a integridade dos dados e apoiar as operações de qualidade de dados.

8) Qual é a diferença entre data warehouse e data mining?

O armazenamento de dados é um conceito amplo em comparação com a mineração de dados. A mineração de dados envolve a extração das informações ocultas dos dados e sua interpretação para previsões futuras. Em contraste, o data warehouse inclui operações como relatórios analíticos para gerar relatórios detalhados e relatórios ad-hoc, processamento de informações para gerar painéis e gráficos interativos.

9) Quais são as diferenças entre data warehouse e data mining?

OLTP OLAP
OLTP significa Online Transactional Processing. OLAP significa Online Analytical Processing.
OLTP é um banco de dados relacional utilizado para gerenciar as transações do dia a dia. OLAP é um sistema multidimensional e também é chamado de data warehouse.

10) O que é uma tabela de dimensão e como ela difere da tabela de fatos?

Aqui, estamos dando um exemplo para descrever como a tabela de dimensão se distingue da tabela de fatos.

Suponha que uma empresa venda seus produtos a seus clientes. Toda venda é um fato que ocorre dentro da empresa, e a tabela de fatos é usada para registrar esses fatos. Cada tabela de fatos armazena a chave primária que une a tabela de fatos à tabela de dimensões e medidas / fatos.

Exemplo: unidades de fato

Cust_ID Prod_ID Time_ID Nº de unidades vendidas
101 24 1 25
102 25 2 15
103 26 3 30

Uma tabela de dimensão que armazena atributos ou dimensões descreve os objetos em uma tabela de fatos. É um conjunto de tabelas complementares a uma tabela de fatos.

Cust_ID Cust_Name Gênero
101 Sana F
102 Jass M

11) O que é um Data Mart?

O Data Mart é uma forma simples de Data Warehouse e está focado em uma única área funcional. Obtém apenas de algumas fontes.

Por exemplo: Em uma organização, os data marts podem existir para marketing, finanças, recursos humanos e outros departamentos individuais que armazenam os dados relacionados às suas funções específicas.

12) Qual é a diferença entre o teste manual e o teste ETL?

A diferença entre o teste manual e o teste ETL é:

  1. O teste manual se concentra na funcionalidade do programa, enquanto o teste ETL está relacionado ao banco de dados e sua contagem.
  2. ETL é o processo de teste automatizado onde não precisamos de nenhum conhecimento técnico. Os testes de ETL são extremamente mais rápidos, sistemáticos e garantem o resultado exigido pelo negócio.
  3. O teste manual é um processo demorado em que precisamos do conhecimento técnico para escrever os casos de teste e scripts. É lento, muito sujeito a erros e também requer esforços.

13) O que é teste ETL?

ETL significa Extração, Transformação e Carregamento das informações. O teste de ETL é feito para garantir que os dados sejam carregados de uma origem diferente para o destino após a transformação precisa dos negócios. Envolve a verificação de dados em vários estágios que estão sendo usados ​​entre a origem e o destino.

14) Qual é a responsabilidade do testador ETL?

A responsabilidade do ETL Tester é dividida em três categorias principais:

  • Mesas de Palco
  • Transformação da lógica de negócios
  • O carregamento da tabela de destino da tabela de preparação, uma vez que aplicamos a transformação.

As responsabilidades do testador ETL são:

  • O testador ETL testa o software ETL completamente.
  • O testador verificará o componente de teste do ETL Data Warehouse.
  • O testador executará o teste baseado em dados no back-end.
  • O testador cria o design e executa os casos de teste, planos de teste ou equipamento de teste, etc.
  • O testador identifica os problemas e também sugere a melhor solução.
  • O testador aprova os requisitos e as especificações de design.
  • O testador transfere os dados de arquivos simples.
  • Eles escrevem as consultas SQL para os diferentes cenários de teste.

15) Qual é a necessidade de teste ETL?

Atualmente, estamos migrando muitos sistemas de tecnologia antiga para tecnologia nova. No momento das atividades de migração, também precisamos migrar os dados do DBMS antigo para o DBMS mais recente. Portanto, é necessário testar se os dados estão corretos do lado de destino.

Aqui estão alguns pontos importantes onde surge a necessidade de testes de ETL:

  1. O teste ETL é usado para monitorar os dados que estão sendo transferidos de um sistema para outro.
  2. A necessidade do teste de ETL é acompanhar a eficiência e a velocidade do processo.
  3. A necessidade de testes de ETL está surgindo para se familiarizar com o processo de ETL antes de implementá-lo em nossos negócios e produção.

16) Onde o usuário usa os conceitos de ETL? Explique.

  • Antes das ferramentas ETL, o usuário grava o código estendido para transformação de dados para carregamento de dados.
  • ETL torna a vida mais confortável, e uma ferramenta gerencia todos os cenários de transformação e carregamento dos dados.

Aqui está o seguinte exemplo em que estamos usando o ETL:

Exemplo: Data Warehousing

ETL é usado no conceito de armazenamento de dados. Aqui, precisamos buscar os dados de vários sistemas diferentes e carregá-los no banco de dados do data warehouse. O conceito de ETL é usado aqui para extrair os dados da origem, transformar os dados e carregá-los no sistema de destino.

Exemplo: migração de dados

As migrações de dados são uma tarefa difícil se estivermos usando PLSQL. Se quisermos migrar os dados de forma simples, usaremos diferentes ferramentas ETL.

Exemplo: Fusões e Aquisições

Atualmente, muitas empresas estão se fundindo em diferentes multinacionais. Para mover os dados de uma empresa para outra, surge a necessidade do conceito de ETL.

17) Como usamos ETL no gerenciamento de terceiros?

A grande organização sempre oferece desenvolvimento de aplicativos diferentes para diferentes tipos de fornecedores. Um único fornecedor não pode gerenciar tudo. Aqui, estamos pegando um exemplo de projeto de telecomunicações em que o faturamento é feito por uma empresa e outra empresa gerencia o CRM. Se a empresa de CRM precisa dos dados da empresa, que está gerenciando o faturamento, agora a empresa receberá o feed de dados de outra empresa. Para carregar os dados do processo ETL é usado.

18) Como usamos ETL no Data Warehousing?

Mais comumente, o ETL usado em Data Warehousing. O usuário busca os dados históricos e também os dados atuais para desenvolver o data warehouse. Os dados no data warehouse são a combinação de dados históricos e também de dados transacionais. A fonte de dados do data warehouse pode ser diferente. Precisamos buscar os dados de vários sistemas diferentes e carregá-los em um único sistema de destino, que também é chamado de data warehouse.

19) Qual é a diferença entre Teste ETL e Teste de Banco de Dados?

As diferenças entre o teste de ETL e o teste de banco de dados são:

Teste ETL Teste de banco de dados
Em testes de ETL, o objetivo é o relato de inteligência de negócios No teste de banco de dados, o objetivo é integrar os dados.
O fluxo do ambiente de negócios é baseado nos dados usados ​​anteriormente O teste de banco de dados se aplica apenas a sistemas de fluxo de negócios.
As ferramentas Informatica, Query Surge, Cognos podem ser usadas. No teste de banco de dados, as ferramentas QTP e Selenium são usadas.
Em testes de ETL, o modelo dimensional é usado. No teste de banco de dados, o modelo relacional é usado.
No teste de ETL, as análises são processadas. No teste de banco de dados, as transações são processadas.
Dados desnormalizados são usados ​​em testes de ETL. .Dados normalizados são usados.

20) Quais são as características do Data Warehouse?

  • Data Warehouse é um banco de dados diferente do banco de dados operacional e armazena os dados históricos.
  • O banco de dados do Data Warehouse contém os dados analíticos e transacionais.
  • Data Warehouse é usado para análise de dados e propósito de relatório.
  • O Data Warehouse ajuda a alta administração a tomar decisões estratégicas e táticas usando dados históricos ou atuais.
  • Data Warehouse ajuda o usuário empresarial com a tendência atual de administrar o negócio.

21) Quais são os tipos de sistemas de Data Warehouse?

  • Processamento Analítico Online (OLAP)
  • Análise Preditiva
  • Processamento Transacional Online
  • Data Mart

22) Quais são as etapas seguidas no processo de teste ETL?

As diferentes etapas seguidas no processo de teste ETL são:

Etapa 1. Análise de requisitos

Nesta etapa, entendemos a estrutura do negócio e os requisitos.

Etapa 2. Validação e estimativa de teste

Uma estimativa de tempo e experiência é necessária nesta etapa.

Etapa 3. Planejar o teste e projetar o ambiente de teste

Esta etapa é baseada na validação e estimativa de teste. Nesta etapa, o ambiente de ETL é planejado de acordo com a entrada que é utilizada na estimativa do teste e trabalhado de acordo com ela.

Etapa 4. Preparação e execução de dados de teste

De acordo com o teste, os dados são preparados e executados de acordo com o requisito.

Etapa 5. Relatório de resumo

Na conclusão do teste, um relatório resumido é preparado para conclusão e improvisação.

23) Como o ETL é usado no projeto de migração de dados? Explique.

As ferramentas ETL geralmente são usadas no Projeto de Migração de Dados. Se alguma organização gerenciava os dados no Oracle 10g anteriormente, agora a organização deseja usar o banco de dados em nuvem do servidor SQL, então é necessário mover os dados da origem para o destino. Para esse tipo de movimento, as ferramentas ETL são muito úteis. Se quisermos escrever o código para ETL, é um processo muito demorado. Para tornar isso simples, usamos a ferramenta ETL, que torna a codificação do código PL SQL ou T-SQL simples. Portanto, o processo ETL é útil em projetos de migração de dados.

24) Quais são as etapas seguidas para a escolha do processo ETL?

É uma tarefa muito difícil escolher as ferramentas ETL. Para selecionar a ferramenta ETL correta, precisamos considerar vários fatores de acordo com o projeto. Escolher a ferramenta ETL para um projeto específico é um movimento muito estratégico, mesmo que seja necessário para um projeto pequeno.

Aqui estão alguns pontos que nos ajudarão a escolher a ferramenta ETL.

  • Conectividade de dados
    Para escolher a ferramenta ETL, vamos nos concentrar em como a ferramenta ETL deve se comunicar com qualquer fonte de dados, não importa de onde os dados venham. A conectividade de dados é muito crítica.
  • Desempenho
    Para mover e alterar os dados, é necessário um grande poder de processamento. Então, aqui, precisamos verificar o fator de desempenho.
  • Flexibilidade de transformação
    Mesclar, combinar e alterar os dados é muito crítico. As ferramentas ETL devem fornecer todas essas operações de fusão, correspondência e alteração e muitos pacotes de transformação. Permite a modificação dos dados na fase de transformação com simples arrastar e soltar.
  • Qualidade de Dados
    Podemos tirar proveito dos dados apenas quando eles estão limpos e consistentes.
  • Opção flexível de ação de dados
    Quando o ETL estiver pronto, precisamos verificar se o ETL funcionará com os dados anteriores, bem como com os novos dados que virão.
  • Fornecedor de ETL comprometido
    Estamos trabalhando com os dados da organização enquanto fazemos o processo de ETL. Portanto, temos que escolher o fornecedor que conhece o setor e cujo suporte será benéfico.

25) Quais são os bugs ETL?

Aqui estão os seguintes bugs ETL:

  1. Bugs de origem
  2. Carregar bugs de condição
  3. Erros de cálculo
  4. Bugs relacionados ao ECP
  5. Bugs da interface do usuário

26) O que é a fonte de dados de operação?

  • ODS significa Fonte de Dados Operacionais.
  • O ODS funciona entre a área de teste e o Data Warehouse. Os dados ODS estarão no nível de granularidade.
  • Quando os dados são inseridos no ODS, todos os dados são carregados no EDW através do ODS.

27) Qual é a fase de extração de dados em ETL?

Extração de dados não é nada, mas extrai os dados de várias fontes diferentes usando ferramentas ETL.

Aqui estão dois tipos de extração de dados.

  1. Extração Completa: Todos os dados extraídos de um sistema operacional ou carregamento do sistema de origem para a área de teste.
  2. Extração parcial: Às vezes, recebemos a notificação do sistema de origem para atualizar os dados específicos. É chamado de carga delta.

Desempenho do sistema de origem: As estratégias de extração de dados não devem afetar o desempenho do sistema de origem.

28) O que são as ferramentas ETL?

1. Ferramentas ETL empresariais

  • informática
  • Talend
  • IBM Datastage
  • Abnício
  • Serviço de integração MS SQL Server
  • Clover ETL

2. Ferramentas ETL de código aberto

29) O que é particionamento em ETL?

As transações sempre precisam ser divididas para um melhor desempenho. Os mesmos processos são conhecidos como Particionamento. Ele apenas garante que o servidor possa acessar diretamente as fontes por meio de várias conexões.

30) O que é ETL Pipeline?

Pipeline ETL se refere a um conjunto de processos para extrair os dados de um sistema, transformá-los e carregá-los em algum banco de dados ou data warehouse. Os pipelines ETL são construídos para aplicativos de data warehousing, que incluem data warehouse empresarial e data marts de assuntos específicos. Os pipelines ETL também são usados ​​para soluções de migração de dados. Engenheiros de data warehouse / business intelligence criam pipelines de ETL.

31) O que é pipeline de dados?

Pipeline de dados refere-se a qualquer conjunto de elementos de processos que movem dados de um sistema para outro. O pipeline de dados pode ser criado para qualquer tipo de aplicativo que use dados para agregar valor. Ele pode ser usado para integrar os dados entre os aplicativos, construir os produtos da web orientados por dados e realizar as atividades de mineração de dados. Os engenheiros de dados criam o pipeline de dados.

32) Qual é o local de teste no teste ETL?

O local de preparação é a área de armazenamento temporário usada durante o processo de integração de dados. Nesse local, os dados são analisados ​​cuidadosamente quanto à redundância e duplicação.

33) O que é folha de mapeamento ETL? Defina seu significado.

A folha de mapeamento ETL contém todas as informações necessárias do arquivo de origem e armazena os detalhes em linhas e colunas. As folhas de mapeamento ajudam a escrever as consultas SQL para acelerar o processo de teste.

34) Qual é a transformação em Teste ETL?

  • A transformação é definida como os objetos de arquivo para gerar, modificar ou transmitir os dados. A transformação pode ser ativa ou passiva. A transformação é benéfica de várias maneiras.
  • Ajuda a obter valores muito rapidamente.
  • A transformação pode atualizar a tabela de dimensão que muda lentamente.
  • Ele verifica ou verifica se o registro existe ou não dentro da tabela.

35) Qual é o uso de cache dinâmico e cache estático na transformação?

Cache dinâmico é usado para atualizar a dimensão ou a tabela mestre lentamente. O cache estático é usado em arquivos simples.

36) O que é mapeamento, sessão, worklet e mapplet?

  • Mapeamento: O mapeamento representa o fluxo de trabalho da origem ao destino.
  • Fluxo de trabalho: Fluxo de trabalho é um conjunto de instruções que informa ao servidor Informatica como executar as tarefas.
  • Mapplet: O mapplet configura ou cria um conjunto de transformação.
  • Worklet: É um objeto que representa um conjunto de tarefas.
  • Sessão: Sessão é um conjunto de instruções que descreve como e quando mover os dados das origens para o destino.

37) O que é carga total e carga incremental ou de atualização?

Carga máxima: A carga completa apaga completamente o conteúdo de uma ou mais tabelas e recarrega com dados novos.

Carga incremental: Nesse caso, aplicamos as alterações em andamento a uma ou mais tabelas, que se baseiam em uma programação predefinida.

38) O que são joiner e lookup?

O marceneiro é usado para unir duas ou mais tabelas para recuperar os dados das tabelas.

Olho para cima é usado para verificar e comparar a tabela de origem e a tabela de destino.

39) O que é limpeza de dados?

Limpeza de dados é um termo comumente usado para descrever os métodos que removem e apagam permanentemente os dados de um espaço de armazenamento. Em outras palavras, pode ser definido como a exclusão dos dados do data warehouse é conhecido como limpeza de dados. Normalmente, temos que limpar os dados inúteis como linhas que possuem valores nulos ou espaços. A purga de dados é o processo de limpar os valores de lixo.

40) Qual é a diferença entre ferramentas ETL e ferramentas OLAP?

Ferramentas ETL destina-se a extrair os dados do sistema legado e carregá-los no banco de dados especificado com algum processo de limpeza de dados.

Por exemplo: Informatica, estágio de dados etc.

Ferramentas OLAP: É usado para fins de relatório em dados OLAP disponíveis no modelo multidirecional. Podemos escrever uma consulta simples para extrair os dados do banco de dados.


Extraindo uma área única com várias camadas de duas fontes de dados diferentes - Sistemas de Informações Geográficas

John Jensen, Departamento de Geografia, Universidade da Carolina do Sul, Columbia, SC.
Alan Saalfeld, Departamento de Engenharia Civil e Ambiental e Ciências Geodésicas, Ohio State University, Columbus, OH.
Fred Broome, Bureau of the Census, Washington, DC.
Dave Cowen, Departamento de Geografia, Universidade da Carolina do Sul, Columbia, SC.
Kevin Price, Departamento de Geografia, University of Kansas, Lawrence, KS.
Doug Ramsey, Departamento de Geografia e Recursos Terrestres, Utah State University, Logan, UT.
Lewis Lapine, Chefe da Pesquisa Geodésica da Carolina do Sul, Columbia, SC

Para melhorar a lógica e a tecnologia para capturar e integrar recursos de dados espaciais, incluindo: medições de amostra in situ, enumeração completa do censo, mapas e imagens de sensoriamento remoto. A prioridade também deseja identificar onde a pesquisa deve ocorrer sobre: ​​padrões de coleta de dados, geoides e datums (quadros de referência, em geral), precisão posicional, teoria de amostragem de medição, sistemas de classificação (esquemas), metadados, correspondência de endereços e questões de privacidade. O objetivo é obter dados espaciais socioeconômicos e biofísicos precisos que possam ser analisados ​​e modelados para resolver problemas.

As informações geográficas fornecem a base para muitos tipos de decisões, que vão desde um caminho simples até o gerenciamento de redes complexas de instalações, prevendo características socioeconômicas e demográficas complexas (por exemplo, estimativa de população) e a gestão sustentável dos recursos naturais. Dados geográficos aprimorados devem levar a melhores conclusões e melhores decisões. De acordo com vários 'padrões' e grupos de 'usuários', melhores dados incluiriam maior precisão posicional e consistência e completude lógicas. Mas cada novo conjunto de dados, cada novo item de dados coletado pode ser totalmente utilizado apenas se puder ser colocado corretamente no contexto de outros dados e informações disponíveis.

Para este fim, o National Research Council Mapping Science Committee (1995) defendeu fortemente que a Infraestrutura Nacional de Dados Espaciais dos Estados Unidos (NSDI) consiste nas três bases de dados espaciais seguintes (Figura 1): 1) controle geodésico, 2) terreno digital (incluindo elevação e batimetria) e 3) imagens digitais ortorretificadas. Os dados espaciais básicos são os dados mínimos diretamente observáveis ​​ou graváveis ​​a partir dos quais outros dados espaciais são referenciados e, às vezes, compilados. Eles usaram uma metáfora da indústria da construção em que um edifício deve ter uma base sólida de concreto ou outro material. Em seguida, uma estrutura de vigas de madeira ou aço é conectada à fundação para criar uma estrutura para apoiar o restante do edifício. Exemplos de dados de estrutura temática importantes podem incluir hidrografia e transporte. Na verdade, a estrutura da Infraestrutura de Dados Espaciais Nacionais (INDE) incorpora as três bases e quatro temas de dados da estrutura a seguir: controle geodésico, ortoimagem, elevação, transporte, hidrografia, unidades governamentais (limites) e informações cadastrais (FGDC, 1997a).

Finalmente, existem vários outros temas de informação espacial que podem não ser coletados nacionalmente, mas podem ser coletados em uma base regional ou local. Os exemplos incluem dados culturais e demográficos, vegetação (incluindo pântanos), solos e geologia e a miríade de dados coletados para a iniciativa de pesquisa de mudança climática global (Figura 1). Esses arquivos de dados espaciais temáticos devem ser rigorosamente registrados nos dados de base, tornando muito mais fácil utilizar e compartilhar as informações espaciais.

  • É possível integrar com precisão os dados espaciais mais abundantes e precisos com outros conjuntos de dados atuais e históricos para resolver problemas complexos? Se for difícil integrar os dados, quais problemas devem ser superados para facilitar a integração?
  • Existem lacunas significativas entre os dados in situ e de sensoriamento remoto exigidos pelas comunidades de usuários públicos e científicos e quais dados são coletados? Se os dados necessários não estiverem disponíveis, como os dados podem ser obtidos?

A melhor captura e integração de dados espaciais exigirá a colaboração de muitas disciplinas participantes, incluindo cartografia, ciência da computação, fotogrametria, geodésia, matemática, sensoriamento remoto, estatística, geografia e várias ciências físicas, sociais e comportamentais com aplicativos de análise espacial. Resolveremos os principais problemas de captura dos dados corretos e de relacionamento entre as diversas fontes de dados, envolvendo participantes de todas as áreas de especialidade, incluindo os coletores de dados tradicionais, os usuários de aplicativos e os cientistas da computação e estatísticos que otimizam o gerenciamento e análise de dados para todos tipos de conjuntos de dados. Desenvolveremos modelos matemáticos e estatísticos para integração de dados espaciais em diferentes escalas e diferentes resoluções. Focaremos especialmente no desenvolvimento de ferramentas para identificar, quantificar e lidar com imperfeições e imprecisões nos dados em todas as fases da construção de um banco de dados espacial.

4. Importância para as necessidades de pesquisa nacional

Este artigo identifica as principais lacunas ou deficiências na integração de dados e estratégias de coleta de dados para uma investigação mais intensiva por UCGIS e outros cientistas. O artigo primeiro aborda questões importantes de integração de dados que são genéricas para todos os esforços de coleta de dados. Em seguida, uma breve investigação dos requisitos atuais e potenciais de coleta de dados socioeconômicos e biofísicos in situ e de sensoriamento remoto é apresentada.

4.1. Problemas de integração genérica (conflito)

  • medição in situ para medição in situ (calibração, ajuste, variação, etc.)
  • mapa de medição-base in situ (registro ponto-a-mapa, verificação)
  • mapa vetor-para-fundação (integração do esquema de segmentação vetorial mapa-a-mapa, escalas diferentes, cobertura geográfica diferente, etc.)
  • mapa de imagem para fundação (imagem para mapa para mapeamento de elevação, revisão de mapa, etc.)
  • imagem para imagem base (imagem para imagem envolvendo diferentes resoluções espaciais, espectrais, temporais e radiométricas)

Ao desenvolver a estrutura conceitual para integração de dados espaciais, é importante lembrar que em um mundo estático perfeito, a correspondência de recursos seria uma proposição um-para-um, sempre bem-sucedida, sem sobra. Cada combinação bem-sucedida apoiaria as escolhas anteriores e facilitaria as escolhas subsequentes. Infelizmente, o mundo real é confuso e os problemas do mundo real envolvem lidar e limpar a bagunça. É necessária uma única estrutura comum que integre diversos tipos de dados espaciais. A única estrutura flexível permitiria até mesmo que alguns itens não fossem combinados ou fossem combinados com confiança limitada. A integração de dados espaciais deve incluir integração horizontal (fusão de conjuntos de dados adjacentes), integração vertical de dados (operações envolvendo a sobreposição de mapas) e integração de dados temporais. A integração de dados espaciais deve lidar com diferenças no conteúdo de dados espaciais, escalas, métodos de aquisição de dados, padrões, definições e práticas, gerenciar incertezas e diferenças de representação e detectar e lidar com redundância e ambigüidade de representação.

O primeiro passo usual de um sistema de fusão é a correspondência de características. Uma vez que os componentes comuns de duas (ou mais) representações de dados espaciais são identificados, mesclar e situar informações de recursos é uma segunda etapa mais fácil. As ferramentas de correspondência de recursos diferem com os tipos de conjuntos de dados submetidos à operação de correspondência. Muitas ferramentas ad hoc foram desenvolvidas para pares de conjuntos de dados específicos. Um exemplo é a estratégia de correspondência de nós de gráfico plano usada para combinar os arquivos TIGER do Censo e os arquivos USGS DLG (Lynch et al., 1985). Um exemplo mais recente é uma estratégia de correspondência de recursos baseada em regras suportada por atributos aplicada aos produtos NIMA VPF (Cobb et al., 1998). A correspondência de recursos que permite a incerteza é atualmente o foco de várias investigações de pesquisa, incluindo operações no Laboratório de Pesquisa Naval do Centro Espacial Stennis da NASA (Foley et al., 1997) e no Centro de Mapeamento da Universidade do Estado de Ohio. As ferramentas para gerenciar a incerteza em sistemas de conflação atualmente em desenvolvimento incluem lógica difusa, restrições semânticas, sistemas especialistas, teoria de Dempster-Shafer e redes Baysianas.

As subseções a seguir identificam brevemente vários problemas adicionais de integração de dados espaciais genéricos (qualidade, consistência e comparabilidade) que devem ser tratados antes de os dados serem coletados, incluindo: padrões, geóide e datum, precisão posicional, sistema de classificação (esquema), lógica de amostragem in situ , lógica de enumeração do censo, coleta de metadados, correspondência de endereços e questões de privacidade. O tratamento adequado dessas questões facilitará a integração de dados subsequente.

Padrões: FGDC, Open GIS Consortium e ISO - Muitas organizações e usuários de dados desenvolveram e promoveram padrões para coleta e representação de dados espaciais. Bons resumos são encontrados em GETF (1996) e NAPA (1998). Nos Estados Unidos, o Federal Geographic Data Committee (FGDC) supervisiona o desenvolvimento de uma Infraestrutura Nacional de Dados Espaciais (NSDI). A comunidade de pesquisa do UCGIS endossa os avanços significativos feitos pelo FGDC para estabelecer e implementar padrões sobre conteúdo, precisão e transferência de dados (FGDC, 1997).O objetivo do FGDC é fornecer um meio consistente de comparar diretamente o conteúdo e a precisão posicional dos dados espaciais obtidos por diferentes métodos para o mesmo ponto e, assim, facilitar a interoperabilidade dos dados espaciais. O status dos Padrões FGDC está resumido na Tabela 1. Da mesma forma, o Open GIS Consortium está trabalhando com produtores e consumidores públicos, industriais e sem fins lucrativos de tecnologia GIS e dados geoespaciais para desenvolver padrões internacionais de interoperabilidade (GETF, 1996). Os cientistas da UCGIS devem continuar a estar ativamente envolvidos na especificação e adoção dos padrões do FGDC e do Open GIS Consortium.

O UCGIS e outros cientistas também devem determinar o impacto na coleta de dados se e quando as empresas e organizações implementarem padrões ambientais internacionais conforme prescrito pela Organização Internacional de Padronização (ISO). A série ISO 14000 de padrões de gestão ambiental (EMS) oferece uma abordagem consistente para gerenciar as questões ambientais de uma empresa ou organização. O Departamento de Defesa, Departamento de Energia e EPA dos EUA estão conduzindo projetos-piloto para avaliar o efeito do EMS ISO 14001 em suas instalações (FETC, 1998ab). O sistema é especialmente útil ao colocar dados em sistemas de gestão ambiental, conduzir auditorias ambientais, realizar rotulagem ambiental e avaliar o desempenho de um ambiente (por exemplo, ISO 14031 fornece orientação sobre o design e uso de avaliação de desempenho ambiental e sobre a identificação e seleção de indicadores de desempenho ambiental). O aumento da consciência ambiental em todo o mundo está levando as empresas e agências a considerar as questões ambientais em suas decisões. Portanto, as empresas e agências estão usando os padrões internacionais para gerenciar melhor suas questões ambientais. Os dados ambientais espaciais coletados e processados ​​para essas empresas e organizações podem, eventualmente, ter que atender a um padrão mais elevado para que a empresa ou organização mantenha seu status ISO 14000.

Controle geodésico: geóide e datum - os cientistas coletam dados de estrutura temática em locais x, y e z específicos em relação aos dados de fundação controlados geodeticamente. O Subcomitê de Controle Geodésico FGDC compilou os 'Padrões para Redes de Controle Geodésico' (FGCN) e o Subcomitê de Dados Cartográficos de Base compilou o 'Padrão Nacional para Precisão de Dados Espaciais' (NSSDA). Atualmente, recomenda-se que os valores das coordenadas horizontais estejam no Datum Norte Americano de 1983 (NAD 83) e que as coordenadas verticais estejam no Datum Vertical Norte Americano de 1988 (NAVD 1988) ou no Datum Geodésico Vertical Nacional de 1929 (NGVD29 ) Embora isso seja importante para a criação de novos dados, e quanto a todas as outras informações espaciais compiladas em outros datums? Como esses dados históricos podem ser combinados (registrados) aos dados compilados para o datum NAD 83?

Por exemplo, Welch e Homsey (1997) apontam um problema clássico de integração de dados (conflação) envolvendo o USGS 1: folhas de mapa topográfico de 7,5 minutos em escala de 24.000, produtos Digital Line Graph (DLG) e Modelos Digitais de Elevação (DEMs) de os Estados Unidos que são lançados no North American Datum de 1927 (NAD 27). Esses produtos de mapa são um tesouro nacional usado para uma variedade de mapeamento, construção de banco de dados GIS e tarefas de levantamento de terras. No entanto, o NAD 27 foi substituído pelo NAD 83. Embora as mudanças para traduzir as coordenadas da gratícula de latitude / longitude para NAD 83 estejam bem documentadas, nenhuma informação está prontamente disponível sobre as mudanças em metros necessárias para converter as coordenadas da grade NAD 27 UTM Norte e Leste para Valores NAD 83. As mudanças na gratícula variam de dezenas de metros, enquanto as mudanças correspondentes para as coordenadas da grade UTM variam de aproximadamente zero a 400 m, dependendo da localização do mapa e da zona UTM. Programas de terceiros estão disponíveis para fazer as traduções, no entanto, não é um processo simples. Essa tradução é absolutamente necessária se o histórico topográfico, DLG, DEM e outras informações espaciais devem ser registrados para novos dados, como o USGS Digital Orthophoto Quarter Quads (DOQQ) que são projetados para NAD 83. É importante que o usuário seja capaz de para obter o registro entre as camadas de dados derivadas desses e de outros produtos de mapas com precisão compatível com os padrões de precisão de mapas nacionais dos EUA. Isso significa que todas as coordenadas horizontais devem ser referenciadas a um único datum (Welch, 1995). Os cientistas da UCGIS devem estar ativamente envolvidos em pesquisas que maximizem nossa capacidade de registrar uma variedade de bancos de dados espaciais em um único datum aprovado nacionalmente.

Controle geodésico: precisão horizontal (x, y) e vertical (z) - O FGCN define métodos estatísticos para relatar o erro circular horizontal (x, y) (raio de um círculo de incerteza) e erro linear vertical (z) (incerteza linear ) de pontos de controle (verificação) no Sistema de Referência Espacial Nacional. Os padrões NSSDA definem métodos estatísticos rigorosos para relatar o erro circular horizontal e linear vertical de outros pontos bem definidos em dados espaciais derivados de fotografias aéreas, imagens de satélite ou mapas. O método de relatório estatístico NSSDA substitui os padrões de precisão de mapas nacionais tradicionais dos EUA (US Bureau of the Budget, 1947) e vai além das especificações de precisão de mapas de grande escala adotadas pela American Society for Photogrammetry & amp Remote Sensing (ASPRS, 1990) para incluir escalas menor que 1: 20.000.

Embora avanços importantes tenham sido feitos, ainda há questões não resolvidas que precisam ser investigadas, incluindo: 1) a determinação do tamanho da amostra de avaliação de erro com base no mapa ou escala de imagem e outros critérios relevantes, 2) identificação do método mais imparcial de alocação os dados da amostra de teste em toda a área de estudo (por exemplo, por linha, quadrante, amostra estratificada-sistemática-não alinhada, etc.), 3) desenvolvimento de métodos aprimorados para relatar a precisão posicional de mapas ou outros dados espaciais que contenham múltiplas áreas geográficas de diferentes precisão, 4) desenvolver critérios mais rigorosos para identificar 'erros' coordenados e 5) desenvolver métodos estatísticos aprimorados para avaliar a precisão posicional horizontal e vertical.

Padrões de classificação: consistência lógica e integridade - os cientistas coletam informações de atributos biofísicos e sociológicos em localizações x, y, z exclusivas de acordo com um sistema de classificação lógico. Infelizmente, pode haver vários esquemas de classificação que podem ser utilizados para o mesmo assunto e seu conteúdo pode ser logicamente inconsistente ou incompleto. Por exemplo, até recentemente, era possível mapear um grande leito de taboa (typha latifolia) à beira de um lago de água doce utilizando os seguintes esquemas de classificação: a) o 'U.S. Sistema de Classificação de Dados de Uso e Cobertura do Solo de Levantamento Geológico para Uso com Dados de Sensor Remoto '(Anderson et al., 1976), b) o' Sistema de Classificação NOAA CoastWatch Landuse / Land Cover (Klemas et al., 1993), e c) os EUA Fish & amp Wildlife Service Wetland Classification System '(Cowardin et al., 1979). Usando os três sistemas de classificação, a mancha de nenúfar idêntica seria categorizada como 'pântano não florestado', 'leito aquático lacustre - planta vascular enraizada' e 'pântano emergente persistente lacustre', respectivamente. Mapas de zonas úmidas derivados usando esses três sistemas de classificação são notoriamente difíceis de integrar.

Há também a questão da completude (especificidade) dos atributos do sistema de classificação. Alguns sistemas, como o USGS e o NOAA CoastWatch, fornecem 2 a 3 níveis de especificidade e nomenclatura e sugerem que o usuário estipule as classes associadas a informações de nível 4 a 5 mais detalhadas. Por outro lado, o sistema de classificação USFS fornece níveis específicos 4 e 5 que levam em consideração as características da planta, solos e frequência de inundações. Não é surpreendente, portanto, que o sistema USFS intitulado 'Classificação de áreas úmidas e habitats de águas profundas' seja agora o padrão do FGDC e deva ser utilizado ao conduzir estudos de áreas úmidas. O Padrão de Classificação de Vegetação e os Padrões de Dados Geográficos de Solos também foram concluídos (Tabela 1).

Infelizmente, os cientistas não têm tanta sorte ao lidar com o uso do solo urbano. A pesquisa sobre sistemas de classificação urbana é urgentemente necessária para que os dados espaciais sejam coletados por meio de nomenclatura lógica, completa e específica. Os dados de sensor remoto de alta resolução espacial (& lt 1 x 1 m) renderão categorias detalhadas de nível 4 e 5 de uso / cobertura do solo urbano / suburbano e não há atualmente nenhum sistema de classificação de nível 3 - 5 padronizado para esta informação. Os cientistas devem trabalhar em estreita colaboração com o FGDC para concluir o Padrão de Conteúdo Cultural e Demográfico, os Padrões de Dados de Identificação de Instalações, bem como o padrão proposto do Sistema de Classificação da Cobertura Terrestre mais genérico. Além disso, observe que não há padrões associados à coleta das seguintes variáveis ​​biofísicas: qualidade da água, atmosfera e neve / gelo ou a enorme quantidade de dados espaciais sendo coletados pela iniciativa Earth Science Enterprise da NASA, anteriormente Mission to Planet Earth (Asrar e Greenstone, 1996).

Avaliação da precisão temática de data única e múltipla - cartógrafos e fotogrametristas são adeptos da especificação da precisão da posição espacial (x, y, z) de uma observação geográfica em termos de estatísticas de erro médio quadrático (RMSE) ou círculo de incerteza. Os cientistas também são bastante hábeis em estimar a precisão de um mapa temático individual quando comparado com informações de 'verdade do solo' in situ usando estatísticas como o coeficiente de concordância kappa (Congalton, 1991 Jensen, 1996). Infelizmente, os cientistas apenas começaram a entender como determinar a precisão estatística dos produtos de mapas derivados de várias datas de análise. Por exemplo, apenas recentemente um método preliminar foi proposto sobre como medir a precisão de um mapa de detecção de mudanças derivado da análise de apenas duas datas de análise (Macleod e Congalton, 1998). É necessária pesquisa adicional para documentar a) a lógica de amostragem in situ exigida, eb) a análise estatística necessária para especificar a precisão de um mapa de detecção de mudança ou produto derivado, especialmente quando se trata de n + 2 datas.

Correção Radiométrica de Dados do Sensor Remoto - O Padrão de Conteúdo FGDC para Orthoimagery Digital é um documento completo que descreve como imagens digitais ortofotográficas de um quarto-quádruplo (DOQQ) devem ser preparadas como um dos conjuntos de dados básicos nacionais. É imperativo que algoritmos eficazes e fáceis de usar sejam desenvolvidos que combinem radiometricamente a borda de um quarto de quádruplo com o outro. Este é um problema sério e incômodo que todos os cientistas que usam DOQQs devem resolver de forma independente.

Da mesma forma, é difícil comparar as características radiométricas de duas datas de aniversário de quase qualquer tipo de dados de sensoriamento remoto devido à atenuação atmosférica presente em uma ou ambas as imagens. O problema se torna ainda mais agudo quando os cientistas desejam analisar n +2 imagens. Os algoritmos de correção atmosférica adequados simplesmente não estão disponíveis nos programas comerciais de processamento de imagem digital. São necessários algoritmos de correção atmosférica fáceis de usar aprimorados que podem realizar a) normalização de cena imagem a imagem, b) correção atmosférica de transferência radiativa absoluta de cada data de imagem (Jensen et al., 1995 Jensen, 1996), e c ) correção geométrica e radiométrica aprimorada de dados de sensores remotos para terrenos montanhosos (Bishop et al., 1998). A correção radiométrica absoluta permitiria que medidas biofísicas como biomassa ou índice de área foliar (IAF) feitas em uma data fossem comparadas diretamente com aquelas obtidas em outras datas. Este é um sério problema de coleta e processamento de dados.

Metadados - Dados sobre dados - metadados - são muito importantes. Os metadados nos permitem entender a origem dos dados, suas características geométricas, seus atributos e que tipo de processamento cartográfico, digital de imagens ou modelagem já foi aplicado aos dados. O Padrão de Conteúdo para Metadados Geoespaciais Digitais já está em vigor e há grupos de trabalho focados em como melhorar o padrão (FGDC, 1997b 1998). Pesquisas adicionais devem continuar sobre: ​​a) como organizar, armazenar e fornecer metadados usando nós regionais do National Geospatial Data Clearinghouse (NGDC) b) desenvolvimento de interfaces baseadas na web aprimoradas para navegar e baixar metadados de forma eficiente ec) documentar a genealogia (linhagem ) de todas as operações que foram realizadas ou aplicadas a um conjunto de dados (Lanter e Veregin, 1992). Um usuário deve ter um entendimento completo do conteúdo e da qualidade de um conjunto de dados espaciais digitais para aproveitar ao máximo seu potencial de informação.

Questões de correspondência de endereços: O estudo do NAPA (1998) avaliou as necessidades de informações geográficas no século 21 e descobriu que 9 dos 12 usos públicos de dados espaciais exigiam arquivos de endereços geocodificados. As informações de endereço são importantes para assessores, avaliadores, agentes imobiliários, 911, credores hipotecários, redistritting e outros usuários. Na verdade, a indústria de geografia de negócios de um bilhão de dólares se baseia no conceito de que um endereço pode ser atribuído a coordenadas geográficas topologicamente corretas e que o endereço pode ser usado para navegar até o local correto. Portanto, há uma grande demanda por um arquivo preciso de dados de endereços para uma infinidade de aplicativos comerciais e públicos. A questão foi levantada pelo Mapping Science Committee original (1990) e identificada como um aspecto importante da INDE. ou seja, um bom lugar para o governo local, governo federal e cooperação do setor privado. Infelizmente, o desenvolvimento de tal sistema em uma base nacional é difícil por uma série de razões.

Primeiro, um edifício ou lote de endereço pode ser o resultado de decisões históricas e administrativas ilógicas. Isso pode resultar em endereços ao longo de uma face do bloco que estão fora de seqüência, duplicados ou ausentes (Figura 2a). É muito difícil localizar endereços com precisão usando qualquer forma de interpolação espacial ao longo da face do bloco. Por exemplo, quando um conjunto de endereços comerciais é geocodificado com linhas centrais da rua TIGER, eles normalmente são agrupados no início do intervalo de endereços para um segmento de rua, conforme demonstrado na Figura 2b. O sistema Postal Service Zip + four é agora amplamente usado para fins de geocodificação porque pode conter um conjunto de ruas mais atual do que o disponível no Censo ou em um provedor comercial. No entanto, o código postal de nove dígitos geralmente só pode atribuir um endereço a um ponto médio da linha central da rua para um quarteirão. Também podem surgir problemas significativos quando os locais de construção e seus endereços foram derivados de materiais de origem que não estavam na mesma escala ou data. Por exemplo, na Figura 2c, muitos dos centróides dos lotes não puderam ser referenciados adequadamente a partir das linhas centrais das ruas TIGER e seriam atribuídos ao Bloco de Censo incorreto com base em uma pesquisa de ponto no polígono.

A solução de longo prazo para esse problema é desenvolver um conjunto abrangente de linhas centrais das ruas em uma escala que garanta que a localização de lotes, casas e outros edifícios seja topologicamente correta. No Reino Unido, o Ordinance Survey resolveu o problema digitalizando edifícios e estradas de fontes de mapas em grande escala. Nos EUA, essa solução parece estar a anos de distância. Mas levará 10 anos e US $ 20 milhões para estabelecer a base de ortofotografia para desenvolver a base para a criação da base de dados unificada para apenas 20 condados rurais da Carolina do Sul (Lapine, 1998). Há também a necessidade de estabelecer uma forma sistemática para que esses arquivos de edifícios e ruas sejam mantidos com base nas transações e imediatamente incorporados aos arquivos apropriados nos níveis estadual e federal. Também existe um papel importante para o setor privado como fornecedor e usuário desses arquivos. Uma pesquisa significativa deve ser conduzida para melhorar nossa capacidade de correspondência de endereços.

Privacidade - os sistemas de informação geográfica e a família tecnológica a eles associada - sistemas de posicionamento global, geodemografia e os sistemas de vigilância remota de alta resolução espacial propostos - levantam questões importantes com respeito à questão da privacidade (Onsrud et al., 1994, Curry, 1997 Slonecker et al., 1998). De importância imediata é o fato de que os sistemas armazenam e representam dados de maneiras que tornam eficazes as proteções mais populares contra abuso de privacidade. É imperativo que os cientistas da UCGIS e outros investiguem profundamente as questões éticas e morais associadas à mudança tecnológica, o impacto das melhorias na especificidade e resolução dos dados coletados e a mudança do 'direito à privacidade' para países, comunidades, empresas e o 'indivíduo digital'.

4.2. Coleta de dados in situ

A grande maioria dos dados de qualidade coletados sobre pessoas, flora, fauna, solos, rochas, a atmosfera e água em suas várias formas são obtidos por medição in situ tripulada ou não tripulada. Esperamos que esses dados sejam coletados usando um esquema de amostragem bem elaborado ou conduzindo um censo completo da população. A fim de integrar as informações espaciais derivadas de diversas medições in situ, várias questões devem continuar a ser investigadas.

Calibração de instrumentos in situ - Instrumentos como termômetros, radiômetros e questionários devem ser calibrados. A lógica e os métodos usados ​​para calibrar o instrumento no início, em estágios intermediários ao longo do processo de coleta de dados e no final devem ser rigorosamente definidos e relatados como parte dos metadados. Além disso, existe o problema sempre presente de como calibrar o operador humano do equipamento. A pesquisa é necessária para documentar o impacto da integração de informações espaciais derivadas de, talvez, vários estudos com instrumentos que foram mal calibrados ou mesmo inadequadamente calibrados. A situação se torna mais complexa quando observações pontuais mal calibradas são submetidas a um algoritmo de interpolação que cria uma superfície estatística contínua geograficamente extensa. Uma monografia sobre calibração de instrumento in situ e coleta de dados cobrindo a maioria das questões relevantes associadas a questionários de população (pessoas), levantamento tradicional, GPS, amostragem atmosférica, amostragem de solo / rocha, amostragem de água, amostragem de vegetação e instrumentação espectrorradiômetro seria amplamente utilizada . Atualmente, deve-se obter tais informações de fontes muito diversas, muitas vezes com opiniões conflitantes sobre os procedimentos de calibração de instrumentos.Além disso, quando a coleta de dados in situ se torna invasiva, de modo que o observador ou instrumento impacta os fenômenos que estão sendo observados?

Lógica de enumeração do censo - Um censo não é uma amostra, mas uma enumeração completa da população. Existem muitas maneiras de conduzir um censo, incluindo: enumeração direta, auto enumeração e enumeração administrativa. Se os métodos de desenho e operações do censo apropriados não forem seguidos, erros graves podem entrar no banco de dados, como contagem em excesso, contagem insuficiente e alocação incorreta. Várias das questões mais importantes do censo a serem resolvidas são a) o impacto da base de dados geográficos usada durante as operações de enumeração de campo, b) como evitar cobertura incompleta, c) como minimizar erros de resposta devido a problemas de instrumentos de medição, d) dados alternativas de transformação ee) como avaliar a qualidade ou precisão de um censo.

Lógica de amostragem in situ - O mundo é um ambiente geograficamente extenso e complexo que geralmente não se presta bem a uma enumeração completa de parede a parede (censo). Consequentemente, é geralmente necessário amostrar o ambiente com um instrumento calibrado enquanto espera capturar a essência dos atributos sob investigação. A amostragem pode economizar tempo e dinheiro, mas pode não ser tão precisa quanto um censo completo. No entanto, pode ser aceitável dentro de certos limites de confiança definidos estatisticamente. A pesquisa é necessária para identificar uma lógica de amostragem mais eficaz e técnicas de análise estatística mais robustas para analisar os dados amostrados. Além disso, a pesquisa é necessária para identificar o método ideal de interpolação entre observações pontuais para derivar uma superfície estatística contínua em uma das várias estruturas de dados, incluindo: raster, rede irregular triangular (TIN), árvore quádrupla, etc. determinar a sabedoria de comparar várias superfícies contínuas que foram criadas usando diferentes métodos de interpolação.

Coleta de dados do Sistema de Posicionamento Global (GPS) - os profissionais de GIS, o público em geral e os pesquisadores estão usando cada vez mais o GPS para coletar informações das coordenadas x, y, z (Kennedy, 1996). O ex-diretor do National Geodetic Survey (NGS) e agora chefe do SC Geodetic Survey identifica as seguintes questões que devem ser abordadas pelo governo federal, indústria privada e comunidades de pesquisa para melhorar nossa capacidade de coleta de dados GPS para praticantes de GIS e topógrafos ( Lapine, 1998). A coleta de dados horizontais diferenciais em tempo real (latitude, longitude) pode atingir ou exceder as metas operacionais de 1-3 m para coleta de dados GIS gerais. Dados de GPS coletados diferencialmente e pós-processados ​​podem gerar precisões de levantamento de 3 cm. Idealmente, teríamos a capacidade de obter os dados em tempo real em todos os Estados Unidos. Infelizmente, não temos cobertura nacional completa de corretores de transmissão. O Congresso está considerando uma legislação que fornecerá financiamento para uma Rede Nacional de GPS Diferencial a ser operada pelo Departamento de Transporte. Quando isso ocorrer (esperançosamente em 2000), teremos cobertura GPS diferencial em tempo real completa dos EUA e do Alasca. Nesse ínterim, o NGS está trabalhando com os governos locais para instalar estações base em todo o país para estabelecer uma cobertura uniforme usando um único padrão nacional.

O verdadeiro problema é a precisão da medição vertical (z). O objetivo é obter valores verticais relativos à rede vertical clássica de 3 cm usando técnicas de pós-processamento ou 1-3 m em tempo real. Infelizmente, o estado da arte atual é de cerca de 10 cm com pós-processamento e 10 m em tempo real, o que é inaceitável para a maioria dos trabalhos de topografia e GIS. No entanto, é possível pós-processar os dados verticais para obter uma precisão de 2-5 cm usando técnicas de protótipo pioneiras da NGS. O South Carolina Geodetic Survey está trabalhando com o NGS para desenvolver as técnicas de GPS para a obtenção de procedimentos operacionais para uma precisão de 3 cm. Essas técnicas também podem fornecer a solução para melhorar a precisão em tempo real.

Uma nova descoberta importante é que essa mesma rede de GPS diferencial pode ser de valor significativo para a previsão do tempo em tempo real. A refração da ionosfera medida pelos receptores GPS de dupla frequência é capaz de identificar a concentração de vapor d'água precipitável. Esta é a variável mais significativa na previsão do tempo. As previsões de 6 e 24 horas podem ser melhoradas significativamente por meio de medições mais precisas do vapor de água precipitável. Os receptores podem ser colocados em todos os aeroportos do país, aumentando drasticamente a precisão de nossa capacidade de previsão do tempo nacional e, simultaneamente, fornecendo uma rede mais densa de estações base para o usuário GIS em tempo real.

4.3. Coleta de dados de sensoriamento remoto

Os dados do sensor remoto podem não fornecer o nível de completude (ou seja, especificidade) nem a informação de posição espacial rigorosa que pode ser obtida quando os dados são coletados no campo por um cientista experiente armado com equipamento de medição in situ apropriado e uma unidade GPS diferencial. Na verdade, os dados do sensor remoto geralmente são calibrados melhor usando dados in situ. Felizmente, os dados do sensor remoto calibrado podem, em certos casos, fornecer informações geograficamente extensas sobre a ocupação humana e as características biofísicas (por exemplo, biomassa, temperatura, teor de umidade) em muito mais detalhes do que investigações pontuais in situ extremamente caras. A chave é saber quando é apropriado usar cada tecnologia sozinha ou em conjunto com a outra.

Várias observações importantes estão em ordem com relação aos dados do sensor remoto. Primeiro, os dados do sensor remoto podem ser usados ​​para coletar informações para muitos dos temas de dados espaciais dos subcomitês do FGDC resumidos na Tabela 2 (NRC, 1995). Na verdade, é difícil coletar as informações espaciais necessárias para muitos dos temas sem usar dados de sensores remotos. Os Padrões que estão sendo desenvolvidos por cada um dos subcomitês do FGDC (por exemplo, o Padrão de Classificação de Vegetação) reconhecem que os dados do sensor remoto calibrados com observação in situ é a única maneira de coletar alguns dos dados que devem preencher o banco de dados.

Infelizmente, há uma concepção crescente de que a) as imagens históricas desclassificadas, b) os novos sistemas de sensores de alta resolução espacial que estão programados para serem lançados a partir de 1998, ec) o conjunto de sensores do Sistema de Observação da Terra (EOS) que serão lançado a partir de 1998, resolverá a maioria de nossos requisitos de coleta de dados de sensoriamento remoto (Pace et al., 1997, Cowen e Jensen, 1998 Stoney, 1998). Este não é o caso. Na verdade, os dados podem criar problemas inteiramente novos. Por exemplo, o custo de imagens comercialmente disponíveis pode ser proibitivo e pode haver restrições de direitos autorais impraticáveis ​​sobre os dados que limitam sua utilidade. Somente a pesquisa determinará se os dados do sensor remoto podem resolver problemas antigos e talvez inteiramente novos. As seções a seguir documentam resumidamente o estado da arte de: a) requisitos de dados socioeconômicos urbanos / suburbanos eb) requisitos de dados de atributos biofísicos em comparação com os sistemas de sensores propostos atuais e futuros para documentar as lacunas significativas na coleta de dados capacidade e utilidade existem. Tópicos de pesquisa importantes são identificados em cada seção separada, em vez de coletá-los no final do documento.

4.3.1 Sensoriamento Remoto de Características Socioeconômicas Urbanas / Suburbanas

A relação entre os requisitos de dados temporais e espaciais para atributos urbanos / suburbanos selecionados e as características temporais e espaciais dos sistemas de sensoriamento remoto disponíveis e propostos é apresentada na Tabela 3 e na Figura 3. Esses atributos foram sintetizados a partir da experiência prática relatada em artigos de periódicos, simpósios, capítulos de livros e manuais do governo e da sociedade (referências específicas são relatadas em Jensen e Cowen, 1997, 1999, Cowen e Jensen, 1998). Sensores operando nas porções visível e infravermelho próximo do espectro são geralmente suficientes para coletar informações urbanas, a menos que a área esteja envolta em nuvens, caso em que o radar é mais apropriado (Leberl, 1990). Os dados hiperespectrais não são necessários para aplicações urbanas. Portanto, esta discussão se concentra em se os requisitos de coleta de dados de resolução espacial e temporal urbana são satisfeitos. As características dos principais sistemas de sensoriamento remoto atuais e propostos estão resumidas no Apêndice A.

Uso do solo / cobertura do solo - A relação entre os níveis do sistema de classificação de cobertura do solo do USGS (I - IV) e a resolução espacial do sistema de sensores (distância resolvida do solo em metros) é apresentada na Figura 4. As diretrizes do National Image Interpretability Rating System (NIIRS) são fornecidas para fins comparativos. (1) Geralmente, as classes de Nível I podem ser inventariadas usando o Landsat Multispectral Scanner (MSS) com uma resolução espacial nominal de 79 x 79 m, o Thematic Mapper (TM) a 30 x 30 m, SPOT HRV (XS) a 20 x 20 m e LISS 1-3 indiano (72 x 72 m 36,25 x 36,25 m 23,5 x 23,5 m, respectivamente). Sensores com resolução espacial mínima de 5 a 20 m geralmente são necessários para obter informações de Nível II. O SPOT HRV e o russo SPIN-2 TK-350 são os únicos sistemas de sensores de satélite operacionais que fornecem dados pancromáticos de 10 x 10 m. O RADARSAT fornece dados de resolução espacial de 11 x 9 m para inventários de cobertura da terra de Nível I e ​​II, mesmo em paisagens tropicais envoltas por nuvens. O Landsat 7 com sua banda pancromática de 15 x 15 m está programado para lançamento em 1998. Classes de Nível III mais detalhadas podem ser inventariadas usando um sensor com uma resolução espacial de aproximadamente 1 - 5 m (Welch, 1982 Forester, 1985), como IRS- Pan de 1 CD (dados de 5,8 x 5,8 m reamostrados para 5 x 5 m) ou fotografia aérea em grande escala. Os sensores futuros podem incluir EOSAT Space Imaging IKONOS (pan 1 x 1 m e 4 x 4 m multiespectral), EarthWatch Quickbird (pan 0,8 x 0,8 m e multiespectral 3,28 x 3,28 m), OrbView 3 (pan 1 x 1 m e 4 x 4 m multiespectral) e IRS P5 (2,5 x 2,5 m). O uso sinérgico de dados pancromáticos de alta resolução espacial (por exemplo, 1 x 1 m) e mesclados, dados multiespectrais de resolução espacial mais baixa (por exemplo, 4 x 4 m) provavelmente fornecerá um ambiente de interpretação de imagem superior ao uso de dados pancromáticos sozinhos (Jensen, 1996 ) Classes de nível IV e informações cadastrais (linha de propriedade) são melhor monitoradas usando sensores pancromáticos de alta resolução espacial, incluindo fotografia aérea (& lt 0,3 - 1 m) e dados de pan Quickbird proposto (0,8 x 0,8 m) e IKONOS (1 x 1 m). As classes de uso / cobertura do solo urbano nos Níveis I a IV têm requisitos temporais que variam de 1 a 10 anos (Tabela 3 e Figura 3). Todos os sensores mencionados têm resoluções temporais de & lt55 dias, de modo que a resolução temporal dos atributos de uso / cobertura da terra é satisfeita pelos sistemas de sensores atuais e propostos.

É necessária pesquisa adicional para extrair automaticamente as informações de uso da terra / cobertura dos dados do sensor remoto pancromático de alta resolução espacial (& lt 1 x 1 m). Isso pode exigir uma abordagem de rede neural, como a mostrada na Figura 5, que a) combina informações de valor de brilho presentes na imagem (tom, cor), com b) informações contextuais extraídas da imagem (Hickman et al., 1995), e em seguida, c) avalia esses e outros dados auxiliares do SIG treinando a rede neural (Jensen e Qiu, 1998).

Infraestrutura de construção e Cadastral - Arquitetos, firmas imobiliárias, planejadores, empresas de serviços públicos e assessores fiscais freqüentemente exigem informações sobre o perímetro da pegada da construção, área, volume e altura, e dimensões da linha da propriedade (Cullingworth, 1997). Essas informações são de valor significativo para a criação de um cadastro multifuncional associado à propriedade da terra (Warner, 1996). Os dados detalhados de altura e volume do edifício podem ser extraídos de fotografias estereoscópicas de alta resolução espacial (0,3 - 0,5 m) ou outros dados de sensores remotos estereoscópicos semelhantes (Figura 6). O DEM do edifício digital está encontrando grande valor para percursos de realidade virtual (Figura 7). IKONOS (1998) e Quickbird (1999) planejam fornecer imagens estereoscópicas com resolução espacial de aproximadamente 0,8-1 m. No entanto, tais imagens podem ainda não obter os detalhes planimétricos detalhados (perímetro, área) e detalhes topográficos e precisão (contornos do terreno e altura e volume do edifício) que podem ser extraídos da fotografia aérea estereoscópica de alta resolução espacial (0,3 - 0,5 m).

A pesquisa é necessária para desenvolver hardware e software aprimorados para extrair informações de infraestrutura de construção de maneira econômica usando técnicas fotogramétricas de cópia eletrônica. Hardware caro e software relativamente complexo estão disponíveis há anos (NRC, 1995 Jensen, 1996). Os estudos fotogramétricos devem documentar o perímetro da pegada do edifício e as informações de altura que podem ser extraídas usando os novos dados estereoscópicos de satélite de alta resolução espacial (1 x 1 m) e que controle de solo in situ é necessário para obter a precisão desejada das coordenadas x, y, z .

Infraestrutura de transporte - Recursos enormes estão sendo gastos na revitalização da infraestrutura de transporte de nosso país. Os planejadores de transporte usam dados de sensores remotos para 1) atualizar mapas da rede de transporte, 2) avaliar as condições das estradas, 3) estudar os padrões de tráfego urbano em pontos de estrangulamento, como túneis, pontes, shoppings e aeroportos, e 4) conduzir estudos de estacionamento (Haack et al., 1997). Uma das formas mais comuns de dados de transporte são os dados espaciais da linha central da rua (SCSD). Três décadas de prática provaram o valor de diferenciar entre os lados esquerdo e direito de cada segmento de rua e codificar atributos para eles, como nomes de ruas, faixas de endereços, CEPs, censo e limites políticos e distritos eleitorais. O SCSD fornece um bom exemplo de uma estrutura temática de dados espaciais em virtude de seu amplo uso atual na seleção de locais de instalação, operações de censo, estudos de planejamento socioeconômico e redistritamento legislativo (NRC, 1995). No entanto, pesquisas adicionais devem determinar quando é necessário extrair uma ou várias linhas centrais. É quando há mais de duas pistas? E quanto às faixas de rampa de entrada e saída? Quando uma rodovia dividida é dividida? Essas são questões significativas que são importantes ao criar a infraestrutura de transporte tão central para muitos sistemas de informações geográficas.

A atualização da linha central da rede rodoviária é feita uma vez a cada 1 - 5 anos e em áreas com densidade mínima de árvores (ou folhagem) pode ser realizada usando imagens com uma resolução espacial de 1 - 30 m (Lacy, 1992). Se dimensões mais precisas da estrada são necessárias, como o centro exato da estrada, a largura da estrada e calçadas, então uma resolução espacial de 0,3 - 0,5 m é necessária (Jensen et al., 1994). Atualmente, apenas a fotografia aérea pode fornecer tais informações planimétricas. As condições de estradas, ferrovias e pontes (rachaduras, buracos, etc.) podem ser monitoradas in situ e usando dados de sensor remoto de alta resolução espacial (& lt 0,3 x 0,3 m) (Stoeckeler, 1979 Swerdlow, 1998).

Estudos de contagem de tráfego de automóveis, aviões, barcos, pedestres e pessoas em grupos requerem dados de resolução temporal muito alta, variando de 5 a 10 minutos. Muitas vezes é difícil resolver um carro ou barco usando até mesmo dados de 1 x 1 m. Isso requer imagens de alta resolução espacial de 0,3 - 0,5 m. Essas informações só podem ser adquiridas por meio de fotografia aérea ou sensores de vídeo que estão a) localizados nas bordas superiores dos edifícios olhando obliquamente para o terreno, ou b) colocados em aeronaves ou helicópteros e voados repetidamente sobre as áreas de estudo. Quando essas informações são coletadas em um horário ideal do dia, futuras decisões de estacionamento e movimentação do tráfego podem ser tomadas. Os estudos de estacionamento requerem a mesma alta resolução espacial (0,3 - 0,5 m), mas resolução temporal ligeiramente inferior (10 - 60 minutos). O radar Doppler demonstrou algum potencial para monitorar o fluxo e o volume do tráfego. Novas imagens de alta resolução espacial obtidas de plataformas de satélites estáveis ​​devem possibilitar o mosaico geométrico de múltiplas linhas de vôo de dados sem os efeitos radiométricos de deslocamento radial / relevo ou vinheta longe do ponto principal de cada fotografia. Algoritmos de detecção de borda aprimorados são necessários para extrair informações da rua (linha central) automaticamente das imagens.

Infraestrutura de utilidade - ambientes urbanos / suburbanos criam grandes quantidades de lixo, água residual e esgoto e requerem energia elétrica, gás natural, serviço telefônico e água potável (Schultz, 1988 Haack et al., 1997). Mapeamento automatizado / gerenciamento de instalações (AM / FM) e sistemas de informação geográfica foram desenvolvidos para gerenciar extensos corredores com direito de passagem para várias concessionárias, especialmente dutos (Jadkowski et al, 1994). A tarefa mais fundamental é atualizar os mapas para mostrar uma linha central geral da utilidade de interesse, como uma linha de força com direito de passagem. Isso é relativamente simples se o utilitário não estiver enterrado e os dados do sensor remoto de resolução espacial de 1 - 30 m estiverem disponíveis. Muitas vezes também é necessário identificar rotas de utilidade de protótipo (por exemplo, pipeline) (Feldman et al., 1995). Esses estudos requerem imagens geograficamente mais extensas, como dados Landsat TM (30 x 30 m). Portanto, a maioria dos direitos de passagem reais e propostos podem ser bem observados em imagens com resolução espacial de 1 a 30 m obtida uma vez a cada 1 a 5 anos. Quando for necessário inventariar a localização exata das sapatas ou torres de transmissão, postes de serviços públicos, tampas de bueiros, a linha central verdadeira da concessionária, a largura da faixa de domínio da concessionária e as dimensões dos edifícios, bombas e subestações então é necessário ter uma resolução espacial de 0,3 - 0,6 m (Jadkowski et al, 1994). O país está gastando bilhões na melhoria da infraestrutura de transporte e serviços públicos. Seria sensato fornecer fundos para mapear (inventariar) as melhorias.

Criação do Modelo Digital de Elevação (DEM) - É possível extrair informações de elevação z relativamente grosseiras usando dados SPOT 10 x 10 m, dados SPIN-2 (Lavrov, 1997) e até dados Landsat TM 30 x 30 m (Gugan e Dowman, 1988). No entanto, qualquer DEM a ser usado em uma aplicação urbana / suburbana deve ter uma elevação z e coordenadas x, y que atendam aos padrões preliminares de precisão de posicionamento geoespacial (FGDC, 1997). Os únicos sensores que podem fornecer tais informações no momento são a fotografia aérea métrica estereoscópica de grande escala com uma resolução espacial de 0,3 - 0,5 me alguns sensores LIDAR (Greve, 1996 Jensen, 1995). Um DEM de uma área urbanizada só precisa ser adquirido uma vez a cada 5 a 10 anos, a menos que haja um desenvolvimento significativo e o analista deseje comparar dois DEMs de data diferentes para determinar a mudança na elevação do terreno, identificar adições não permitidas aos edifícios ou mudanças na altura dos edifícios. Os dados DEM podem ser modelados para calcular a inclinação e as superfícies estatísticas de aspecto para uma variedade de aplicações. A fotogrametria digital de desktop está revolucionando a criação e a disponibilidade de DEMs para fins especiais (Petrie e Kennie, 1990 Jensen, 1995). No entanto, pesquisas adicionais são necessárias para extrair DEMs detalhados das imagens usando hardware e software baratos. Muitos dos sistemas são caros e muito complicados, tornando difícil para o cientista técnico desenvolver um DEM local sob demanda.

  • as imagens devem ter resolução espacial suficiente para identificar estruturas individuais, mesmo através de cobertura de árvores e se são edifícios residenciais, comerciais ou industriais,
  • alguma estimativa do número médio de pessoas por unidade de habitação deve estar disponível,
  • alguma estimativa do número de trabalhadores sem-teto, sazonais e migratórios é necessária, e
  • presume-se que todas as unidades domiciliares estão ocupadas e apenas n famílias moram em cada unidade.

Há uma relação entre a área construída urbanizada simples (tamanho do assentamento) extraída de uma imagem de sensoriamento remoto e a população do assentamento (Tobler, 1969 Olorunfemi, 1984), onde r = ax P b and r é o raio do círculo da área povoada , a é uma constante de proporcionalidade derivada empiricamente, P é a população e b é um expoente derivado empiricamente. Sutton et al. (1997) usaram o Sistema Operacional de Varredura de Linhas do Programa de Satélite Meteorológico de Defesa (DMSP-OLS), imagens noturnas de infravermelho próximo visíveis de 1 x 1 km para inventariar a extensão urbana de todos os Estados Unidos.Quando os dados foram agregados ao nível do estado ou município, a análise espacial dos clusters dos pixels saturados previu a população com um R 2 = 0,81. Infelizmente, as imagens DMSP subestimam a densidade populacional dos centros urbanos e superestima a densidade populacional das áreas suburbanas (Sutton et al., 1997). A pesquisa é necessária para calibrar esta técnica de estimativa de população em diversas culturas e densidades populacionais.

A maioria dos estudos de qualidade de vida usa dados do censo para extrair indicadores socioeconômicos. Apenas recentemente estudos analíticos de fator documentaram como os indicadores de qualidade de vida (como valor da casa, renda familiar mediana, número médio de quartos, aluguel médio, educação e renda) podem ser estimados extraindo os atributos urbanos de uma resolução espacial relativamente alta (0,3 - 30 m) imagens (Henderson e Utano, 1975 Jensen, 1983 Lindgren, 1985 Avery e Berlin, 1993 Haack et al., 1997 Lo e Faber, 1998). A análise de sensibilidade desses métodos deve ser realizada para verificar se os indicadores de qualidade de vida são transferíveis ao longo do tempo e do espaço entre várias culturas.

Demanda de Energia e Potencial de Produção - A demanda de energia urbana / suburbana local pode ser estimada usando dados de sensoriamento remoto. Primeiro, a metragem quadrada (ou m 2) de edifícios individuais é determinada. As informações de referência do solo local sobre o consumo de energia são então obtidas para uma amostra representativa de residências na área. As relações de regressão são derivadas para prever o consumo de energia previsto para a região. Isso requer imagens com uma resolução espacial de 0,3 - 1 m. O consumo de energia regional e nacional pode ser previsto usando imagens DMSP (Welch, 1980 Elvidge, 1997 Sutton et al., 1997).

Também é possível prever quanto potencial de energia solar fotovoltaica uma região geográfica tem, modelando a metragem quadrada do telhado individual e a orientação com restrições conhecidas de geração fotovoltaica. Isso requer imagens de resolução espacial muito alta (0,3 - 0,5 m) (Clayton e Estes, 1979 Angelici et al., 1980). A criação de demanda local e regional de energia e potencial de produção deve ser um tópico de pesquisa de alta prioridade da UCGIS, pois os resultados podem ter implicações significativas para a política energética nacional, especialmente se a conservação de energia se tornar importante novamente.

Resposta de Emergência a Desastres - Inundações (Rio Mississippi em 1993, Albany, Geórgia em 1994), furacões (Hugo em 1989, Andrew em 1991 Fran em 1996), tornados (todos os anos), incêndios, vazamentos de tanques e terremotos (Northridge, CA em 1994) demonstrou que um banco de dados de imagens de sensoriamento remoto retificado antes do desastre é indispensável. Os dados pré-desastre só precisam ser atualizados a cada 1 - 5 anos, no entanto, eles devem ter dados multiespectrais de alta resolução espacial (1 - 5 m), se possível. Quando ocorre um desastre, dados pancromáticos de alta resolução (0,3 - 2 m) e / ou infravermelho próximo devem ser adquiridos dentro de 12 horas a 2 dias (Schweitzer e McLeod, 1997). Se o terreno estiver envolto em nuvens, o radar de imagem pode fornecer as informações mais úteis. As imagens pós-desastre são registradas nas imagens pré-desastre e ocorre a detecção manual e digital de mudanças (Jensen, 1996). Se forem necessárias informações quantitativas precisas sobre o estoque de habitações danificadas, artérias de transporte interrompidas, o fluxo de materiais derramados e danos aos serviços públicos acima do solo, é aconselhável adquirir dados pancromáticos e infravermelhos próximos de 0,3 a 1 m pós-desastre dentro de 1 - 2 dias. Essas informações foram indispensáveis ​​para avaliar os danos e alocar os escassos recursos de limpeza durante o furacão Hugo, o furacão Andrew, o furacão Fran (Wagman, 1997) e o recente terremoto de Northridge. O papel dos dados de sensoriamento remoto e da modelagem GIS na gestão de riscos e desastres é uma importante área de pesquisa.

4.3.2 Sensoriamento Remoto de Características Biofísicas

A comunidade de cientistas e acadêmicos do UCGIS deve estar na vanguarda da realização de pesquisas para extrair informações biofísicas de dados de sensores remotos. Esses dados são indispensáveis ​​em modelos de processos distribuídos espacialmente (Estes e Mooneyhan, 1994). Por exemplo, agora é rotina usar várias variáveis ​​distribuídas espacialmente derivadas de sensoriamento remoto para modelagem de poluição de fonte não pontual. As seções a seguir identificam a capacidade dos sistemas de sensores de fornecer os dados biofísicos necessários. A ênfase é dada às características espaciais e espectrais dos dados neste breve resumo. Em várias circunstâncias, algoritmos aprimorados são necessários para fazer o melhor uso possível dos dados do sensor remoto.

Vegetação: Tipo, Biomassa, Estresse, Conteúdo de Umidade, Métricas de Ecologia da Paisagem, Rugosidade da Superfície e Estrutura do dossel - O tipo de vegetação e a biomassa podem ser coletados para aplicações continentais, regionais e locais, cada uma exigindo uma resolução espacial diferente geralmente variando de 250 m - 8 km, 20 m - 1 km e 1 - 10 m, respectivamente (Tabela 4 Figura 8). A regra geral é utilizar uma banda no visível (de preferência uma banda de absorção de clorofila centrada em 0,675 mm), uma no infravermelho próximo (0,7 - 1,2 mm) e uma na região do infravermelho médio (1,55 - 1,75 ou 2,08 - 2,35 mm). Algoritmos de previsão de biomassa (produtividade), como o índice de vegetação de diferença normalizada (NDVI) e o índice de vegetação ajustado ao solo (SAVI), que serão aplicados aos dados EOS MODIS (1998), fazem uso dessas regiões espectrais (Running et al., 1994 ) No entanto, algoritmos de previsão de biomassa aprimorados que levam em consideração informações auxiliares armazenadas em um SIG devem ser desenvolvidos.

Estudos realizados por Carter e outros (1993 1996) sugerem que o estresse das plantas é melhor monitorado usando as faixas de comprimento de onda de luz visível de 0,535 - 0,640 e 0,685 - 0,7 m. A resolução espacial ideal é de 0,5 - 10 m para identificar regiões de interesse muito específicas. Os dados hiperespectrais com correção atmosférica provavelmente fornecem as informações de estresse mais informativas. Infelizmente, não existem sensores hiperespectrais orbitais que irão obter dados em uma resolução espacial tão alta.

O conteúdo de umidade da vegetação melhor é medido usando dados de radar infravermelho térmico (10,4 - 12,5 m) e / ou banda L (24 cm). O ideal seria uma resolução espacial de 0,5 a 10 m. Infelizmente, atualmente não há sensores infravermelhos térmicos de satélite ou de banda L que funcionem nesta resolução espacial.

Métricas de ecologia de paisagem derivadas de dados de sensores remotos estão se tornando os indicadores padrão de fato da saúde do ecossistema local e regional (Ritters et al., 1995 Frohn, 1998 Jones et al., 1998). As métricas podem ser obtidas usando os mesmos critérios de resolução espacial e espectral do tipo de vegetação e biomassa. Muito poucos estudos usaram dados de alta resolução espacial com IFOV & lt 20 x 20 m. A pesquisa deve documentar a dependência de escala das métricas.

A rugosidade da superfície de superfícies com vegetação é idealmente calculada usando radares de banda C, X e L com resoluções espaciais de 10 - 30 m. A seleção real do comprimento de onda (frequência) ideal a ser usado é uma função do micro-relevo local dominante dos componentes locais do terreno (por exemplo, grama, arbustos ou árvores) e precisa de mais pesquisas.

Os dados da estrutura do dossel são melhor extraídos usando dados de radar de comprimento de onda longo (banda L) com resolução espacial de 5 a 30 m. Quanto maior o comprimento de onda, maior será a penetração no dossel e maior será o volume espalhado entre o tronco, galhos e caules. É necessária uma pesquisa significativa para documentar a relação entre os parâmetros do dossel e o coeficiente de retroespalhamento.

Observe a falta de uma banda de infravermelho médio de alta resolução para estudos de estresse e umidade da vegetação, a falta de um canal térmico para estudos de umidade e dados de radar de alta resolução para informações de rugosidade da superfície e estrutura do dossel (Figura 8). Algoritmos aprimorados também são necessários para realizar o processamento a bordo dos dados espectrais e, em seguida, telemetrar as informações biofísicas da vegetação para a estação receptora terrestre. São necessários algoritmos de índice de solo e vegetação resistentes à atmosfera e correção atmosférica absoluta a bordo dos dados. Os dados hiperespectrais MODIS podem ser a chave para fornecer tais informações em resoluções espaciais de 0,25 x 0,25 e 0,5 x 0,5 km.

Água: extensão terrestre e oceânica, batimetria (profundidade), matéria orgânica e inorgânica, temperatura, extensão da neve e do gelo - O sensoriamento remoto na região do infravermelho próximo de 0,725 a 1,10 m m fornece boa discriminação entre a terra e a água. Os estudos oceânicos requerem uma resolução espacial de 1 a 8 km, enquanto os estudos de extensão da superfície da água da terra podem ser de 10 a 8 km. No entanto, algoritmos aprimorados são necessários quando a coluna de água contém quantidades significativas de matéria orgânica e / ou inorgânica.

A região espectral ótima para a obtenção de informações batimétricas em águas claras é de 0,44 - 0,54 m m com a melhor penetração de água a 0,48 m m. O mapeamento batimétrico normalmente requer uma resolução espacial de 1 a 10 m. A pesquisa é necessária para remover os efeitos de a) matéria orgânica e / ou inorgânica suspensa na coluna de água, eb) tipo de fundo na estimativa de profundidade.

A água contém água limpa, materiais inorgânicos em suspensão (por exemplo, sedimentos em suspensão), constituintes orgânicos (especialmente fitoplâncton e clorofila a associada) e matéria orgânica dissolvida. A obtenção de informações nas bandas de absorção da clorofila a (0,4 - 0,5 m m) eb (centrada em 0,675 m m) fornece informações muito úteis sobre a distribuição do fitoplâncton tanto na água oceânica quanto na superfície terrestre. O sensor SeaWiFS lançado recentemente foi projetado para ser sensível a essas regiões espectrais. As bandas visíveis e do infravermelho próximo (0,4 - 1,2 m m) fornecem informações sobre a distribuição de sedimentos em suspensão. Os requisitos de resolução espacial podem variar de 10 m - 4 km na realização de estudos locais a regionais. A região visível de 0,4 - 0,7 m m mostrou-se eficaz na identificação da matéria orgânica dissolvida gelbstoff (substância amarela) na água. Desemaranhar os constituintes orgânicos e inorgânicos da resposta espectral da água límpida continua sendo um dos problemas mais sérios. É necessária uma pesquisa significativa sobre a qualidade da água seguindo a lógica sugerida por Bukata et al. (1995).

A temperatura da água é rotineiramente coletada usando sensores infravermelhos térmicos operando na região de 10,5 - 12,5 me em resoluções espaciais que variam de 10 - 4 km.

A região espectral de 0,55 - 0,7 m m é suficiente para identificar a extensão da superfície da neve e do gelo em imagens diurnas. No entanto, para discriminar entre neve / gelo e nuvens, pode ser necessário usar as bandas do infravermelho médio de 1,55 - 1,75 e 2,08 - 2,35 m m. A resolução espacial deve variar de 1 a 8 km.

Solos e rochas: matéria inorgânica, matéria orgânica e umidade do solo - as rochas são compostas de minerais específicos. Os solos contêm matéria inorgânica (a textura do solo é a proporção de partículas de areia, silte e argila), matéria orgânica (húmus) e umidade (Vincent, 1997). Um dos problemas mais importantes de coleta de dados de sensoriamento remoto é desvendar a contribuição desses constituintes para os espectros de sensoriamento remoto. Por exemplo, ainda é difícil determinar a proporção de areia, silte e argila em solos usando bandas tradicionais visíveis e infravermelhas próximas (0,4 - 1,2 m). Ao conduzir tais estudos, é melhor usar imagens de resolução espacial relativamente alta (20 - 30 m). A banda do infravermelho médio (2,08 - 2,35 mm) coincide com uma importante banda de absorção causada por minerais hídricos (por exemplo, argila, mica e alguns óxidos e sulfatos), tornando-a valiosa para mapeamento litológico e para detectar zonas de alteração de argila associadas a depósitos minerais, como o cobre (Avery e Berlin, 1993). Imagens de radar de comprimento de onda mais longo (banda L) mostraram alguma utilidade para penetrar abaixo do aluvião seco para detectar constituintes inorgânicos de subsuperfície.

Ainda é difícil determinar a quantidade de matéria orgânica (húmus) em um solo. Algumas informações podem ser obtidas na região de 0,4 - 1,2 m m em resoluções espaciais relativamente altas de 20 - 30 m.

Se houver vegetação no solo, é difícil separar a contribuição da umidade do solo e da umidade da vegetação. No entanto, em solo relativamente não vegetado, é possível obter estimativas de umidade do solo relativamente precisas usando imagens de radar de banda X e C de microondas ativas. Resoluções espaciais de 20 - 30 m são úteis. O sensoriamento remoto da umidade do solo deve se tornar uma realidade operacional se quisermos que os agricultores adotem a tecnologia espacial.

Atmosfera: Dados Meteorológicos, Nuvens e Vapor de Água - Grande despesa foi canalizada para o desenvolvimento de monitoramento quase em tempo real de sistemas frontais, temperatura, precipitação e, especialmente, aviso de tempestade severa. Os Satélites Ambientais Operacionais Geoestacionários (GOES) Oeste obtêm informações sobre o oeste dos Estados Unidos e está estacionado em 135 & ucirc W enquanto GOES East obtém informações sobre o Caribe e leste dos Estados Unidos de 75 & ucirc W. Todos os dias milhões de pessoas assistem ao progresso dos sistemas frontais que às vezes geram tornados e furacões mortais. Os dados do visível (0,55 - 0,70 m m) e infravermelho próximo (10,5 - 12,5 m m) são obtidos com uma resolução temporal de 30 minutos. Algumas das imagens são agregadas para criar animação de 1 hora e 12 horas. A resolução espacial de GOES Leste e Oeste é de 0,9 x 0,9 km para as faixas do visível e 8 x 8 km para a faixa do infravermelho térmico. O público também depende do radar Doppler baseado em solo para precipitação quase em tempo real e alerta de tempestade severa. O radar Doppler obtém dados de 4 x 4 km a cada 10 - 30 minutos ao monitorar a precipitação e a cada 5 - 10 minutos no modo de alerta de tempestade severa.

As nuvens são melhor discriminadas durante o dia usando a região espectral de 0,55 a 0,7 um em resoluções espaciais que variam de 1 a 8 km. À noite, um sensor infravermelho térmico operando na região de 10,5 - 12,5 m m é necessário.

O vapor de água na atmosfera é mapeado usando a região espectral centrada em 6,7 m m em resoluções espaciais que variam de 1 a 8 km. Dados de GPS de frequência dupla também podem fornecer informações sobre água precipitável.

Áreas Prioritárias para Pesquisa

Este artigo identificou algumas das principais lacunas ou deficiências na integração de dados e estratégias de coleta de dados para investigação pelo UCGIS e outros cientistas. O artigo primeiro identificou questões importantes de integração de dados e tópicos de pesquisa que são genéricos para todos os esforços de coleta de dados. Em seguida, foi apresentada uma investigação das questões atuais e potenciais de coleta de dados in situ e tópicos de pesquisa. Por fim, foi apresentada uma breve avaliação do estado da arte da coleta de dados de sensoriamento remoto do ponto de vista da extração de informações socioeconômicas e biofísicas. A pesquisa conduzida nas questões significativas identificadas em cada uma dessas três áreas irá melhorar nossa capacidade de coleta de dados e facilitar a integração de dados.

Abel, D. J. e M. A. Wilson, 1990, 'A Systems Approach to Integration of Raster e Vector Data and Operations,' in K. Brassel e H. Kishimoto, Eds., Proceedings, 4th Intl. Symposium Spatial Data Handling, Zurich :, 2: 559-566.

Anderson, J. R., Hardy, E., Roach, J. e R. Witmer, 1976, A Land Use and Land Cover Classification System for Use with Remote Sensor Data, Washington: USGS Professional Paper # 964, 28 p.

Angelici, G. L., Bryant, N. A., Fretz, R. K. e S. Z. Friedman, 1980, Urban Solar Photovoltaics Potential: an Inventory and Modeling Study Applied to the San Fernando Valley of Los Angeles. Pasadena: JPL, Relatório # 80-43, 55 p.

ASPRS, 1990, 'ASPRS Accuracy Standards for Large-Scale Maps,' Photogrammetric Engineering & amp Remote Sensing, 56 (7): 1068-1070.

Asrar, G. e R. Greenstone, 1996, Mission to Planet Earth EOS Reference Handbook, Washington: National Aeronautics & amp Space Administration, 277 p.

Avery, T. E. e G. L. Berlin, 1993, Fundamentals of Remote Sensing and Airphoto Interpretation, New York: Macmillan, 377-404.

Bishop, M. P., Shroder, J. F., Hickman, B. L. e L. Copland, 1998, 'Scale-dependente Analysis of Satellite Imagery for Characterization of Glaciers in the Karakoram Himalaya,' Geomorphology, 21: 217-232.

Broome, F., 1998, Correspondence, Washington: Bureau of the Census.

Bukata, R. P., Jerome, J. H., Kondratyev, K. Y. e D. V. Pozdynyakov, 1995, Optical Properties and Remote Sensing of Inland and Coastal Waters, Nova Iorque: CRC Press, 362 p.

Carter, G. A., 1993, 'Responses of Leaf Spectral Reflectance to Plant Stress', American Journal of Botany, 80 (3): 239-243.

Carter, G. A., Cibula, W. G. e R. L. Miller, 1996, 'Narrow-band Reflectance Imagery Compared with Thermal Imagery for Early Detection of Plant Stress,' Journal of Plant Physiology, 148: 515-522.

Clayton, C. e J. E. Estes, 1979, 'Distributed Parameter Modeling of Urban Residential Energy Demand,' Photogrammetric Engineering & amp Remote Sensing, 45: 106-115.

Cobb, M. A., Chung, M. J., Foley, H., Petry. F. E., Shaw, K. B. e H. V. Miller, 1998, 'A Rule-based Approach for the Conflation of Attributed Vector Data,' GeoInformatica, 2 (1), 7-36.

Congalton, R. G., 1991, 'A Review of Assessing the Accuracy of Classifications of Remotely Sensed Data,' Remote Sensing of Environment, 37: 35-46.

Cowardin, L. M., Carter, V., Golet, F. C. e E. T. LaRoe, 1979, Classification of Wetlands and Deepwater Habitats of the U. S., Washington: U.S. Fish & amp Wildlife Service, FWS / OBS-79/31, 103 p.

Cowen, D. J. e J. R. Jensen, 1998, 'Extraction and Modeling of Urban Attributes Using Remote Sensing Technology,' in People and Pixels: Linking Remote Sensing and Social Science, Washington: National Research Council, National Academy Press, 164-188.

Cowen, D., Jensen, JR, Bresnahan, G., Ehler, D., Traves, D., Huang, X., Weisner, C., and HE Mackey, 1995, 'The Design and Implementation of an Integrated GIS for Environmental Applications, 'Photogrammetric Engineering & amp Remote Sensing, 61: 1393-1404.

Cullingworth, B., 1997, Planning in the USA: Policies, Issues and Processes, Londres: Routledge, 280 p.

Curry, M. R., 1997, 'The Digital Individual and the Private Realm,' Annals of the Association of American Geographers, 87 (4): 681-699.

Departamento de Comércio, 1992, Spatial Data Transfer Standard (SDTS) (Federal Information Processing Standard 173). Washington: Departamento de Comércio, Instituto Nacional de Padrões e Tecnologia.

Elvidge, C. D., Baugh, K. E., Kihn, E. A., Kroehl, H. W. e E. R. Davis, 1997, 'Mapping City Lights with Nighttime Data from the DMSP Operational Linescan System,' Photogrammetric Engineering & amp Remote Sensing, 63: 727-734.

Estes, J. E. e D. W. Mooneyhan, 1994, 'Of Maps and Myths,' Photogrammetric Engineering & amp Remote Sensing, 60 (5): 517-524.

Feldman, SC, Pelletier, RE, Walser, E., Smoot, JR e D. Ahl, 1995, 'A Prototype for Pipeline Routing Using Remotely Sensed Data and Geographic Information System Analysis,' Remote Sensing of Environment, 53: 123-131 .

FETC, 1998a, The ISO 14000 Information Guide, Washington: Federal Energy Technology Center, 18 p., (Http://www.iso14000.net).

FETC, 1998b, Atualização ISO 14000, Washington: Federal Energy Technology Center, 12 p.

FGDC, 1995, Development of a National Digital Geospatial Data Framework, Washington, DC: Federal Geographic Data Committee, (ftp://www.fgdc.gov/pub/standards /refmod.txt)

FGDC., 1997a, Framework: Introduction and Guide, Washington: Federal Geographic Data Committee, 105 p.

FGDC, 1997b, Geospatial Metadata, Washington: Federal Geographic Data Committee, 2 p.

FGDC, 1997c, Draft Geospatial Positioning Accuracy Standards, Washington: Federal Geographic Data Committee, 50 p.

FGDC, 1998, The Value of METADATA, Reston: FGDC Secretary, 4 p.

Foley, H., Petry, F., Cobb, M. e K. Shaw, 1997, 'Using Semantics Constraints for Improved Conflation in Spatial Databases,' Proceedings, 7th Intl. Congresso Mundial da Fuzzy Systems Association, Praga, 193-197.

Ford, K., 1979, Remote Sensing for Planners, Rutgers: State Univ. de Nova Jersey, 219 p.

Forester, B. C., 1985, 'An Examination of Some Problems and Solutions in Monitoring Urban Areas from Satellite Platforms,' International Journal of Remote Sensing, 6: 139-151.

Frohn, R. C., 1998, Remote Sensing for Landscape Ecology, Boca Raton: Lewis, 99 p.

GETF, 1996, EARTHMAP: Estudo de Design e Plano de Implementação, Annandale: Global Environment & amp Technology Foundation, 57 p.

Greve, C. W., 1996, Digital Photogrammetry: Addendum to the Manual of Photogrammetry, Bethesda: American Society for Photogrammetry & amp Remote Sensing, 247 p.

Gugan, D. J. e I. J. Dowman, 1988, 'Topographic Mapping from SPOT Imagery,' Photogrammetric Engineering & amp Remote Sensing, 54: 1409-1404.

Haack, B., Guptill, S., Holz, R., Jampoler, S., Jensen, J. e R. Welch, 1997, 'Capítulo 15: Urban Analysis and Planning,' Manual of Photographic Interpretation, Bethesda: American Society for Photogrammetry & amp Remote Sensing, 517-553.

Henderson, F. M. e J. J. Utano, 1975, 'Assessing General Urban Socioeconomic Conditions with Conventional Air Photography,' Photogrammetria, 31: 81-89.

Hickman, B. L., Bishop, M. P. e M. V. Rescigno, 1995, 'Advanced Computational Methods for Spatial Information Extraction', Computers & amp Geosciences, 21 (1): 153-173.

Jadkowski, M. A., P. Convery, R. J. Birk e S. Kuo, 1994, 'Aerial Image Databases for Pipeline Rights-of-Way Management,' Photogrammetric Engineering & amp Remote Sensing, 60: 347-353.

Jensen, J. R., 1983, 'Urban / Suburban Land Use Analysis,' Manual of Remote Sensing, 2ª ed., R. N. Colwell, ed., Falls Church, American Society of Photogrammetry, 1571-1666.

Jensen, J. R., 1995, 'Issues Envolving the Creation of Digital Elevation Models and Terrain Corrected Orthoimagery Using Soft-Copy Photogrammetry,' Geocarto International: A Multidisciplinary Journal of Remote Sensing, 10: 1-17.

Jensen, J. R., 1996, Introductory Digital Image Processing: A Remote Sensing Perspective, Saddle River: Prentice-Hall, 318 p.

Jensen, J. R. e D. C. Cowen, 1997, 'Remote Sensing of Urban / Suburban Socioeconomic Attributes,' Proceedings Land Satellite Information in the Next Decade II: Sources and Applications, Bethesda: American Society for Photogrammetry & amp Remote Sensing, CD: 19 p.

Jensen, JR e F. Qiu, 1998, 'A Neural Network Based System for Visual Landscape Interpretation Using High Resolution Remotely Sensed Imagery,' Proceedings, Annual Meeting of the American Society for Photogrammetry & amp Remote Sensing, Tampa, FL, CD: 15 p .

Jensen, J. R. e D. C. Cowen, 1999, 'Remote Sensing of Urban / Suburban Infrastructure and Socioeconomic Attributes,' Photogrammetric Engineering & amp Remote Sensing, no prelo.

Jensen, JR, DC Cowen, J. Halls, S. Narumalani, N. Schmidt, BA Davis e B. Burgess, 1994, 'Improved Urban Infrastructure Mapping and Forecasting for BellSouth Using Remote Sensing and GIS Technology,' Photogrammetric Engineering & amp Remote Sensing, 60: 339-346.

Jones, KB, Ritters, KH, Wickham, JD, Tankersley, RG, O'Neill, RB, Chaloud, DJ, Smith, ER e AC Neale, 1998, An Ecological Assessment of the United States Mid-Atlantic Region, Washington: Environmental Agência de Proteção, 156 p.

Kennedy, M., 1996, The Global Positioning System and GIS: An Introduction, Chelsea: Ann Arbor Press, 268 p.

Keister, M. D., 1997, Multispectral Imagery Reference Guide, Fairfax: Logicon Geodynamics, 210 p.

Klemas, V., Dobson, J. E., Ferguson, R. L. e K. D. Haddad, 1993, 'A Coastal Land Cover Classification System for the NOAA CoastWatch Change Analysis Project,' Journal of Coastal Research, 9 (3): 862-872.

Lacy, R., 1992, 'South Carolina Finds Economical Way to Update Digital Road Data,' GIS World, 5: 58-60.

Lanter, D. P. e H. Veregin, 1992, 'A Research Paradigm for Propagating Error in Layer-based GIS,' Photogrammetric Engineering & amp Remote Sensing, 58 (6): 825-835.

Lapine, L., 1989, Correspondence, Columbia: South Carolina Geodetic Survey.

Lavrov, V. N., 1997, 'Space Survey Photocameras for Cartographic Purposes,' Proceedings of the Fourth International Conference on Remote Sensing for Marine and Coastal Environments, Michigan: ERIM, 7 p.

Leachtenauer, J. C., 1996, 'National Imagery Interpretability Rating Scales Overview and Product Description,' Proceedings, ASPRS-ACSM Annual Convention, Bethesda: ASPRS, 1: 262-272.

Leachtenauer, J. C., Daniel, K. e T. Vogl, 1998, 'Digitizing Satellite Imagery: Quality and Cost Considerations,' Photogrammetric Engineering & amp Remote Sensing, 64: 29-34.

Leberl, F. W., 1990, Radargrammetric Image Processing, Norwood, Artech House.

Lindgren, D. T., 1985, Land Use Planning and Remote Sensing, Boston: Martinus Nijhhoff Inc., 230 p.

Lo, C. P., 1986, 'The Human Population,' Applied Remote Sensing, New York: Longman, 40-70.

Lo, C. P., 1995, 'Automated Population and Dwelling Unit Estimation from High-Resolution Satellite Images: A GIS Approach,' International Journal of Remote Sensing, 16: 17-34.

Lo, C. P. e B. J. Faber, 1998, 'Interpretation of Landsat Thematic Mapper and Census Data for Quality of Life Assessment,' Remote Sensing of Environment, no prelo.

Lo, C. P., Quattrochi, D. A. e J. C. Luvall, 1997, 'Application of High-resolution Thermal Infrared Remote Sensing and GIS to Assess the Urban Heat Island Effect,' International Journal of Remote Sensing, 18 (2): 287-304.

Logicon, 1995, Multispectral Users Guide, Fairfax: Logicon Geodynamics, 102 p.

Logicon, 1997, Multispectral Imagery Reference Guide, Fairfax: Logicon Geodynamics, 100 p.

Lynch, M. e A. Saalfeld, 1985, 'Conflation: Automated Map Compilation - A Video Game Approach,' Proceedings, AutoCarto 7, Washington: ACSM, 343-352.

Mapping Science Committee, 1990, Spatial Data Needs: The Future of the National Mapping Program, Washington: National Academy Press.

Mcleod, R. D. e R. G. Congalton, 1998, A Quantitative Comparison of Change-Detection Algorithms for Monitoring Eelgrass from Remotely Sensed Data, 'Photogrammetric Engineering & amp Remote Sensing, 64 (3): 207-216.

NAPA, 1998, Geographic Information for the 21st Century: Building a Strategy for the Nation, Washington: National Academy of Public Administration, 358 p.

NRC, 1993, Towards a Spatial Data Infrastructure for the Nation, Washington: National Research Council: National Academy Press.

NRC, 1995, A Data Foundation for the National Spatial Data Infrastructure, Washington: Mapping Science Committee, National Research Council, 55 p.

NSTC, 1996, Our Changing Planet: The FY 1996 U.S. Global Change Research Program, Washington: National Science and Technology Council, Subcom Committee on Global Change Research, 152 p.

Onsrud, H. J., Johnson, J. P. e X. R. Lopez, 1994, 'Protecting Personal Privacy in Using Geographic Information Systems,' Photogrammetric Engineering & amp Remote Sensing, 60 (9): 1083-1095.

Pace, S., O'Connell, K. M. e B. E. Lachman, 1997, Using Intelligence Data for Environmental Needs: Balancing National Interests, Washington: Rand Corp., 75 p.

Petrie, G. e T. J. M. Kennie, 1990, Terrain Modeling in Surveying and Civil Engineering. Londres: Whittles Publishing, 351 p.

Philipson, W., 1997, Manual of Photographic Interpretation, Bethesda: American Society for Photogrammetry & amp Remote Sensing, 830 p.

Pike, J., 1998, Projeto de Política Espacial da Federação de Cientistas Americanos, Washington: Federação de Cientistas Americanos, http://www.fas.org/irp/imint/niirs.htm. Fornece resoluções espaciais associadas ao National Image Interpretability Rating System (NIIRS).

Ritters, KH, O'Neill, RV, Hunsaker, CT, Wickham, JD, Yankee, DH, Timmins, SP, Jones, KB e BL Jackson, 1995, 'A Factor Analysis of Landscape Pattern and Structure Metrics,' Landscape Ecology , 10 (1): 23-39.

Running, SW, Justice, CO, Salomonson, V., Hall, D., Barker, J., Kaufmann, YJ, Strahler, AH, Huete, AR, Muller, JP, Vanderbilt, V., Wan, ZM, Teillet, P., e D. Carneggie, 1994, 'Terrestrial Remote Sensing Science and Algorithms Planned for EOS / MODIS,' International Journal of Remote Sensing, 15 (17): 3587-3620.

Saalfeld, A., 1988, 'Conflation: Automated Map Compilation,' International Journal of Geographical Information Systems, 2 (3): 217-228.

Schultz, G. A., 1988, 'Remote Sensing in Hydrology,' Journal of Hydrology, 100: 239-265.

Schweitzer, B. e B. McLeod, 1997, 'Tecnologia de Marketing que está Mudando na Velocidade da Luz,' Revista de Observação da Terra, 6: 22-24.

Slonecker, E. T., Shaw, D. M. e T. M. Lillesand, 1998, 'Emerging Legal and Ethical Issues in Advanced Remote Sensing Technology,' Photogrammetric Engineering & amp Remote Sensing, 64 (6): 589-595.

Stoeckleler, E. G., 1979, 'Use of Aerial Color Photography for Pavement Evaluation Studies,' Highway Research Record, 319: 40-57.

Sutton, P., Roberts, D., Elvidge, C. e H. Meij, 1997, 'A Comparison of Nighttime Satellite Imagery and Population Density for the Continental United States,' Photogrammetric Engineering & amp Remote Sensing, 63: 1303-1313.

Swerdlow, J. L., 1998, 'Making Sense of the Millennium,' National Geographic, 193: 2-33.

US Bureau of the Budget, 1947, United States National Map Accuracy Standards, Washington, US Bureau of the Budget.

Warner, W. S., Graham, R. W. e R. E. Read, 1996, 'Capítulo 15: Urban Survey,' Small Format Aerial Photography, Scotland: Wittles Publishing, 253-256.

Welch, R., 1980, 'Monitoring Urban Population and Energy Utilization Patterns from Satellite Data,' Remote Sensing of Environment, 9: 1-9.

Welch, R., 1982, 'Spatial Resolution Requirements for Urban Studies,' International Journal of Remote Sensing, 3: 139-146.

Welch, R., 1995, 'Emerging Technologies for Low Cost, Integrated GPS, Remote Sensing and GIS Applications,' Proceedings, Cambridge Conference for National Mapping Organizations, Cambridge, Inglaterra, 6 p.

Welch, R. e A. Homsey, 1997, 'Datum Shifts for UTM Coordinates', Photogrammetric Engineering & amp Remote Sensing, 63 (4): 371-375.

  • Padrão de conteúdo para metadados geoespaciais digitais FGDC-STD-001
  • Padrões de transferência de dados espaciais (SDTS) FGDC-STD-002
  • Padrão de conteúdo de dados cadastrais FGDC-STD-003
  • Classificação de áreas úmidas e habitats de águas profundas FGDC-STD-004
  • Padrão de Classificação de Vegetação, Subcomitê de Vegetação FGDC-STD-005
  • Padrão de Dados Geográficos de Solos, Subcomitê de Solos FGDC-STD-006
  • SDTS, Parte 6: Perfil de Ponto, Subcomitê Geodésico FGDC-STD-002.6
  • Revisão Pública Concluída
  • Padrões de precisão de posicionamento geoespacial:
  • Parte 1, Metodologia de Relatório, Subcomitê Geodésico
  • Parte 2, Redes de Controle Geodésico, Subcomitê Geodésico
  • Parte 3, Padrão Nacional de Precisão de Dados Espaciais, Subcomitê Cartográfico de Base
  • Padrões de Conteúdo para Orthoimagem Digital, Subcomitê Cartográfico de Base
  • Padrões de conteúdo para dados digitais de elevação, Subcomitê cartográfico de base
  • Padrão de conteúdo para metadados geoespaciais digitais (versão 2.0), Metadata WG
  • Fora para revisão pública
  • Padrão de dados de identificação de instalações, grupo de trabalho de instalações
  • Padrão de conteúdo de dados de utilitários, grupo de trabalho de instalações
  • SDTS Parte 5: Perfil Raster e Extensões, Subcomitê Cartográfico de Base
  • Em revisão por SWG antes da revisão pública
  • Padrão de codificação para metadados geoespaciais, Clearinghouse Working Group
  • Padrão de precisão de posicionamento geoespacial, Parte 4: Arquitetura, Engenharia
  • Construção e Gestão de Instalações, Grupo de Trabalho de Instalações
  • Perfil CADD para SDTS, Grupo de Trabalho de Instalações
  • Endereço padrão de conteúdo, cultural e demográfico
  • Perfil de metadados para dados culturais e demográficos, culturais e demográficos
  • Padrões de precisão de posicionamento geoespacial, Parte 5: Padrão para levantamentos hidrográficos e cartas náuticas, Subcomitê batimétrico
  • Padrão de conteúdo de metadados para dados de recursos biológicos, grupo de trabalho de dados biológicos
  • Padrão de conteúdo de dados geoespaciais de riscos ambientais, grupo de trabalho de instalações
  • Padrão de conteúdo para dados de faixa de sensoriamento remoto, WG de padrões
  • Modelo de Dados Geológicos, Subcomitê Geológico,
  • Cartografia de Mapas Geológicos Digitais, Subcomitê Geológico
  • Sistema de Classificação da Cobertura Terrestre, Grupo de Trabalho de Cobertura Terrestre
  • Perfil de metadados para dados de linha costeira, subcomitê batimétrico
  • Padrão de conteúdo de dados de limite de unidade governamental, cultural e demográfico
  • Padrão de conteúdo de dados hidrográficos para vias navegáveis ​​costeiras e interiores

Mesa 2 . Temas de Dados Espaciais dos Subcomitês do FGDC (FGDC, 1998).
Tema de dados / subcomitê Subcomitê de presidência da agência
Cartográfico básico USGS
Batimétrica NOAA
Cadastral Bureau of Land Management
Cultural e demográfico Bureau do Censo
Geodésico Pesquisa Geodésica Nacional, NOAA
Transporte terrestre Federal Highway Administration
Hidrológico USGS
Retrato de fronteiras internacionais Departamento de Estado
Solos Serviço de Conservação do Solo
Vegetação Serviço Florestal
Zonas úmidas Serviço de Pesca e Vida Selvagem

Tabela 3. Atributos urbanos / suburbanos e as resoluções mínimas de sensoriamento remoto necessárias para fornecer essas informações (Jensen e Cowen, 1997, 1999, Cowen e Jensen, 1998).
Requisitos Mínimos de Resolução
Atributos Temporal Espacial Espectral
Uso / cobertura do solo
L1 - USGS Nível I
L2 - USGS Nível II
L3 - USGS Nível III
L4 - USGS Nível IV

5 - 10 anos
5 - 10 anos
3 - 5 anos
1 - 3 anos

20 - 100 m
5 - 20 m
1 - 5 m
0,3 - 1 m

V-NIR-MIR-Radar
V-NIR-MIR-Radar
V-NIR-MIR-Pan
Pancromático
Infraestrutura de construção e linha de propriedade
B1 - perímetro do edifício, área, volume, altura
B2 - mapeamento cadastral (linhas de propriedade)

1 - 2 anos
1 - 6 meses

0,3 - 0,5 m
0,3 - 0,5 m

Pancromático
Pancromático
Infraestrutura de transporte
T1 - linha central geral da estrada
T2 - largura precisa da estrada
T3 - estudos de contagem de tráfego (carros, aviões, etc.)
T4 - estudos de estacionamento

1 - 5 anos
1 - 2 anos
5 - 10 min
10 - 60 min

1 - 30 m
0,3 - 0,5 m
0,3 - 0,5 m
0,3 - 0,5 m

Pancromático
Pancromático
Pancromático
Pancromático
Infraestrutura de serviços públicos
U1 - mapeamento e roteamento de linhas de utilidades gerais
U2 - largura precisa da linha utilitária, direito de passagem
U3 - localização de postes, bueiros, subestações

1 - 5 anos
1 - 2 anos
1 - 2 anos

1 - 30 m
0,3 - 0,6 m
0,3 - 0,6 m

Pancromático
Pancromático
Pancromático
Criação do Modelo Digital de Elevação (DEM)
D1 - grande escala DEM
D2 - mapa de declive em grande escala

5 - 10 anos
5 - 10 anos

0,3 - 0,5 m
0,3 - 0,5 m

Pancromático
Pancromático
Características socioeconômicas
S1 - estimativa da população local
S2 - estimativa da população regional / nacional
S3 - indicadores de qualidade de vida

5 - 7 anos
5 - 15 anos
5 - 10 anos

0,3 - 5 m
5 - 20 m
0,3 - 30 m

Pancromático
V-NIR
Pan-NIR
Demanda e Conservação de Energia
E1 - demanda de energia e potencial de produção
E2 - pesquisas de isolamento de edifícios

1 - 5 anos
1 - 5 anos

0,3 - 1 m
1 - 5 m

Pan-NIR
TIR
Dados Meteorológicos
M1 - previsão do tempo diária
M2 - temperatura atual
M3 - precipitação atual
M4 - alerta imediato de tempestade severa

30 min - 12 h
30 min - 1 hora
10 - 30 min
5 - 10 min

1 - 8 km
1 - 8 km
4 km
4 km

V-NIR-TIR
TIR
Radar Doppler
Radar Doppler
Avaliação de área ambiental crítica
C1 - ambientes sensíveis estáveis
C2 - ambientes dinâmicos sensíveis

1 - 2 anos
1 - 6 meses

1 - 10 m
0,3 - 2 m

V-NIR-MIR
V-NIR-MIR-TIR
Resposta a Emergências em Desastres
DE1 - imagens pré-emergência
DE2 - imagens pós-emergência
DE3 - estoque de habitação danificado
DE4 - transporte danificado
DE5 - utilitários danificados, serviços

1 - 5 anos
12 horas - 2 dias
12 dias
12 dias
12 dias

1 - 5 m
0,3 - 2 m
0,3 - 1 m
0,3 - 1 m
0,3 - 1 m

V-NIR
V-Pan-NIR-Radar
V-Pan-NIR
V-Pan-NIR
V-Pan-NIR


Tabela 4. Relação entre atributos biofísicos e as resoluções mínimas de sensoriamento remoto necessárias para fornecer esses dados (rascunho).
Requisitos Mínimos de Resolução
Atributos Temporal

( milímetros)

Vegetação
V1 - Biomassa tipo & amp - Nível I (continental)
V2 - - Nível II (regional)
V3 - - Espécies (local)
V4 - Estresse
V5 - Teor de umidade
V6 - Métricas de ecologia da paisagem (patch)
V7 - Rugosidade da superfície
V8 - Estrutura do dossel (caules, galhos)

Diariamente
1 - 5 anos
1 - 10 anos
12 semanas
12 semanas
1 - 2 anos
1 - 2 anos
1 - 2 meses

250 m - 8 km
20 m - 1 km
0,5 m - 10 m
0,5 m - 10 m
0,5 m - 10 m
5 - 30 m
10 - 30 m
5 - 30 m

0.5 - 1.2
0.5 - 1.2 1.55 - 1.75
0.4 - 1.2 1.55 - 1.75
0,4 - 0,675 0,7 - 1,2 1,55 - 1,75 um
0,4 - 1,2 1,55 - 1,75 10,4-12,5 banda L
0.5 - 1.2
Banda C, X e L
Banda L
Água
W1 - Extensão da água da superfície da terra
W2 - Extensão da água do oceano
W3 - Profundidade (batimetria)
W4 - Matéria inorgânica - Sedimento suspenso
W5 - Matéria orgânica - Fitoplâncton, Chl a
W6 - Matéria orgânica dissolvida
W7 - Temperatura
1 - 2 anos
Diariamente
1 - 10 anos
1 - 10 dias
1 - 10 dias
1 - 10 dias
12 dias
10 m - 8 km
1 - 8 km
1 - 10 m
10 m - 4 km
10 m - 4 km
10 m - 4 km
10 m - 4 km
0.725 - 1.10
0.725 - 1.10
0.44 - 0.54
0.4 - 1.2
0.4 - 0.675
0.4 - 1.2
10.5 - 12.5
Solos e Rochas
SR1 - Matéria inorgânica - conteúdo mineral
SR2 - Matéria orgânica - húmus
SR3 - Alteração hidrotérmica (argila, mica)
SR4 - Umidade do solo
1 - 10 anos
1 - 10 anos
1 - 10 anos
por mês
10 - 100 m
20 - 30 m
20 - 30 m
20 - 30 m
0.725 - 1.10
0.725 - 1.10
1.55 - 1.7 2.08 - 2.35
1,55 - 1,75 banda L
Neve e gelo
SI1 - Extensão de neve
SI2 - Extensão do gelo
SI3 - Neve versus nuvens

diariamente
diariamente
diariamente
1 - 8 km
1 - 8 km
1 - 8 km
0.55-0.7
0.55-0.7
1.55 - 1.75
Atmosfera
A1 - Extensão da nuvem durante o dia
A2 - Extensão de nuvem noturna
A3 - Temperatura da nuvem
A4 - Vapor de água
A5 - Ozônio

de hora em hora
de hora em hora
de hora em hora
de hora em hora
por mês

1 - 8 km
1 - 8 km
1 - 8 km
1 - 8 km
1 - 8 km
0.55-0.7 10.5-12.5
3.5 - 3.93 10.5-12.5
10.3 - 12.5
6.7
9.58 - 9.88


Apêndice A. Resolução Espacial, Espectral e Temporal dos Sistemas de Sensor Remoto Selecionados (rascunho).
Requisitos Mínimos de Resolução
Atributos Temporal
(dias, anos)
Espacial
(m)
Espectral
( milímetros)
ASTER EOS-Am (estéreo b / h = 0,6 + 1 m) 5 - 16 dias
(apontável)
15 x 15
30 x 30
90 x 90
3 bandas: 0,5 - 0,90
6 bandas: 1,6 - 2,43
5 bandas: 8,0 - 12,0
MODIS EOS-Am 1-2 dias 250 x 250
500 x 500
1000 x 1000
21 bandas: 0,4 - 3,0
15 bandas: 3,0 - 14,4
IKONOS Carterra Space Imaging

(Níveis de 11 bits 2048)

1 x 1
4 x 4
Pan 0,55 - 0,90
0.45 - 0.53
0.52 - 0.61
0.64 - 0.72
0.77 - 0.88
Mapeador Temático Landsat (4,5) 16 dias 30 x 30
30 x 30
30 x 30
30 x 30
30 x 30
120 x 120
30 x 30
0.45 - 0.52
0.52 - 0.60
0.63 - 0.69
0.76 - 0.90
1.55 - 1.75
10.4 - 12.5
2.08 - 2.35
Mapeador Temático Aprimorado (7) 15 x 15
30 x 30
30 x 30
30 x 30
30 x 30
30 x 30
120 x 120
30 x 30
-------------
0.45 - 0.52
0.52 - 0.60
0.63 - 0.69
0.76 - 0.90
1.55 - 1.75
10.4 - 12.5
2.08 - 2.35
Scanner multiespectral Landsat (1-5) 18 dias 79 x 79
79 x 79
79 x 79
79 x 79
120 x 120
0.50 - 0.60
0.60 - 0.70
0.70 - 0.80
0.80 - 1.10
10.4 - 12.6
NOAA AVHRR - 12
(LAC 1,1 x 1,1 km GAC 4 x 4 km)
Diariamente 1100 x 1100
1100 x 1100
1100 x 1100
1100 x 1100
1100 x 1100
0.58 - 0.68
0.725 - 1.10
3.55 - 3.93
10.3 - 11.3
11.5 - 12.5
IRS - LISS
Imagem Linear e Auto-varredura
22 dias

5 dias

72,5 x 72,5
72,5 x 72,5
72,5 x 72,5
72,5 x 72,5
36,25 x 36,25
36,25 x 36,25
36,25 x 36,25
36,25 x 36,25

23,5 x 23,5
23,5 x 23,5
23,5 x 23,5
5,8 x 5,8

LISS-I 0,45 - 0,52
0.52 - 0.59
0.62 - 0.68
0.77 - 0.86
LISS-2 0,45 - 0,52
0.52 - 0.59
0.62 - 0.68
0.77 - 0.86
LISS-3 0,52 - 0,59
0.62 - 0.68
0.77 - 0.86
1.55 - 1.70
PAN 5-P 0,50 - 0,75
GOES - M NOAA
(10 bits)
Terra cheia
a cada 26 min
1000 x 1000
4000 x 4000
8.000 x 8.000
4000 x 4000
4000 x 4000
GOES-M 0,55 - 0,75
3.80 - 4.00
13.0 - 13.7
10.2 - 11.2
5.8 - 7.3
AVIRIS Sob demanda 20 x 20 224 bandas 0,38 - 2,45
Câmeras SPIN-2 variável 2 x 2
10 x 10
KVR-1000 0,51 - 0,76
TK-350 0,51 - 0,76
SPOT (1-4)
SPOT 4 lançado em 24 de março de 1998
26 dias pontuáveis 10 x 10
20 x 20
20 x 20
20 x 20
10 x 10
20 x 20
20 x 20
20 x 20
20 x 20
5 x 5
10 x 10
10 x 10
10 x 10
20 x 20
SPOT 1-3 Pan 0,51 - 0,73
XS 0,50 - 0,59
0.61 - 0.68
0.79 - 0.89
SPOT 4 Pan 0,61 - 0,68
0.50 - 0.59
0.61 - 0.68
0.79 - 0.89
1.58 - 1.75
SPOT 5 HRG 0,51 - 0,73
0.50 - 0.59
0.61 - 0.68
0.79 - 0.89
1.58 - 1.75
EarthWatch Quickbird (199911 bits) 14 dias
dependendo da latitude
0,82 x 0,82
3,28 x 3,28
3,28 x 3,28
3,28 x 3,28
3,28 x 3,28
Pan: 0,45 - 0,90
XS: 0,45 - 0,52
0.52 - 0.60
0.63 - 0.69
0.76 - 0.90
SeaWiFS (Orbital Sciences Corp.)
(LAC 1,1 x 1,1 km GAC 4 x 4 km)
Apontável 1000 x 1000
1000 x 1000
1000 x 1000
1000 x 1000
1000 x 1000
1000 x 1000
1000 x 1000
1000 x 1000
402 - 422
433 - 453
480 - 500
500 - 520
545 - 565
660 - 690
745 - 785
845 - 885

Figura 1. Informações espaciais de base e arquivos de estrutura temática (após NRC, 1995).

Figura 2a. Endereços reais de lotes ao longo de uma seção da Rua Gervais em Columbia, S. C. destacando o tipo de inconsistências típicas de endereços urbanos.

Figura 2b. Localizações geocodificadas de endereços comerciais que demonstram o problema de agrupamento de endereços na extremidade inferior do intervalo de endereços potencial.


Figura 2c. Três locais diferentes para o mesmo endereço com base em diferentes fontes de geocodificação. Observe também que
os limites do bloco TIGER não capturariam o conjunto correto de centróides da parcela.

Figura 3. Requisitos de resolução espacial e temporal para atributos urbanos / suburbanos sobrepostos no espaço e
capacidades temporais de sistemas de sensoriamento remoto atuais e propostos.


Figura 4. A relação geral entre o nível de classe de cobertura do solo do U.S. Geological Survey Land Use and Land Cover Classification System e a resolução espacial do sistema de sensoriamento remoto (muitas vezes referido como distância resolvida do solo em metros). O National Image Interpretability Rating System (NIIRS) também é fornecido para comparação. Uma classificação NIIRS '0' sugere que a interpretabilidade das imagens é impedida por obscurecimento, degradação ou resolução muito baixa.

Figura 5. A interface gráfica do usuário ArcView para um sistema de interpretação de imagens baseado em rede neural projetado especificamente para analisar dados de sensores remotos de alta resolução (Jensen e Qiu, 1998).

Figura 6. As informações de perímetro, área e volume de wire-frame do edifício podem ser extraídas de dados de sensor remoto estereoscópico de alta resolução espacial usando técnicas fotogramétricas de cópia eletrônica (cortesia de OrbImage, Inc.).

Figura 7. Modelo tridimensional de Rosslyn, Virginia, derivado de técnicas fotogramétricas de cópia eletrônica
aplicado a imagens de alta resolução espacial (Cortesia da OrbImage, Inc.).

Figura 8. Requisitos de resolução espacial e espectral para variáveis ​​biofísicas sobrepostas nas capacidades espaciais e espectrais dos sistemas de sensoriamento remoto atuais e propostos.


1 O Comitê de Avaliação de Resolução de Imagem e Padrões de Relatório que desenvolveu a escala de classificação de imagem visível e multiespectral NIIRS deixa claro que a resolução espacial (distância resolvida no solo) não é a única medida da interpretabilidade de uma imagem. Outros fatores como qualidade do filme, neblina atmosférica, contraste e ruído podem reduzir a capacidade de um analista de detectar, distinguir e identificar objetos em uma imagem. Ver Logicon (1995, 1997), Leachtenauer et al. (1996 1998) e Pike (1998) para informações adicionais.


Para encerrar: engenheiro de dados vs cientista de dados

Não é raro que um engenheiro de dados seja confundido com um cientista de dados. Pedimos a Alexander Konduforov, um cientista de dados da AltexSoft, com mais de 10 anos de experiência, para comentar sobre a diferença entre essas duas funções:

Tanto cientistas quanto engenheiros de dados trabalham com dados, mas resolvem tarefas bastante diferentes, têm habilidades diferentes e usam ferramentas diferentes. Os engenheiros de dados criam e mantêm armazenamento massivo de dados e aplicam habilidades de engenharia: linguagens de programação, técnicas de ETL, conhecimento de diferentes data warehouses e linguagens de banco de dados. Visto que os cientistas de dados limpam e analisam esses dados, obtêm insights valiosos deles, implementam modelos para previsão e análise preditiva e, principalmente, aplicam suas habilidades matemáticas e algorítmicas, algoritmos e ferramentas de aprendizado de máquina.

Alexander enfatiza que acessar dados pode ser uma tarefa difícil para cientistas de dados por vários motivos:

  • Vastos volumes de dados exigem esforço adicional e soluções de engenharia específicas para acessá-los e processá-los em um período de tempo razoável
  • Os dados geralmente são armazenados em diversos tipos de armazenamento e formatos. Nesse caso, faz sentido primeiro limpá-lo tomando medidas de preparação do conjunto de dados, transformar, mesclar e mover para um armazenamento mais estruturado, como um data warehouse. Normalmente, essa é uma tarefa para arquitetos e engenheiros de dados.
  • Os armazenamentos de dados têm diferentes APIs para acessá-los. Nesse caso, os cientistas de dados precisam de engenheiros de dados para implementar o pipeline mais eficiente e confiável de obtenção de dados para sua finalidade.

Como podemos ver, trabalhando com armazenamentos de dados construídos por engenheiros de dados, os cientistas de dados se tornam seus “clientes internos.”É aí que ocorre a colaboração deles.


Arquitetura de Data Warehouse

Existem três maneiras de construir um sistema de data warehouse. Essas abordagens são classificadas pelo número de camadas na arquitetura. Portanto, você pode ter um:

Arquitetura de Data Warehouse de camada única

A arquitetura de camada única não é uma abordagem frequentemente praticada. O principal objetivo dessa arquitetura é remover a redundância, minimizando a quantidade de dados armazenados.

Sua principal desvantagem é que ele não tem um componente que separa o processamento analítico do transacional.

Arquitetura de Data Warehouse de duas camadas

Uma arquitetura de duas camadas inclui uma área de teste para todas as fontes de dados, antes da camada de data warehouse. Ao adicionar uma área de teste entre as origens e o repositório de armazenamento, você garante que todos os dados carregados no warehouse sejam limpos e estejam no formato apropriado.

Essa abordagem tem certas limitações de rede. Além disso, você não pode expandi-lo para oferecer suporte a um número maior de usuários.

Arquitetura de Data Warehouse de três camadas

A abordagem de três camadas é a arquitetura mais amplamente usada para sistemas de data warehouse.

Essencialmente, consiste em três camadas:

  1. A camada inferior é o banco de dados do warehouse, onde os dados limpos e transformados são carregados.
  2. A camada intermediária é a camada de aplicativo que fornece uma visão abstrata do banco de dados. Ele organiza os dados para torná-los mais adequados para análise. Isso é feito com um servidor OLAP, implementado usando o modelo ROLAP ou MOLAP.
  3. O nível superior é onde o usuário acessa e interage com os dados. Ele representa a camada de cliente front-end. Você pode usar ferramentas de relatório, consulta, análise ou ferramentas de mineração de dados.


Arquitetura Data Lake

Como os dados que vão para os data warehouses precisam passar por um processo de governança estrito antes de serem armazenados, adicionar novos elementos de dados a um data warehouse significa mudar o design, implementar ou refatorar o armazenamento estruturado para os dados e o ETL correspondente para carregar os dados. Com uma grande quantidade de dados, esse processo pode exigir tempo e recursos significativos. É aqui que um conceito de data lake entra em cena e se transforma em uma virada de jogo no gerenciamento de big data.

O conceito de data lake surge na década de 2010, que, em uma linguagem simples, é a ideia de que todos os dados estruturados, não estruturados e semiestruturados da empresa podem e devem ser armazenados no mesmo local. O Apache Hadoop é um exemplo de infraestrutura de dados que permite armazenar e processar grandes quantidades de dados, tanto estruturados quanto não estruturados, o que permite a arquitetura Data Lake.

O lago de dados tem esquema na abordagem de leitura. Ele armazena dados brutos e é configurado de uma maneira que não requer a definição da estrutura de dados e do esquema em primeiro lugar. Em outras palavras, quando movemos os dados para o data lake, apenas os trazemos sem quaisquer regras de controle e, quando precisamos ler os dados, aplicamos a regra ao código que lê os dados, em vez de configurar a estrutura de dados antes de Tempo. Em vez do típico Extract, Transform and Load no data warehouse, no mundo do data lake, o processo é Extrair, Carregar e Transformar. O Data Lake é utilizado para fins de eficiência de custos e exploração. Como tal, uma arquitetura Data Lake permite que os negócios obtenham insights não apenas dos dados processados ​​e controlados, mas também dos dados brutos que não estavam disponíveis para análise antes. A partir daí, a exploração de dados brutos pode potencialmente desencadear questões de negócios. No entanto, a maior preocupação com o data lake é que, sem a governança apropriada, os data lakes podem rapidamente se transformar em pântanos de dados incontroláveis. Colocando de outra forma, sem saber como é a água de um lago, quem iria querer nadar nele? Os usuários empresariais não podem utilizar o lago de dados se não confiarem na qualidade dos dados desse lago.

Recentemente, surgiu a tendência de empresas que desejam se beneficiar de uma arquitetura de data lake de uma forma mais conservadora. Essas empresas estão se afastando da abordagem não governada de “entrada gratuita” e, em vez disso, desenvolvendo um data lake mais controlado.

O data lake pode conter dois ambientes: um ambiente de exploração / desenvolvimento e produção. Os dados serão explorados, limpos e transformados para construir um modelo de aprendizado de máquina, funções de construção e outros propósitos analíticos. Dados como métricas e funções que foram geradas pelo processo de transformação serão armazenados na parte de produção do data lake.

Outra tendência é que, em vez de despejar todos os dados brutos no lago, o lago de dados governado só permite que dados "verificados" entrem nele. Essencialmente, uma arquitetura de data lake governada não restringe os tipos de dados que são armazenados nela, o que significa que os data lakes governados ainda compreendem vários tipos de dados, incluindo dados não estruturados e semiestruturados como XML, JSON, CSV. No entanto, a chave é garantir que nenhum dado seja armazenado no lago sem ser descrito e documentado no glossário de negócios, o que dará alguma confiança aos usuários sobre a qualidade e o significado dos dados.

Para fornecer essa camada de governança, uma ferramenta de glossário de negócios deve estar em vigor para documentar o significado dos dados. Mais importante, deve haver um processo de governança em torno disso - que tem tudo a ver com funções e responsabilidades, por exemplo, quem possui os dados, quem os define, quem será responsável por quaisquer problemas de qualidade de dados. Seguir essa abordagem consumirá tempo porque definir os dados em si pode ser um processo longo, pois envolve pessoas de diferentes disciplinas em uma empresa.


Identificação da área funcional urbana usando dados geográficos de várias origens: um estudo de caso de Zhengzhou, China

A alocação racional de áreas funcionais é a base para abordar o desenvolvimento sustentável das cidades. Métodos de identificação eficientes e precisos de áreas funcionais urbanas são de grande importância para o ajuste e teste de planejamento urbano e otimização de layout industrial. Em primeiro lugar, através do emprego de dados geográficos de múltiplas origens, foi desenvolvido um método de identificação de áreas funcionais urbanas. Uma abordagem de medição quantitativa da área funcional urbana foi então estabelecida considerando os efeitos abrangentes de humanos-terra, espaço-tempo e informações temáticas para apresentar a área de cobertura de objetos terrestres, consciência pública e pesquisa empírica. Finalmente, a cidade de Zhengzhou, que fica na província de Henan, na China central, foi usada para testar o método. Os resultados mostram que o método desenvolvido é eficiente, preciso e universal e pode identificar áreas funcionais urbanas com rapidez e precisão. Descobrimos que a distribuição geral das áreas funcionais de Zhengzhou apresenta um padrão espacial de desenvolvimento coordenado único e multimixado. As áreas funcionais comerciais da cidade e as áreas funcionais mistas de base comercial estão localizadas na área central da cidade. A área funcional da praça verde ocupa um espaço relativamente baixo e se distribui principalmente na periferia da cidade.

1. Introdução

A área funcional urbana é uma unidade básica no planejamento regional e na formulação de políticas de desenvolvimento, geralmente indicada pelo uso da terra e usada para refletir as atividades sociais e econômicas [1, 2]. As áreas funcionais urbanas são independentes, mas conectadas, combinando-se assim para formar a cidade como um todo [3, 4]. Uma estrutura espacial urbana razoável é a condição essencial para um desenvolvimento urbano de alta qualidade. A identificação precisa das áreas funcionais urbanas e uma estrutura espacial urbana clara são de grande importância para o planejamento adequado do layout urbano e do desenvolvimento urbano sustentável [5-7]. A identificação de áreas funcionais urbanas é um pré-requisito vital para esclarecer o arranjo espacial das indústrias [8, 9], apreender com precisão o padrão espacial urbano [5, 10] e avaliar efetivamente o status do desenvolvimento urbano [10-12]. Pode analisar as desvantagens do desenvolvimento urbano [13] e fornecer suporte de decisão preciso em questões como a redistribuição dos recursos públicos urbanos [14]. Ele também fornece um papel de apoio crucial no ajuste da estrutura funcional urbana e na otimização racional do layout industrial [8, 15, 16].

A abordagem de identificação das áreas funcionais urbanas é um ponto importante de pesquisa da nova ciência urbana [17] e um tema essencial na pesquisa da complexidade urbana [18, 19]. Estudos anteriores formaram padrões e regras de classificação multidimensionais, aplicando as diferenças nas fontes de dados, métodos de pesquisa e propósitos [20, 21]. A identificação de áreas funcionais urbanas tradicionais é baseada principalmente em técnicas de investigação estatística [22, 23], inspeção e avaliação de especialistas e extração de uso do solo por sensoriamento remoto [21-24]. Esses métodos têm desempenhado um papel significativo no planejamento urbano inicial e no layout industrial [5, 8, 10, 22, 23]. Com o advento da era do big data de informatização, dados emergentes de múltiplas fontes, como sinalização de telefone móvel, trajetória de táxi, dados de check-in e POI (pontos de interesse), promoveram a identificação de áreas funcionais urbanas de pesquisa quantitativa ainda mais [25-29].

Geralmente, os dados de sinalização do telefone móvel podem ser usados ​​para identificar o espaço urbano, como áreas de trabalho, áreas de lazer e áreas residenciais [29, 30], os dados de trajetória de táxi podem ser aplicados para dividir o espaço urbano em áreas residenciais diárias, áreas de trabalho e outras áreas [5, 31-33], e os dados de check-in, incluindo as coordenadas de locais de atividades pessoais e cognição pessoal e comentários, podem ser aplicados para analisar as características dinâmicas do espaço urbano de uma perspectiva multidimensional [34-39] . Geralmente, os dados de POI contêm coordenadas precisas e informações de atributos de entidades geográficas, que podem retratar detalhadamente os detalhes urbanos e descrever as formas espaciais urbanas [40-42]. Com o aumento da demanda por construção de conotação urbana e melhoria da qualidade, a identificação de áreas funcionais urbanas com uma única fonte de dados não pode mais atender às necessidades de planejamento e controle urbano refinados. Portanto, há uma necessidade urgente de empregar dados de múltiplas fontes para impulsionar a pesquisa colaborativa na identificação de áreas funcionais urbanas.Os dados da rede de estradas podem ser usados ​​como uma fronteira geográfica para gerar a menor unidade de pesquisa e estabelecer um índice de densidade abrangente que integra dois fatores de ponderação, área de superfície geral e consciência pública. Ferramentas de análise espacial também podem ser usadas para construir um método de identificação quantitativa de áreas funcionais urbanas. Finalmente, ao tomar a área urbana central de Zhengzhou como o caso testado, o método é usado para fazer referência ao ajuste da função urbana e ao planejamento industrial.

2. Fonte de dados

2.1. Os dados POI

Um total de 231.272 dados de POI na área urbana de Zhengzhou foram obtidos do mapa da rede Baidu (map.baidu.com). Uma única unidade de dados POI contém nome, tipo, latitude e longitude [42–44]. De acordo com pesquisas anteriores [44, 45] e também o princípio de correspondência de POI e indústria urbana, referindo-se aos "Padrões de Classificação e Planejamento e Construção de Terras Urbanas", os dados de POI são divididos em seis categorias principais e 19 subcategorias com base no atributo informações [46]. Entre eles, as seis categorias principais incluem espaço verde e terreno quadrado (G), terreno para administração e serviços públicos (A), terreno residencial (R), terreno para rua e transporte (S), terreno para instalações comerciais e comerciais (B) e Terreno para armazém logístico (W). Em seguida, eles são divididos nas seguintes subcategorias: terreno para instalações comerciais (B1), terreno para instalações de negócios (B2), recreação e terrenos para instalações esportivas (B3), terrenos para instalações públicas de negócios (B4), outros terrenos para instalações de serviços comerciais (B9 ), terreno residencial de segunda classe (R2), terreno verde parque (C1), terreno verde quadrado (C3), terreno rodoviário urbano (S1), terreno centro de transporte (S3), terreno para estação de tráfego (S4), terreno para outras instalações de transporte (S9), terreno para escritórios administrativos (A1), terreno para transporte cultural (A2), terreno para educação e pesquisa (A3), terreno para esportes (A4), terreno para medicina e saúde (A5), terreno para instalações religiosas (A9) e primeiro- Classe Logística Armazém de Terrenos (W1).

2.2. Dados da rede de estradas

Os dados da rede rodoviária de ruas, estradas municipais, estradas provinciais, estradas nacionais, redes rodoviárias de alta velocidade e ferrovias na área urbana central da cidade de Zhengzhou também foram obtidos do mapa da rede Baidu [47]. Com base no princípio da análise de topologia, as estradas redundantes e pequenas estradas nos dados da rede de estradas são eliminadas primeiro. Em seguida, os dados da rede viária são editados topologicamente. Finalmente, o mapa da rede rodoviária da área urbana central de Zhengzhou é obtido [47, 48]. De acordo com os padrões nacionais de largura de rodovia de quatro níveis e os dados de largura de estrada da cidade de Zhengzhou, as rodovias, rodovias provinciais, rodovias nacionais, ferrovias, rodovias municipais e ruas da rede rodoviária foram alargadas em 55 m, 45 m, 45 m , 40 m, 35 m e 25 m, respectivamente. O bloco delimitado pela estrada é gerado como a menor unidade para identificação da área funcional.

2.3. Os dados socioeconômicos e da pesquisa de campo

De acordo com as necessidades de pesquisa, coletamos o Anuário Estatístico da cidade de Zhengzhou de 2018 e o Plano Diretor da cidade de Zhengzhou (2010-2020). Em seguida, realizamos investigações de campo em áreas urbanas específicas, com áreas distintas mostradas na Tabela 1. Espera-se que seja usado como dados auxiliares para correção de dados e fiscalização local na identificação de áreas funcionais urbanas.

3. Métodos

Os métodos de pesquisa incluem principalmente três etapas principais, que são nomeadas separadamente, o cálculo do índice de densidade do kernel, o cálculo da densidade do kernel ponderada por dois fatores e o julgamento do tipo de área funcional.

3.1. O Cálculo do Índice de Densidade do Kernel

O índice de densidade do kernel é proposto principalmente com base na estimativa da densidade do kernel [49–53]. Pegando cada ponto de amostra eu (x, y) como o centro, a função kernel é usada para calcular a contribuição de densidade de cada amostra para o ponto central de cada unidade de grade dentro de um raio especificado (um círculo com a largura de banda h como o valor do raio). Quanto mais próximo o ponto central da unidade de grade do ponto de amostra, maior o valor de contribuição de densidade do ponto de amostra. Os pontos centrais dos valores de densidade de cada unidade de grade são superpostos espacialmente para gerar um mapa de densidade. O índice de densidade do kernel é calculado com a seguinte fórmula:

denota o índice de densidade do kernel na localização espacial e h denota o raio de pesquisa (ou seja, a largura de banda). Com base no trabalho anterior [44, 45], a largura de banda é 700 m xeu e yeu são as coordenadas do ponto de amostra eu n é o número de pontos de amostra que são menores ou iguais a h da localização x e y são as coordenadas do ponto central da grade representam o quadrado da distância euclidiana entre o ponto central da grade e o ponto de amostra eu.

3.2. O Cálculo da Densidade do Kernel Ponderada por Dois Fatores

Os dados do POI são dados pontuais indicativos, que têm diferentes pontos de referência para refletir a consciência pública, por exemplo, falta de representação de área e volume. Portanto, é necessário verificar novamente o peso dos diferentes tipos de informações de POI para melhorar a precisão dos portadores de partição funcional [45, 54]. Por exemplo, dentro de um ponto de POI de estação de ônibus dentro do escopo espacial, também há informações de POI da loja. Porém, no mundo real, a informação da função de transporte representada pelo POI do terminal de autocarros desempenha um papel preponderante, ultrapassando a “função comercial” representada pelo POI da loja. Portanto, o posicionamento funcional desta área deve ser "função de transporte". Neste estudo, a área geral da característica do solo é usada como o primeiro fator de influência que afeta o peso da densidade do kernel, e o valor do peso é diferenciado por pontuação. A conscientização pública é usada como o segundo fator de influência. As pontuações da área geral das subcategorias de POI são mostradas na Tabela 2, e as pontuações de consciência pública das subcategorias de POI são mostradas na Tabela 3. Com base no trabalho anterior [44, 45, 50, 51], a proporção de contribuição de peso da área geral e público consciência são determinados como 50%: 50% [54, 55].

Portanto, o valor do índice de densidade do kernel ponderado é calculado da seguinte forma:

onde denota o valor do índice de densidade do kernel ponderado do tipo k Subcategoria de POI no local (x, y), é o índice de densidade do kernel do tipo k Subcategoria de POI no local (x, y), é a pontuação geral da área do tipo k Subcategoria de POI e denota a pontuação de conscientização pública do tipo k Subcategoria de POI, k = 1, 2, … , 19.

3.3. O Julgamento do Tipo de Área Funcional

Para as unidades de área funcional urbana divididas por grades irregulares, as fórmulas de proporção de categoria (3) - (5) foram construídas para determinar a natureza da área funcional de acordo com o valor do índice de densidade do kernel:

onde representa a porcentagem do valor do índice de densidade do kernel do k tipo de subcategorias de POI, k = 1, 2,. 19 representa o valor do índice de densidade do kernel do k Subcategorias de POI S representa a soma da densidade de kernel de todas as subcategorias de POI na área de estudo. De acordo com a fórmula, se ≥50% em uma unidade, esta unidade é uma única área funcional. Se < 50% (k = 1,2,…, 19) em uma unidade, esta unidade é uma área funcional diversa, que depende dos dois primeiros tipos de terreno determinados se não houver valor de densidade de kernel, a área não é área de dados.

4. Estudo de Caso

4.1. Breve introdução de Zhengzhou

Zhengzhou é a capital da província de Henan, que está localizada no centro-norte da China (112 ° 42 E-114 ° 14 E, 34 ° 16 N-34 ° 58 N) e desempenha um papel essencial na economia desenvolvimento. Localizada no centro da China, o centro de transporte regional, Zhengzhou também é o centro político, econômico e cultural da província de Henan [56]. É também um centro "duplo" na ferrovia comum da China e na rede de estradas de alta velocidade [57]. Além disso, Zhengzhou é uma das cidades críticas sob a iniciativa Belt and Road. Por exemplo, o aeroporto de Zhengzhou é conhecido como o centro da Rota da Seda Aérea. É também um centro de transporte abrangente internacional [58, 59]. A área urbana central de Zhengzhou cobre uma área de 1100 km 2. No final de 2018, a população de Zhengzhou atingiu 10 milhões e seu PIB ultrapassou 1 trilhão de yuans. Existem 8 distritos e zonas em Zhengzhou, consistindo em Distrito de Zhongyuan, Distrito de Erqi, Distrito de Guancheng Hui, Distrito de Jinshui, Distrito de Huiji, Novo Distrito de Zhengdong, Zona de Desenvolvimento Econômico e Zona de Alta Tecnologia (Figura 1).

4.2. Resultados

Existem 18 tipos de distritos funcionais identificados em Zhengzhou, consistindo em 1.745 parcelas (Figura 2). Os lotes funcionais do distrito têm uma área relativamente uniforme no centro da cidade. À medida que as parcelas funcionais se afastam do centro da cidade, sua área aumenta gradualmente com a distância. São seis tipos de áreas funcionais únicas: terreno de transporte, terreno de utilidades, terreno comercial, terreno residencial, armazém e área verde, com 597 blocos e área total de 396,15 km 2, representando 39,06%. Existem 12 tipos de áreas funcionais mistas, nomeadas da seguinte forma: terreno de transporte-utilidades, terreno de residência de transporte, terreno de residência de transporte, terreno de transporte-armazém, transporte-terreno de espaço verde, serviços públicos-terreno comercial, utilitário-terreno residencial, serviços públicos - terrenos verdes, terrenos residenciais-comerciais, terrenos-armazéns-residências, terrenos-armazéns comerciais e terrenos-armazéns verdes, que consistem num total de 1148 blocos e com uma área total de 618,03 km 2, correspondendo a 60,94%. As estatísticas detalhadas são mostradas na Tabela 4.


Assista o vídeo: Somente os 4% Mais Atentos Passarão Neste Teste