my statsoft

STATISTICA Text Miner

A solução STATISTICA Text Miner é ideal para traduzir os dados de texto não estruturado em clusters significativos e valiosos para tomada de decisão.


No dia-a-dia a representação de dados faz-se de diversas formas, mas nem sempre de uma forma organizada ou para análise imediata. O STATISTICA Text Miner para além de encontrar informação subjacente aos dados, dificilmente percetível até nos tradicionais dados estruturados, encontra-se optimizado para trabalhar com bases de dados muito extensas.

Como pode usar o STATISTICA Text Miner?

  • Analisar o conteúdo das páginas web.
    Processar automaticamente e resumir todas as páginas Web de empresas, particulares, fóruns, etc.
  • Incluir informação não estruturada em projetos de data mining.
    Por exemplo, respostas a perguntas de entrevista aberta, descrições de sintomas dos pacientes, entre outros.
  • Analisar grandes arquivos de documentos.
    Tais como as narrativas dos créditos de seguros, e incluir essa informação em projetos de detecção de fraude.
     

O STATISTICA Text Miner foi especificamente projetado como uma solução de data mining para informação não estruturada. As ferramentas analíticas de extração e seleção de características e outras disponíveis no STATISTICA Text Miner não são apenas aplicáveis aos documentos de texto ou páginas da web, mas também podem ser usadas para indexar, classificar, agrupar, ou incluir informação não estruturada na sua análise, como bitmaps (pré-processados) importados como matrizes de dados, etc.
 

Integração completa com a linha de produtos STATISTICA 
O STATISTICA Text Miner está totalmente integrado com os restantes produtos STATISTICA; as suas funcionalidades podem ser integradas no ambiente de trabalho do STATISTICA Data Miner, ou outros produtos STATISTICA.

  • Atualizar análises e resumos numéricos de informação textual
  • Publicar resultados, através da Internet, para utilizadores autorizados
    É uma solução escalonável e utiliza tecnologia de computação paralela para uma performance otimizada no caso de máquinas com múltiplos processadores, ou processadores com múltiplos núcleos.
     

Acesso a documentos
A solução STATISTICA Text Miner contém várias opções para aceder a documentos de texto de diferentes formatos

Incluindo .txt (texto), .pdf (adobe), .html, .xml (formatos web), e a maioria dos formatos do Microsoft Office (por exemplo, .doc, .rtf ).

Interface de utilizador com opções flexíveis para permitir selecionar um grande número de ficheiros via wild-cards
Para selecionar, por exemplo, todos os documentos num subdiretório.

Web-crawling
Os documentos podem ser extraídos da web, a partir dum determinado URL. Todos os documentos vinculados a essa página específica serão incluídos, assim como os documentos vinculados a esses subdocumentos e assim por diante, até ao nível especificado pelo utilizador.

Nomes de ficheiros e URLs também podem ser armazenados em variáveis de texto, nos ficheiros de dados do STATISTICA. Desta forma, o programa não só processa texto real, mas também interpreta corretamente os URLs. Assim, as informações numéricas e informação textual de grandes documentos podem ser armazenados caso a caso e as análises importantes podem ser executadas em bases de dados contendo variáveis numéricas e informação não-estruturadas de texto. Como exemplo ter-se-á a idade dos pacientes, altura, peso, conjuntamente com descrição médica dos sintomas.

Opções flexíveis para importação de listas de ficheiros ou URLs
 

Processamento de documentos
Os documentos podem ser pré-processados em simultâneo com a indexação de todos os documentos.
Regras de exclusão e listas stub podem ser aplicadas para remover palavras comuns, mas não úteis, como "a", "para", "é". Em seguida, um algoritmo de stemming é aplicado de modo que as palavras em português como "viajou", "viajando" são consideradas "viajar".

A solução STATISTICA Text Miner inclui listas stub e algoritmos para português, espanhol, inglês, alemão, francês, italiano, dinamarquês, holandês, sueco, entre outros. As listas stub podem ser editadas e adicionadas pelo utilizador, conforme seja necessário. O programa está projetado para facilmente  adicionar outros idiomas.

Em seguida, o programa indexará os documentos resultantes das listas stub e doa algoritmos de stemming, para criar uma contagem da frequência de todas as palavras em todos os documentos. Esta contagem da informação é a base para todas as análises numéricas subsequentes.


Antes de criar um ficheiro de dados STATISTICA contendo as contagens para resumir os documentos, vários filtros adicionais podem ser aplicados. Por exemplo, a contagem de palavras mais frequentes por documento pode ser:

  • Normalizada com base no comprimento de cada documento
  • Transformada, por exemplo, transformação log
  • Opcionalmente, comprimida, por exemplo, a aplicação de algoritmos de extração de caraterísticas tais como SVD: decomposição em valores singulares, especialmente optimizados para funcionar em grandes matrizes
     

O ficheiro de dados resultante com informação numérica: dimensões SVD, contagem absoluta, contagem relativa, palavras mais frequentes, entre outros.  Está assim pronto para futuras análises.

Opções diversas para escrever informação extraída do texto no arquivo de dados de entrada, ou diretamente em bancos de dados externos. 



Análise de documentos
Todos os métodos estatísticos podem ser aplicados aos resumos numéricos que representam os textos. Estatísticas simples e resumidas podem extrair as palavras mais comuns usadas nos documentos.

Através do mapeamento dos documentos para dimensões SVD por exemplo, através de PCA, podem ser criados mapas dimensionais dos documentos, para avaliar a similaridade de documentos, etc.

Através do mapeamento dos documentos em dimensões com base nas contagens originais, são criados simultaneamente mapas de documentos e palavras. Refletindo o significado dos documentos.

Técnicas de clustering, como EM ou k-Means, podem ser aplicadas para identificar agrupamentos de documentos similares.

Técnicas de data mining preditivo podem ser usadas para associar os resumos numéricos de documentos a outros indicadores de interesse, por exemplo, comportamento fraudulento, diagnóstico médico, entre outros.

Os componentes analíticos chave que requerem processamento de dados intensivo são realizados através de tecnologia de computação paralela, para alcançar o desempenho máximo do servidor com múltiplos processadores.
 




Pedido de contato

Quer saber mais? Pedir uma cotação? Marcar uma demonstração online? Entre em contacto, preencha o formulário com os seus dados.

nome

mail

mensagem

escreva os numeros
por favor insira os números que vê na imagem *


ok
Sem imagens