Big Data é um termo que, na verdade, serve de guarda-chuva para englobar muitos outros termos relacionados que, apesar de importantes, não estão no dia a dia de todas as pessoas.
Pensando nisso, criamos esta lista com 45 termos relacionados a Big Data para você expandir os seus conhecimentos e consultar sempre que precisar.
Sentiu falta de alguma palavra? Entre em contato! A lista abaixo está em constante expansão e será ótimo ter a sua ajuda para torná-la numa fonte de informações ainda mais robusta e útil.
- Big Data: nome dado aos grandes volumes de dados disponíveis na internet e que aumentam a cada segundo. A IDC estima que, até 2025, o volume de dados do mundo inteiro alcançará a marca de 175 zettabytes. Para colocar esse tamanho em perspectiva, se você tentasse fazer o download de um arquivo de 175 zettabytes, demoraria cerca de 1.8 bilhão de anos.
- Data Mining (mineração de dados): é o processo de extração de informações a partir de grandes volumes de dados em busca de padrões e informações valiosas.
- Machine Learning (Aprendizado de Máquina): trata-se de algoritmos computacionais capazes de aprimorarem-se automaticamente por meio de experiência e por uso de dados.
- Web crawler: são robôs digitais rastreadores que cumprem a função de realizar a varredura em sites ou em bancos de dados digitais mais rápido do que qualquer ser humano. São capazes de entregar e atualizar informações com alto nível de precisão em tempo real.
- Web scraper: robôs digitais capazes de coletar dados mais específicos que os web crawlers. De maneira semelhante aos web crawlers, também capturam dados em alta velocidade e com elevados níveis de precisão, tornando a automação da coleta de dados completa e relevante aos propósitos das empresas.
- Price Scraping: é a extração de dados sobre preços de produtos em sites de ecommerce. Pode ser feito em tempo real com o uso de web scrapers.
- Captcha: um tipo de desafio cognitivo que é usado principalmente como uma ferramenta anti-spam. Sabe aqueles testes que aparecem em alguns sites pedindo para você identificar veículos, semáforos ou faixas de pedestre? Esse é um exemplo de Captcha.
- Proxy: refere-se a servidores proxy, que são utilizados na coleta automatizada de dados para evitar que os bots sejam bloqueados ao solicitar informações aos sites de onde os dados serão coletados.
- Inteligência Artificial (IA): são sistemas capazes de imitar a inteligência humana na execução de tarefas. A IA possui uma variedade de usos práticos no dia a dia, como em ferramentas de busca, anúncios online, sistemas de recomendação de conteúdo, assistentes virtuais, reconhecimento facial, filtragem de spam e veículos autônomos.
- Data Engineering (engenharia de dados): é a atividade que envolve, entre outras coisas, a coleta, tradução e validação de dados para posterior análise.
- Data Science (ciência de dados): um conjunto de estratégias, ferramentas e processos utilizados para obtenção de insights precisos e de qualidade a partir de informações do Big Data. Com ela, empresas podem identificar oportunidades mais rapidamente e descobrir talentos valiosos, além de conquistar e reter mais clientes, entre outras vantagens.
- Data Analytics (análise de dados): é o processo de analisar dados em busca de informações úteis para os objetivos da organização. É uma atividade que precisa levar em conta detalhes como metadados, as dependências entre dados e as relações entre os dados e o mundo real.
- Data Driven (orientado a dados): refere-se a organizações que baseiam-se rotineiramente em dados no processo de tomada de decisões. Empresas que tomam decisões orientadas por dados têm mais receita, atendem melhor aos anseios dos clientes e tornam-se mais lucrativas.
- Python: é uma linguagem de programação de alto nível lançada em 1991. É utilizada no desenvolvimento de web crawlers e também na criação de aplicações de IA.
- ETL (extract, transform, load): a sigla refere-se ao processo de extrair, transformar e carregar dados de múltiplas fontes e armazená-los em seguida.
- SQL: sigla para Structured Query Language, ou Linguagem de Consulta Estruturada em português. É uma linguagem de pesquisa declarativa utilizada por bancos de dados.
- CSV: é um formato de arquivo em que os dados são separados por vírgulas.
- JSON: JavaScript Object Notation ou, em português, Notação de Objetos JavaScript. É um dos formatos mais comuns para entrega de dados estruturados após realizado o trabalho de coleta e raspagem.
- API: Application Programming Interface, ou interfaces de programação de aplicações, são essenciais para que a comunicação entre duas aplicações diferentes se estabeleça, possibilitando a troca de informações entre elas e também a coleta de dados por parte de bots.
- Data Lake: é um repositório capaz de armazenar tanto dados estruturados quanto não estruturados. Serve para reunir, num local unificado e de fácil acesso, as diversas informações nos mais diferentes formatos que as organizações coletam para ajudar a guiar suas estratégias e decisões.
- Pântano de dados (data swamp): é um data lake sem controle de qualidade e repleto de dados desorganizados e não-estruturados.
- Cloud Computing (computação em nuvem): é a tecnologia que permite o acesso a serviços de computação de maneira remota, através da internet. Pode ser utilizada para analisar dados, armazenamento de dados e para fazer backups, entre outros usos.
- Algoritmo: na ciência da computação, trata-se de uma sequência de ações ou instruções que visam encontrar a solução para um determinado problema.
- Data Transformation (transformação de dados): é o processo de converter dados de um formato (ou estrutura) para outro.
- Data Warehouse: é um sistema de gerenciamento de dados que agrega dados de diferentes fontes e vai além, oferecendo suporte a atividades como análise e mineração de dados.
- Processamento de linguagem natural (PLN): área da computação que ajuda computadores a compreender melhor a linguagem humana.
- No-SQL: são sistemas de gerenciamento de bancos de dados que não fazem uso, ou então que não usam somente, as as tabelas relacionais que são mais comumente utilizadas.
- Software-as-a-Service (SaaS): em português, traduz-se como “software como serviço” e trata-se da disponibilização de serviços de software pela internet. Exemplos de SaaS são serviços como Google Drive, Dropbox, Slack, Salesforce e Mailchimp.
- Dados Estruturados: são dados que estão em conformidade com um determinado modelo de dados pré-estabelecido. Esse tipo de dado também possui estrutura bem definida e pode ser acessado com facilidade por pessoas ou programas.
- Dados Não-Estruturados: são dados que não possuem um modelo de dados pré-definido, ou seja, que não estão organizados de forma pré-definida. Podem ser textos, vídeos, e-mails, fotos, arquivos de áudio ou páginas da internet.
- Data Center: é um centro de dados, local em que são realizados serviços como armazenamento, gestão, backup e recuperação de dados, entre outros.
- LGPD: é a Lei Geral de Proteção de Dados, que entrou em vigor em 2018 e alterou dois artigos do Marco Civil da Internet.
- GDPR: General Data Protection Regulation, ou Regulação Geral de Proteção de Dados. É a regulamentação da União Europeia acerca de proteção de dados e privacidade. Foi estabelecida em 2016 e, em 2018, tornou-se aplicável.
- IoT: sigla para Internet of Things (Internet das Coisas). Refere-se a objetos como TVs, relógios e carros que possuem acesso à internet e geram novos dados constantemente.
- Business Intelligence: traduzido para português como Inteligência de Mercado, é um conceito diretamente relacionado à coleta e ao estudo de dados, que gera ganhos significativos de mercado para empresas de todos os segmentos.
- RPA: Robotic Process Automation, ou Automação Robótica de Processos. É o processo de automatizar, com o uso de robôs virtuais, atividades repetitivas dentro de uma empresa.
- Open Data: é a ideia de que alguns dados devem existir de forma compartilhada, dentro de um ecossistema de dados e de forma segura. Um exemplo prático é o open banking.
- Metadados: trata-se da definição ou a descrição referente a dados específicos.
- Precificação inteligente: é um tipo de precificação baseado em estatísticas e algoritmos que utilizam informações atualizadas sobre vendas, custos, visita e estoque, entre outros.
- Dados acionáveis: são dados que, após coletados e tratados, são efetivamente utilizados para definir com precisão os próximos passos a serem tomados pela empresa.
- JSON: acrônimo de JavaScript Object Notation, trata-se de um padrão de troca rápida e simples de dados.
- Limpeza de dados: nome dado ao processo de remoção de dados corrompidos, incompletos ou duplicados.
- Agregação de dados: é o nome do processo em que bases de dados são compiladas e em seguida combinadas para posterior processamento.
- Governança de dados: é um conjunto de práticas e soluções relacionadas ao gerenciamento e uso de dados. A ideia da governança é extrair o máximo de valor dos dados de maneira a beneficiar uma organização.
- Hiperautomação: é a combinação de ferramentas de Inteligência Artificial e RPA, entre outras, com o objetivo de automatizar toda e qualquer tarefa de cunho repetitivo desempenhada por uma organização.
Aqui na Crawly, dados são a nossa especialidade. Realizamos coleta de dados em condição crítica, automação de processos complexos e processamento de informações robustas, tudo com tecnologia de ponta.
Gostou do conteúdo e quer implementar soluções estado da arte de big data na sua organização? Entre em contato conosco!