Big Data (o raramente traducido en wikipedia como macrodatos) es un término relativamente nuevo con el que describimos el gran volumen de datos (ya sean estructurados o no) que inundan un negocio diariamente. Pero realmente la cantidad no es lo que importa. Es lo que quieren hacer las organizaciones con dichos datos, ya que pueden llevar o dirigir a estas a una toma de decisiones y movimientos estratégicos.
Dicho así es un tanto técnico, podríamos decir que sería solo para Growth Hackers o Analistas… Pero en un lenguaje algo más coloquial podríamos entender que el Big Data son datos masivos de la gente para saber cómo se comportan y así poder vender mejor o crear nuevos productos.
Historia del Big Data
El término “Big Data” se refiere a los datos que son tan grandes, rápidos o complejos que es difícil o imposible procesarlos con los métodos tradicionales. El acto de acceder y almacenar grandes cantidades de información para su análisis ha existido desde hace mucho tiempo. Pero el concepto de Big Data cobró impulso a principios de la década de 2000 cuando el analista de la industria, Doug Laney, articuló la definición actual de Big Data como las tres V:
Volumen: Las organizaciones recogen datos de una variedad de fuentes, incluyendo transacciones comerciales, dispositivos inteligentes (IO), equipos industriales, videos, medios sociales y más. En el pasado, su almacenamiento habría sido un problema – pero el almacenamiento más barato en plataformas como los lagos de datos y el Hadoop han aliviado la carga.
Velocidad: Con el crecimiento de la Internet de las Cosas, los datos llegan a las empresas a una velocidad sin precedentes y deben ser manejados de manera oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.
Variedad: Los datos vienen en todo tipo de formatos – desde datos estructurados y numéricos en bases de datos tradicionales hasta documentos de texto no estructurados, correos electrónicos, videos, audios, datos de teletipo de acciones y transacciones financieras.
Por lo general, se consideran dos dimensiones adicionales cuando se trata de grandes datos:
1) La variabilidad:
Además de las crecientes velocidades y variedades de datos, los flujos de datos son impredecibles, cambian a menudo y varían mucho. Es un reto, pero las empresas necesitan saber cuándo algo está de moda en los medios sociales, y cómo gestionar los picos de carga de datos diarios, estacionales y desencadenados por eventos.
2) Veracidad:
Veracidad se refiere a la calidad de los datos. Debido a que los datos provienen de tantas fuentes diferentes, es difícil vincular, comparar, limpiar y transformar los datos a través de los sistemas. Las empresas necesitan conectar y correlacionar relaciones, jerarquías y múltiples vínculos de datos. De lo contrario, sus datos pueden salirse de control rápidamente.
¿PORQUÉ ES IMPORTANTE EL BIG DATA?
La importancia del Big Data no gira en torno a la cantidad de datos que tienes, sino en lo que haces con ellos. Puedes tomar datos de cualquier fuente y analizarlos para encontrar respuestas que permitan 1) reducir los costos, 2) reducir el tiempo, 3) desarrollar nuevos productos y optimizar las ofertas, y 4) tomar decisiones inteligentes. Cuando se combinan grandes datos con análisis de alta potencia, se pueden realizar tareas relacionadas con los negocios como:
- Determinar las causas fundamentales de los fallos, problemas y defectos en tiempo casi real.
- Generar cupones en el punto de venta basados en los hábitos de compra del cliente.
- Recalcular carteras de riesgo completas en minutos.
- Detectar el comportamiento fraudulento antes de que afecte a su organización.
Cómo funciona Big Data
Antes de que las empresas puedan poner a trabajar para ellas grandes datos, deben considerar cómo fluyen entre una multitud de lugares, fuentes, sistemas, propietarios y usuarios. Hay cinco pasos clave para hacerse cargo de esta gran “trama de datos” que incluye datos tradicionales y estructurados junto con datos no estructurados y semiestructurados:
- Establecer una gran estrategia de datos.
- Identificar las grandes fuentes de datos.
- Acceder, gestionar y almacenar los datos.
- Analizar los datos.
- Tomar decisiones basadas en los datos.
1) Establecer una gran estrategia de datos
A un alto nivel, una gran estrategia de datos es un plan diseñado para ayudarle a supervisar y mejorar la forma en que adquiere, almacena, gestiona, comparte y utiliza los datos dentro y fuera de su organización.
Una gran estrategia de datos establece el escenario para el éxito del negocio en medio de una abundancia de datos. Cuando se desarrolla una estrategia, es importante considerar las metas e iniciativas de negocios y tecnología existentes y futuras. Esto exige tratar los grandes datos como cualquier otro activo empresarial valioso, en lugar de considerarlos sólo como un subproducto de las aplicaciones.
2) Conocer las fuentes de los grandes datos
La transmisión de datos proviene de la Internet de las Cosas (IoT) y otros dispositivos conectados que fluyen a los sistemas de TI desde los vestidos, los coches inteligentes, los dispositivos médicos, los equipos industriales y más. Puedes analizar estos grandes datos a medida que llegan, decidiendo qué datos guardar o no guardar, y cuáles necesitan un análisis más profundo.
Los datos de las redes sociales provienen de interacciones en Facebook, YouTube, Instagram, etc. Esto incluye grandes cantidades de grandes datos en forma de imágenes, videos, voz, texto y sonido – útiles para funciones de marketing, ventas y soporte. Estos datos suelen estar en formas no estructuradas o semiestructuradas, por lo que plantean un desafío único para el consumo y el análisis.
Los datos disponibles públicamente provienen de cantidades masivas de fuentes de datos abiertas como el data.gov del gobierno de los Estados Unidos, el World Factbook de la CIA o el Open Data Portal de la Unión Europea.
Otros grandes datos pueden provenir de lagos de datos, fuentes de datos en la nube, proveedores y clientes.
3) Acceder, gestionar y almacenar grandes datos
Los sistemas informáticos modernos proporcionan la velocidad, la potencia y la flexibilidad necesarias para acceder rápidamente a cantidades masivas y tipos de grandes datos. Además de un acceso fiable, las empresas también necesitan métodos para integrar los datos, asegurar la calidad de los mismos, proporcionar un gobierno y un almacenamiento de datos, y preparar los datos para el análisis. Algunos datos pueden almacenarse en un almacén de datos tradicional, pero también hay opciones flexibles y de bajo costo para almacenar y manejar grandes datos a través de soluciones de nube, lagos de datos y Hadoop.
4) Analizar grandes datos
Con tecnologías de alto rendimiento como la computación en grid o el análisis en memoria, las organizaciones pueden optar por utilizar todos sus grandes datos para los análisis. Otro enfoque es determinar por adelantado qué datos son relevantes antes de analizarlos. De cualquier manera, el análisis de grandes datos es la forma en que las compañías obtienen valor y entendimiento de los datos. Cada vez más, los grandes datos alimentan los esfuerzos de análisis avanzados de hoy en día, como la inteligencia artificial.
5) Tomar decisiones inteligentes, basadas en datos
Los datos bien administrados y confiables conducen a análisis y decisiones confiables. Para seguir siendo competitivas, las empresas necesitan aprovechar todo el valor de los grandes datos y operar de una manera basada en los datos, tomando decisiones basadas en la evidencia presentada por los grandes datos en lugar de en el instinto visceral. Los beneficios de ser impulsado por los datos son claros. Las organizaciones basadas en datos se desempeñan mejor, son operacionalmente más predecibles y son más rentables.
Array