web analytics

0

Feb 24 2017

Sobre el big data y el bic data

Categoría: big data

Esto del big data o bic data no es algo tan nuevo 😉

 

bic data

1

Dic 11 2016

Sobre lo que muchos creen saber sobre ti y a lo mejor no saben

Categoría: big data

Tengo la suerte (o desgracia, según se mire) de trabajar en una actividad de esas que últimamente están de moda: el tratamiento y la explotación analítica de grandes volúmenes de información o big data. Es una disciplina que, al conjugar elementos de áreas tan dinámicas como la tecnología, el desarrollo software o la inteligencia artificial (entre otras) requiere estar muy al día en lo que avances y nuevas líneas de trabajo se refiere. Vamos, que una parte no menor de mi tiempo (supuestamente) libre la dedico a estudiar lo que unos y otros van haciendo.

Y ello me llevó esta mañana a Predictive World, un curioso experimento desarrollado por el Centro de Psicometría de la Universidad de Cambridge en colaboración con la empresa creadora de videojuegos Ubisoft que pretende concienciar sobre el uso que terceros pueden hacer de nuestro rastro digital.

Nuestra actividad diaria produce un rastro ingente de datos a diario: transacciones online, interacciones en redes sociales, navegación web, señales de GPS,  intercambio de mensajes y llamadas o incluso los tickets del parking o las máquinas expendedoras. Son muchos los agentes que hoy comercian ya, nos guste ó no, con toda esta información que generamos incluso sin ser conscientes de ello. Y son muchos igualmente los que la recopilan, compran de terceros y procesan analíticamente para perfilar atributos sobre nuestra personalidad y poder estimar las probabilidades de que hagamos o nos suceda algo: ello permite a estos agentes desde estimar qué anuncio es más probable que llame nuestra atención hasta tus preferencias políticas o religiosas, pasando por el riesgo de que sufras un accidente de tráfico o padezcas una enfermedad. Por ejemplo, las aseguradoras estudian tus hábitos de vida para adaptar o denegar las cláusulas de sus pólizas, los bancos evalúan tu riesgo de impago antes de aprobar tu petición de crédito, e incluso las fuerzas del orden trabajan ya con estos sistemas de análisis de datos para predecir qué tipo de persona, dónde y cómo es más probable que se vea involucrada en un delito.

En este contexto, Predictive World es una pequeña herramienta que permite generar perfiles digitales y predecir su futuro. Su objetivo es ilustrar cómo prácticamente cualquiera puede recopilar datos sobre ti que aparentemente no tienen ninguna importancia y utilizarlos para crear perfiles y patrones que permiten inferir quién eres y cuál será tu comportamiento futuro. Algo así como tener una pequeña bola digital para adivinar tu futuro a partir de tus datos de Facebook.

big data

Explotando tu rastro digital: Predictive World

En realidad, el ejercicio que propone Predictive World es bastante sencillo. Cumple su cometido a la hora de tratar de concienciar al público con nota, pero técnicamente es relativamente pobre. Tanto, que la verdad es que las inferencias que genera son muy limitadas. Para entendernos, falla más que una escopeta de feria.

Y eso es precisamente lo que más me ha llamado la atención.

Como ciudadanos corremos un riesgo evidente de que distintos agentes (empresas, gobiernos) hagan un uso no autorizado y/o inapropiado de nuestro rastro digital, de que comercialicen y se lucren con toda esa información que inadvertidamente generamos, de que sustenten sus decisiones y gestionen su relación con nosotros a partir del conocimiento que son capaces de extraer del análisis de todos esos datos. Pero quizá exista un riesgo aún mayor: que lo hagan mal. Que sus modelos analíticos fallen y extraigan conclusiones erróneas sobre nosotros. Y no es un riesgo del que podamos abstraernos: la decisión sobre concederte ó no esa hipoteca que necesitas para cambiar de vivienda, el precio de tu próximo seguro médico o tus posibilidades de conseguir ese puesto de trabajo que te interesa… todo ello depende, cada día más, del tratamiento automático de tus datos. Y quizá lo que ese proceso de datos diga de ti no se corresponda con la realidad.

Lo preocupante, es que lo que tú realmente seas, creas o sepas no será relevante: no bastará para que cambie esa predicción generada automáticamente a partir de tus datos sobre la que terceros tomarán decisiones que te afectarán muy directamente.

Y eso sí resulta, cuanto menos, inquietante. Profundamente inquietante.

1

Jun 11 2016

Por qué fallan los sondeos electorales

Categoría: forecasting / market research

Encuesta_electoralArranca la nueva campaña electoral y con ella la lluvia de sondeos electorales. Día sí, día también, se publican los resultados de nuevas encuestas. E, inevitablemente, día sí, día también, se escucha aquello de que las encuestas en el fondo no reflejan correctamente el sentir e intención del ciudadano (afirmaciones que, por lo general, provienen de aquellos que interpretan que no salen especialmente favorecidos en los resultados que anticipa la encuesta de turno y que, curiosamente, acto seguido invariablemente añaden que manejan encuestas internas cuyos resultados les son mucho más favorables).

Indirectamente, para los que manejamos como fuente esencial de nuestro trabajo la investigación de mercados son días complicados: lo cierto es que los continuos fiascos de las previsiones electorales termina por contaminar la percepción que se tiene sobre este ámbito. Si veinticinco encuestas no han sido capaces de anticipar medianamente los resultados electorales del mes que viene, cómo va a predecir ese modelo tuyo de forecasting que está construido a partir de los resultados de un estudio de mercado las ventas del nuevo producto durante los próximos tres años. Touché.

Así que, adelantándome a lo que se me viene encima durante las próximas semanas, dejadme que me ponga la venda antes de hacerme la herida: sí, es cierto, los sondeos electorales fallan. Con frecuencia y como escopetas de feria. Y ello no quiere decir que las metodologías y técnicas que se utilizan en investigación de mercados no sirvan. Quiere decir, simple y llanamente, que los sondeos que estamos habituados a ver en prensa y televisión, esos cuyos resultados llenan las hora de telediarios y contetulios, están en muchas ocasiones mal diseñados y mal ejecutados.

El caso reciente más flagrante probablemente fue el de las últimas elecciones generales en Reino Unido, celebradas en mayo de 2015. Todos y cada uno de los sondeos publicados durante las semanas previas a la votación habían coincidido en anticipar un resultado extremadamente igualado entre el partido laborista y el conservador, dibujando un escenario político para los próximos cuatro años caracterizado por una inestabilidad que hacía presagiar tiempos complicados en el parlamento británico. Por ello, los resultados fueron una sorpresa mayúscula: mayoría absoluta para el partido de David Cameron. Las críticas a los sondeos publicados antes de las elecciones fueron de tal magnitud que se abrió una investigación para entender por qué habían fallado de manera tan clamorosa. Dicha investigación, de carácter independiente y articulada en torno a un equipo de los académicos de mayor prestigio del país, publicó sus conclusiones hace un par de meses. Las 120 páginas del informe de resultados deberían ser de lectura obligada para todos aquellos que trabajan en el sector. Desmonta con datos varias leyendas urbanas en torno a las encuestas políticas y pone el dedo en la llaga explicando que los motivos esenciales detrás del fiasco de los sondeos electorales no es otro que el diseño y ejecución técnica de las encuestas.

Aseveraciones que solemos escuchar para explicar por qué las encuestas electorales fallan y que no son ciertas (sin entrar en grandes detalles para evitar que abandonéis la lectura):

  • La gente miente en las encuestasPuede ser, pero si lo hace, lo hace de manera sistemática, de modo que los errores se compensan y el resultado de la estimación no se ve afectado en gran medida.
  • Los partidarios de partidos conservadores no lo reconocen públicamente, por lo que la intención de voto de estos partidos se ve minorada.  Este efecto existe y de hecho se viene estudiando desde hace años en múltiples países. Como tal, es posible cuantificarlo y corregirlo, por lo que tampoco influye de manera relevante en los resultados de los sondeos.
  • Mucha gente decide su voto a última hora. Se dedican muchas horas en las tertulias a hablar de los indecisos. Lo cierto es que, salvo que sobrevengan eventos extraordinarios capaces de polarizar de manera abrupta la intención de voto (tal y como pudo vivirse en España en las elecciones de la primavera de 2004 tras los atentados del 11M) el reparto de voto del segmento de los indecisos viene a replicar en gran medida la tendencia de aquellos que sí declaran tener su voto decidido.
  • El voto por correo, tanto nacional como fundamentalmente desde el extranjero, no se contempla adecuadamente en las encuestas. Cierto, pero de nuevo es un factor que, además de ser poco relevante en términos de volumen, puede hasta cierto punto estimarse razonablemente a partir de datos históricos.

Si ninguno de estos factores influye de manera determinante en el error de los sondeos. ¿Qué es lo que falla entonces en las encuestas electorales? La clave está, como en muchos otros ámbitos, en la letra pequeña. En esas tres o cuatro líneas en un tamaño de letra ilegible que describen la metodología seguida para la realización de las encuestas.

Esencialmente la clave de la representatividad de la muestra sobre la que se realiza la encuesta viene dada por dos elementos: el tamaño de la muestra (cuánta gente se ha entrevistado) y el supuesto de muestreo aleatorio (entrevistamos a gente puramente al azar). Y es este segundo punto donde la gran mayoría de las encuestas electorales no dan la talla.

De nuevo en formato titulares:

  • La práctica totalidad de las encuestas electorales se realizan bien telefónicamente mediante llamadas a numeraciones aleatorias a teléfono fijo, bien mediante paneles online. En ambos casos se está dejando de considerar a buena parte de la población (en España, por ejemplo, más de un 20% de los hogares no tienen ya teléfono fijo o más del 30% de la población no son internautas), lo que introduce un sesgo notable – la muestra no representa adecuadamente a toda la población. Las encuestas del CIS son una de las pocas excepciones a esta tendencia ya que se realizan presencialmente, en hogares seleccionados aleatoriamente, lo que explica (junto al hecho de que el tamaño de muestra sea mayor) que sus resultados tiendan a ser notablemente mejores que los de otro tipo de medios (aquí debemos aclarar que la metodología presencial lleva asociada un coste y unos plazos de ejecución significativamente mayores, motivo esencial por el que las encuestas que los medios de comunicación encargan habitualmente se realizan mediante otros procedimientos). Aún así, ni las encuestas del CIS escapan a otros factores de error como veremos en los siguientes puntos.
  • El supuesto de aleatoriedad requiere igualmente que una vez se ha seleccionado un contacto (un número al que llamar, un hogar al que visitar) debe entrevistarse sí o sí a ese contacto. Lo que sucede en la vida real es que si el equipo de trabajo de campo intenta contactar por ejemplo con un teléfono dado en un par de ocasiones sin éxito pasará a intentarlo con un nuevo contacto. En la práctica ello implica que ciertos segmentos poblacionales estarán mal representados en la muestra (si trabajo hasta las ocho de la tarde difícilmente podrás entrevistarme llamándome al fijo o llamando al timbre de mi domicilio a mediodía; en cambio, si llamas a mi madre jubilada, a mi hermano estudiante o a mi primo en paro tendrás una mayor probabilidad de que responda a la encuesta).
  • A la hora de analizar los resultados de la encuesta, por norma se aplican una serie de ponderaciones que permita ajustar el perfil de la muestra entrevistada al perfil de población general (simplificando, si por ejemplo entre mis entrevistados hay un 60% de hombres y sé que en la población a representar hay sólo un 50% tendré que aplicar un factor corrector). El problema viene a la hora de identificar qué variables elegimos para aplicar cuotas. Típicamente se aplican variables sociodemográficas básicas (edad, sexo, etc.) que pueden resultar insuficientes a la hora de realizar estimaciones electorales (resulta por ejemplo razonable pensar que habría que aplicar cuotas específicas por situación laboral del entrevistado).

En definitiva, es en la representatividad de la muestra donde se concentra el error de las encuestas electorales. Los niveles de error que reflejan las fichas técnicas de las encuestas (el famoso +X% para un nivel de confianza del 95,5%) asume que se han dado las condiciones de un muestreo aleatorio, hipótesis que, como hemos visto, dista mucho de darse.

¿Perdemos la esperanza entonces de tener sondeos electorales cuyas estimaciones se aproximen más a la realidad? No necesariamente, hay vías para ello: combinar el tradicional contacto a través del teléfono fijo con llamadas a números de móvil parece la alternativa idónea hoy en día; se puede incrementar el número de intentos de contacto a diferentes horas del día, se debe explorar la correlación entre variables más allá de las sociodemográficas más elementales y la intención de voto para establecer nuevas cuotas, etc.

En resumen, no es que la investigación de mercados, las encuestas, no sirvan, simplemente es que las cosas hay que hacerlas bien. El mundo cambia y las herramientas y formas de trabajar deben de hacerlo igualmente.

Nota: Estas líneas tratan de ilustrar incluso para los más profanos en la materia la problemática de los errores a la hora de realizar e interpretar sondeos electorales. Los ejemplos y descripciones que he usado son deliberadamente simplistas y no exhaustivos.

0

May 09 2016

Y cuatro meses después…

Categoría: estrategia

Hace algo más de cuatro meses, un par de días después de las elecciones del 20D, dibujábamos en un post rápido el escenario que la teoría de juegos dictaba como el más probable:

Se abre una opción que aparentemente ha pasado todavía desapercibida por la masa de analistas y que se deriva de los pobres resultados obtenidos por Unidad Popular-Izquierda Unida: sus más de 920.000 votos se han traducido en apenas 2 escaños, cifra severamente penalizada por la Ley D’Hont. Si en un hipotético escenario en el que se repitiesen las elecciones lo razonable sería esperar que la decisión del voto se polarizase hacia los partidos con mayor apoyo, en el caso de los partidarios de UP-IU este movimiento natural se vería sustancialmente acrecentado tras haber constatado la situación de inferioridad en la que la Ley D’Hont deja a esta formación. Resumiendo: lo normal en este escenario es que gran parte de los votantes de Unidad Popular-Izquierda Unida optasen por un voto “útil” que mayoritariamente debería ir dirigido a Podemos (que con toda seguridad sabría incorporar hábilmente este mensaje a su discurso). La teoría de juegos nos dice que la dirección de Unidad Popular-Izquierda Unida, anticipando este movimiento, trataría de llegar (esta vez sí) a un acuerdo con Podemos para integrarse en esta formación y evitar su virtual desaparición

(…) Ello nos permite aventurar que la gran baza de Podemos a día de hoy pasa por llegar a esas nuevas elecciones y hacerse con el decepcionado electorado de UP-IU. Lo razonable, por lo tanto, es que Podemos no se preste a ningún acuerdo que conduzca a la investidura de un candidato, sea del color que sea, lo que a su vez deja al PSOE (dado que sin el apoyo de Podemos no estará en condiciones de presentar con opciones su propia candidatura) en la complicada tesitura de facilitar la presidencia a un candidato del PP (o a lo sumo un candidato independiente como comienza a escucharse) o forzar la convocatoria de un nuevo proceso electoral que bien puede conducirle al escenario que hemos descrito.

Pues ya estamos ahí 🙂