Por Daniel Vak Contreras, periodista
Ricardo Baeza-Yates es ingeniero electrónico de la Universidad de Chile y actualmente trabaja como CTO de NTENT, una empresa de búsqueda semántica y asistentes de voz inteligentes en California.
Él es probablemente uno de los chilenos que más sabe de la Web en el mundo. Es también director de programas de posgrado en ciencias de datos de la Northeastern University en el campus del Silicon Valley. Además, investigador tiempo parcial de la Universitat Pompeu Fabra en Barcelona y de la Universidad de Chile en Santiago.
Hasta febrero de 2016 fue vicepresidente de investigación de Yahoo! Labs, donde lideró equipos en Estados Unidos, Europa, Medio Oriente y América Latina.
Obtuvo un Ph.D. de la Universidad de Waterloo en 1989 con una tesis en algoritmos eficientes para buscar en texto, supervisado por Gastón Gonnet, y en 2018 en España fue premiado con el premio nacional de Informática aplicada.
Baeza Yates ha realizado destacadas investigaciones sobre algoritmos y estructuras de datos, recuperación de información, búsqueda y minería de datos en la Web además de ciencia de datos.
El valor de los datos
El modelo actual de la Web está basado en publicidad, cuenta Baeza-Yates desde Segovia, España, donde está participando en un congreso que cofundó hace 25 años, SPIRE. Para que este modelo de negocio funcione necesita que los usuarios compartan sus datos. “Esto tiene dos facetas, una positiva y otra negativa. El lado bueno es que la publicidad permite que existan servicios gratuitos, ya que sin estos se ampliaría la desigualdad de oportunidades, porque de lo contrario solo podrían acceder a estos servicios aquellas personas que pueden pagar. El lado negativo es cuando las empresas recolectan más datos de los necesarios y se llega a extremos de vulnerar la privacidad, identificar gente e incluso manipular la opinión publica en el área política».
Una solución posible para este dilema, según el ingeniero de la Universidad de Chile, es generar una regulación que ponga un límite a los datos que las empresas pueden saber de ti. “A futuro podríamos generar una aplicación para el celular del tipo prueba de conocimiento cero (zero knowledge proof), que usa técnicas criptográficas, donde los usuarios entregan datos verdaderos, pero sin dar más detalles. De esta forma las personas podrían hasta negociar con sus datos y recibir servicios premium o incluso dinero por parte de las empresas».
“Los datos tienen valor, continua Baeza-Yates, pero hay datos más valiosos que otros, hay gente más interesante que otra y hay personas que hacen cosas más interesantes que otras. De este modo la relación con las empresas irá más allá del nivel estrictamente legal, cuando las empresas comiencen a pagar por los datos y compartan las ganancias que reciben por la publicidad. Cuando Google comience, todos los demás lo seguirán».
Para Baeza-Yates, el teléfono celular será una herramienta que regulara la relación entre personas y algoritmos. “Sería una buena idea que las personas pudieran recibir mediante esta regulación, sólo 5 avisos al día, y que las ganancias de las grandes empresas sean repartidas con los usuarios, así esta relación entre empresas y usuarios sería más justa».
El desierto digital y la desigualdad de participación
Hace unos meses, durante la inauguración de la sede de la factoría de inteligencia artificial del BBVA en Madrid, Baeza Yates dijo que “la sabiduría de las masas es una ilusión». En nuestros estudios hemos encontrado que el 4% de los usuarios activos escribió la mitad de las reseñas en Amazon (2015), que sólo el 2% de usuarios escribió la mitad de los tuits en Twitter (2011) y que la primera versión de la mitad de los artículos de la Wikipedia en inglés fue creada por un 0,04% de sus usuarios registrados, unas 2.000 personas (2015)».
La desigualdad de participación es la cola alargada de la gente, los que sólo miran, y el desierto digital es el efecto de la cola alargada de la atención de la gente, los sitios web a los que nadie llega. Ya lo dijo el premio Nobel de Economía Herbert Simon, “la riqueza de información genera pobreza de atención”. Esto quiere decir que hay mucho contenido que no ve nadie, que puede que incluso parte de él sea interesante, pero que nadie ve pues no aparece en las primeras páginas de los buscadores.
“Este desierto digital es casi infinito, pues la Web se ha hecho casi infinita por la cantidad de páginas dinámicas que podemos generar y ha crecido mucho más rápido que el número de personas conectadas a Internet», dice Baeza Yates.
En un artículo de 2015, intentó encontrar umbrales aproximados de ese desierto. Un 1,1% de los tuits son escritos por gente sin seguidores, un 31% de los artículos de la Wikipedia agregados o modificados en mayo de 2014 nunca fueron visitados en junio. «El tamaño de este desierto digital probablemente esté en la parte baja de esa franja 1%-31%», dice Baeza Yates. Y creciente.
La Web del futuro y asesores inteligentes
“El futuro de la Web será la unión de las personas con la Internet de las Cosas, ya que en 2025 la Internet tendrá 7 veces más sensores que personas y los seres humanos tendremos ayudantes inteligentes que actuarán de mediador con estos sensores, un Alexa más inteligente, donde cada habitación completa puede ser un dispositivo inteligente. Este ayudante será esencial para comunicarnos y entregarnos posibilidades, para que nos enseñe lo que podemos hacer en cada lugar. Por otra parte, el celular se convertirá en una especie de Pepe Grillo que nos alertará cuando estemos siendo afectados por un sesgo computacional o cuando estemos siendo parte de alguna decisión tomada por un algoritmo. Incluso cuando nuestras propias acciones estén siendo manipuladas o estemos actuando en forma sesgada, algo que a las personas más radicales no les va a gustar”, recalca Ricardo Baeza-Yates.
Esto último es muy importante, ya que en política, dice el actual CTO de NTENT, “existen burbujas de pensamiento, las personas creen que compartiendo buenas ideas y argumentos serán escuchados y podrán convencer a alguien distinto a ellos, pero en la práctica no es así, pues la mayoría de nuestros contactos en las redes sociales son gente que piensa igual a nosotros. Y si recibimos datos falsos que están de acuerdo con lo que pensamos, los confirmamos, el sesgo cognitivo más peligroso que existe. Pepe Grillo puede ser la diferencia entre ser manipulados o no».