Google Dataset Search – descubre conjuntos de datos

En toda la web, hay millones de conjuntos de datos sobre casi cualquier tema que le interese. Google DataSet Search nos pone fácil encontrar estos datos. Tiene ya acceso a casi 25 millones de conjuntos de datos y este número sigue creciendo. Los datos no los tiene Google, sino que DataSet Search ofrece un lugar para buscar y encontrar enlaces a los datos que buscamos.

Las técnicas de Machine Learning necesitan datos para aprender. De hecho, cuantos más datos mejor. Cuando estemos resolviendo algún problema, podemos recurrir a DataSet Search para encontrar datos adicionales que puedan ser relevantes y de ayuda para resolverlo.

Por ejemplo, si estamos haciendo predicciones relacionadas con el esquí, podemos encontrar datos sobre los beneficios de las estaciones de esquí o el porcentaje de lesiones.

Resultados en Google DataSet Search para la palabra skiing
Algunos de los resultados de búsqueda para la consulta «skiing», que incluyen conjuntos de datos que van desde las velocidades de los esquiadores más rápidos hasta los ingresos de las estaciones de esquí.

Novedades en Google Dataset Search

Durante su fase beta, muchos usuarios lo probaron y proporcionaron comentarios que permitieron a Google mejorar su DataSet Search. Desde el 23 de Enero de 2020 está oficialmente fuera de la fase beta.

Algunas de la novedades en la versión oficial incluyen:

  • Filtrado: ahora puede filtrar los resultados según los tipos de conjunto de datos que desee (por ejemplo, tablas, imágenes, texto). Otra posibilidad es filtrar sólo los conjuntos de datos que estén disponibles de forma gratuita.
  • Visualización geográfica: si un conjunto de datos se trata de un área geográfica, puede ver el mapa.
  • Dispositivos móviles: ahora Google DataSet Search funciona también en dispositivos móviles
  • Calidad de metadatos: la nueva versión incorpora una mejora significativa en la calidad de las descripciones de los conjuntos de datos.

Además, Google ofrece la posibilidad de que los datos sean fácilmente indexados por Google DataSet Search a todas las entidades que publiquen datos. Para ello, sólo hay que usar un estándar abierto para describir las propiedades de del conjunto de datos en página web de dicha entidad.

¿Quién usa DataSet Search?

Aunque lo puede utilizar todo el mundo, el perfil de los usuarios más comunes son:

  • investigadores académicos: así encuentran datos para desarrollar sus hipótesis
  • estudiantes: que buscan datos gratuitos para su proyecto fin de carrera, fin de grado, etc.
  • analistas de negocios y científicos de datos: buscan, por ejemplo, información sobre aplicaciones móviles o establecimientos de comida rápida

Las consultas más comunes incluyen educación, clima, cáncer, crimen, fútbol y perros.

Búsqueda de conjunto de datos -
Algunos de los resultados de búsqueda para la consulta «fast food establishment» («establecimiento de comida rápida»)

¿Qué conjuntos de datos puedes encontrar?

Dataset Search nos brinda una instantánea de los datos que existen en la Web. Los temas más destacados son las geociencias, la biología y la agricultura. La mayoría de los gobiernos del mundo publican sus datos y los describen con schema.org. Estados Unidos lidera el número de conjuntos de datos de gobierno abiertos disponibles, con más de 2 millones. El formato de datos más popular son las tablas. Puede encontrar más de 6 millones de ellas en Dataset Search.

La cantidad de conjuntos de datos que puede encontrar en la búsqueda de conjuntos de datos continúa creciendo. Si tienes un conjunto de datos en tu web y lo describes usando schema.org, un estándar abierto, otros pueden encontrarlo en el DataSet Search de Google.

Fuente: https://blog.google/products/search/discovering-millions-datasets-web/

Deja un comentario