En toda la web, hay millones de conjuntos de datos sobre casi cualquier tema que le interese. Google DataSet Search nos pone fácil encontrar estos datos. Tiene ya acceso a casi 25 millones de conjuntos de datos y este número sigue creciendo. Los datos no los tiene Google, sino que DataSet Search ofrece un lugar para buscar y encontrar enlaces a los datos que buscamos.
Las técnicas de Machine Learning necesitan datos para aprender. De hecho, cuantos más datos mejor. Cuando estemos resolviendo algún problema, podemos recurrir a DataSet Search para encontrar datos adicionales que puedan ser relevantes y de ayuda para resolverlo.
Por ejemplo, si estamos haciendo predicciones relacionadas con el esquí, podemos encontrar datos sobre los beneficios de las estaciones de esquí o el porcentaje de lesiones.
Novedades en Google Dataset Search
Durante su fase beta, muchos usuarios lo probaron y proporcionaron comentarios que permitieron a Google mejorar su DataSet Search. Desde el 23 de Enero de 2020 está oficialmente fuera de la fase beta.
Algunas de la novedades en la versión oficial incluyen:
- Filtrado: ahora puede filtrar los resultados según los tipos de conjunto de datos que desee (por ejemplo, tablas, imágenes, texto). Otra posibilidad es filtrar sólo los conjuntos de datos que estén disponibles de forma gratuita.
- Visualización geográfica: si un conjunto de datos se trata de un área geográfica, puede ver el mapa.
- Dispositivos móviles: ahora Google DataSet Search funciona también en dispositivos móviles
- Calidad de metadatos: la nueva versión incorpora una mejora significativa en la calidad de las descripciones de los conjuntos de datos.
Además, Google ofrece la posibilidad de que los datos sean fácilmente indexados por Google DataSet Search a todas las entidades que publiquen datos. Para ello, sólo hay que usar un estándar abierto para describir las propiedades de del conjunto de datos en página web de dicha entidad.
¿Quién usa DataSet Search?
Aunque lo puede utilizar todo el mundo, el perfil de los usuarios más comunes son:
- investigadores académicos: así encuentran datos para desarrollar sus hipótesis
- estudiantes: que buscan datos gratuitos para su proyecto fin de carrera, fin de grado, etc.
- analistas de negocios y científicos de datos: buscan, por ejemplo, información sobre aplicaciones móviles o establecimientos de comida rápida
Las consultas más comunes incluyen educación, clima, cáncer, crimen, fútbol y perros.
¿Qué conjuntos de datos puedes encontrar?
Dataset Search nos brinda una instantánea de los datos que existen en la Web. Los temas más destacados son las geociencias, la biología y la agricultura. La mayoría de los gobiernos del mundo publican sus datos y los describen con schema.org. Estados Unidos lidera el número de conjuntos de datos de gobierno abiertos disponibles, con más de 2 millones. El formato de datos más popular son las tablas. Puede encontrar más de 6 millones de ellas en Dataset Search.
La cantidad de conjuntos de datos que puede encontrar en la búsqueda de conjuntos de datos continúa creciendo. Si tienes un conjunto de datos en tu web y lo describes usando schema.org, un estándar abierto, otros pueden encontrarlo en el DataSet Search de Google.
Fuente: https://blog.google/products/search/discovering-millions-datasets-web/