Common Crawl

Common Crawl
Información general
Dominio	commoncrawl.org
Tipo	Empresa punto com; Organización sin fines de lucro
Idiomas disponibles	Inglés
En español	No
Gestión
Lanzamiento	2008
	[editar datos en Wikidata]

Common Crawl (literalmente rastreo común) es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público.^[1]^[2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008.^[3] Completa el rastreo en general una vez al mes.^[4]

Common Crawl fue fundada por Gil Elbaz.^[5] También están Peter Norvig y Joi Ito como asesores de la organización sin fines.^[6] Sus rastreadores (crawlers) respetan las políticas nofollow y robots.txt. El código fuente usado para procesar el conjunto de datos de Common Crawl es abierto y se encuentra disponible públicamente.

Historia[editar]

Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012.^[7]

La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de ese año.^[8] Los archivos de Common Crawl solo incluían archivos .arc anteriores.

En diciembre de 2012, blekko donó los metadatos del motor de búsqueda Common Crawl blekko, el recopilado de los rastreos que realizó de febrero a octubre de 2012.^[9] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y evitar el spam, la pornografía y la influencia de un SEO excesivo".

En 2013, Common Crawl comenzó a usar el webcrawler Nutch de Apache Software Foundation en lugar de un rastreador personalizado.^[10] Common Crawl cambió de usar archivos .arc a archivos .warc a partir de noviembre de 2013.^[11]

Historial de datos de Common Crawl[editar]

Los siguientes datos se han recopilado del blog oficial de Common Crawl

Fecha	Tamaño en TiB	Miles de millones de páginas	Comentarios
Octubre de 2022	380	3,5	Rastreo realizado en septiembre y octubre de 2022
Abril de 2021	320	3,1
Noviembre de 2018	220	2,6
Octubre de 2018	240	3,0
Septiembre de 2018	220	2,8
Agosto de 2018
Julio de 2018	255	3,25
Junio de 2018	235	3,05
Mayo de 2018	215	2,75
Abril de 2018	230	3,1
Marzo de 2018	250	3,2
Febrero de 2018	270	3,4
Enero de 2018	270	3,4
Diciembre de 2017	240	2,9
Noviembre de 2017	260	3,2
Octubre de 2017	300	3,65
Septiembre de 2017	250	3,01
Agosto de 2017	280	3,28
Julio de 2017	240	2,89
Junio de 2017	260	3,16
Mayo de 2017	250	2,96
Abril de 2017	250	2,94
Marzo de 2017	250	3,07
Febrero de 2017	250	3,08
Enero de 2017	250	3,14
Diciembre de 2016	-	2,85
Octubre de 2016	-	3,25
Septiembre de 2016	-	1,72
Agosto de 2016	-	1,61
Julio de 2016	-	1,73
Junio de 2016	-	1,23
Mayo de 2016	-	1,46
Abril de 2016	-	1,33
Febrero de 2016	-	1,73
Noviembre de 2015	151	1,82
Septiembre de 2015	106	1,32
Agosto de 2015	149	1,84
Julio de 2015	145	1,81
Junio de 2015	131	1,67
Mayo de 2015	159	2,05
Abril de 2015	168	2,11
Marzo de 2015	124	1,64
Febrero de 2015	145	1,9
Enero de 2015	139	1,82
Diciembre de 2014	160	2,08
Noviembre de 2014	135	1,95
Octubre de 2014	254	3,7
Septiembre de 2014	220	2,8
Agosto de 2014	200	2,8
Julio de 2014	266	3,6
Abril de 2014	183	2,6
Marzo de 2014	223	2,8	Primer rastreo de Nutch
Enero de 2014	148	2,3	Rastreos realizados mensualmente
Noviembre de 2013	102	2	Datos en formato de archivo Warc
Julio de 2012	-	-	Datos en formato de archivo Arc
Enero de 2012	-	-	Conjunto de datos público de Amazon Web Services
Noviembre de 2011	40	5	Disponible por primera vez en Amazon

Premio Norvig Web Data Science[editar]

En consonancia con SURFsara, Common Crawl patrocina el Premio Norvig Web Data Science, un concurso abierto a estudiantes e investigadores en Benelux.^[12]^[13] El premio lleva el nombre de Peter Norvig, quien también preside el comité de evaluación del premio.

Referencias[editar]

↑ Rosanna Xia (5 de febrero de 2012). «Tech entrepreneur Gil Elbaz made it big in L.A.». Consultado el 31 de julio de 2014.
↑ «Gil Elbaz and Common Crawl». NBC News. 4 de abril de 2013. Consultado el 31 de julio de 2014.
↑ «So you're ready to get started». Consultado el 2 de junio de 2018.
↑ Lisa Green (8 de enero de 2014). «Winter 2013 Crawl Data Now Available». Consultado el 2 de junio de 2018.
↑ «Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222». This Week In Startups. 10 de enero de 2012.
↑ Tom Simonite (23 de enero de 2013). «A Free Database of the Entire Web May Spawn the Next Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014.
↑ Jennifer Zaino (13 de marzo de 2012). «Common Crawl To Add New Data In Amazon Web Services Bucket». Semantic Web. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014.
↑ Jennifer Zaino (16 de julio de 2012). «Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore». Semantic Web. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014.
↑ Jennifer Zaino (18 de diciembre de 2012). «Blekko Data Donation Is A Big Benefit To Common Crawl». Semantic Web. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014.
↑ Jordan Mendelson (20 de febrero de 2014). «Common Crawl's Move to Nutch». Common Crawl. Consultado el 31 de julio de 2014.
↑ Jordan Mendelson (27 de noviembre de 2013). «New Crawl Data Available!». Common Crawl. Consultado el 31 de julio de 2014.
↑ Lisa Green (15 de noviembre de 2012). «The Norvig Web Data Science Award». Common Crawl. Consultado el 31 de julio de 2014.
↑ «Norvig Web Data Science Award 2014». Dutch Techcentre for Life Sciences. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014.

Enlaces externos[editar]

Common Crawl en California, Estados Unidos
Common Crawl, repositorio de GitHub con el rastreador, bibliotecas y código de ejemplo
Grupo de discusión de Common Crawl
Blog de Common Crawl

Datos: Q12055316

[latimes-1] Rosanna Xia (5 de febrero de 2012). «Tech entrepreneur Gil Elbaz made it big in L.A.». Consultado el 31 de julio de 2014.

[pressheretv-2] «Gil Elbaz and Common Crawl». NBC News. 4 de abril de 2013. Consultado el 31 de julio de 2014.

[3] «So you're ready to get started». Consultado el 2 de junio de 2018.

[theverge-4] Lisa Green (8 de enero de 2014). «Winter 2013 Crawl Data Now Available». Consultado el 2 de junio de 2018.

[twist-5] «Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222». This Week In Startups. 10 de enero de 2012.

[technologyreview-6] Tom Simonite (23 de enero de 2013). «A Free Database of the Entire Web May Spawn the Next Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014.

[semanticweb_1-7] Jennifer Zaino (13 de marzo de 2012). «Common Crawl To Add New Data In Amazon Web Services Bucket». Semantic Web. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014.

[semanticweb_2-8] Jennifer Zaino (16 de julio de 2012). «Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore». Semantic Web. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014.

[semanticweb_3-9] Jennifer Zaino (18 de diciembre de 2012). «Blekko Data Donation Is A Big Benefit To Common Crawl». Semantic Web. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014.

[ccnutch-10] Jordan Mendelson (20 de febrero de 2014). «Common Crawl's Move to Nutch». Common Crawl. Consultado el 31 de julio de 2014.

[ccnov2013-11] Jordan Mendelson (27 de noviembre de 2013). «New Crawl Data Available!». Common Crawl. Consultado el 31 de julio de 2014.

[ccaward-12] Lisa Green (15 de noviembre de 2012). «The Norvig Web Data Science Award». Common Crawl. Consultado el 31 de julio de 2014.

[dtlsaward-13] «Norvig Web Data Science Award 2014». Dutch Techcentre for Life Sciences. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]