Ir al contenido

Wikipedia discusión:Bot/respaldo

Contenido de la página no disponible en otros idiomas.
De Wikipedia, la enciclopedia libre

Interlanguage specialities at eo:[editar]

I'm asking for permission to use KocjoBot (Python Wikipedia bot) on this WP. Primary mission will be updating interwiki links of all WP. So far the bot was and is running on :sl, :en:, :bs, :hr and :sr. Regards, --KocjoBot 20:47 23 nov 2005 (CET)

The place to do it is the local Village Pump. This page is for requests to bot operators. It would be nice if you could prove that you speak enough Spanish to be able to handle ambiguous cases, too. It's sort of an unofficial must-have. Taragüí @ 11:24 24 nov 2005 (CET)

Petición[editar]

Trasladado aquí

Traido del café[editar]

Carrera desenfrenada por correr un bot interwikis[editar]

¿Alguien ha visto cuantos bots para agregar enlaces interwiki corren cada día? Por ejemplo al escribir este mensaje estaban corriendo dos, ambos peleándose (imagino yo) los artículos que comienzan por L. Para ver el estado de la pelea abran la página de cambios recientes y seleccionen la opción mostrar bots.
Otros días creo haber visto más de cuatro bots trabajando al mismo tiempo. No he leído como funcionan, pero por el orden en que modifican las páginas pareciera que abren por turno cada una de las setentipicomil páginas de Wikipedia en castellano, buscan una o más de las páginas enlazadas por interwikis en una o varias de las otras wikipedias y se traen los interwikis adicionales que allí encuentran (también producen una lista de cambios para que bots en la Wikipedia en otros idiomas sepan cuales páginas cambiar). Una vez completada la vuelta arrancan de nuevo y así, ad vitam eternam. ¿Sería posible que los conductores de bots de interwiki, que imagino tienen las mejores intenciones, nos dieran la oportunidad de usar Wikipedia a los otros usuarios? (exageración hecha a propósito) Bastaría simplemente que se asignen “turnos de trabajo.” Se abre una lista con quienes están interesados en correr un bot que agregue interwikis y cada uno da una vuelta completa, o trabaja por un mes, y cede el turno a otro bot. Si lo desea que se anote nuevamente al final de la lista de turnos para una nueva vuelta. Obtendríamos el mismo resultado a un costo de conexión con el servidor bien inferior (a manera de ejemplo por este artículo pasaron tres bots este mes y ya hay tres veces más modificaciones de bots que de usuarios).

¿Opiniones? --Boticario 22:49 29 nov 2005 (CET)
Bueno, parece que el fregar se va a acabar... lo que no sabemos es exactamente cuándo. --Dodo 23:30 29 nov 2005 (CET)
¿Sabes cuanto tarda un bot en dar la vuelta a Wikipedia? ¿Sabes que los operadores de bots muchas veces tienen cuentas en varias wikis, y las aparentes coincidencias pueden deberse (por ejemplo) a que estén trabajando uno en la L de la wiki gallega y otro en la L de la wiki holandesa? ¿Sabes que hay muchas maneras de correr un bot (con o sin atención manual, con o sin sugerencias, etc.) y que dejarle el trabajo a un sólo operador equivale a dejar de hacerlo, porque supera con creces lo que una persona puede absorber?
Hay apenas un puñado de bots registrados. La mayoría no hace interwikis automáticos, sino que corre con el control de un supervisor. No tendría el menor sentido imponer más restricciones que las que ya hay. Taragüí @ 11:47 30 nov 2005 (CET)
¿Cuáles restricciones? Las que existan no son transparentes dado que Wikipedia:Bot no menciona ninguna, salvo registrarse. lo que se obtiene hasta ahora con sólo pedirlo. --Boticario 14:10 30 nov 2005 (CET)
Un robot-adicto como yo también cree que hay sobre-bot-interwikiciismo, o sea, muchos bots corriendo el script de interwikis y floodeando continuamente los historiales con lo que es más fácil que se escapen vandalismos en nuestra lista de seguimiento y cosas de ese estilo. Personalmente me parece el robot más aburrido y nunca uso ese script, además, creo que a pesar de lo que dice taragüí todos lo usan(mos) en modo autónomo, porque si no es realmente aburrido. Tal vez deberíamos usar más los robots para desambiguaciones o cosas personalizadas, los últimos trabajos de Orgullobot han sido geniales, etiquetando imagenes duplicadas en commons o artículos en los que hay una imagen que no existe. Conclusión, que el robot de interwikis está muy bien pero con correrlo semanalmente debería ser más que suficiente. Saludoooooos Yrithinnd (/dev/null) 15:33 30 nov 2005 (CET)
Sólo una apreciación: sobre-bot-interwikiciísmo lleva acento en la i. XD --Kokoo !! 17:29 30 nov 2005 (CET)
Pues yo no lo corro jamás de otro modo que con atención manual. Es muy aburrido, verdad, pero lo tengo en el background mientras hago otras cosas. O lo uso para desambiguar. O para corregir enlaces. Y nunca he notado que se me perdiera algo en la lista de seguimiento por ello.
Las restricciones son las que ves: pedir y obtener el consenso de la comunidad, que lo dará según la confianza que le merezca el peticionario. No es poco. Y los bots no autorizados se bloquean apenas vistos (yo lo he hecho unas cuantas veces ya). Taragüí @ 16:37 30 nov 2005 (CET)
Tomé una muestra del 50% de los (25) bots registrados. Eliminé los que no corren desde hace más de un mes y los que han corrido otra cosa que interwikis en sus últimas 500 modificaciones. Encontré tres bots que parecen correr de forma automática y dos que lo hacen de forma manual (criterio: inserción del primer interwiki de un artículo). Extrapolando a la población completa daría que hay aproximadamente seis bots que corren interwikis en forma automática cuando uno o dos sería suficiente. Esto representa 75.000 x 4 = 300.000 páginas bajadas de forma innecesaria desde los servidores de la Fundación cada vez que esos bots dan una vuelta a toda Wikipedia, ciclo que parece durar alrededor de 25 días (?).
En discusiones con usuarios que manejan bots me ha quedado el sabor de que ellos piensan que los recursos de la Fundación son en la práctica ilimitados, por lo que vale la pena la ganancia marginal de correr seis bots de interwikis en lugar de uno o dos. Esa ganancia es obtener exactamente los mismos interwikis, pero en un tiempo menor al ciclo de recorrido promedio de uno o dos bots.
Nombre Último cambio ¿Corre manual?
C-3POrao 28 nov No encontré evidencia en el historial de que corra en modo manual
Eskimbot 23 nov No encontré evidencia en el historial de que corra en modo manual
Chobot 30 nov No encontré evidencia en el historial de que corra en modo manual
FlaBot 30 nov Hay evidencias en el historial de que corre en modo manual
LeonardoRob0t 30 nov Hay evidencias en el historial de que corre en modo manual
--Boticario 18:37 30 nov 2005 (CET)
Pfff, órale, Boticario. Paramos los bots y te pones a buscar interwikis tú, ¿vale?--Orgullomoore - § 18:57 30 nov 2005 (CET)
No hombre, simplemente se refiere a no correrlos con tanta frecuencia, además en los cálculos de Boticario faltan datos, recorrer las 75000 páginas tarda unas 3 horas, el script de interwikis tiene que buscar 75000 páginas y sus correspondientes enlaces en otros idiomas, lo que supondrá en muchas casos multiplicar esa cifra por 4 ó 5 interwikis que tienen todos las páginas (si no son más) Yrithinnd (/dev/null) 19:19 30 nov 2005 (CET)
Afinando los datos con la información que aporta Yrithinnd nos queda que al correr uno o dos bots de interwikis en lugar de seis se ahorraría la escandalosamente grande cantidad de 1.200.000 páginas descargadas inútilmente por los bots en exceso y eso cada 25 días aproximadamente.
¿Realmente consideran que es demasiado pedir que se organicen por turnos? --Boticario 19:36 30 nov 2005 (CET)
Se los podría hacer funcionar por días. No sé nada sobre cómo se programan, pero quizás poner cada uno a una parte sólo de los artículos (uno de la A a la F, otro de la G a la...). Seguro que hay unas cuantas maneras de no hacer trabajo redundante. --Davidsevilla (dime, dime) 20:06 30 nov 2005 (CET)
Boticario olvida que:
  • las páginas descargadas por un bot son sensiblemente menos exigentes que las hechas por un navegador manual; normalmente bajan paquetes de 60 mediante la función de exportación, y no solicitan más que el texto exacto, a diferencia de los varios hits HTTP que representa una conexión manual;
  • varios bots operan también en otras wikis; si yo corro a Rembiapo pohyiete en w:ca, consultará también esta wiki para hacer los añadidos correspondientes. Lo mismo si Quistnix corre en w:nl, et cetera ad nauseam. Yo no puedo hacer lo que él hace (añadir los enlaces que hay de w:nl a w:es, pero no viceversa) ni él lo que yo (lo propio en w:ca);
  • los recursos no son ilimitados, cierto. Podrían haberse dejado de fastidiar con convertir todos los PNG a SVG (que imponen la carga extra de renderizar), por ejemplo. Dudo de que los bots representen un porcentaje muy elevado del insumo de recursos. Las estadísticas dadas más arriba no demuestran nada (sobre todo desde el momento que ignoran la optimización realizada por el uso de Especial:Export) a falta de comparación con otras prácticas optimizables.
En fin, no es que yo no considere que podríamos pasar de algún bot de los existentes. Pero la argumentación de Boticario me parece un caso típico de síndrome de Frankenstein (¿algún fan de la SF que se atreva al artículo?). Sugerir que es por el uso de bots que "el resto de usuarios no puede usar Wikipedia" me parece francamente pérfido. Taragüí @ 10:02 1 dic 2005 (CET)
Hola, tratas de ponerme palabras que no he dicho y aparentemente así desviar la discusión de lo estrictamente técnico a otros planos. No pongo en duda la utilidad de bots, sino el desperdicio en el que los usuarios que los manejan están incurriendo al correr en promedio seis bots de interwikis en forma automática al mismo tiempo:
  • Si las páginas descargadas por un bot son menos pesadas, quiere decir que 1.200.000 se multiplica por un valor más pequeño, pero siguen siendo 1.200.000 descargas inútiles. El promedio de caracteres de un artículo de Wikipedia en castellano es de 2.722 caracteres. Al menos esos 2.722 caracteres son descargados en promedio por cada una de esas lecturas.
  • Las 1.200.000 descargas desperdiciadas no pretenden contar el trabajo de esos bots cuando ese trabajo se origina desde otro idioma (listas de cambios). Igualmente no cuenta los bots que vienen a la Wikipedia en castellano y la recorren sin realizar cambios.
  • Tampoco cuentan otros trabajos útiles de los bots. Ellos incluyen el paso de a lo sumo un par de bots de interwikis en modo automático por período, el paso de tantos bots de interwikis que funcionen en modo manual como sea necesario, los bots de detección de supuestos vandalismos u errores ortográficos, los de corrección de enlaces a imágenes, etc. Ninguna de esas actividades está cuestionada por este planteamiento y fueron (o intentaron ser) excluidas de las cuentas que aparecen más arriba.
Bajando el nivel de la discusión un instante, me parece que sugerir que 1.200.000 descargas es una cifra despreciable sin aportar datos técnicos parece un acto de encubrimiento.
De las 685.000 descargas diarias de páginas de wikipedia en castellano (según las estadísticas oficiales), unas 48.000, es decir el 7%, corresponderían a descargas inútiles de bots. Si hay error en alguno de los elementos que llevaron a este cálculo, por favor indicarlo para que sea corregido.
--Boticario 12:16 1 dic 2005 (CET)
Has dicho textualmente: "¿Sería posible que los conductores de bots de interwiki, que imagino tienen las mejores intenciones, nos dieran la oportunidad de usar Wikipedia a los otros usuarios? (exageración hecha a propósito)". Un caso típico de paralipsis, íntegramente contenido en palabras que síhas dicho.
No he dicho que 1.200.000 descargas sean despreciables. He dicho que no hay pruebas de que haya 1.200.000 descargas de más. Para empezar, los datos son erróneos o sesgados; mi bot tarda 105 horas, no 3, en recorrer la base de datos buscando interwikis. Para seguir, no hay pruebas de que los bots (corran solos o no) recorran la base de datos entera. Imagino que habrá gente que los corre usando -number:x, haciendo la base de datos por trozos. Para finalizar, no veo ninguna prueba de que esas descargas estén desaprovechadas, salvo en la concepción estrechamente productivista que ignora que una tarea de verificación (aunque no produzca ninguna modificación) es un trabajo necesario.
Es posible que un sólo bot perfecto (que estuviese registrado en todas las wikis e hiciese contínua y regularmente el ciclo de la base de datos en todos los idiomas) hiciera perfectamente bien el trabajo. No hay tal bot, y de hecho es posible que la lentitud de los cálculos lo hiciese impráctico. Es una situación, muy habitual por otra parte, en la que un incremento de la precisión o eficiencia es una pérdida en velocidad; no veo una estimación fiable de la tasa de intercambio entre los dos bienes que me haga pensar que es preferible reducir la cantidad de bots.
Por último, y que te quede claro, no me opongo a proyectos de coordinación; me opongo a la retórica populista que has empleado y que insisto en calificar de pérfida. En lugar de ir al Café a ventilar tus sospechas de que los operadores de bots son responsables de las intermitencias en el funcionamiento de los servidores, podrías haber venido aquí con amabilidad a presentar una propuesta. Por mi parte, estás cosechando lo que sembraste. Taragüí @ 13:16 1 dic 2005 (CET)
Aunque ya he dicho que me parece excesivo el uso del interwiki.py. La cifra de 1.200.000 me parece una exageración. Probablemente no sean más de 300.000, muchísimas páginas no tienen interwikis y la media de interwikis andará en 4 ó 5 por página. Y por otra parte Taragüí tiene razón en la forma de descargar la información, además se puede configurar el robot para decir las páginas que descarga por "hit" en mi caso son 250 páginas. Las descargas son en formato raw, es decir, se descarga, única y exclusivamente el código raw, evitando la descarga de imágenes y la renderización del código wiki en html, que hoy por hoy es uno de los cuellos de botella de la granja de servidores (lo de renderizar). Por otra parte, todas las wikis usan los mismos servidores. Teniendo en cuenta que es: sólo representa el 3% de las visitas, tal vez deberías ir a en: a pedir explicaciones ya que ellos se llevan más del 60% de las consultas. El problema de rendimiento es de la fundación, un único usuario desde su casa (o 6, digo este número por los interwikis simultaneos) dificilmente colapsarán un proyecto que usan miles y miles de personas. Saludos Yrithinnd (/dev/null) 13:37 1 dic 2005 (CET)


¿Es una exageración el decir que el exceso de bots entorpece el uso de Wikipedia? si lees el texto que acabas de citar te darás cuenta que estoy de acuerdo contigo. Por otra parte, gracias por el consejo de no ventilar los problemas que considero graves en el café sino en un lugar más apropiado, pero ya lo intenté y la respuesta fue de rechazo por uno de los manejadores de bots. No dijiste (cito:) «He dicho que no hay pruebas de que haya 1.200.000 descargas de más», dijiste (cito:) «Sugerir que es por el uso de bots que "el resto de usuarios no puede usar Wikipedia" me parece francamente pérfido.» sin mencionar cifra alguna en ese mensaje. Por ello te solicité que regresaras al plano de las cifras en el que ahora te sitúas. Por mi parte, he afirmado que no conozco el detalle del funcionamiento de los bots, pero el número 1.200.000 descargas proviene de cuatro elementos fácilmente ajustables de forma independiente, su corrección hasta una cifra "más real" es por lo tanto de extrema sencillez. Como no están de acuerdo con este cálculo les pido ayuda para ajustarlo:

  1. A: Número de artículos de Wikipedia: 75.000
  2. B: Número de bots que recorren wikipedia en castellano buscando cuales interwikis agregar a cada artículo estimado en 6; mi hipótesis es que dos de ellos harían un trabajo de igual calidad por lo que habría 4 en exceso:
  3. C: Número de artículos en promedio en otros idiomas visitados por el bot para revisar un artículo local. No conozco esa cifra pero utilicé un dato aportado por Yrithinnd que la situaba en 4. Si lo corrijo con la cantidad de enlaces interwikis de Wikipedia en castellano (438.000, gracias bots) entre el número de archivos da 5,8 enlaces interwiki por artículo el resultado crecería.
Aunque no interviene en este cálculo cuando se cuenta por artículos, la forma de descarga optimizada de los bots ya fue tomada en cuenta, pero no veo como, el número de bytes por artículo en promedio sería inferior a 2.722 caracteres que es el tamaño promedio del fuente de un artículo. Simplemente opté por no hacer el cálculo en gygabytes sino en número de artículos, que es algo más cercano a lo que manejamos todos aquí.
A × B × C = 75.000 × 4 × 4 = 1.200.000
Contado en datos descargados eso equivale a 1.200.000 × 2.722bytes /(10243) = 3 gygabytes descargados en exceso.
--Boticario 18:10 1 dic 2005 (CET)

Una experiencia reciente[editar]

En los últimos días estaba experimentando con mi nuevo bot, como una forma de revisar que su funcionamiento no perjudica a la Wikipedia (en el sentido de que no exige un trabajo extra de verificación manual para corregir desastres). Como escenario de pruebas recorrí la totalidad de la base de datos de Wikipedia en ladino, alrededor de 50 páginas en total (no 75.000 como aquí), la mayoría sin interwikis o con un solo interwiki agregado manualmente antes del proceso. Sólo puedo decir que el proceso no tardó tres horas... tras más de 12 horas el proceso no ha terminado.

Segundo punto, aunque esto es un poco de especulación de mi parte: creo que el bot, para trabajar, utiliza el código raw de la base de datos y no el HTML que usamos la mayoría de los usuarios. Si esto es así el impacto sobre los servidores es relativamente bajo porque el mayor trabajo que realiza la granja de servidores no es la transferencia de información sino la generación de HTML a partir del código mediawiki. Corrijanme si estoy equivocado.

Carlos Th (M·C) 15:29 2 dic 2005 (CET)


Hola, si el modo raw es lo mismo que se obtiene a través de la página Especial:Export efectivamente contiene básicamente el fuente del artículo (lo que aparece en la caja de edición de artículos). Ahora bien, en mis cuentas sobre tráfico de bots de interwikis sólo tomo en cuenta el tamaño promedio del texto fuente del artículo, sin expansión de plantillas ni imágenes ni encabezados y sin embargo la suma que da sigue siendo muy grande.
Con respecto a que trabajo realiza la granja de servidores:
  • Para la inmensa mayoría de los usuarios que son los que no se conectan, las páginas son formateadas en html una sola vez y almacenadas en un cache. Cuando cambia el texto de la página, o el de una plantilla que aparece en su texto, se borra la página del cache y a la primera consulta de usuario anónimo ésta será re-formateada y almacenada (Esto es una aproximación, el cache squid puede ser entonado para no guardar páginas con poca frecuencia de visita, etc.).
  • Para los usuarios conectados, las páginas son formateadas en cada solicitud.
Las estadísticas publicadas no indican la relación precisa entre páginas descargadas por usuarios anónimos contra páginas descargadas por usuarios conectados.
--Boticario 18:20 2 dic 2005 (CET)
Yo no sé de tantos números como Boticario, pero lo que sí sé es que siempre me sorpredo de la de interwikis que no hay. Si te dedicas a Interwiki Link Checker verás de lo que estoy hablando. Conclusión: hay demasiado pocos bots trabajando en interwikis -Ecelan 11:02 3 dic 2005 (CET)
El robot no es capaz de encontrar nuevos interwikis, si una entrada no tiene ningún interwiki, el robot no se la añadirá, únicamente añadirá todos los interwikis posibles una vez que tenga uno, entonces el robot se encarga de seguir ese interwiki y ver los interwikis de la wikipedia correspondiente, así con todos los interwikis que va encontrando y cuando los ha revisado todos decide añadir, borrar y modificar. A boticario paso de responderle porque está encerrado en su opinión de que la lentitud wikipédica se debe a los robots, cosa que ni por asomo es cierta, el ancho de banda de wikipedia es el menor de los problemas que tiene la fundación. Yrithinnd (/dev/null) 19:12 3 dic 2005 (CET)
Gracias por responder en mi nombre mientras disfrutaba de un fin de semana en la playa. Estaré ausente también entre martes y viernes, por favor responde mis mensajes e interpreta mi ausencia con igual prestancia.
Sin embargo, debo decir que a tu respuesta hubiera agregado un matiz y es que el usuario que maneja bots puede colaborar con el proyecto que menciona Ecelan cuando lo hace funcionar en modo manual. Por supuesto los bots que funcionan en modo manual fueron explícitamente excluidos de las cuentas de desperdicio, las cuales sólo incluyen los bots corriendo automáticamente en exceso de dos.
También puse empeño en la tarea que me asignaste, (cito): «tal vez deberías ir a en: a pedir explicaciones ya que ellos se llevan más del 60% de las consultas». Allí encontré que los bots que van a recorrer de forma automática Wikipedia en inglés deben registrar esa característica y hay ocho de ellos actualmente registrados para ello. Ahora, hasta 8 bots por 850.326 artículos representa
un bot automático por cada 100.000 artículos en la Wikipedia en inglés
mientras que
en la Wikipedia en castellano tenemos en promedio
un bot automático por cada 12.500 artículos
(Allí otros doce bots hacen Interwikis a partir de listas provenientes del proceso de Wikipedia en otros idiomas). Con uno que otro más que se ponga a funcionar de forma automática llegaremos a igual núemro de bots recorriendo Wikipedia en castellano en forma automática por diez veces menos de artículos. Esta es una segunda cuenta independiente de la primera (independiente salvo por el número de bots recorriendo Wikipedia en castellano en forma automática) que mostraría igualmente el alto desperdicio en el que incurriríamos aquí.
--Boticario 23:55 4 dic 2005 (CET)

¿como funciona?[editar]

Bueno,¿como es que funciona un bot? ¿es automatico o uno lo programa?. bueno... eso. -Clerc 23:12 16 oct 2007 (CEST)