Tengo un tiempo llamando la atención sobre la brevedad de las redes sociales, y por eso siempre he visto los blogs como un medio más idóneo para resguardar nuestos pensamientos. De todas maneras, es indudable que medios como Twitter y Facebook se quedan con una importante cantidad de nuestras palabras. Yo solía guardar mis tuits en Evernote usando una receta de If This Then That que los archivaba automáticamente. Sin embargo, en septiembre pasado Twitter suspendió la funcionalidad de su API para que esta idea funcionara y desde entonces me quedé sin mi archivo de tuits.
La semana pasada descubrí que por fin Twitter activó en mi cuenta la función de poder descargar mi archivo de tuits (#TwitterArchive), algo que esperaba con ansias desde que Dick Costolo anunció que tendríamos esa posibilidad. El proceso para contar con tu archivo de tuits es muy simple, aunque el resultado es bastante burdo.
Consigue tu historial, paso a paso
- Entra a la configuración de tu cuenta de Twitter.
- Busca en el fondo si tienes un botón que hable de “Request your archive” o algo así. Si lo tienes, llama a la persona que te gusta y que no te atreves a decirle nada, porque estás de suerte.
- Pulsa el botón y espera. Normalmente es cuestión de un par de minutos pero si eres de los que tuitea hasta en cuántos pedazos rompieron las sillas en la fiesta de monos del PRD, puede que le tome a Twitter un buen rato armar tu archivo.
- Recibirás un correo como este cuando el asunto esté listo. Has clic en el enlace/botón y volverás a Twitter.
- Ingresa con tus datos si te habías salido y podrás descargar tu histórico con tooooda la plepla que has hablado en Twitter desde el primer tuit hasta el último antes de bajar el archivo.
- Recibirás un archivo con el sugerente, descriptivo, inesperado y asombroso nombre de tweets.zip. Dentro del mismo encontrarás algo como esto:
- ¿Ves el archivo index.html? Si haces doble clic en eso, se abrirá tu navegador y tendrás a tu alcance toda tu historia tuitera en pantalla. Todos tus tuits desde el principio de los tiempos, organizados por año y por mes, y con un eficiente buscador para que encuentres en un brinco lo que quieras buscar. Tu propio autogoogle tuitero.
Mis primeros tuits
El minisite que recibirás es bastante funcional y tiene la ventaja de que te permite ver rápidamente toda tu historia, año por año y mes por mes. Colocando el mouse sobre cada mes sabrás cuántos tuits hubo en ese período y hacer clic en cualquiera presentará tu timeline con bastante fidelidad a como se vería en ese momento.
Algo muy valioso es que todos y cada uno de los tuits están “vivos”. En cada uno encontrarás un enlace para verlo en el propio Twitter, desde donde puedes copiar el URL, embeberlo y básicamente hacer todo lo que podrías hacer con un tuit reciente.
En enero de 2009 fue que entré a Twitter. Yo había pospuesto usarlo porque no le encontraba sentido alguno ni lo entendía para nada. En esos momentos no tenía teléfono inteligente, así que le veía el chiste a usar Twitter si sólo iba a ser en la computadora (eso pensaba yo). Además, en esa época prehistórica realmente Twitter era feo y tosco. 🙁
Mucha gente ya mencionaba Twitter en otras redes (Facebook principalmente, así como en noticias y comentarios). A mediados de enero de 2009 me compré un Blackberry y por primera vez me interesé en tener una forma móvil de compartir pequeñas experiencias.
El 28 de enero de 2009 fue mi estreno en Twitter.
Pruebing Twitter…
— Darío MartínezBatlle (@dariomartinezb) January 28, 2009
Eso fue todo, así de simple, dos palabras y puntos suspensivos. Eso sí, escrito en perfecto espanglish. Una muestra fehaciente de que no estaba muy entusiasmado con Twitter es que mi segundo tuit llegó casi un mes después, el 26 de febrero.
Cómo se pone el Tuiter a bregar con SMS del cel? Un TUiterañépido pregunta…
— Darío MartínezBatlle (@dariomartinezb) February 26, 2009
Obviamente yo pensaba que Twitter funcionaba con un reguero de chinos detrás del servidor para responder cualquier disparate que se me ocurriera.
El tercero fue ese mismo día. Ya había aprendido a usar aplicaciones y estaba usando TwitterBerry (¿se acuerdan de eso?)
Puyando TwitterBerry…
— Darío MartínezBatlle (@dariomartinezb) February 26, 2009
Aparte de esos dos, en febrero de 2009 tuitié 10 veces más. Ya empezaba a mencionar a Vielka, quien en ese tiempo estuvo interna con dengue hemorrágico.
Vielka interna :'( ¿Porqué se enferman los hijos? ¿Porqué no se puede transferir su mal a los padres?
— Darío MartínezBatlle (@dariomartinezb) February 28, 2009
Y la primera vez que usé un enlace fue una foto de mi hija.
http://twitpic.com/1r843 Vielka con su osito Terry — Darío MartínezBatlle (@dariomartinezb) February 28, 2009
La primera vez que mencioné a alguien fue a Alexéi Tellerías, a quien felicitaba por su performance Secretos Amor-dazados.
@alexeitd Very bacano tu performance! Congratz!
— Darío MartínezBatlle (@dariomartinezb) March 6, 2009
En mayo de 2009 tuitié 663 veces y fue mi mes más “productivo” (love the irony) hasta que en marzo de 2010 cerré con 861. Abril, mayo y junio fueron meses de más de 700 tuits cada uno pero ninguno superó el record de marzo hasta que en julio me volví loco y tuitié 1,464 veces, para ser la primera vez que superaba el millar de tuits. Agosto del mismo año fue mi segundo mes con más de 1000 tuits, aunque lejos del record, y después de ahí todos los demás meses del 2010 fueron menores del millar, y en descenso hasta solo 431 en diciembre.
El año 2011 pasó completo y nunca pasé de 1000 tuits. Mi mes más intenso fue diciembre con 920, seguido por septiembre con 805. En el 2012 la cosa varió bastante. Tuve tres meses sobre 1000 tuits pero ninguno superó el record de julio de 2010. Junio de 2012 fue mi mes más prolífico con 1,366 tuits, seguido de cerca por mayo con 1,268 y diciembre con 1,197.
El año actual inició con enero casi alcanzando la marca de julio de 2010. El mes pasado fue el segundo en mi historia en que pasé de 1,400 tuits concluyendo con 1,424, apenas 40 tuits del record vigente hace casi tres años.
Estos hallazgos sin dudas son interesantes para cualquiera que quiera ver cómo se ha comportado en Twitter, pero difícilmente sea lo único que podemos aprender de nuestro #TwitterArchive. Ahora bien, para sacarle jugo a la información, tendremos que irnos un poco “a lo hondo” y ensuciarnos las manos con una buena y sana dosis de Excel. Veamos:
Lo mejor viene ahora
El minisite que provee el #TwitterArchive es muy interesante, sin embargo, la verdadera diversión para un entusiasta del #BigData como yo estaba en otra parte. Dentro del archivo tweets.zip hay una carpeta llamada data, y dentro de ella otra llamada csv. Ahí encontré lo que realmente andaba yo buscando: la data cruda y dura de todos mis tuiteos. 30,864 en total (en ese momento).
La primera sorpresa es que no encontré un solo archivo csv, sino 50… uno por cada mes desde enero de 2009 hasta febrero 2013. ¡Cincuenta effing archivos!
Abrí el primero y otros dos al azar y me di cuenta de que, naturalmente, todos guardan la misma estructura de campos. ¿Cómo combinarlos en un solo big ass file? Podría simplemente abrirlos uno por uno y acordarme de Heineken Burrison haciendo copy-paste de cada archivo hasta tenerlos todos en un solo lugar, pero ese no es mi estilo. Lo que hice fue irme al good ol’ style: copié todos los archivos .csv en una carpeta que llamé 50shadesoftweets y regresé a la prehistoria digital donde nací, el DOS, para ejecutar un simple comando:
copy *.csv mybigasstwitterarchive.csv
Al final, terminé con un archivo de 7.14MB llamado mybigasstwitterarchive.csv que pude abrir en Excel como si nada. Obviamente, al copiar los 50 archivos con sus encabezados en uno solo, había que eliminar las filas de encabezados duplicados. Para ello, ya en Excel, convertí todo el archivo en una tabla “inteligente” con el comando Format as Table y asegurándome de dejar cotejada la opción My table has headers.
Con esto, mybigasstwitterarchive.csv en Excel se volvió una tabla con filtros y otras chulerías. Ahora sólo necesitaba filtrar las filas que tienen duplicados de los encabezados. Los filtros automáticos de Excel listan los primeros 10,000 valores únicos, por lo que si intentaba filtrar por las primeras columnas (tweet_id, in_reply_to_status_id, in_reply_to_user_id, etc) no iba a encontrar lo que quería. Por eso, abrí el filtro dentro de la columna source, quité el cotejo en (Select all) y busqué al fondo entre las opciones la misma palabra “source”. Con esa sola selección, Excel filtró 49 filas que cumplen con la condición (¿por qué 49 y no 50? Sencillamente porque la primera fila quedó establecida como encabezado de verdad). ¿Todo bien hasta aquí?
Cuando ya tuve filtradas las 49 filas con encabezados duplicados, simplemente los seleccioné y los borré… y liberé el filtro. Todo bien, pero ahora me quedaron 49 huecos. Para resolver eso, bastaba con ordenar el archivo completo y las filas vacías se irán al final. ¿Cuál es el mejor criterio para filtrar datos de este tipo? La fecha y hora, por supuesto. El problema es que en el archivo de Twitter, las fechas llegan como campos de texto con un formato año-mes-dia hora:minuto:segundo +0000. Todos los tuits vienen con la hora de Greenwhich, sin importar dónde los tuiteamos (más adelante resuelvo eso). Un simple comando de Search/Replace sustituyó el +0000 por (nada) y con eso mágicamente Excel convirtió todas las celdas en fechas/horas “de verdad”. Ahora solamente hay que ordenar el archivo completo atendiendo al timestamp (yo prefiero ordenarlo de más antiguo a más reciente).
Con eso, ya sí que tenía todos mis tuits sin filas de encabezado duplicadas y organizados desde el primerito hasta el de ahorita. Nice. Ahora, para convertir esas fechas y horas en la zona horaria dominicana, tuve que restarle 4 horas a cada celda del timestamp. Para ello creé una nueva columna al lado del timestamp (yo la llamé adjusted). En la primera celda de adjusted construí la fórmula =[timestamp]-time(4,0,0) y al pulsar Enter la fórmula se copió ella solita en todas las celdas de la columna. ¿Por qué -time(4,0,0)? Porque esa fórmula le resta 4 horas, 0 minutos y 0 segundos al valor de fecha/hora que hay en timestamp, que es lo que manda nuestra zona horaria de GMT-0400.
Y así ya tuve mi #TwitterArchive bastante depurado. La razón por la que he publicado este “tutorial” es para que quien quiera haga lo mismo y así pueda conocer mejor su comportamiento tuitero. Si todavía a usted Twitter no le ha activado el famoso botón de descargar su #TwitterArchive, no se desespere. Esa jociqueta es gradual, ya le llegará. Revise de vez en cuando y un día, cuando la rana eche pelos, encontrará que ya puede descargarlo. Good luck.
Anja, ¿y toda esta maroma para qué?
Cuando llegué hasta aquí ya tenía mi #TwitterArchive bastante depurado y listo para análisis. Mañana voy a publicar una segunda parte de esto con muchas gráficas estadísticas de mi relación con Twitter. Mientras tanto, si usted ya pudo bajar su #TwitterArchive, con este tutorial guiado podrá descubrir un montón de curiosidades sobre su propio comportamiento.
Mañana seguimos 🙂