Earth Computing Workshop na UCSD

Cluster computacional de Orange Pi´s a energia solar instalados no Earth Computing Initiative da UCSD em Calzona, California.

Prof. Brett Stalbaum e Cicero Silva

Prof. Brett Stalbaum e Cicero Silva

Entre os dias 29 de agosto e 02 de setembro fui convidado para ministrar o curso “Earth Computing” na Universidade da Califórnia em San Diego (UCSD). O convite partiu do Walkingtools Lab, hospedado no CALIT2 da UCSD. O workshop apresentou o projeto de um cluster computacional que vem sendo desenvolvido por mim em parceria com o Prof. Brett Stalbaum e com pesquisadores do San Diego Supercomputer Center da UCSD e do Laboratório (ver aqui: http://ucsdnews.ucsd.edu/pressrelease/sdsc_uses_meteor_raspberry_pi_cluster_to_teach_parallel_computing).

San Diego Supercomputer Center na UCSD

A proposta é criar um cluster computacional de baixo custo para pesquisas experimentais com sensores remotos, com o objetivo de conectar e obter dados a partir dos sensores em localidades distantes a um baixo custo. O cluster inicialmente é composto por 10 Orange Pi´s e seu funcionamento é a energia solar, com um setup de baterias Tesla que permitem que os computadores continuem funcionando por 3 horas durante a noite.

O objetivo do projeto é criar formas alternativas de envio de dados que não necessitem de energia elétrica e conexão à internet convencional. Além disso, o cluster utiliza a rede de telefonia para envio dos dados, com baixa taxa de transferência de dados, tendo em vista que os sensores não necessitam de grande quantidade de tráfego de dados. Outro tópico que está sendo experimentado, em substituição à telefonia celular, que possui alto custo, é o envio de dados por ondas de rádio em freqüencias abertas de FM (rádio amador). Os cluster computacionais e seus sensores foram instalados em uma localidade remota, na região de Big River, na Caliórnia, e são acessíveis por rádio a distância. O projeto tem como objetivo analisar a viabilidade de novas formas de envio de dados, a partir de sensores, que possibilitem a conectividade e acesso à internet por meio de propostas de baixo custo, ou que utilizem tecnologias que, apesar de existentes, não são utilizadas por serem consideradas obsoletas. Os campos de aplicação do projeto tem sido aplicações na área de sensoreamento remoto de dados metereológicos e, mais recentemente, foi criado um sistema de envio de dados médicos do condado de Calzona, aonde não existe suporte de saúde para os residentes, para o sistema de saúde municipal na cidade de Big River.

Workshop sobre o projeto Earth Computing na UCSD

earth_computing_station_03

Clusters computacionais de 10 computadores Orange Pi’s conectados, por meio de um modem SIMCard 3G, à internet e com energia elétrica gerada a partir de placas solares.

earth_computing_station_01 earth_computing_station_02

Na semana de 29/08 a 02/09 farei um Workshop sobre o projeto Earth Computing a convite da Universidade da Califórnia, San Diego (UCSD). O evento tratará da criação de clusters computacionais de baixo custo utilizando computadores de baixa performance Orange Pi’s alimentados a energia solar. O projeto já está em fase de testes e dois protótipos já funcionam em localidades remotas no deserto da Califórnia. O sistema de administração dos clusters é o mesmo utilizado em computação de alta performance em supercomputadores, no caso a plataforma Hadoop.
O objetivo do projeto é criar servidores de baixo custo que possam rodar queries simples em uma base de dados complexa, por meio da utilização de computadores que custam menos de 10 dólares cada (35 reais). A utilização de uma plataforma de computação distribuída como a Hadoop tem o objetivo de otimizar ao máximo a performance de buscas utilizando protocolos computacionais de inteligência artificial de alta complexidade e, ao mesmo tempo, utilizar recursos computacionais de baixo custo, cortando custos como energia elétrica, por exemplo, já que os clusters funcionam a energia solar e não necessitam de refrigeração. É importante notar que este é um projeto experimental e, portanto, não busca obter resultados consistentes de performance comparados a um computador que gasta centenas de milhares de reais ou dólares anualmente em energia elétrica, tanto para manter seus processadores funcionando quanto para manter sua infraestrutura refrigerada, como é o caso nas grandes empresas de computação de serviços distribuídos, que hoje resfriam seus computadores em datacenters localizados em containers posicionados no fundo do oceano.

La red de sensores es la computadora (o por qué debes superar la idea de privacidad)

Artigo escrito especialmente para o Boletim do Internet Freedom Festival, que acontece de 01 a 06 de março de 2016 em Valencia, na Espanha.

https://antivigilancia.org/es/2016/03/la-red-de-sensores-es-la-computadora-o-por-que-debes-superar-la-idea-de-privacidad-2/

Por Brett Stalbaum y Cicero Inacio da Silva | #Boletín13

Como se sabe, una teoría conocida y clásica de la promesa no puede considerar una promesa malintencionada, perjudicial o maligna. Una promesa pertenece al género de las bendiciones. Solo puedo prometer el “bien”. No puedo prometerle a otro que voy a matarlo, robarle, mentirle o maldecirlo. Eso sería una amenaza, no una promesa. ¿Alguien puede amenazar a otro con una promesa? (Jacques Derrida, Avances, 1995)

image

Imagen del proyecto “Earth Computing”. Un clúster de 10 computadoras Raspberry Pi que funcionan mediante energía solar conectadas a la red a través de un módulo adaptador SainsSmart SIM900 GSM/GPRS para Raspberry Pi y Arduino.

Tres observaciones para comenzar. La primera es que, entre los artículos de Gordon Kelly, autor que contribuye frecuentemente con la Revista Forbes.com, el texto publicado el 9 de febrero de 2016 incluye la siguiente historia: “Windows 10 involucrado en escándalo de espionaje, Microsoft sin palabras”, que informa que Windows 10 envió cantidades sustanciales de datos, algunos no cifrados, a Microsoft y otros servidores (y otros agentes). La segunda noticia es “Facebook es motivo de grandes problemas en los sistemas Android y iPhone”, en la cual se discute el uso intensivo de recursos (CPU, memoria, batería) que consume Facebook de manera continua. La segunda observación es que ambos autores de este artículo son investigadores, con fuertes vínculos culturales con el campo del arte tecnológico. Uno de ellos es un gaucho brasileño, de Rio Grande do Sul, y el otro un redneck estadounidense de California, dos culturas del nuevo mundo con fuertes rasgos comunes. La tercera observación es que, simplemente, los dos autores de este artículo desarrollaron un proyecto llamado “Earth Computing” que trata de desmontar la lógica de la nube y que es algo que tiene que ver con nuestra construcción de sistemas de computación distribuida, pero que no participa de la misma lógica que los sistemas de computación que hoy se comercializan con el nombre de “cloud”. Bien, ¿por dónde comenzar?

Los bancos de datos y la computación dejan su lugar (o los datacenters abiertos)

Los modelos de banco de datos y las técnicas de computación siempre son un buen lugar para empezar a hablar de los datacenters. La historia rígida de los modelos de bancos de datos ha sido siempre estructurada de manera jerárquica (así como su sistema de archivos) para su posterior distribución en la red (hipertextos) y en bases relacionales (hipertextos con tablas y álgebra racional), avanzando por varios tipos de bancos de datos, como NoSQL (o “Orientados a Objetos” u “Objeto-relacionales”), que son proyectados para escalar (escalonar) el procesamiento por medio de muchos procesadores y disipadores de datos. El procesamiento no cambió mucho: básicamente, continuamos utilizando las máquinas de von Neuman. Pero para permitir que la Ley de Moore continúe su impresionante serie de victorias –que sabemos que acabará porque hay límites cuánticos a la forma como se distribuye el espacio, a lo que se suma el rápido crecimiento de los datos discretos– hemos visto la multiplicación del número de procesadores dedicados a tareas individuales. En las computadoras de uso doméstico, esa ampliación e inserción de múltiples núcleos en un único procesador (chip) significó el crecimiento del número de CPU con varios núcleos, lo que permitió mejoras únicas de rendimiento y procesamiento de información. Con la posibilidad de calcular decenas de miles de procesos (no atípicos) de manera clusterizada, por medio de técnicas de computación desarrolladas especialmente para procesar grandes problemas individuales, muchas veces involucrando grandes conjuntos de datos que crecen a ritmo aún más rápido que la Ley de Moore, entendemos que lo que vemos hoy con relación al crecimiento de los procesadores parece una persona que “tapa con el dedo un agujero de una represa” para evitar que salga un mar de información en rápido crecimiento, que hoy se amplía exponencialmente mediante la recolección y sistematización de datos. Existe un riesgo inminente y rápidamente creciente de que los datos sobrecarguen la capacidad tecnológica de los procesadores computacionales contemporáneos, corriendo el riesgo de que, en algunos casos, esas computadoras ni siquiera tengan la capacidad de comenzar a procesarlos. Dentro de poco no habrá un número de CPU suficiente (o dedos en los agujeros de represas) capaces de restringir la fuerza de la marea de datos.

¿Y de dónde surgió esa marea total de datos? De las simulaciones y de las redes de sensores. El problema fue, de hecho, inventado en lugares como la UNIFESP y la UCSD, bajo la forma de lo que hoy se denomina recolección de datos científicos. Entre los primeros agresores están la astrofísica y la meteorología, ya que utilizan tanto simulaciones complejas, que producen grandes conjuntos de datos, con el aumento de la capacidad predictiva, como el cruce de los datos obtenidos en diferentes mediciones, que exigen más y más memoria y recursos de procesamiento. Otros campos, como la astronomía, la biología, las ciencias de la salud y la oceanografía, que amplían diariamente la utilización de las redes de sensores, también insuflaron hasta el límite el uso del procesamiento computacional disponible. La astronomía, por ejemplo, llena nuestros repositorios de datos usando telescopios computarizados conectados a redes de alta velocidad, mientras la biología se ocupa de las secuencias de los genomas, distribuidos entre unos y ceros, mientras los oceanógrafos distribuyen boyas con sensores y computadores capaces de grabar, almacenar y transmitir datos. Los datos, que son realmente “la voz de la naturaleza”, y consecuentemente su agencia, vienen amplificándose a lo largo de generaciones de investigación científica. El fenómeno denominado “big data” tiene una historia poco contada, pero que transcurre en paralelo, en una constante que exige el aumento de la capacidad de procesamiento y la disminución del precio de los sensores (conversores analógico-digitales), computación y procesamiento (CPU) y almacenamiento (discos, cintas, etc.).

Toda esa ampliación masiva de datos condujo a medidas desesperadas e impresionantes en el campo de la computación. El campo de la supercomputación opera hoy a partir de varios tipos de paralelismo: fine grained, coarse grained y embarrassing. Estos conceptos, a pesar de que parecen un poco extraños, no son tan difíciles de especificar: un problema embarazosamente paralelo (embarrasing) es aquél en el cual se puede procesar un subconjunto de datos de un problema en diferentes CPU, lo que exige menos memoria y utiliza pesados métodos algorítmicos recombinatorios. Las CPU que trabajan con problemas embarazosamente paralelos no necesitan compartir resultados entre sí para completar sus cálculos, o sea, el concepto de “embarazoso” aquí significa fácil, ya que se refiere específicamente a los problemas que se ejecutan sobre los datos que son paralelizados con más facilidad en las CPU. Por su parte, los conceptos de “grano fino” (Fine grain) y “grano grueso” (Coarse grain) son términos muy relativos. En problemas paralelos de grano fino, cada una de las CPU es altamente dependiente de los cálculos que se realizan potencialmente en muchas otras CPU y habitualmente tenemos un gasto significativo de tiempo a la espera de resultados que dependen de las otras CPU, de modo que frecuentemente dependen de los datos procesados en las otras CPU para continuar hasta el final del proceso solicitado. El procesamiento “grueso” significa simplemente que se desperdicia menos tiempo en la coordinación de los resultados entre las CPU, considerando que esa medición temporal siempre es relativa, ya que depende del algoritmo que se está resolviendo en un momento dato y que es solo parcial o relativamente menos dependiente de la coordinación entre CPU. El punto importante aquí es que existen algunos problemas que son más pasibles de procesamiento paralelo que otros o, en otras palabras, algunas preguntas que los algoritmos pueden responder por medio del análisis de datos a gran escala responden mejor que otros. La Ley de Moore continua su escalada sin fin con relación a algunos tipos de pregunta sobre la escalabilidad de los datos, pero de forma relativa es casi completamente inútil cuando se la compara con otros procesos paralelos.

En ese sentido, es más fácil observar, después de esa explicación de las propiedades formales sobre las máquinas que operan con estados discretos, que las técnicas actuales que se están utilizando para resolver problemas computacionales tienen determinadas consecuencias objetivas que afectan cualquier análisis sobre el concepto de privacidad. Violar una clave criptográfica pública/privada –el sistema de protección más conocido y utilizado con respecto a la privacidad de los datos– involucra normalmente la factorización de grandes números y la búsqueda por el resultado de muchos cálculos no lineales (el resultado de una factorización puede obtenerse rápidamente o demandar mucho tiempo), antes de pasar a los próximos cálculos que implican más cálculos de factores, lo que nos lleva a concluir que, por ejemplo, en el caso de los problemas computacionales de “grano muy fino”, la computación paralela no es particularmente adecuada para la cuestión de la privacidad. Pero los problemas que involucran, por ejemplo, la suma masiva de datos (el conteo de elementos), pueden considerarse problemas de tipo “embarazosamente” paralelizados. En cierto sentido, ese tipo de procesamiento se basa simplemente en la sumatoria de los números que se pueden distribuir trivialmente en diversas CPU. Sin embargo, hay un aspecto sutil y fundamental en esos procesos que tienen implicaciones directas en la cuestión de la privacidad de los datos.

MPI y Hadoop en dirección a la localidad de los datos

Como se describió inicialmente, al recopilar grandes cantidades de datos, Facebook y Microsoft no están simplemente creando un enorme banco de datos por medio del almacenamiento de información. Esas empresas están fundamentalmente cruzando y relacionando esa información para extraer estructuras significativas del conocimiento a partir de esos bancos de datos, todo eso para enseñar a sus propios clústeres computacionales la mejor manera de desempeñar sus tareas con relación a otro algoritmo importante, pero habitualmente fallado, llamado “usuario”.

De cualquier manera, el análisis de bancos de datos puede considerarse como una forma de literatura, casi como un derecho humano con relación a la recolección de datos. Cada vez más, es necesario producir y ejecutar algoritmos analíticos sobre los datos. Los niños tienen que aprender urgentemente supercomputación cuando se los alfabetiza. Tenemos que enseñar en las escuelas cómo construir y programar clústeres y redes de sensores o simplemente nos quedaremos afuera de la “lectura” del mundo computacional paralelizado contemporáneo. La computadora personal desapareció y el clúster computacional personal es la nueva computadora. La nube no está donde mantienes tus fotos, que también pueden estar en tu propia computadora. Para formar parte de este juego, tienes que estar en el juego correcto. Tu notebook y, especialmente, tu tablet y tus celulares ya son los clientes de los clústeres computacionales. La nube es una versión contemporánea de la tarjeta postal. Los defensores de la privacidad perderán esa carrera por los mismos motivos que la industria discográfica y los estudios de Hollywood también perdieron… será un boom y, después de recobrada la consciencia, verán la realidad que los rodea… así de simple.

Tal vez inspirado por la cita de Derrida, ahora puedas entender que, en realidad, nunca tuviste privacidad. La única diferencia ahora es que tus datos se distribuyen globalmente, en vez de almacenarse localmente. La “privacidad”, un sueño prometido por todos tus servicios que funcionan en nubes computacionales, es apenas una promesa de alguien que quiere tu “bien”. Irónicamente, es el lugar donde tus datos están físicamente lo que atraerá cada vez más un proceso de catalización acerca de la privacidad y aumentará todavía más su distribución global: como un centro de atracción virtuoso que gira en un espiral ascendente o un centro de atracción sombrío que aprisionará nuestras almas, eso dependerá de la perspectiva con la cual entiendas lo que pasa con relación a los clústeres computacionales y la privacidad. Los autores de este artículo aceptan ambas perspectivas con cautela crítica, porque creen que pensar en la privacidad a partir de esos modelos puede ser algo coevolucionario, transevolucionario o, tal vez, algo hasta incluso “literario”. Pero la única certeza que los autores tienen hoy es que, a partir de ahora, la red de sensores es la computadora.


Brett Stalbaum es coordinador del curso Interdisciplinario en Computación y Artes (ICAM) en la Universidad de California, San Diego (UCSD) y coordinador del Walkingtools Lab.
Cicero Inacio da Silva es profesor de la Universidad Federal de San Pablo (UNIFESP) y cocoordinador del Walkingtools Lab en la Universidad de California, San Diego (UCSD).

 

CineGrid Brasil team shows Ophthalmic Laser Surgery @ CineGrid Workshop 2015

Jpeg

 

[en] Teams from the Digital Video Applications Laboratory (LAViD) of the Federal University of Paraíba (Universidade Federal da Paraíba – UFPB), Mackenzie University and the São Paulo Federal University (Universidade Federal de São Paulo – Unifesp) have displayed images of the first laser eye surgery captured with a camera capable of shooting 1000 frames per second at 4K resolution, an ultra-high resolution standard, during the CineGrid, held at the University of California, San Diego (UCSD). The demonstration allowed the audience to clearly see the laser acting on the cornea of the patient, which cannot be seen with the naked eye.

The video was captured and reproduced uncompressed, at 1000 frames per second (fps), in a transmission rate above 100 Gbps. In addition to that, the images were also shown seamlessly with the Collaboration and Visualization Panel (Sage), a project of the Electronic Visualization Laboratory (EVL) at the University of Chicago, USA. The images of the eye surgery were recorded with a special Phantom camera, capable of producing about one Terabyte (TB) of data every three minutes.

The capture of these images was carried out by teams from the Cinematic Arts Laboratory (LabCine) of Mackenzie University, and the Telessaúde Brasil Redes Laboratory, at Unifesp. From the beginning, the project has been supported by RNP as part of the activities of the Committee for Technological Forecasting in Video Collaboration.

The session was attended by an audience comprising researchers and representatives from research centers and educational institutions from Brazil, the US, Japan and other countries.

Scientific Connection

According to the Unifesp researcher, Cicero Inacio da Silva, the development of this technology will enable residents in ophthalmology, engaged in the field of refractive surgery, to observe the laser acting on the patient, in order to view its effects on the cornea.  The ideia is to create the proper conditions so, in the near future, surgeries are broadcasted to several locations, assisting the training of medical residents in ophthalmology.

He said that one of the challenges announced by the Brazilian team during the 2015 CineGrid is to live broadcast a surgery captured at 1000 fps, at 4K, in the next CineGrid, to be held in San Diego in December 2016. The challenge will require approximately 120 Gbps of dedicated connectivity, directly attached to the camera, which does not exist yet between Brazil and the United States, but could be developed soon, so this scientific connection is established in the fields of telemedicine, telehealth, video collaboration and advanced visualization.

Fogo Player

One the technologies that have enabled this successful experience at the CineGrid was the Fogo Player, a software package created by LAViD researchers, which makes possible the projection of videos at 4K resolution, and in 3D (stereoscopy), providing many possibilities of use in sports events, shows and surgical procedures for purposes of continuous education in telemedicine.

Another special feature of the Fogo Player system is to enable the instantaneous communication between those involved in the broadcasted event and the audience, which stresses the importance of its use in distance learning.  The project has been developed since 2001, with the support of the RNP.

Links for the image of the presentation @ CineGrid San Diego 2015: https://goo.gl/photos/9mMLHtag6zhrssRn7
Link for the images of the film capture at UNIFESP: https://goo.gl/photos/7LE8FVDCWx2MKffE7

Media: RNP website: https://www.rnp.br/en/noticias/first-laser-surgery-captured-in-1000-frames-per-second-at-4k-resolution
CineGrid Brasil website: http://cinegridbr.org/2015/12/16/cinegrid-brasil-team-shows-ophthalmic-laser-surgery-cinegrid-workshop-2015/

[pt] Cicero Inacio da Silva, Guido Lemos, Eliane Mayumi Nakano e Jane de Almeida, pesquisadores do LAVID/UFPB, do Laboratório de Artes Cinemáticas (LabCine/Mackenzie), do Setor de Cirurgia Refrativa do departamento de Oftalmologia (UNIFESP) e do Laboratório Telessaúde Brasil Redes da UNIFESP, participaram da última edição do CineGrid Workshop 2015, na Universidade da Califórnia, San Diego (UCSD), com uma demonstração da primeira cirurgia oftalmológica a laser captada com uma câmera capaz de filmar 1000 quadros por segundo na definição 4K. A câmera utilizada foi uma Phantom, da empresa Vision Research, especializada em equipamentos de ultra alta resolução. A câmera gera algo em torno de 1 Tb de dados a cada 3 minutos. A captação da cirurgia foi realizada pela equipe do LabCine, da Universidade Mackenzie, em parceria com o Laboratório do Programa Telessaúde Brasil Redes da UNIFESP. A pesquisa contou com o apoio do Setor de cirurgia refrativa, do Departamento de Oftalmologia, da Universidade Federal de São Paulo. Como não existe ainda um player para visualizar os resultados, a equipe do LAVID desenvolveu uma adaptação do FOGO Player, um sistema de visualização de conteúdos em UHD (ultra alta definição), para poder rodar os 1000 frames por segundo em 4K. O resultado obtido foi significativo, pois é possível observar a ação do laser na córnea do paciente, o que não é possível ser visualizado a olho nu. O desenvolvimento dessa tecnologia permitirá que os residentes da área de oftalmologia, ligada ao campo da cirurgia refrativa, possam observar a ação do laser no paciente e poder visualizar os efeitos do laser na córnea. A ideia é poder criar condições para que as cirurgias possam, em um futuro breve, ser transmitidas para diversas localidades, auxiliando na formação de residentes médicos na área da cirugia refrativa. Um dos desafios que a equipe do Brasil levou para o CineGrid 2015 é fazer a transmissão de uma cirurgia captada a 1000 fps em 4K para o próximo CineGrid San Diego em dezembro de 2016. Contudo, o desafio é bastante intenso, pois demandará, nada mais nada menos do que 120 Gbps de conectividade dedicada conectada diretamente à câmera, o que ainda não existe entre Brasil e Estados Unidos, mas que poderá ser desenvolvida em breve para que essa conexão científica se estabeleça no campo da telemedicina, telessaúde, video colaboração e visualização avançada.
As imagens da apresentação no CineGrid San Diego podem ser acessadas aqui: https://goo.gl/photos/9mMLHtag6zhrssRn7

software studies/digital media/mídia digital/digital health/saúde digital/telehealth/telessaúde/cultural analytics/information technology/sensor network/rede de sensores