15 Concentração

Versão 0.1.0 - 20/12/2025

Não há como calcular exatamente a quantidade shannoniana de informação já produzida pela humanidade. Poderíamos partir para uma longa e infindável jornada de compilação de todos os arquivos existentes – sejam estes já codificados no formato shannoniano, ou ainda abrigando somente os materiais de acervo como papiros, cerâmicas, pinturas, enfim – para tentar chegar em algum número parcial e rapidamente desatualizado por conta de novas produções e achados.

Uma iniciativa mais humilde consistiria em restringir ao material escrito e calcular o tamanho das bases de dados já existentes sobre os corpus128 literários clássicos de alguns idiomas.

Qualquer número resultante seria meramente esquemático, por alguns motivos:

  • As estimativas seriam dadas a partir dos registros existentes – lembrando que não há como estimar a quantidade de informações que já existiram mas que não deixaram registros. Não nos diriam nada sobre a quantidade efetiva de informação shannoniana que já foi produzida. No máximo, indicaria a estimativa mínima de informação shannoniana que nos foi transmitida ao longo dos tempos.

  • Mais uma vez: quantificar informação implica numa redução de riquezas e significados. E exclui uma série de comunicações que se dissiparam no registro dos tempos, como as canções que já foram cantadas, poemas entoados, discussões, marcas na areia, sinais de fumaça, o eco dos instrumentos, mitos e lendas que não chegaram até nós. Tabelas ou gráficos que exibam quantidades de bits ao longo do tempo estarão potencialmente negligenciando uma riqueza de comunicações que aliás são a base de qualquer escrita.

Ao invés de trabalharmos com a somatória dos registros históricos existentes, usaremos estimativas da quantidade de informação shannoniana de acordo com a capacidade e atualidade de “produção” e armazenamento recente da maquinaria antropotécnica instalada no planeta e que compõe o que chamam de “datasfera”129.

Estamos tratando tanta informação que a medida em meros bits é insuficiente, e a cada vez uma unidade mais agregadora de informação shannoniana é usada para dar conta da quantidade crescente. Alguém pode agrupar do jeito que quiser, mas aqui usaremos as unidades mais comuns atualmente, a começar com o byte, que em geral indica um agrupamento de 8 bits. A tabela a seguir mostra alguns destes agrupamentos.

Table 15.1: Unidades de medida de bytes e suas abreviaturas de acordo com o Sistema Internacional de Medidas (SI) na chamada notação científica de base 10, onde \(10^3\) significa o número 1 seguido por 3 zeros, ou seja, 1000. A última coluna contém exemplos de conteúdos correspondentes à escala da unidade.
Bytes Bits Unidade Abreviação Exemplo
\(10^{0}\) \(8 \times 10^{0}\) byte B Letras
\(10^{3}\) \(8 \times 10^{3}\) kilobyte kB Textos
\(10^{6}\) \(8 \times 10^{6}\) megabyte MB Fotos
\(10^{9}\) \(8 \times 10^{9}\) gigabyte GB Filmes
\(10^{12}\) \(8 \times 10^{12}\) terabyte TB Filmoteca
\(10^{15}\) \(8 \times 10^{15}\) petabyte PB Bib. do Congresso (EUA)
\(10^{18}\) \(8 \times 10^{18}\) exabyte EB Datasfera em 1986
\(10^{21}\) \(8 \times 10^{21}\) zettabyte ZB Datasfera em 2010
\(10^{24}\) \(8 \times 10^{24}\) yottabyte YB -
\(10^{27}\) \(8 \times 10^{27}\) ronnabyte RB -
\(10^{30}\) \(8 \times 10^{30}\) quettabyte QB -

Existem estimativas com embasamento publicamento disponível130, enquanto que outras, pela falta de transparência dos dados e análises, parecem servir mais aos interesses da própria “indústria de dados”131, porém são as mais recentes132. Dadas as imensas incertezas, todas essas estimativas estão mais ou menos compatíveis.

Importante considerar a dimensão agourítimica, isto é, da produção de redução da realidade desse tipo de estimativa encomendada pela indústria e que mostra o quanto é possível empurrar a sociedade numa dada direção. Para o caso da datasfera, por exemplo, a produção das estimativas é estimulada pelo mercado em crescimento, e a sua publicação estimula investidores e prepara a indústria – especialmente as chamadas “Big Techs”133 – para produzirem a realidade futura de crescimento do mercado prevista pelos estudos, num ciclo que se auto-alimenta. As empresas de consultoria estão imbricadas com a indústria que as consulta, numa parceria onde uma fornece dados com aspecto – ou impressão – de independência, e a outra é a fonte produtora dos produtos de onde os dados são baseados. Ou seja, estas estimativas se referem a fenômenos dependentes das ações atores que as produzem. Em termos marxianos, um mercado em expansão tem uma dinâmica própria, digamos infraestrutural, de continuidade da expansão, e essas estimativas operam como uma componente superestrutural capaz de reforçar essa tendência.

Sérgio Amadeu destaca134o papel das consultorias internacionais para a adesão dos gestores públicos e privados a discursos que dão cobertura à expansão do colonialismo digital” e que tem

demonstrado grande capacidade de sedução com relatórios e levantamentos aparentemente impecáveis, bem como com seus power points motivacionais. […] as consultorias são disseminadoras das estratégias das big techs, das métricas que portam as exigências de adequação e conformidade a produtos e práticas específicas do imperialismo. Como bem demonstrou David Beer em Metric Power, formas de medir são métodos de poder e de controle que moldam comportamentos e decisões são construções sociais, refletindo os valores e os interesses de quem as cria e as utiliza. As consultorias polinizam ideologicamente as classes dominantes e os gestores públicos dos países tecnoeconomicamente secundarizados. Consultorias são exércitos numerosos e operam em escala global

É com estas ressalvas e desconfianças que analisaremos os dados disponíveis e que nos dão a entender que a humanidade entrou na “Era dos Zettabytes”135 na década de 2010, sendo um zettabyte equivalente a \(8 \times 10^{21}\) bits, sendo esta uma maneira compacta de escrever 8.000.000.000.000.000.000.000 bits (8 seguido por 21 zeros de escolhas binárias possíveis!). Apesar da escala de produção de dados não ter precedentes, as projeções indicam que este será um período curto, e nos anos 2030 já estaremos na “Era dos Yottabytes”.

O gráfico da Figura 15.1 mostra as estimativas e projeções de crescimento da quantidade de informação shannoniana criada, capturada ou replicada entre os anos 2010 e 2035, de acordo com Buss et al. (2019).

Quantidade de dados criados por ano, em zettabytes (ZB), segundo Buss et al. (2019) pág. 6. Os valores para 2025 em diante são projeções.

Figure 15.1: Quantidade de dados criados por ano, em zettabytes (ZB), segundo Buss et al. (2019) pág. 6. Os valores para 2025 em diante são projeções.

De toda esta imensa quantidade de dados “criados”, “replicados” ou “capturados”, apenas uma parcela é armazenada de um ano para outro. As estimativas sobre a capacidade total instalada e utilizada para armazenamento indicam que apenas uma parcela é preservada:

  • IDC e Seagate (2020) indicam que em 2015 havia um total de 0,8ZB e projeta 9ZB para de capacidade de armazenamento empresarial em 2025136.

  • Duncan et al. (2024) estima um crescimento de 10,1 ZB em 2023 para 21ZB de capacidade de armazenamento em 2027, em “centros de dados” (data centers) e nos dispositivos das “pontas” (endpoint devices)137.

Empresas apontam que somente 56% dos dados disponíveis são coletados, e destes somente 57% são “explorados” (exploited), ou seja, apenas 32% dos dados disponíveis são “colocados para trabalhar”138.

Também há uma capacidade muito maior para obtenção e replicação de informação do que de seu armazenamento: muito mais informação circula do que é gravada de modo mais permanente.

No que diz respeito ao fluxo desses dados, os estudos mostram uma explícita centralização esquemática da “datasfera”, representada por três níveis139:

  1. Núcleos (Core): são os centros de dados governamentais ou empresariais, tipicamente destino “final” de informações armazenadas no longo prazo.

  2. Bordas (Edge): são os intermediários de dados localizados em escritórios, torres de transmissão e centrais de dados menores.

  3. Pontas (Endpoint): é a coleção de todos os demais aparelhos informacionais conectáveis na borda, incluindo aí computadores pessoais e dispositivos móveis como telefones. As pontas operam efetivamente como um tentáculo que simultaneamente coleta e fornece informações para “usuários”.

Datasfera segundo o modelo Pontas-Bordas-Núcleos

Figure 15.2: Datasfera segundo o modelo Pontas-Bordas-Núcleos

Muita da informação coletada nas pontas é pré-processada nas bordas antes de ser submetida para retenção no núcleo. Mas a via é bidirecional: dados de longo prazo armazenados no núcleo podem fluir em direção às pontas, para então retornarem e serem atualizados.

Não há um caminho estrito para a informação, mas sim uma tendência global de centralização em núcleos, e redução de armazenados em longo prazo nas pontas.

Existem mais atores na ponta do que nas bordas, e muito menos nos núcleos: os donos da infraestrutura são em menor número conforme avançamos para níveis internos. A concentração de dados no núcleo é um sinal da concentração de dados nas mãos e em benefício de pouca gente140.

Num mundo com 8 bilhões de pessoas, há uma pressão cada vez maior para que todos os seres humanos estejam plugados à “datasfera”. Contabiliza-se 5,35 bilhões de pessoas já conectadas, 97,8% destas possuindo um telefone móvel141.

Simultaneamente ao aumentos anuais da população “incluída” na “datasfera”, parece haver um aumento ainda maior da quantidade de dados coletada e fornecida de e para uma pessoa.

De fato, a quantidade de informação shannnoniana parece crescer muito mais rápido que a população. Cada habitante humano que chega no planeta implica num aumento na quantidade de informação coletada, mas além disso há uma intensificação na quantidade de informação gerada por habitante, ou dele coletada, sem contar a expansão da coleta de informações ambientais, tudo isso numa jornada da “ponta” para o “núcleo”.

A perspectiva propalada por aqueles que vendem esse tipo de realidade é a da “digitalização do mundo”142:

Mankind is on a quest to digitize the world

[…]

The data-driven world will be always on, always tracking, always monitoring, always listening and always watching – because it will be always learning.

Este é o resumo de um processo em curso que aprofunda uma infraestrutura de vigilância em escala planetária, indo muito além de projetos como o “Total Information Awareness” (TIA, ou “Atenção Informacional Total”) empreendido pela Agência de Segurança Nacional dos EUA (NSA) no início dos anos 2000143.

Fica aqui a pergunta de pesquisa sobre a proporção entre a quantidade de dados armazenados por empresas e governos. O quanto do total é armazenado pelos Serviços Secretos “clássicos” como a NSA, e por outras instâncias governamentais? Temos poucos dados sobre isso144, mas podemos partir da hipótese de que a capacidade de armazenamento de uma instituição – seja pública ou privada – depende hoje basicamente de orçamento e de limitações técnicas, o que permite que qualquer grande corporação opere como uma espécie de Serviço Secreto em termos de armazenamento, muitas delas talvez até maiores que a NSA.

Analogamente, podemos nos perguntar sobre a proporção entre quantidade de dados coletados por empresas e governos. Se, por um lado, são apenas as agências de vigilância estatais que possuem amparo legal para realizar coleta – ou mesmo amparo institucional para realizar coletas ilegais –, por outro lado são as empresas que hoje possuem produtos e serviços cuja fruição depende da coleta voluntária e garantidas por “contratos”145. Num mundo sendo forçado a depender cada vez mais deste tipo de produtos e serviços, o uso dos mesmos tem se tornado uma imposição, e as pessoas ficam artificialmente dependente deles.

Serviços Secretos de grande porte não são mais exclusividade de Estados-Nação, sendo um aparato também viável para grandes empresas. E aquilo que é coletado pela iniciativa privada pode, eventualmente, ser disponibilizado para Serviços Secretos estatais, numa espécie de parceria público-privada para o controle social.

Trata-se de uma nova etapa indo além da biopolítica clássica e que expande o paradigma das chamadas “sociedades do controle”146, com aumento de escala e escopo, “produzindo” mais informações e “provas” sobre indivíduos147 do que o aparato disciplinar e repressivo dos Estados é capaz de incidir diretamente para garantir comportamentos esperados.

O controle social dos bilhões de humanos hiperconectados também se dá hoje por mecanismos sutis tais como os descritos por Zuboff (2019), em dinâmicas agourítimicas nas quais a vigilância total é tornada necessária e chega até a ser desejada por parte das pessoas vigiadas.

O “horror ao vácuo” de hoje é o horror à não-informação, ao “radio silence”, ao offline, àquilo que não foi que ou resiste ao registro, à “datificação”, à digitalização de tudo.

Por detrás desta narrativa de registrar cada momento da vida de todas as pessoas e todos os rincões do planeta, há o efeito concreto de um aumento da poluição em todos os espectros.

References

Barnett Jr., Thomas. 2016. “The Zettabyte Era Officially Begins (How Much is That?)”. https://blogs.cisco.com/sp/the-zettabyte-era-officially-begins-how-much-is-that.
Buss, Sebastian, Dennis Becker, Marcos Daniels, Geeske Nöldeke, Christoph Blumtritt, Ksenia Striapunina, e Friedrich Schwandt. 2019. “Digital Economy Compass 2019”. Statista. https://www.statista.com/study/52194/digital-economy-compass.
Cohen, Elliot D. 2010. Mass Surveillance and State Control: The Total Information Awareness Project. Palgrave Macmillan.
Deleuze, Gilles. 1992. “Post-scriptum sobre as sociedades de controle”. In Conversações, 1972-1990, traduzido por Peter Pál Pelbart, 219–26. Editora 34.
Duncan, Glenn, Daniel Thorpe, Muhd Syafiq, e Kari Beets. 2024. “Data Centers 2024 Global Outlook”. JLL. https://www.jll.co.uk/content/dam/jll-com/documents/pdf/research/global/jll-data-center-outlook-global-2024.pdf.
Faustino, Deivison, e Walter Lippold. 2023. Colonialismo digital: Por uma crítica hacker-fanoniana. Estado de sítio. Boitempo Editorial.
Hilbert, P., M.; Lopez. 2011. “The World’s Technological Capacity to Store, Communicate, and Compute Information”. Science 332: 60–65. https://doi.org/10.1126/science.1200970.
Hill, Kashmir. 2013. “Blueprints Of NSA’s Ridiculously Expensive Data Center In Utah Suggest It Holds Less Info Than Thought”. https://www.forbes.com/sites/kashmirhill/2013/07/24/blueprints-of-nsa-data-center-in-utah-suggest-its-storage-capacity-is-less-impressive-than-thought/?sh=701cc9807457.
IDC, e Seagate. 2020. “Rethink Data”. https://www.seagate.com/files/www-content/our-story/rethink-data/files/Rethink_Data_Report_2020.pdf.
Kemp, Simon. 2024. “Digital 2024: Global Overview Report”. https://datareportal.com/reports/digital-2024-global-overview-report.
Lyman, Peter, Hal R. Varian, James Dunn, Aleksey Strygin, e Kirsten Swearingen. 2000. “How Much Information?” https://web.archive.org/web/20010413170720/https://www2.sims.berkeley.edu/research/projects/how-much-info/index.html.
Lyman, Peter, Hal R. Varian, Kirsten Swearingen, Peter Charles, Nathan Good, Laheem Lamar Jordan, e Joyojeet Pal. 2003. “How Much Information? 2003”. https://www2.sims.berkeley.edu/research/projects/how-much-info-2003/.
Reinsel, David, John Gantz, e John Rydnin. 2017. “Data Age 2025: The Evolution of Data to Life-Critical”. https://www.seagate.com/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf.
———. 2018. “Data Age 2025: The Digitization of the World”. https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf.
———. 2020. “Data Age 2025: The Digitization of the World”. https://www.seagate.com/files/www-content/our-story/trends/files/dataage-idc-report-final.pdf.
Rydning, John. 2023. “Revelations in the Global StorageSphere 2023”. https://www.idc.com/getdoc.jsp?containerId=US49346223.
Teilhard de Chardin, Pierre. 1966a. La visión del passado. Traduzido por Carmen Castro. https://archive.org/details/teilhard-de-chardin-pierre.-la-vision-del-pasado-ocr-1966.
———. 1966b. The vision of the past. Traduzido por J. M. Cohen. Harper & Row. https://archive.org/details/visionofpast00teil.
Tolkien, J. R. R. sd. O Senhor dos Anéis - I - A Irmandade do Anel. Traduzido por Fernanda Ponto Rodrigues. 2º ed. Publicações Europa-América.
Vernadsky, Vladimir I. 1945. “The Biosphere and the Noösphere”. American Scientist 33: xxii, 1–12. https://doi.org/10.2307/27826043.
Zuboff, Shoshana. 2019. The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. PublicAffairs books.

  1. Corpus literários, isto é, coleções completas de textos antigos.↩︎

  2. The Global Datasphere is a measure of all new data that is captured, created, and replicated in any given year across the globe.”, Reinsel, Gantz, e Rydnin (2018) pág. 27. Este termo parece ter sido inspirado no conceito de “noosfera” (neologismo a da palavra grega νόος, nous, relacionada à mente e ao ato de pensar), que para Vernadsky (1945) seria um novo estágio da biosfera influenciado e determinado pelos efeitos do pensamento humano, enquanto que em Teilhard de Chardin seria uma “esfera humana”, acima da biosfera, de reflexão, invenção e união consciente das almas – vide Teilhard de Chardin (1966b) e Teilhard de Chardin (1966a) Cap. “Hominização”. A palavra “datasfera” soa naturalizante, como que numa tentativa de indicar que toda essa “camada” de dados é ecológica e se harmoniza tranquilamente com outras “esferas” tais como a biosfera, atmosfera, geosfera, hidrosfera, ou até ecosfera. Mas, como veremos no Capítulo 16, isso está muito longe ser o caso: as relações entre a datasfera e as outras se dá mais nos aspectos econômicos de exploração (oikos predatório) do que de preservação (oikos restaurativo). Além disso, o uso de “esfera” passa uma impressão de continuidade, mas a “datasfera” é descontínua, apesar de cada vez mais conectada.↩︎

  3. Lyman et al. (2000); Lyman et al. (2003); Hilbert (2011).↩︎

  4. Reinsel, Gantz, e Rydnin (2017); Reinsel, Gantz, e Rydnin (2018); Reinsel, Gantz, e Rydnin (2020), Buss et al. (2019); IDC e Seagate (2020).↩︎

  5. Como fazem essas estimativas? Ironicamente, elas são lançadas ao público sem a correspondente disponibilização dos dados utilizados. Apesar dos vários relatórios existentes, a fonte principal destes estudos recentes é a International Data Corporation (IDC), cuja metodologia para estimar o tamanho da “datasfera” é laconicamente descrito em Reinsel, Gantz, e Rydnin (2018) pág. 27: “An installed base of over 70 categories of content creation/capture devices, including embedded systems in devices like automobiles, gasoline pumps, vending machines, and kiosks, were sized by geography and industry. Content creation and capture and replication and consumption calculations were applied to this installed base of devices. The aggregation of all these calculations is called our Global Datasphere”. Também em Reinsel, Gantz, e Rydnin (2020) pág. 23.↩︎

  6. Grosso modo, “Big Tech” se refere às gigantescas megacorporações de “tecnologia da informação”.↩︎

  7. In Faustino e Lippold (2023) pág. 18.↩︎

  8. Barnett Jr. (2016)↩︎

  9. IDC e Seagate (2020) pág. 10, ao mesmo tempo em que afirma, confusamente, que uma pesquisa revelou o total de dados empresariais como sendo de 2,02PB em 2020, na pág. 7.↩︎

  10. Duncan et al. (2024) pág. 5; baseado em Rydning (2023).↩︎

  11. IDC e Seagate (2020) pág. 14.↩︎

  12. Reinsel, Gantz, e Rydnin (2017); Reinsel, Gantz, e Rydnin (2018); Reinsel, Gantz, e Rydnin (2020) pág. 7.↩︎

  13. Neste aspecto, houve um aumento da centralização topológica da principal rede datasférica, a Internet. Talvez somente em seus primórdios que tenha havido uma descentralização da topologia em diversos níveis. O que houve desde sua abertura comercial foi um processo de capilarização que, aliado a protocolos de comunicação distribuídos (como o BGP e TCP/IP), criou algumas possibilidades de comunicação e organização descentralizadas que hoje convergem mais e mais ao modelo centro-periferia. Isso também representa a consolidação do modelo clássico dos processos formativos: existem centros que detém os modelos de comportamento que são irradiados, numa espécie de broadcast comportamental. Enquanto alguns protocolos são distribuídos – como o TCP/IP para transmissão de dados e o BGP para roteamento –, a topologia é descentralizada porém há concentração ontológica – como o DNS para a gestão de domínios e as chamadas Autoridades Certificadoras para autenticação das pontas – assim como de dados e processamento.↩︎

  14. Kemp (2024).↩︎

  15. Reinsel, Gantz, e Rydnin (2020) pág. 2. Soa estranhamente como os versos inscritos no Anel Um do romance “O Senhor dos Anéis”, Tolkien (sd): “Um anel para a todos dominar, um anel para os encontrar, um anel para a todos prender e nas trevas os reter na Terra de Mordor onde moram as Sombras.↩︎

  16. Cohen (2010) págs. 20-21: “In January 2002, DARPA [Defense Advanced Research Projects Agency] established the “Information Awareness Office” (IAO) to direct the “Total Information Awareness” (TIA) project. The IAO’s mission was to “imagine, develop, apply, integrate, demonstrate and transition information technologies, components and prototype, closed-loop, information systems that will counter asymmetric threats by achieving total information awareness.” In other words, it sought to create a giant network of integrated computer technologies for intercepting, storing, searching, monitoring, reading, and analyzing all private, computerized records of 300 million Americans (not to mention the electronic traffic generated by millions of foreign users).” Supostamente esse programa teve financiamento interrompido pelo Congresso estado-unidense, mas foi transferido da DARPA para a NSA, onde possivelmente continuou sendo ampliado. Independentemente disso, o termo “Total Information Awareness” define o ethos da coleta e processamento de toda informação disponível.↩︎

  17. Das poucas estimativas que temos sobre a capacidade de armazenamento da NSA, há uma especulação de 2013 de que um dos seus centros de dados teria capacidade na escala dos exabytes, vide Hill (2013).↩︎

  18. “Contratos” que Zuboff (2019) chama de descontratos (uncontracts), pela unilateralidade, assimetria de condições e impossibilidade de negociação.↩︎

  19. Deleuze (1992)↩︎

  20. Indivíduos ou divíduos, isto é, uma pessoa dividida e endividada, na terminologia deleuziana.↩︎