Publicidade

Últimas Notícias
recent

REVELADO: COMO A NSA CONVERTE PALAVRAS FALADAS EM TEXTO PESQUISÁVEL


A maioria das pessoas perceber que e-mails e outras comunicações digitais que outrora considerado privado pode agora tornar-se parte de seu registro permanente.
Mas mesmo quando eles usam cada vez mais aplicativos que entendem o que eles dizem, a maioria das pessoas não percebem que as palavras que eles falam não são tão privado mais, também.
Documentos ultra-secretos do arquivo do ex-empreiteiro NSA Edward Snowden mostrar a Agência de Segurança Nacional pode agora reconhecer automaticamente o conteúdo dentro de chamadas telefónicas através da criação de transcrições fonéticas ásperas e representações que podem ser facilmente pesquisados ​​e armazenados.
Os documentos mostram analistas NSA comemoram o desenvolvimento do que eles chamavam de "Google por voz" há quase uma década .
Embora perfeito transcrição de conversação natural, aparentemente, continua a ser o da Comunidade de Inteligência " Santo Graal ", os documentos Snowden descrever o uso extensivo de pesquisando palavras-chave , bem como programas de computador concebido para analisar e "extrair" o conteúdo das conversas de voz, e até mesmo usar algoritmos sofisticados para sinalizar conversas de interesse.
Os documentos incluem exemplos vivos do uso de reconhecimento de fala em zonas de guerra como o Iraque eo Afeganistão, assim como na América Latina. Mas eles deixam claro exatamente como amplamente a agência de espionagem usa esta habilidade, especialmente em programas que captam quantidades consideráveis ​​de conversas, que incluem as pessoas que vivem ou são cidadãos dos Estados Unidos.
Espionar sobre as chamadas telefônicas internacionais sempre foi um grampo de vigilância da NSA, mas a exigência de que uma pessoa real fazer a escuta significava que foi efetivamente limitado a uma pequena porcentagem do total do tráfego. Ao alavancar avanços em reconhecimento automático de fala, a NSA entrou na era da escuta granel.
E isso aconteceu com nenhuma supervisão pública aparente, audiências ou do poder legislativo. Congresso não tem mostrado sinais de mesmo sabendo que isso está acontecendo.
A Lei da Liberdade EUA - o projeto de reforma de vigilância que o Congresso está debatendo - não aborda o assunto de forma alguma. A lei iria terminar um programa da NSA que não coleta conteúdo de voz: coleta a granel do governo de dados telefônicos domésticos, mostrando que chamou quem e por quanto tempo.
Mesmo se torna lei, a lei iria deixar no lugar uma infinidade de mecanismos expostos por Snowden que colher-se grandes quantidades de texto e de voz comunicações de pessoas inocentes em os EUA e em todo o globo.
Especialistas em liberdade civil contactadas por O Intercept disse capacidades da NSA speech-to-text são um exemplo inquietante das invasões de privacidade que estão se tornando possível que nossos transições mundo analógico para um digital.
"Eu acho que as pessoas não entendem que a economia da vigilância mudaram totalmente", Jennifer Granick, diretor de liberdades civis noCentro de Stanford para Internet e Sociedade , disse a interceptação .
"Uma vez que você tem essa capacidade, então a questão é: Como é que vai ser implementado? Você pode armazenar em cache temporariamente todas as chamadas telefônicas americanas, transcrever todos os telefonemas, e fazer pesquisa de texto do conteúdo dos convites? ", Ela disse. "Pode não ser o que eles estão fazendo agora, mas eles vão ser capazes de fazê-lo."
E, ela perguntou: "Como é que nós nunca sabemos se eles alterar a política?"
De fato, os funcionários da NSA ter sido sigilosa sobre sua capacidade de converter voz para texto, e em que medida eles usá-lo, deixando em aberto qualquer número de possibilidades.
Que o segredo é a chave, disse Granick. "Nós não temos nenhuma idéia de como muitas pessoas inocentes estão sendo afetados, ou quantas dessas pessoas inocentes também são americanos."

Posso pesquisar contra ele

NSA denunciante Thomas Drake, que foi treinado como um processamento de voz cripto-linguista e trabalhou na agência até 2008, disse a intercepçãoque ele viu um enorme impulso após o 11 de setembro de 2001 ataques terroristas de transformar as quantidades maciças de comunicações de voz que estão sendo coletados em algo mais útil.
Audição humana claramente não estava indo para ser a solução. "Não havia ouvidos o suficiente", disse ele.
As transcrições que emergiram dos novos sistemas não eram perfeitos, disse ele. "Mas mesmo se não é 100 por cento, eu ainda pode obter muito mais informações. É muito mais acessível. Posso pesquisar contra ela ".
Conversão de voz para texto torna mais fácil para o NSA para ver o que tem recolhido e armazenado, de acordo com Drake. "A descoberta estava sendo capaz de fazê-lo em grande escala", disse ele.
mia_Intercept_NSAflagXX

Mais de Dados, mais potência, desempenho melhor

O Departamento de Defesa, por meio de sua Defesa Agência de Projetos de Pesquisa Avançada ( DARPA ), começou a financiar a pesquisa acadêmica e comercial para o reconhecimento de voz no início de 1970.
O que surgiram foram vários sistemas para transformar voz em texto, todos os quais lentamente, mas gradualmente melhorados como eles foram capazes de trabalhar com mais dados e em velocidades mais rápidas.
Em uma breve entrevista, Dan Kaufman, diretor do Gabinete de Informação de Inovação da DARPA, indicou que a capacidade do governo para automatizar a transcrição é ainda limitada.
Kaufman diz que a transcrição automática de conversa telefônica é "super difícil", porque "há uma grande quantidade de ruído no sinal" e "é informal como o inferno."
"Eu diria a você que não são muito bons em que", disse ele.
Em um ambiente ideal como um noticiário, ele disse, "nós estamos ficando muito bom em ser capaz de fazer esses tipos de traduções."
Um documento de 2008 do arquivo Snowden mostra que transcrever os noticiários já estava trabalhando bem, há sete anos, usando um programa chamado Texto aprimorado Vídeo e Processamento de Áudio:
(U // FOUO) EViTAP é uma ferramenta totalmente automatizada monitoramento de notícias. A principal característica desta ferramenta Intelink-SBU-organizado é que analisa notícias em seis línguas, incluindo árabe, chinês mandarim, russo, espanhol, Inglês e persa / persa. "Como isso funciona?" Você pode perguntar. Ele integra Reconhecimento Automático de Fala (ASR), que fornece transcrições do áudio falado. Em seguida, a tradução automática da transcrição ASR traduz a transcrição língua nativa para Inglês.Voila! A tecnologia é incrível.
A versão do sistema usa a NSA é agora ainda comercialmente disponível .
Especialistas em reconhecimento de voz dizer que na última década ou assim, o ritmo de avanço tecnológico tem sido explosiva. Como armazenamento de informação tornou-se mais barato e mais eficiente, as empresas de tecnologia foram capazes de armazenar grandes quantidades de dados de voz em seus servidores, permitindo-lhes para atualizar e melhorar continuamente os modelos. Processadores enormes, ajustado como "redes neurais profundas" que detecta padrões de como os cérebros humanos fazer, produzir transcrições muito mais limpas.
E os documentos Snowden mostram que os mesmos tipos de saltos para a frente visto em produtos comerciais speech-to-text também têm acontecido em segredo na NSA, alimentada pelo acesso singular da agência de poder de processamento astronômico e seus próprios vastos arquivos de dados.
Na verdade, a NSA tem lançado várias vezes sistemas novos e melhorados de reconhecimento de voz por mais de uma década.
A ferramenta de primeira geração, o que fez a pesquisa de palavra-chave de grandes quantidades de conteúdo possível de voz, foi lançado em 2004 e de codinome Rhinehart.
"Tecnologia de busca palavra Voz permite que os analistas de encontrar e priorizar interceptar com base em seu conteúdo inteligência", diz um memorando interno NSA 2006, intitulado " Para os média Mining, o futuro é agora! "
O memorando diz que os analistas de inteligência envolvidos na luta contra o terrorismo foram capazes de identificar termos relacionados com materiais de fabricação de bombas, como "detonador" e "água oxigenada", bem como nomes de lugares como "Bagdá" ou pessoas como "Musharaf."
Rhinehart foi "projetado para suportar ambas as pesquisas em tempo real , em que os dados recebidos são automaticamente buscadas por um conjunto designado de dicionários, e pesquisas retrospectivas , em que os analistas podem pesquisar repetidamente ao longo de meses de tráfego passado ", explica o memorando (ênfase no original ).
A partir de 2006, Rhinehart estava operando "em uma ampla variedade de missões e línguas" e foi "usado em todo o NSA / CSS [Serviço Central de Segurança] Empresa."
Mas, mesmo assim, um produto mais novo, mais sofisticado já estava sendo implementado pelo Tecnologia da Linguagem Humana (HLT) escritório do programa da NSA. O novo sistema, chamado VoiceRT, foi introduzido pela primeira vez em Bagdá, e "concebido para indexar e tag 1 milhão de cortes por dia."
O objetivo, de acordo com outro memorando 2006 , era utilizar tecnologia de processamento de voz para poder "índice, tag e gráfico," todas as comunicações interceptadas. "Usando serviços HLT, um único analista será capaz de classificar através de milhões de cortes por dia e focar apenas a pequena percentagem que é relevante", afirma o memorando.
Um memorando de 2009 parceiro britânico do NSA, GCHQ , descreve como "NSA tiveram a BBN sistema speech-to-text Byblos funcionando em Fort Meade durante pelo menos 10 anos. (Inicialmente, eles também tinham Dragão.) Durante este período, eles têm investido fortemente na produção de seu próprio corpora de transcritos Sigint tanto em Inglês Americano e uma gama crescente de outras línguas. "(GCHQ também observou que ele tinha a sua própria pequena corpora de voz transcrita comunicações, a maioria dos quais passou a ser "irlandês do norte discurso acentuados.")
VoiceRT, por sua vez, foi superado alguns anos após o seu lançamento.Segundo o "da comunidade de inteligência Orçamento Preto "para o ano fiscal de 2013, VoiceRT foi desmantelada e substituída em 2011 e 2012, de modo a que, até 2013, a NSA poderia operacionalizar um novo sistema.Este sistema, aparentemente chamado SPIRITFIRE , poderia lidar com mais dados, mais rápido. SPIRITFIRE seria "uma capacidade de processamento de voz mais robusta com base na pesquisa speech-to-text palavra-chave e emparelhado transcrição do diálogo."

O uso extensivo no Exterior

Comunicações de voz podem ser recolhidos pela NSA se eles estão sendo enviados por linhas de telefone regulares, através de redes celulares, ou através de serviços de voz sobre internet. Anteriormente divulgadosdocumentos do arquivo Snowden descrever enormes esforços por parte do NSA durante a última década para ter acesso ao conteúdo de voz sobre internet como Skype, por exemplo. E outros documentos na crônica arquivo de ajuste da agência para o facto de uma cada vez maior percentagem de conversas, mesmo aqueles que começam como telefone fixo ou chamadas móveis, acabam por pacotes como digitalizados que voam através dos mesmos cabos de fibra óptica que a NSA torneiras de forma tão eficaz para outras comunicações de dados e voz.
O arquivo Snowden, como pesquisado e analisado por O Intercept , documentos uso extensivo de speech-to-text pela ANS para pesquisa através de interceptações de voz internacionais - particularmente no Iraque e no Afeganistão, assim como México e América Latina.
Por exemplo, fala-se de texto foi um elemento-chave, mas não anunciada previamente do programa de análise sofisticada conhecido como o Tempo real Regional Gateway (RTRG), que começou em 2005, quando o recém-nomeado chefe NSA Keith B. Alexander, de acordo com o Washington Post , "queria tudo:. Cada mensagem de texto iraquiano, chamada de telefone e e-mail que pode ser aspirado por computadores poderosos da agência"
O Tempo real regional da entrada foi creditado com a desempenhar um papel em "desmantelar redes de insurgentes iraquianos e reduzindo significativamente o número mensal de morte a partir de dispositivos explosivos improvisados." A indexação e busca de "cortes de voz" foi enviado ao Iraque em 2006. Até 2008, RTRG estava operacional no Afeganistão também.
Um slide de uma NSA powerpoint junho 2006 apresentação descreveu o papel de VoiceRT:
VoiceRT: Índice / Busca de cortes de voz

Manchado palavra-chave estendido para intercepta iranianos também. Ummemorando de 2006 informou que Rhinehart tinha sido utilizado com sucesso por analistas que "procurava as palavras" negociações "ou" América "em seu tráfego persa-falando, e Rhinehart localizado a uma chamada muito importante que foi transcrito na íntegra fornecendo informações sobre um alvo iraniano importante do discussão sobre a formação de um novo governo iraquiano. "
De acordo com um memorando de 2011, " Como é Tecnologia da Linguagem Humana (HLT) Progredindo? ", NSA nesse ano implantado" HLT Labs "para o Afeganistão, instalações NSA no Texas e Geórgia, e postos de escuta na América Latina executados pelo Serviço de Coleta Especial, uma joint NSA / CIA unidade que opera fora de embaixadas e outros locais.
"O espanhol é o mais maduro dos nossos analytics speech-to-text", o memorando diz, observando que a NSA e seus sites Especial Colecções de Serviços na América Latina, tiveram "grande sucesso em busca de palavras-chave espanhóis."
O memorando oferece um exemplo da NSA Texas, onde um analista recém-formados no sistema usaram uma pesquisa de palavra-chave para encontrar informações anteriormente não declarada em um alvo envolvido no tráfico de drogas. Em outro caso, um funcionário em um local Serviço de Coleta especial na América Latina "foi capaz de encontrar inteligência estrangeira em relação a um funcionário cubano em uma fração do tempo usual."
Em um artigo de 2011, " Finding Nuggets - rapidamente - em um monte de Coleção Voz, do México ao Afeganistão ", disse um diretor técnico análise de inteligência da NSA Texas descreveu o" exemplo de mudança de vida rara "quando ele aprendeu sobre tecnologia da linguagem humana, e a sua capacidade para "encontrar o tráfego exacta de interesse dentro de uma massa de recolha."
Analistas em Texas encontrou a nova tecnologia uma benção para espionagem. "De encontrar túneis em Tijuana, identificando ameaças de bombas nas ruas da Cidade do México, ou lançar luz sobre o fuzilamento de funcionários aduaneiros dos EUA em Potosi, no México, a tecnologia fez o que foi anunciado: Ele acelerou o processo de encontrar informações relevantes quando o tempo foi da essência ", escreveu ele. (Ênfase no original).
O autor do memorando também fazia parte de uma equipe que introduziu a tecnologia de líderes militares no Afeganistão. "A partir de Kandahar para Cabul, temos viajado o país explicando a visão dos líderes da NSA e introduzindo equipes SIGINT para o analytics HLT pode fazer hoje e ao que ainda é necessário para tornar esta tecnologia um sucesso para mudar o jogo", diz o memorando.

Extensão de uso doméstico permanece desconhecida

O que é menos claro do arquivo é como extensivamente esse recurso é utilizado para transcrever ou não as conversas de índice e pesquisa de voz que envolvem principalmente o que os termos da NSA "US persons".
A NSA não respondeu uma série de perguntas detalhadas sobre o reconhecimento automático da fala, mesmo que uma ANS " Guia de classificação de "que é parte do arquivo Snowden afirma explicitamente que" O fato de que a NSA / CSS criou modelos HLT "para o discurso-a- processamento de texto, bem como gênero, língua e reconhecimento de voz, é "não classificados."
Também não classificados: O fato de que o tratamento pode classificar e priorizar os arquivos de áudio para linguistas humanos, e que os modelos estatísticos são regularmente sendo melhorado e atualizado com base em interceptações reais. Por outro lado, porque foram sintonizados usando interceptações reais, os parâmetros específicos dos sistemas são altamente classificado.
"A Agência de Segurança Nacional emprega uma variedade de tecnologias no decurso da sua missão de inteligência estrangeira autorizada", escreveu o porta-voz Vanee 'Videiras em um e-mail para a interceptação . "Esses recursos, operado por profissionais dedicados da NSA e supervisionado por várias autoridades internas e externas, ajudar a dissuadir ameaças de terroristas internacionais, traficantes de seres humanos, os criminosos e outros que procuram prejudicar os nossos cidadãos e aliados."
Vines não respondeu às perguntas específicas sobre as proteções de privacidade em vigor relacionadas com o processamento de comunicações de voz domésticas ou domésticos-to-internacional. Mas ela escreveu que "NSA sempre se aplica proteções rigorosas destinadas a proteger a privacidade das pessoas, não só dos EUA, mas também de estrangeiros no exterior, como dirigido pelo presidente em janeiro de 2014."
O presidencialmente decorados, mas independente de privacidade e liberdade civil Oversight Board (PCLOB) não mencionaram a tecnologia de voz para texto em seus relatórios públicos .
"Eu não vou entrar em qualquer programa se faz ou não tem essa capacidade", presidente PCLOB David Medine disse a interceptação.
Relatórios de seu tabuleiro, disse ele, continha apenas informações que a comunidade de inteligência concordou poderia ser desclassificados.
"Nós fomos para a comunidade de inteligência e pediu-lhes para desclassificar uma quantidade significativa de material", disse ele. A "grande maioria" de que o material foi desclassificado, disse ele. Mas não todos - incluindo "fatos que nós pensamos que poderia ser desclassificado sem comprometer a segurança nacional".
Hipoteticamente, Medine disse, a capacidade de transformar voz em texto iria suscitar preocupações de privacidade significativos. E seria também levantar questões sobre como as agências de inteligência "minimizar" a retenção e disseminação de materialistas particularmente envolvendo US pessoas - que não inclui informação que estão explicitamente autorizados a manter.
"Obviamente que aumenta a capacidade do governo de processar informações de mais chamadas", disse Medine. "Isso também permitiria ao governo para ouvir em mais chamadas, o que aumentaria mais do tipo de questões de privacidade que o conselho tenha levantadas no passado."
"Eu não estou dizendo que o governo faz ou não fazê-lo", disse ele, "só que estas seriam as conseqüências."

A Curva de Aprendizagem Nova

Especialista em reconhecimento de fala Bhiksha Raj compara a era atual para os primeiros dias da Internet, quando as pessoas não perceberam completamente como as coisas que eles digitados duraria para sempre.
"Quando eu comecei a usar a Internet na década de 90, eu estava postando coisas", disse Raj, um professor associado na Universidade de Carnegie Mellon Technologies Institute idioma . "Ele nunca me pareceu que 20 anos mais tarde, eu poderia ir Google mim e puxar tudo isso. Imagine se eu postei algo em alt.binaries.pictures.erotica ou algo assim, e agora que post vai me envergonhar para sempre ".
O mesmo é cada vez mais o caso com a comunicação de voz, disse ele. E os riscos são ainda maiores, dado que a maioria da comunicação do mundo historicamente tem sido conduzido pela voz, e tem sido tradicionalmente considerado um modo particular de comunicação.
"As pessoas ainda não estão percebendo bastante a magnitude que o problema poderia chegar", disse Raj. "E não se trata apenas de vigilância", disse ele. "As pessoas estão usando serviços de voz o tempo todo. E de onde vem a voz ir? Ele está sentado em algum lugar. Ele está indo para algum lugar. Você está vivendo na confiança "Ele acrescentou:".. Agora eu acho que você não pode confiar em ninguém "

A necessidade de novas regras

Kim Taipale, diretor-executivo do Centro de Stilwell de Estudos Avançados em Política de Ciência e Tecnologia , é uma das várias pessoas quetentaram uma década atrás para obter os formuladores de políticas a reconhecer que o direito de vigilância existente não trata adequadamente com as novas redes de comunicação globais e tecnologias avançadas incluindo o reconhecimento de voz.
"As coisas não são efêmeras mais", disse Taipale O Intercept. "Nós estamos vivendo em um mundo onde muitas coisas que eram fugaz no mundo analógico estão agora no registro permanente. A questão torna-se então: quais são as consequências dessa e quais são as regras vai ser lidar com essas consequências "?
Realisticamente, Taipale disse, "a capacidade do governo para pesquisa de comunicação de voz em massa é uma das coisas que nós podemos ter que viver com em algumas circunstâncias daqui para frente." Mas há, pelo menos, precisam ser "regras públicas claras e uma supervisão eficaz para certifique-se de que a informação é utilizada apenas para fins de segurança adequado nacionais coerentes com os princípios constitucionais de aplicação da lei ou. "
Em última análise, Taipale disse, um sistema onde bandeira computadores comunicações de voz suspeitos poderiam ser menos invasiva do que aquela em que as pessoas fazem a escuta, dado o potencial para o abuso e mau uso humano para levar a violações de privacidade. "A análise automatizada tem diferentes implicações de privacidade", disse ele.
Mas, para Jay Stanley, analista sênior de políticas da ACLU expressão, privacidade e Tecnologia Projeto , a distinção entre uma audição humana e uma escuta computador é irrelevante em termos de privacidade, possíveis consequências, e um efeito inibidor sobre o discurso.
"O que as pessoas se preocupam, no final, eo que cria efeitos de refrigeração, no final, são conseqüências", disse ele. "Eu acho que com o tempo, as pessoas aprendam a temer espionagem computadorizada, tanto quanto eles temem espionagem por seres humanos, por causa das conseqüências que poderia trazer."
De fato, computador de audição poderia levantar novas preocupações . Um dos memorandos internos da NSA de 2006 , diz um "melhoramento importante em desenvolvimento é a capacidade para esse recurso HLT para prever o que interceptado dados podem ser de interesse para os analistas com base no comportamento passado dos analistas."
Citando a capacidade da Amazônia para não apenas controlar, mas prever as preferências do comprador, a nota diz que um sistema projetado para NSA bandeira intercepta interessantes "oferece a promessa de apresentar analistas com a classificação altamente enriquecido do seu tráfego."
Para Phillip Rogaway, um professor de ciência da computação na Universidade da Califórnia, Davis, keyword-busca é provavelmente o "menor dos nossos problemas." Em um e-mail para a intercepção , Rogaway advertiu que "Quando a NSA identifica alguém como" interessante " baseado em PNL [Processamento de Língua Natural] métodos contemporâneos, pode ser que não há explicação humana compreensível por que motivo além: "seu corpus do discurso se assemelha aqueles de outros a quem nós pensamos interessante"; ou o oposto conceitual: "seu discurso parece ou soa diferente da maioria das pessoas. '"
Se os algoritmos de computadores da NSA usar para identificar ameaças são complexas demais para os seres humanos de compreender, Rogaway escreveu, "será impossível compreender os contornos do aparelho de vigilância, através da qual um é julgado. Tudo o que as pessoas serão capazes de fazer é tentar o seu melhor para se comportar como qualquer outra pessoa. "
 Via: firstlook
PARTICIPAÇÃO
Os leitores podem colaborar com o conteúdo do UL enviando notícias, fotos e vídeos
(de acontecimentos ou comentários) que sejam relevantes no Brasil e no mundo. Para isso, Envie sua Notícia para uniaodoslivres@hotmail.com
***DEIXE SEU COMENTÁRIO ***

Receba Nosso Conteúdo Exclusivo


Notícias Urgentes, Mensagens de Dobson Lobo e etc Uniaodoslivres

Tecnologia do Blogger.