Os robôs vão roubar seu emprego
Já tinha ouvido falar, mas somente recentemente aconteceu comigo: passei por uma etapa de processo seletivo que envolvia uma entrevista via áudio do WhatsApp.
Resolvi contar como foi e apontar alguns momentos que me fizeram levantar as sobrancelhas.
Os robôs vão roubar seu emprego (mas talvez não da maneira que está pensando).
Primeiro contato
O processo começa com um e-mail dizendo que o currículo enviado foi selecionado e a primeira etapa é uma entrevista, obrigatória, via WhatsApp. Além dos detalhes, também é enviado um pequeno PDF com uma pequena prévia do que acontecerá a seguir.


O link para iniciar o processo de triagem é simplesmente um atalho para iniciar uma conversa no WhatsApp, tal como é ilustrado na primeira mensagem do PDF. O usuário inicia a comunicação com o robozinho do serviço utilizando uma mensagem com um identificador.
Após o usuário informar um e-mail, nome e sobrenome para cadastro, ele é cadastrado na plataforma e uma mensagem deve ser recebida com suas credenciais (nome e senha) na caixa de entrada.
Como é o próprio usuário que inicia o processo de comunicação com o robô, o controle sobre os dados a seguir são todos dele. Ele pode, por exemplo, pedir para uma pessoa mais experiente iniciar esse procedimento e realizar esta etapa da entrevista totalmente em seu nome.
Pera, como?
Às vezes é um detalhe que pode passar desapercebido ao olhar menos criterioso, mas outro fato que chama a atenção nesta etapa por um motivo: O usuário não escolhe sua senha em momento algum. A senha é gerada no serviço e enviada para o usuário, em texto plano e, em momento algum, ele é notificado para alterá-la. Se quiser até pode, mas a sensação que se passa é durante o processo inteiro é a de que o usuário não deve ser incomodado, e esta etapa não é diferente.

A senha é curta (8 caracteres), sem caracteres especiais e formada somente por letras e números.
Isso é um problema por um motivo relativamente simples: Para enviar uma senha desta maneira — novamente, em texto plano — para um usuário, o serviço deve ter uma maneira de conhecê-la em algum momento. Se o serviço pode ter acesso ao código, outros também podem fazê-lo.
Há várias maneiras para corrigir esse problema, mas algumas que já me deparei ao usar outros serviços são: – A plataforma deve enviar um link para o usuário completar o registro. Esse é aquele caso onde nós recebemos um endereço e nos deparamos com um formulário parcialmente preenchido, e somos levados a completá-lo com a nossa própria senha, e inclusive confirmando-a, digitando mais uma vez . – O serviço pode criar uma senha de uso única, com tempo de vida curto, que é descartada assim que alguém abre o endereço pela primeira vez. Neste momento o usuário é levado a criar a sua própria senha, e a original — aquela gerada pela plataforma — perde sua validade para sempre. – O serviço também pode escolher não lidar com credenciais de acesso de forma alguma, delegando esta tarefa para empresas mais robustas. Essa é a motivação por implementar alternativas de acesso a partir do Login with Google, Login with Apple, e outros.
Em qualquer caso, a única parte interessada em conhecer a senha do usuário deve ser o próprio usuário.
Entrevista de uma pessoa só
Antes mesmo que o e-mail do passo anterior percorra todas as linhas de fibra ótica e fios de cobre, do serviço de entrevistas até a caixa de entrada do e-mail informado, a “entrevista de uma pessoa só” já pode começar.
Uma primeira pergunta, mais genérica, supostamente serve como aquecimento para o entrevistado se soltar. Para o entrevistador (neste caso, algum modelo de inteligência artificial) serve para avaliar a qualidade do áudio recebida através do aplicativo e , de alguma forma, determinar se há possibilidade de transcrever as respostas que irá receber logo em seguida.
A partir deste momento o usuário deve responder quatro questões, sempre recebidas com um singelo “hmmm, entendi!” pelo robô do outro lado.
Suspeito que neste momento o modelo ainda não entendeu nada. Esta resposta é recebida muito rapidamente, literalmente 1 segundo após o envio do áudio, e benchmarks de um modelo famoso para transcrição de áudio (openai-whisper) mostram que a transcrição, mesmo nos hardwares mais potentes do mercado, ainda não chegaram neste patamar de eficiência.
Mas é apenas uma suspeita, um detalhe, e faz sentido para simular uma experiência de “conversa humanizada” (palavras deles, não minhas.)
As perguntas não surpreendem em questão de qualidade, inovação ou criatividade. Não é claro se foram criadas através de algum grande modelo de linguagem, se foram recicladas de processos anteriores, quando ainda eram ôrganicos, ou se passaram por uma revisão por humanos.
Por falar em “entender”...
Alguns pares de perguntas respondidas depois, o candidato recebe um feedback de todas as respostas, e uma promessa de que alguma pessoa de carne e osso irá avaliar seu desempenho e entrar em contato a respeito das próximas etapas.
Não me ocorreu no momento, mas depois eu fiquei pensando o que poderia acontecer se o candidato, por exemplo, gaguejasse, ou tivesse um sotaque muito forte.
Explico: sou mineiro e, como todo mineiro, tenho um sotaque. Também tenho alguns vícios de linguagem e quem já me ouviu conversando, dando oficinas ou assistiu algumas aulas, sabe que minha cabeça pode trabalhar mais rápido que minhas cordas vocais. Não tenho uma dificuldade de fala de fato (e o processo prevê tratamentos especiais para candidatos que necessitem de melhor acessibilidade, o que é um ponto positivo, caso sejam eficientes), mas ao somar tudo isso fiquei curioso sobre o que o modelo utilizado pudesse ter entendido a partir do que eu falei.
Aquele site em que o candidato é registrado (com os problemas já apontados) possui, em verdade, as perguntas feitas pela plataforma, os áudios enviados pelo usuário e o feedback recebido. Não tem, entretanto, o que o modelo de inteligência artificial entendeu do que foi falado. Eu sou mineiro, mas acho que minha demografia deve ser bem representada nas bases de treinamento. Isso também pode ser dito a respeito das pessoas manauaras? Os modelos usados entendem bem o(s) sotaque(s) nordestino(s), ou só aquele das novelas da Globo?

Como resolver a hipotética questão em que o candidato fala “X”, o modelo entende “cheese” e dá um feedback potencialmente irrelevante e equivocado? Os modelos de speech-2-text não são especialmente diferentes de outros de sua categoria e também podem cometer alucinações (é um problema conhecido, documentado e pesquisado ), assim como os modelos de geração de texto. A imprensa já reportou a respeito do problema no passado.
Resumindo o problema: Podem estar sendo utilizadas ferramentas que, devido à sua natureza probabilística, gerar resultados que se distanciam da realidade.
A ausência da transcrição gerada pelo modelo de speech-2-text — que serve então de elemento de entrada para um outro modelo generativo — é capaz de multiplicar erros que são eternizados até sabe-Deus-lá-quando.
A possibilidade de serem produzidas informações incorretas é prevista na política de privacidade da Diga.Aí.

Os consumidores da plataforma são, de acordo com o documento, “aconselhados a verificar e confirmar qualquer informação”, mas como seria possível fazer essa verificação se não há o que verificar? É possível ouvir os arquivos de áudio originais, é verdade, mas se é necessário fazer esse passo em razão da incerteza do que foi gerado, qual exatamente foi o ganho de produtividade realizado por utilizar essa plataforma?
A falta de transparência gera dúvidas. Dúvidas, em um momento delicado, evoluem para desconfiança. Não fica claro se é somente o candidato que não recebe a transcrição, ou se a empresa que utiliza a ferramenta também não consegue ter acesso a esses dados. De toda forma, é pouco agradável para quem depende do processo, ainda que de diferentes maneiras, ter que confiar cegamente no resultado gerado.
Feedback do feedback
O processo de seleção de novos colaboradores é, sem sombra de dúvidas, algo que deve receber a nossa atenção: Para os candidatos em busca da sua primeira oportunidade é uma verdadeira tarefa sisifiana — e potencialmente traumatizante. Para algumas empresas, uma necessidade. Para outras, um serviço em potencial e oportunidade de disrupção e destaque.
Em relação ao tratamento dos dados, fora o que já foi levantado, vale apontar a verdadeira teia de conexões que é necessária seguir para tentar entender o que é feito neste caso:
- Meu processo se iniciou a partir do contato da empresa CI&T
- A CI&T contrata os serviços e produtos da Diga.Aí
- O produto da Diga.Aí é desenvolvida pela Edutalent. A Diga.Aí, inclusive, remete a este site para, enfim, ter o acesso à política de privacidade e proteção de dados.

- O site da Edutalent, finalmente, faz menções discretíssimas a respeito do armazenamento de dados pessoais, como o os dados de voz do candidato e seus dados pessoais, como nome, sobrenome, e-mail.
Incluir este documento na mensagem enviada originalmente evitaria o trabalho de ter que procurar essas informações e visitar três sites diferentes. Garantiria também, eu imagino, um melhor consentimento.
Enfim
O hype em cima da inteligência artificial generativa representa, de fato, uma oportunidade de melhoria de processos. Mas deve vir acompanhada de transparência e boas experiências por todas as partes envolvidas em cada etapa.
O desenvolvimento de aplicações que surfam nesta onda aproveitam da facilidade de criar com IA e criar usando IA. De repente, ficou tão rápido apresentar uma produto que quase não dá pra pensar em questões como:
- O que exatamente estou tentando vender?
- Que tipo de problema eu estou resolvendo?
- Esse produto funciona ou só roda?
No caso, senti falta de falar com um ser humano do outro lado. Parte importante da comunicação é interpretar sinais não verbais do receptor da mensagem e também poder expressar os meus. Não senti que a oportunidade de utilizar todas essas ferramentas foi bem aproveitada.
Ainda, a tarefa de escrever um texto é difícil e cansativa justamente por ter que reduzir toda essa dimensionalidade às poucas letras do alfabeto. Transmitir, novamente, todos esses sinais somente com a fala, sem a possibilidade de riscar o que foi dito, pensar a respeito por vários minutos, consultar outros recursos... Novamente, qual é exatamente o ganho ao optar pela via da entrevista via áudio do WhatsApp?
A aplicação de um modelo de inteligência artificial para transcrever áudios e conduzir uma entrevista de emprego é novo, mas não acho inovador. É preciso criatividade e interesse para ultrapassar o clássico algoritmo que detecta palavras-chave da vaga com as palavras-chave incluídas no currículo, caso contrário chegamos à mais uma roda reinventada (e que, convenhamos, nunca girou muito bem para os Sísifos que buscam uma oportunidade de conseguir um emprego bom por aí).
Este texto, claro, é somente um relato de experiência e não deve ser visto como uma forma de difamar determinada empresa ou quem faz parte da sua cartela de clientes. Todas as eventuais críticas foram acompanhadas de propostas de melhoria e foram feitas de boa-fé, acreditando na capacidade de aperfeiçoamento de todas as partes.