
O que agentes de voz de IA e carros autônomos têm em comum? Seu desempenho pode ser avaliado da mesma forma, argumenta Brooke Hopkins, ex líder de tecnologia da Waymo. A Coval, a nova startup de Hopkins, busca fazer exatamente isso.
“Quando saí da Waymo, percebi que muitos desses problemas que tínhamos na Waymo eram exatamente o que o resto da indústria de IA estava enfrentando”, disse Hopkins (fotografada acima no centro) ao TechCrunch. “Mas todos estavam dizendo que isso é um novo paradigma, estamos tendo que criar práticas de teste a partir de princípios básicos e que basicamente todos nós temos que recriar tudo. E eu olhei para isso e disse, espera, passamos os últimos 10 anos em carros autônomos descobrindo como fazer isso.”
Em 2024, ela decidiu lançar a Coval, uma plataforma que constrói simulações para agentes de voz e bate-papo de IA que testa e avalia como eles realizam tarefas da mesma forma que Hopkins testou carros autônomos na Waymo. A Coval pode executar milhares de simulações simultaneamente, como ter o agente fazer uma reserva em um restaurante ou ter o agente responder a uma pergunta de serviço ao cliente feita de forma indireta.
A tecnologia da Coval avalia os agentes com um conjunto geral de métricas, mas as empresas também podem personalizar o que estão procurando e usar a Coval para continuar a avaliar regressões. Os usuários também podem levar esses dados e as percepções que obtêm com isso e apresentá-los aos seus clientes finais, seja para uma demonstração ou como uma ferramenta de monitoramento para mostrar aos seus clientes que o agente está funcionando conforme o esperado.

“Um dos maiores bloqueadores para a adoção de agentes por empresas é que eles se sintam confiantes de que isso não é apenas uma demonstração com fumaça e espelhos”, disse Hopkins. “Escolher entre fornecedores é uma tarefa realmente complicada para esses executivos porque é muito difícil saber o que perguntar ou como provar que esses agentes estão fazendo o que você espera. E assim isso dá às nossas empresas a capacidade de realmente mostrar isso e demonstrá-lo.”
Hopkins realmente formulou a ideia por trás da Coval durante a turma de verão 2024 do Y Combinator antes de lançar o produto publicamente em outubro de 2024. Ela disse que a demanda tem sido forte e se tornou explosiva nos últimos dois meses, com os clientes perguntando com que rapidez podem avaliar seus agentes.
A startup sediada em São Francisco agora está anunciando uma rodada de investimento semente de $ 3,3 milhões liderada pela MaC Venture Capital com a participação do Y Combinator e da General Catalyst. A startup usará o capital para expandir sua equipe de engenharia e trabalhar para alcançar o ajuste do mercado. Hopkins acrescentou que a empresa também estará trabalhando para permitir que seus usuários avaliem outros tipos de agentes de IA, como agentes baseados na web, no futuro.
A Coval surge em um momento em que tanto o momentum quanto a hype em torno dos agentes de IA parecem estar em alta. Líderes de tecnologia empresarial como Marc Benioff têm elogiado (e comercializado) a tecnologia dizendo que a Salesforce implantará mais de um bilhão de seus agentes de IA até o próximo ano. A OpenAI está supostamente prestes a lançar sua versão de um agente de IA em breve.
Também existem inúmeras startups atuando no espaço. Houve mais de 100 startups construindo agentes de IA apenas nos três cohort de 2024 do Y Combinator. Algumas startups de agentes de IA conseguiram rodadas de financiamento significativas também. Uma delas, /dev/agents, levantou uma rodada de investimento semente de $ 55 milhões com uma valoração de $ 500 milhões em novembro de 2024, menos de um ano depois de ser fundada.
Esse momentum significa que é provável que haja mais empresas procurando ajuda para avaliar seus agentes também. Hopkins disse que a Coval tem uma boa chance de se destacar da concorrência porque, ao contrário dos inevitáveis novos concorrentes, a Coval tem uma vantagem inicial.
“Eu acho que onde realmente nos destacamos é que venho trabalhando nesse espaço por meia década e construí esses sistemas várias vezes”, disse ela. “Construímos múltiplas iterações e vimos como elas falham e como escalam e estamos construindo os mesmos conceitos na Coval e todas essas aprendizagens.”