Nell’ultimo trimestre, il team di esperti di Salesforce AI Research ha introdotto importanti novità per accelerare l’evoluzione delle imprese verso modelli sempre più digitali e basati sull’Agentic AI. Tra queste, la simulazione un ambiente aziendale per testare le capacità degli agenti AI in scenari realistici, un nuovo strumento di benchmarking per misurare le prestazioni degli agenti in diversi casi d’uso e significativi miglioramenti a Data Cloud, che ora sfrutta language model di varie dimensioni per unificare automaticamente i dati e migliorarne la qualità.
Dalla definizione di nuovi standard di misurazione delle performance degli agenti AI alla gestione avanzata dei dati, queste innovazioni preparano il terreno per la realizzazione di prodotti di nuova generazione che rispondano alle principali sfide di CIO e responsabili IT, offrendo alle aziende strumenti concreti per trasformarsi in organizzazioni dove il lavoro umano e quello digitale collaborano in sinergia.
Simulare ambienti aziendali con CRMArena-Pro
I piloti non imparano a volare in mezzo a una vera tempesta ma nei simulatori, dove possono affrontare situazioni estreme senza rischi. In contesti complessi, le competenze nascono in spazi sicuri e controllati, dove il fallimento è un’occasione per imparare, non un errore costoso.
Allo stesso modo, anche gli agenti AI traggono vantaggio da test e training in ambienti di simulazione, che li preparano ad affrontare in anticipo l’imprevedibilità degli scenari aziendali quotidiani. Sulla base del progetto originale CRMArena, focalizzato su singole interazioni B2C, Salesforce AI Research lancia ora CRMArena-Pro, pensato per valutare le prestazioni degli agenti in scenari complessi, multi-turno e multi-agente, come la previsione delle vendite, la gestione dei ticket di assistenza e i processi di CPQ (Configure-Price-Quote).
Grazie all’uso di dati sintetici, all’integrazione sicura con le API dei sistemi aziendali e a rigorose misure di protezione dei dati personali, CRMArena-Pro offre un ambiente di simulazione aziendale avanzato e realistico, progettato per verificare non solo se un agente funziona, ma se è in grado di operare con precisione, efficienza e continuità su larga scala in casi d’uso specifici per l’impresa.
Salesforce AI Research sta perfezionando l’addestramento degli agenti AI attraverso queste simulazioni, permettendo alle aziende di testarli in anticipo in situazioni critiche, come l’escalation del servizio clienti o le interruzioni della supply chain. Integrando “l’imprevedibilità” del mondo reale, le imprese possono valutare con maggiore precisione le performance, rafforzare la resilienza nei casi limite e ridurre il divario tra la fase di formazione e l’operatività sul campo. Il risultato? Agenti AI non solo competenti, ma anche coerenti, affidabili e pronti a supportare i processi aziendali.
Misurare la preparazione degli agenti con Agentic Benchmark for CRM
Con la continua evoluzione di modelli e aggiornamenti, le aziende si trovano davanti a una sfida crescente: capire quale modello o combinazione di modelli, sia davvero il più adatto per potenziare gli agenti AI nei contesti aziendali reali. Non bastano le mode del momento o le dimensioni tecniche dei modelli: serve un approccio rigoroso, capace di misurarne le prestazioni in scenari concreti e rilevanti per il business.
Per rispondere a questa esigenza, Salesforce ha presentato Agentic Benchmark for CRM, il primo strumento di benchmarking progettato per valutare gli agenti AI nei contesti più strategici per le aziende: servizio clienti, assistenza sul campo, marketing e vendite.
Il benchmark analizza gli agenti secondo cinque metriche chiave: accuratezza, costo, velocità, affidabilità/sicurezza e sostenibilità. In questo modo viene garantita una valutazione completa e basata sui dati.
La sostenibilità, la metrica più recente, è un indicatore chiave della preparazione di un agente per le aziende. Questo parametro evidenzia l’impatto ambientale relativo dei sistemi di AI, che spesso richiedono grandi risorse computazionali. Allineando le dimensioni del modello al livello di intelligenza realmente necessario per svolgere un compito specifico, le imprese possono ridurre la propria impronta ambientale e valutare la sostenibilità della propria AI, senza rinunciare alle prestazioni richieste. In questo modo, il benchmark consente di superare la complessità dei modelli disponibili e fornisce un metodo chiaro e basato sui dati per abbinare i modelli giusti agli agenti giusti, garantendo performance affidabili, coerenti e di livello enterprise.
A completare la suite, il team di esperti di Salesforce AI Research ha introdotto MCP-Eval e MCP-Universe, due benchmark complementari pensati per valutare gli agenti con livelli diversi di approfondimento, monitorando le interazioni dei modelli linguistici con i server MCP (Model Context Protocol) in scenari d’uso reali.
- MCP-Eval fornisce una valutazione automatica e scalabile attraverso task sintetici, ideale per test su un’ampia gamma di server MCP
- MCP-Universe introduce invece compiti complessi con valutazioni basate sull’esecuzione mettendo gli agenti alla prova in scenari difficili e offrendo un framework estendibile per sviluppare e testare agenti AI
Insieme, formano un toolkit potente: MCP-Eval per le valutazioni iniziali e ad ampio raggio, MCP-Universe per le analisi più approfondite e la risoluzione dei problemi.
Questo approccio integrato è particolarmente rilevante per le aziende: la ricerca ha infatti dimostrato che la maggior parte dei modelli linguistici di ultima generazione presenta ancora limiti significativi che ne frenano l’adozione su larga scala, dalle difficoltà nella gestione di contesti lunghi, dove il modello perde informazioni, ai problemi con strumenti sconosciuti, dove fatica ad adattarsi a sistemi non familiari.
Grazie a MCP-Eval e MCP-Universe, è possibile individuare chiaramente i punti deboli degli agenti AI, ottimizzare i propri framework e integrare meglio gli strumenti. E con una piattaforma che aggiunge contesto, capacità di ragionamento avanzate e solide garanzie di affidabilità, le organizzazioni possono finalmente superare la fase di semplice sperimentazione per distribuire agenti pronti a generare un impatto reale sul business.
Consolidamento dei dati grazie ad Account Matching
Le prestazioni affidabili e scalabili degli agenti AI si fondano su dati unificati e di alta qualità, indispensabili per un processo decisionale accurato, contestualizzato e conforme alle policy aziendali. Tuttavia, per molte aziende questo è sempre stato un ostacolo.
Spesso i dati non sono né puliti né organizzati: i record dei clienti risultano duplicati tra i reparti, i campi spesso incompleti e le convenzioni di formattazione o denominazione incoerenti, rendendo la riconciliazione tra i sistemi complessa e dispendiosa.
Per superare questa sfida, i team di ricerca e prodotto di Salesforce AI hanno sviluppato e perfezionato modelli linguistici per potenziare Account Matching, la funzionalità che identifica e unifica automaticamente gli account presenti in set di dati frammentati e incoerenti. Per esempio, invece di trattare “The Example Company, Inc.” e “Example Co.” come entità diverse, l’AI le riconosce come un’unica azienda e le consolida in un record autorevole.
A differenza dei sistemi statici basati su regole, che richiedono configurazioni manuali complesse, Account Matching riconcilia milioni di dati in tempo reale, garantendo miglioramenti significativi in termini di accuratezza.
Il risultato? Dati puliti, unificati e pronti ad alimentare gli agenti AI, abilitando un’automazione più intelligente, una personalizzazione più ricca e decisioni rapide e scalabili.