-

Visual Bank amplía «Qlean Dataset» para impulsar modelos fundacionales de voz en japonés a gran escala

Más de 100.000 horas de audio en japonés con derechos autorizados, incluidos dialectos regionales y contenidos culturalmente contextualizados, clave para el desarrollo comercial de IA

TOKIO--(BUSINESS WIRE)--Visual Bank Group, aprovechando más de 40 años de experiencia a través de amanaimages inc., amplía su «Qlean Dataset» para ofrecer corpus de lengua japonesa de alta calidad y con derechos autorizados, que incluyen más de 100.000 horas de audio para uso comercial.

Este avance dentro de la división Qlean Dataset, centrada en el suministro de conjuntos de datos para instituciones dedicadas a la investigación y el desarrollo, con derechos autorizados para entrenamiento de IA y aplicaciones de datos a gran escala, consolida a la empresa como un proveedor de referencia en infraestructura de datos en lengua japonesa. Su propuesta destaca especialmente en corpus de voz estructurados, organizados según configuraciones de hablantes y dominios temáticos.

Características principales para desarrolladores de IA

  • Datos con derechos autorizados para uso comercial
    Todos los conjuntos de datos cuentan con derechos totalmente autorizados para uso comercial y cumplen con los estándares globales de cumplimiento como el RGPD y la CCPA.
  • Activos de audio de alta fidelidad
    Las grabaciones a 48 kHz/16 bits o superior capturan tanto voz con calidad de estudio como entornos acústicos.
  • Anotación humana experta
    Las transcripciones a nivel nativo y los metadatos estructurados proporcionan conjuntos de datos listos para el entrenamiento en el desarrollo de IA.
  • Conjuntos de datos de seguridad y moderación
    Los conjuntos de datos admiten la detección de lenguaje dañino, incluidos discursos de odio e instrucciones (prompts) abusivas.
  • Conjuntos de datos de evaluación en japonés
    Los conjuntos de datos de evaluación están alineados con referentes internacionales como MMSU para medir el razonamiento y los matices lingüísticos en japonés.
  • Entornos acústicos específicos de Japón
    El audio específico de Japón, incluidos instrumentos tradicionales, santuarios y entornos urbanos, es compatible con la IA multimodal y espacial.

 

AI Data Recipe
https://qleandataset.visual-bank.co.jp/en/lineup

Corpus de lengua japonesa
https://qleandataset.visual-bank.co.jp/en/products/japanese-language-corpora

El comunicado en el idioma original es la versión oficial y autorizada del mismo. Esta traducción es solamente un medio de ayuda y deberá ser comparada con el texto en idioma original, que es la única versión del texto que tendrá validez legal.

Back to Newsroom