Business Wire
Welcome
  • Log In
  • Sign Up
Search News:
Help
http://www.temis.com
March 16, 2010 06:05 AM Eastern Time 

TEMIS : Projet SAMAR du Pôle de Compétitivité Cap Digital : vers une plateforme d’organisation de flux multimédia en langue arabe

La technologie de Text Mining de TEMIS se met au service de l’analyse des flux d’information en langue arabe et ouvre de nouveaux horizons métier

PARIS--(BUSINESS WIRE)--TEMIS, leader en solutions de Text Mining pour l’Entreprise, annonce aujourd’hui qu’il pilote le projet de recherche et développement SAMAR, un projet labélisé par le pôle de compétitivité Cap Digital Paris-Région.

« Internet en langue arabe : espace de liberté ou fracture sociale ? »

Le volume des contenus en ligne est en faible croissance au Maghreb

Le contenu en ligne est en phase de développement dans les pays du Maghreb. Etonnamment, la proportion des contenus en langue arabe issus de cette partie du globe est très faible. La presse écrite joue un rôle primordial dans le développement de l’Internet arabe et représente près de 40 % de ses contenus1. Or, la production de contenus en langue arabe doit être encouragée pour que les internautes du Maghreb, de plus en plus nombreux, puissent lire des contenus de qualité dans leur langue maternelle. De l’autre côté des frontières, on souhaite également diffuser des contenus rédigés en langue arabe afin d’étendre la gamme des sources d’informations provenant du Maghreb et de ne pas se limiter au faible volume de contenus non représentatifs, soit directement rédigés en anglais dans un souci de diffusion internationale, soit plus ou moins fidèlement traduits en anglais.

Ouvrir des horizons aux contenus en arabe

Le projet SAMAR a été initié par l’Agence France-Presse avec la volonté d’ouvrir son portail d’information à des contenus multilingues écrits en langue arabe. Mais les mécanismes de la langue arabe sont extrêmement complexes et les technologies actuelles ne permettaient pas un traitement optimal de l’information vue du Maghreb. Ces contenus en arabe ne pouvaient donc être reliés à aucune plateforme d’information internationale sans traduction préalable. Une intégration réussie de nouvelles sources d’informations dans de tels systèmes sous-entend en effet que les collections de contenus importées soient exploitables au même titre que les autres contenus fédérés par le portail d’information. Cela implique une analyse linguistique poussée des contenus permettant ad minima d’indexer les informations et de les rendre accessibles via la recherche d’information en ligne.

SAMAR, la plateforme d’organisation de flux multimédia en langue arabe

Le projet SAMAR a pour objet le développement d’une plateforme de traitement multimédia en langue arabe et sa validation. Pour ce faire, l’équipe SAMAR mène des expérimentations sur la totalité des dépêches arabes produites jusqu’ici par l’AFP, soit environ un million de dépêches (150 millions de mots), mais aussi sur un ensemble de flux radio et télévisuels arabes.

Le défi de la langue arabe

La complexité de la langue arabe est un vrai défi et pour mener à bien ce projet ambitieux, un nombre important de verrous techno-linguistiques devront être levés tels que :

  • La voyellation de l’arabe dans les textes pour la recherche
  • La transcription de la parole en arabe sachant qu’il existe plusieurs dialectes à retranscrire de façon homogène.
  • L’appariement français-arabe d’entités nommées
  • Etc…

La réunion des meilleurs experts

Le projet SAMAR réunit plusieurs partenaires stratégiques complémentaires, issus des métiers de la reconnaissance vocale, et de la linguistique :

  • AFP, fournisseur des flux multimédia AFP et des flux radio et télévisuels arabes
  • VECSYS, spécialiste de l’extraction de texte à partir de contenus audiovisuels (speech to text)
  • VECSYS RESEARCH, expert du traitement de l’arabe parlé littéraire et dialectal
  • TEMIS, spécialiste de l’extraction de connaissance à partir de textes, de la catégorisation d’information et de l’analyse d’informations stratégiques
  • NUXEO, spécialiste de la gestion de contenu multimédia
  • ANTIDOT, expert en recherche cross-lingue (français<->arabe; anglais<->arabe)
  • MONDECA, expert en gestion des ontologies et des référentiels métiers.
  • CNRS LLACAN (Langage, langues et cultures d’Afrique noire), expert en analyse de l’arabe littéraire et de l’arabe dialectal
  • LIMSI, spécialiste de la modélisation de traduction sur base d’apprentissage
  • INALCO CERMOM (CEntre de Recherche Moyen-Orient et Méditerranée), expert en langue arabe et en validation des modèles et des résultats
  • GREYC UMR CNRS 6072, spécialiste de la traduction automatique (arabe-anglais ; arabe-français)

TEMIS, analyseur de la langue arabe écrite

Dans le cadre de ce projet, TEMIS met toute son expertise en Text-Mining au service de l’analyse de contenu. Le logiciel Luxid® de TEMIS analyse les structures grammaticales des contenus en arabe pour extraire les entités et les relations pertinentes. Il enrichit également les contenus en leur associant des métadonnées afin de rendre la recherche d’information plus précise. L’analyse fournie par Luxid® est rendue possible grâce à l’activation d’annotateurs spécifiques à un thème et à une langue. Pour le projet SAMAR, TEMIS utilise des annotateurs précis et efficaces résultant de plusieurs années de développement.

Des marchés dans l’expectative

Plusieurs applications se profilent déjà à l’issue du projet. Cette plateforme pourra en effet être utilisée par l’ensemble des médias arabisants de la bordure méditerranéenne et du Moyen-Orient pour l’organisation, la gestion et l’exploitation de leurs flux d’information.

La nouvelle plateforme fédérant des contenus en arabe représentera également un vivier organisé d’informations stratégiques pour les entreprises développant des activités sur les marchés prometteurs du Moyen Orient et d’Afrique du Nord.

A propos de cap Digital

Cap digital est le pôle de compétitivité francilien des contenus numériques. Il a pour objectif de faire de Paris et de sa région la référence mondiale du numérique. Le développement de la R&D, la croissance des entreprises, la mise en réseau de ses adhérents et leur promotion à l’international sont autant de missions que se fixe Cap Digital pour soutenir la créativité et la compétitivité de ce secteur industriel qui représente un marché mondial de 300 milliards d'euros.

www.capdigital.com

A propos de TEMIS

TEMIS édite des logiciels de Text Mining. Sa solution Luxid® optimise le traitement de l'information en transformant du texte libre en données analysables pour l'extraction de connaissance, le classement automatique de documents, l’analyse de contenu et la visualisation d’information. Luxid® joue un rôle stratégique pour les secteurs des Sciences de la Vie, de l’Industrie, de la Défense et de l’Edition & des Médias, apportant une nouvelle dimension d’analyse aux activités d’Intelligence Economique, de recherche et innovation, d’analyse d’opinion, de « voix du client » et d’édition de contenu.

Créée en 2000, la société est actuellement présente à travers ses filiales en France, en Allemagne, en Italie, et aux Etats-Unis, et au travers de ses partenaires dans le reste du monde.

La technologie innovante de TEMIS a attiré de grands groupes tels que l’Agence Française pour les Investissements Internationaux, l’Agence France-Presse, BASF, Bayer Schering Pharma, BNP Paribas, Boehringer Ingelheim, CARMA International, Convera, Editions Lefebvre-Sarrut, Elsevier, EMC, Europol, Ingenuity, Liquid Campaign, Merck Serono, le Ministère de la Défense, le Ministère des Finances, Nature Publishing Group, Novartis, Philip Morris International, PSA Peugeot-Citroën, Roche Diagnostics, Roquette, Sanofi-aventis, Solvay Pharmaceuticals, Springer Science+Business Media, The McGraw-Hill Companies, Thomson Reuters, Trinity Mirror plc.

TEMIS est un membre actif du pôle de compétitivité Cap Digital.

www.temis.com

1 « Internet en langue arabe : espace de liberté ou fracture sociale ? », Aïta S., revue trimestrielle MAGHREB-MACHREK, n° 178, 2003-2004.

Contacts

TEMIS
Martine Falhon
Corporate Communications
04 56 38 24 03
martine.falhon@temis.com

Recent Stories from TEMIS

  • View Press Release
    Springer et TEMIS renforcent leur collaboration sur l’analyse sémantique des contenus scientifiques
    May 19, 2011
    PARIS--(BUSINESS WIRE)--Springer Science+Business Media et TEMIS annoncent aujourd’hui qu’ils intensifient leur collaboration stratégique afin d’enrichir et d’interconnecter les contenus au sein de... more »
  • View Press Release
    TEMIS finaliste des CODiE Awards 2011
    April 19, 2011
    PARIS--(BUSINESS WIRE)--TEMIS, leader des solutions d’enrichissement sémantique de contenu pour l’Entreprise, annonce sa nomination au titre de finaliste des 26èmes CODiE™ Awards organisés par la S... more »
  • View Press Release
    AAAS/Science choisit TEMIS pour un projet d’enrichissement sémantique de contenu en partenariat avec HighWire
    April 07, 2011
    PARIS--(BUSINESS WIRE)--L’Association Américaine pour l’Avancement des Sciences souhaite optimiser le maillage de ses contenus numériques, ainsi que l’expérience de navigation de ses utilisateurs. more »
RSS feed for TEMIS
http://www.temis.com

Company Information Center

TEMIS RSS feed for TEMIS

Share

  • Facebook
  • Twitter
  • LinkedIn
  • Delicious
  • Reddit
  • StumbleUpon
  • Digg
  • MySpace
  • Newsvine
  • Google Bookmark
  • Yahoo! Bookmark
  • EmailEmail
Tweet
  • EmailEmail
All News
Business Wire
  • Home
    • Home
    • Membership Benefits
    • Submit a Press Release
  • News
    • All News
    • News with Multimedia
    • News by Industry
    • News by Subject
    • News by Language
    • RSS Feeds
    • Business Wire Mobile
    • Features
    • Company NewsCenters
    • Smart Marketing Pages
    • Company Profiles
    • Annual Reports
  • Events
    • Trade Shows & Events
    • Earnings & Conference Calls
    • Business Wire Events
  • PR Services
    • Press Release Distribution
    • Distribution Lists
    • Industry Targeting
    • LatinoWire & Ethnic Media
    • Public Policy Wire
    • Trade Show Services
    • Photos & Multimedia Marketing
    • GloMoSoMe
    • Press Release Measurement
    • Mobile Alerts
    • Clips & Research
    • Fax & Email Services
    • Online Newsrooms
    • News Feeds
  • IR Services
    • Material News Disclosure
    • XBRL
    • EDGAR (US)
    • IPO Services
    • SEDAR (Canada)
    • European Disclosure
    • Corporate Social Responsibility (CSR)
    • Investor Targeting
    • Fax & Email Services
    • Online Investor Centers
    • IR Resource Center
  • SEO Services
    • Press Release Optimization
    • EON: Enhanced Online News
    • Webinars & Resources
  • Journalist Tools
    • PressPass: Your News
    • Conduct Surveys
    • Business Wire News Feeds
    • Business Wire News On Your Website
    • Journalism Associations
  • Support & Education
    • FAQ
    • How to Write a Press Release
    • How To Optimize a Press Release for Search
    • How to Distribute a Press Release
    • Find Your News Online
    • Sample Press Release
    • Features News Tips
    • International Media Tips
    • SEC Regulations
    • Exchange Guidelines
    • White Papers
    • Webinars & Podcasts
    • Get WiredIn!
  • About Us
    • Business Wire Newsroom
    • Contact Us
    • History
    • Jobs
  • About Us
  • Contact Us
  • Site Map
  • Privacy Statement
  • Terms of Use
  • ©2012 Business Wire

More Business Wire sites

  • Canada
  • UK/Ireland
  • Deutschland
  • France
  • Italy
  • Japan
  • EON: Enhanced Online News
  • Tradeshownews.com
  • PYMNTS.com

About Us

  • Business Wire Newsroom
  • Contact Us
  • Business Wired blog

News on BusinessWire.com

  • All News
  • RSS Feeds
  • Business Wire Mobile Apps

Follow Us on Twitter

  • @BusinessWire
  • @BWSportsWire
  • @BWPolitics
  • @BWCSRNews
  • @EONpr
  • @TradeshowNews
  • @BW_Canada
  • @BWIntlMedia
  • @BWInfoDiva
  • @BusinessWireFR

Like Us on Facebook

  • Business Wire
  • Tradeshow News