Spark Meetup à la SG avec Cloudera, Xebia et Influans le jeudi 11 juin

Bonjour à tous,

Nous avons le plaisir de vous inviter au Spark meetup le jeudi 11 juin à la SGCIB (Cours Valmy à La Defense) à 19h00.

Au programme, trois sessions suivies d’un apéro networking.

• 19h00-19h15 : Accueil des participants, planning de la soirée

• 19h15-20h00 : Sean Owen (www.cloudera.com) : A taste of random decision forests on Apache Spark

Apache Spark has a lot to like for the data scientist: natively distributed, REPL, Scala and Python APIs, and a machine learning library, MLlib. Spark 1.2 includes an implementation of random decision forests, an important classifier/regressor algorithm. This talk will introduce Spark, Scala, and random decision forests, and demonstrate the process of analyzing a real-world data set with them.

• 20h00-20h30 : Matthieu Blanc & Julien Buret (www.xebia.fr) : Spark Dataframe et Spark ML

La dernière version de Spark nous apporte une nouvelle API inspirée des librairies et langage d’analyse statistique. Nous verrons comment Spark Dataframe nous permet de simplement manipuler et explorer les données en conservant la scalabilité de Spark RDD.

Dans un second temps, Matthieu Blanc présentera spark.ml. En effet, la version 1.2 de Spark a introduit ce nouveau package qui fournit une API de haut niveau permettant la création de pipeline de machine learning. Nous verrons ensemble les concepts de base de cet API à travers un exemple.

• 20h30-21h00 : Bertrand Dechoux (www.influans.com) :  Search as recommendation

Recherche full-text et recommandation, deux mondes à part? Nous verrons qu’il est possible de marier Lucene (Elastic Search/Solr) et filtrage collaboratif afin de produire un système de recommandation flexible et scalable. Cela passera par un aperçu des dernières sorties : la plateforme Confluent (Kafka) ainsi que Mahout 0.10 (avec Samsara).

• 21h00-… : Apéro networking

Merci de vous enregistrer à http://www.meetup.com/Paris-Spark-Meetup/events/222607538/  afin que l’on puisse s’assurer du bon déroulement logistique. Une carte d’identité sera demandée à l’entrée de la SGCIB.

Un grand merci à la Société Générale et à Xebia pour nous aider dans l’organisation de ce meeting et nous prêter leur salle.

Posted in meetup | 1 Comment

DataLake, MapReduce & Spark, Véhicules Connectés

Bonjour à tous,

C’est au campus de l’IESEG, au cœur de la Grande Arche de La Défense que nous allons nous retrouver le Jeudi 4 Juin dès 18h00 pour le prochain Hadoop User Group. Au programme, modélisation du Data Lake, étude de cas Mappy sur le traitement de logs avec MapReduce et Spark et présentation du projet  « véhicules connectés » de PSA Peugeot Citroën ! 3 sujets autour d’Hadoop comme on les aime !

Talk 1. Les « Data Warehouse » et « Data Mart », leur modélisation en étoiles ou en flocons sont des concepts maîtrisés depuis longtemps. Ils sont la fondation des systèmes de Business Intelligence d’aujourd’hui. L’apparition d’Hadoop, sa capacité à stocker des données  non structurée sont à l’origine des  « Data Lake », réservoir où l’on stocke toutes les données de l’entreprise … avec la promesse d’en déduire de nouvelles opportunités de business. Peut-on appliquer, ou doit-on appliquer les mêmes concepts de modélisation avec Hadoop ? Ne faut-il pas tout remettre en cause ? Cyrille Coqueret , Directeur Technique Business Intelligence & Big Data de la société EDIS Consulting détaillera les bonnes pratiques à mettre en œuvre pour modéliser un « Data Lake »

Talk 2. Mappy, le service de cartographie et d’informations géolocalisées sur web et mobile qui permet de se déplacer facilement jusque dans nos commerces, tout le monde connait ! La société s’est lancée dans l’aventure Hadoop il y a deux ans pour gérer des centaines de giga de « logs » provenant de centaines de serveurs, contrôler leurs performances, leurs usages mais aussi identifier les nouveaux « points d’intérêt » des utilisateurs web. Florent Voignier, Architecte Big Data chez Databig et Nicolas Korchia, responsable Business Intelligence chez Mappy nous raconteront l’aventure technique par laquelle ils sont passés, de Hadoop 1 à Hadoop 2, Map Reduce vs Spark et les évaluations des différents outils SQL comme HBase/Phoenix, Impala et Tableau.

Talk 3. L’internet des objets est là. L’Airbus A350, équipé de 6.000 capteurs, génère 2,5 TB d’information par vol. Ces données sont ensuite analysées pour, entre autres, optimiser la consommation des moteurs. Plus proche de nous, la voiture de monsieur tout le monde sera bientôt connectée et dialoguera avec son environnement. Chez PSA Peugeot Citroën, autre fleuron industriel, on travaille sur les véhicules connectés dans l’optique d’améliorer sécurité, confort, maintenance préventive, gestion du trafic. On pensait que les Big Data étaient Big, nous n’avons certainement encore rien vu ! Michael Thiriet, Architecte Technique BI et Big Data chez PSA nous fera découvrir ce fabuleux projet.

Remarque: pour des raisons de sécurité, la liste des participants sera communiquée 24h avant l’événement à la Grande Arche. Merci d’indiquer un nom, prénom et une adresse email professionnelle valide lors de votre inscription meetup. Merci à ceux possédant déjà une fiche meetup de vérifier la cohérence des informations saisies. Inscriptions possibles jusqu’au 3 Juin, 17h.

Merci à la société EDIS Consulting, sponsor de l’événement et à l’IESEG School of Management de nous accueillir

Enregistrement à : http://www.meetup.com/Hadoop-User-Group-France/events/222610836/

Posted in meetup | 1 Comment

Video / Slides du meetup sur Spark du 11 juin à la SG (Cloudera, Influans, Xebia)

https://youtu.be/2twefLKkW0o

• 19h15-20h00 : Sean Owen (www.cloudera.com) : A taste of random decision forests on Apache Spark

Apache Spark has a lot to like for the data scientist: natively distributed, REPL, Scala and Python APIs, and a machine learning library, MLlib. Spark 1.2 includes an implementation of random decision forests, an important classifier/regressor algorithm. This talk will introduce Spark, Scala, and random decision forests, and demonstrate the process of analyzing a real-world data set with them.

• 20h00-20h30 : Matthieu Blanc & Julien Buret (www.xebia.fr) : Spark Dataframe et Spark ML

La dernière version de Spark nous apporte une nouvelle API inspirée des librairies et langage d’analyse statistique. Nous verrons comment Spark Dataframe nous permet de simplement manipuler et explorer les données en conservant la scalabilité de Spark RDD.

Dans un second temps, Matthieu Blanc présentera spark.ml. En effet, la version 1.2 de Spark a introduit ce nouveau package qui fournit une API de haut niveau permettant la création de pipeline de machine learning. Nous verrons ensemble les concepts de base de cet API à travers un exemple.

• 20h30-21h00 : Bertrand Dechoux (www.influans.com) : Search as recommendation

Recherche full-text et recommandation, deux mondes à part? Nous verrons qu’il est possible de marier Lucene (Elastic Search/Solr) et filtrage collaboratif afin de produire un système de recommandation flexible et scalable. Cela passera par un aperçu des dernières sorties : la plateforme Confluent (Kafka) ainsi que Mahout 0.10 (avec Samsara).

• 21h00-… : Apéro networking

Posted in Uncategorized | Leave a comment

Hadoop & La sécurité : Meetup chez Zenika le 29 avril

Bonjour à tous,

Nous avons le plaisir de vous inviter au meetup du mercredi 29 Avril 2015  chez Zenika (10 rue de Milan 75009 Paris) à 19h00.

Au programme, des sessions en Français suivies d’un apéro networking.
Accueil des participants à 18h30

Table ronde : La sécurité à l’heure de la big data.

Speakers:

- Nicolas Maillard, ingénieur Solutions – EMEA Hortonworks
- Gérard PELIKS, président de l’atelier sécurité au Forum Atena et expert sécurité
- David WORMS, directeur de « Adaltas »
- Yann SESE, responsable du centre d’Excellence Data Intelligence chez Sogeti – Capgemini Group.

La table ronde sera animée par Aroua Biri, experte en transformation digitale et en cybersécurité.

Abstract:

Les décideurs sont de plus en plus convaincus de l’enjeu stratégique qu’est la sécurité des données des entreprises et de l’état.

D’autant plus que des technologies aussi puissantes que le big data sont en train de maturer.

Parler de sécurité et de big data c’est parler organisation et technique. La composante technique comprend deux axes: la sécurisation des plateformes big data (type hadoop) et l’usage des technologies big data comme outils de sécurité.

Au cours de cette table ronde, nous passerons en revue avec les intervenants dans un premier temps les différents enjeux sécurité des plateformes big data. Dans un second temps, nous décrirons comment les outils big data peuvent renforcer la sécurité des entreprises.

 

Merci de vous enregistrer afin que l’on puisse s’assurer d’avoir assez à manger et à boire et merci à Zenika de nous accueillir.

Posted in meetup | Leave a comment

Devoxx France au Palais des congrès le Jeudi 9 avril 2015 20h30 : BOF Hadoop & Spark

Cher Hadoopiens & Sparkiens,

Nous vous invitons pour un meetup special (BOF -Bird of a Feather) lors de Devoxx France ce jeudi 9 avril au Palais des congrès (Salle Paris 221M-222M Lab).

Vous pouvez également soumettre un mini-talk via le formulaire suivant :  http://goo.gl/forms/3omKPgRGaK

Ce meetup sera une bonne occasion d’échanger autour d’hadoop et de Spark : on espère vous voir nombreux!

Pour pouvoir rentrer à Devoxx (à partir de 19h) et assister à votre meetup, il faut absolument vous inscrire sur https://www.eventbrite.com/e/venez-decouvrir-devoxx-france-le-temps-dune-soiree-tickets-16446026508

A jeudi!

http://cfp.devoxx.fr/2015/talk/WWJ-3073/BOF_Hadoop_User_Group_%2FSpark_Meetup

Posted in meetup | Leave a comment

Spark Meetup chez Viadeo le mercredi 4 février

Bonjour à tous,

Nous avons le plaisir de vous inviter au Spark meetup du Mercredi 4 Février chez Viadeo (30 Rue de la Victoire 75009 Paris) à 18h30.

Au programme, des sessions en Français suivies d’un apéro networking.

Accueil des participants à 18h30

• 19h-19h45 : Présentation de la technologie Spark et exemple de nouveaux cas métiers pouvant être traités par du BigData temps réel.
Cédric Carbone – Cofondateur d’Influans (@carbone).
-Spark vs Hadoop MapReduce
-Spark Streaming vs Storm
-Le Machine Learning avec Spark
-Use case métier : NextProductToBuy

• 19h45-20h : Extension de Spark (Tachyon / Spark JobServer).
Jonathan Lamiel – Talend Labs
-La mémoire partagée de Spark avec Tachyon
-Rendre Spark Interactif avec Spark JobServer

• 20h-21h : Big Data analytics with Spark & Cassandra,
DuyHai DOAN
, Technical Advocate at DataStax (@doanduyhai).
Apache Spark is a general data processing framework which allows you perform data processing tasks in memory. Apache Cassandra is a highly available and massively scalable NoSQL data-store.
By combining Spark flexible API and Cassandra performance, we get an interesting combo for both real-time and batch processing.
During this talk we will highlight the tight integration between Spark & Cassandra and demonstrate some usages with live code demo.

• 21h00-… : Apéro networking

Merci de vous enregistrer (http://www.meetup.com/Paris-Spark-Meetup/events/220141774/) afin que l’on puisse s’assurer du bon déroulement logistique.

L’équipe HUG France
http://hugfrance.fr
@hugfrance

Posted in meetup | Leave a comment

Hadoop Meetup chez HP sur Haven, Flink, Hadoop use case

Bonjour à tous,

Toute l’équipe HUG vous souhaite une très bonne année, pleine d’Hadooperies !

Nous avons le plaisir de vous inviter au HUG du Jeudi 29 Janvier – 18h30 – Amphithéâtre HP, 20 quai du point du Jour, 92100 Boulogne (métro M9 Marcel Sambat ou Porte Saint Cloud – RER Issy Val de Seine)

Au programme, des sessions en Anglais et Français suivies d’un apéro networking.

Accueil des participants à 18h30

• Talk #1: Traitement des données non structurées (Vidéos, images, …) avec Haven pour Hadoop, par Frédéric Demongeot (présentation en Français). Frédéric, Subject Matter Expert chez HP Big Data nous parlera de catégorisation et classification automatique des informations, d’indexation et recherche sur de multiples formats de documents au travers de la plateforme Haven.

• Talk #2: Apache Flink: Fast and Reliable Large-scale Data Processing, by Robert Metzger (presentation en Anglais), committer and PMC member of the Apache Flink project. Robert is also co-founder of data-artisans.com, a Berlin-based startup that is contributing to Apache Flink. Robert will describe Flink, a data processing system and an alternative to Hadoop’s MapReduce component.

• Talk #3: Etude de cas, projet Hadoop dans le domaine des RH avec Capgemini. La vectorisation des documents : rendre comparables des informations non structurées, de nouvelles opportunités pour un acteur de l’emploi, par Edmond Segalen, Big Data & Analytics Technical Director..

21h00-… : Apéro networking

Merci de vous enregistrer (http://www.meetup.com/Hadoop-User-Group-France/events/219778022/) afin que l’on puisse s’assurer du bon déroulement logistique.

L’équipe HUG France

http://hugfrance.fr

@hugfrance

Et merci aux sociétés HP & Intel, sponsors de l’événement.

Posted in meetup | Leave a comment

Hadoop Meetup chez Viadeo sur Cascading/Tez avec Concurrent Inc et Hortonworks

Bonjour à tous,

Nous avons le plaisir de vous inviter au meetup du mardi 25 Novembre  chez Viadeo (30 Rue de la Victoire 75009 Paris) à 18h30.

Au programme, des sessions en Anglais et Français suivies d’un apéro networking.
Accueil des participants à 18h30

• Talk #1: Introduction sur Tez par Olivier RENAULT  de HortonWorks (session en francais).

Abstract: During this presentation, Olivier will introduce Apache Tez. What it does ? Why is it seen by many as the Map Reduce v2. How is it helping Hive / Pig / Cascading and other increase their performance.

Speaker: Olivier Renault is a Principal Solution Engineer at Hortonworks the company behind Hortonworks Data Platform. Olivier is an expert on how to deploy Hadoop at scale in a secure and performant manner.

• Talk #2:  The Cascading (big) data application framework from Andre KELPE , ConcurrentInc (session en anglais).

Abstract: Cascading is widely deployed, production ready open source data application framework geared towards Java developers. Cascading enables developers to write complex data applications without the need to become a distributed systems expert. Cascading apps are portable between different computation frameworks, so that a given application can be moved from Hadoop onto new processing platforms like Apache Tez or Apache Spark without any rewriting of the application code.

Speaker: André Kelpe is a Senior Software Engineer at Concurrent  the company behind Cascading, Lingual and Driven. André has spoken about Cascading and Lingual at various tech meetups, devoxx 2013 and the Technical University of Berlin. Prior to concurrent he worked in the world of digital maps and navigation.

• 21h00-… : Apéro networking

Merci de vous enregistrer (http://www.meetup.com/Hadoop-User-Group-France/events/218753457/) afin que l’on puisse s’assurer d’avoir assez à manger et à boire et merci à Viadeo de nous accueillir.

L’équipe HUG France
http://hugfrance.fr
@hugfrance

Posted in meetup | Leave a comment

Hadoop User Group, le 6 Octobre à L’Hôtel du Collectionneur

Nous avons le plaisir de vous inviter au meetup du lundi 6 Octobre à L’Hôtel du Collectionneur (51 – 57, rue de Courcelles, 75008) à 18h00.

Au programme, des sessions en Anglais et Français suivies d’un apéro networking.
Accueil des participants à 18h00

• Talk #1: Resource Management for Spark and MapReduce Workloads par Doug Cutting de la société Cloudera (session en anglais).

• Talk #2: Architecture Hadoop, sizing et best-practices par Francis Barbeau de Hewlett Packard.

• Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).

• Talk #4: Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS en temps-réel par Steven Le Roux de la société OVH.

• 21h30-… : Apéro networking

Merci de vous enregistrer afin que l’on puisse s’assurer du bon déroulement logistique.

Merci de vous enregistrer à (http://www.meetup.com/Hadoop-User-Group-France/events/208019012/) afin que l’on puisse s’assurer d’avoir assez à manger et à boire.

Et merci à la société Cloudera, sponsor de l’événement.

Posted in meetup | 1 Comment

Hadoop User Group, le lundi 22 Septembre chez Criteo

Bonjour à tous,

Nous avons le plaisir de vous inviter meetup de la rentrée le lundi 22 Septembre chez Criteo (32 rue blanche, Paris) à 18h30.

Au programme, des sessions en français qui seront suivies par du networking autour d’un apéro dinatoire.

•  Accueil des participants

• Talk#1 YARN (CDH5), openTSDB & HRaven par Jean-Baptiste Note (Software Engineer at Criteo) et Yohan Bismuth(Software Engineer at Criteo)

• Talk#2 Apache Falcon par Jean-Baptiste Onofre (Falcon Commiter @jbonofre) & Cedric Carbone (CTO Talend@carbone)

• Talk#3 Pourquoi Hbase par Nicolas Liochon (Hbase Commiter @nkeywal)

• 21h30-… : Networking autour de sushi/pizza/bières!

 

Merci de vous enregistrer à (http://www.meetup.com/Hadoop-User-Group-France/events/204787122/) afin que l’on puisse s’assurer d’avoir assez à manger et à boire et merci à Criteo de nous accueillir.

 

L’équipe HUG France

@hugfrance

Posted in meetup | Leave a comment