Listado de Software de Data Mining gratuíto, open source o freeware

Listado de software y herramientas de Data Mining, de proveedores de software gratuíto, ya sea software libre (open source), freeware o versiones gratuítas de herramientas de datamining.
Iremos ampliando información sobre cada herramienta de minería de datos, y también sobre otro software de data mining de libre utilización que vayamos conociendo, o que vayáis sugiriendo en los comentarios.

  • Weka 
  • RapidMiner 
  • Orange 
  • Mlpy (Python)
  • Pandas (Python)
  • PyBrain (Python)
  • Scikit-learn
  • Gnome-datamine-tools
  • Alteryx Project Edition
  • Chemicalize.org
  • ML-Flex
  • Apache Mahout
  • MiningMart
  • Rattle GUI
  • Natural Language Toolkit
  • KNIME 
  • CMSR Data Miner
  • Lattice Miner
  • Shogun 
  • ADaM. Algorithm Development and Mining System
  • ADaMSoft
  • SenticNet API
  • SCaViS 
  • Vowpal Wabbit
  • GNU Octave
  • MALLET
  • OpenNN
  • Databionic ESOM Tools
  • Jubatus 
  • DataMelt
  • Fityk
  • Dlib 
  • LIBLINEAR y LIBSVM
  • ROSETTA
  • KEEL 
  • UIMA 
  • ELKI 
  • GraphLab
  • MDP. Modular toolkit for Data Processing
  • ..

 

 

Hola Carlos, Acabo de encontrar este sitio. Interesante, y más el post sobre software-data-mining gratuitos.

 

Me desempeño en una ONG (donde no hay ingenieros) y trabajo en el ámbito de las redes contra la discriminación. Como vez, un espacio que suele ser prejuicioso respecto al potencial del "Business Intelligence", que incluso usa otros códigos y archivos de mundo de referencia, pero que necesita con urgencia meterse en estas herramientas, y cada vez más.

 

Por eso al ver vuestro amigable sitio Dataprix, me atrevo ha realiar una pregunta concreta: Debo desarrollar un sistema de seguimiento de delitos y ofensas no criminales (como son acciones sin protección -aún- en el sistema judicial, las fuentes principales de información es la prensa y denuncia particular. Y luego hacer análisis buscar tendencias prioridades de acción. ¿Qué tipo de softwares recomiendas?

 

Al momento usamos excell, pero somos conscientes de las limitaciones visuales y de prospectiva que tiene, pues continúa siendo una mera base de datos. Entonces nuevamente... ¿Qué recomendarías para esto?

 

Atentos saludos, Jorge

En respuesta a por JorgeZS (no verificado)

Hola Jorge

 

Es difícil contestar a tu pregunta sin más información, entiendo que buscas una herramienta para un perfil de analista o usuario de negocio, pero no me queda claro si open source o podéis comprar licencias, o si tenéis que hacerlo todo vosotros, o podéis contratar a alguien para que os desarrolle el sistema.

Si no tenéis necesidad de trabajar en web y acceder a los datos con niveles de seguridad, perfiles de usuario, etc., no tenéis desarrolladores, y no pudiérais contratar a alguien que os lo haga, te diría que te quedes con excel. Si te organizas bien los datos, y haces una buena clasificación por la que luego puedas aplicar filtros, con excel tienes muchas opciones de visualización, e incluso de análisis estadístico, y también tiene opciones de predicción y análisis what-if. Si quieres probar como extra algo más vistoso, o sacar ideas para visualizaciones, después de haberte organizado los datos también podrías probar Tableau Public, con el que importando los datos desde Excel puedes crear muy buenas visualizaciones, y compartirlas en el Cloud de Tableau. Si haces una búsqueda en el comparador de software de Dataprix de herramientas de BI para empresa pequeña, y gratuítas, verás que también te sale Microsoft Power BI, que es una opción parecida.

En open source, si no tenéis perfiles de ingenieros, o al menos estadísticos, podrías encontrar alguna cosa, pero por lo general el software libre necesita más conocimiento de desarrollo para utilizarlo correctamente.

Y si podéis permitiros pagar licencias, ya tienes más opciones, puedes hacer otra búsqueda de herramientas de BI para pymes con licenciamiento SaaS, para ahorrarte el mantenimiento de la instalación, y ahí te saldrán, entre otras, las denominadas de BI de autoservicio, como TIBCO Spotfire, Qlik Sense o IBM Cognos Analytics. En esta misma selección también te sale Atlas SBI, que aunque no es de autoservicio porque un desarrollador ha de preparar los informes o los cuadros de mando, sé que tiene una licencia específica para ONG's.

Bueno, espero haberte servido de ayuda, sólo recordarte que lo más importante es que primero organices bien los datos, porque eso ninguna herramienta lo va a hacer por ti :)

 

 

Hola Carlos, surfeando por la web llegué a este tu blog.

Estoy procesando cientos (unos miles) de documentos en pdf que una amiga de la area de sociales me pidió que le ayudara, ya les hice analisis de texto (nube, network, clusters, factorial...) usando R y Python.

Ahora quiero ir para el lado de hacer modelos (modelamiento, simulación, predicción), entonces pensé en hacer LDA para descubrir temas, luego aplicar logica Fuzzi, redes neurales...

Mi curiosidad es si existen software's libre que permite hacer todo eso (TEXT MINING, fuzzi) sin la necesidad de saber programar (que no es mi caso).

Pregunto eso porque quiero que esa amiga replique lo que yo hice en R pero ella tiene NULO conocimiento en programación.

Muchas gracias por su respuesta. Omar

En respuesta a por Omar (no verificado)

Hola Omar, parecen muy intesantes las cosas que estás haciendo con R y Python, estaría muy bien si nos pudieras explicar un poco más sobre tus proyectos.

Sobre la cuestión de qué herramientas open source existen para poder hacer data science sin programar, las que yo conozco son Rapidminer y Weka, el software de datamining que incluye Pentaho, pero seguro que hay alguna más, aunque con software libre siempre son más difíciles de encontrar herramientas que requieran menos conocimiento técnico.

Ahora también comienzan a salir servicios en la nube fáciles de utilizar que permiten aplicar algoritmos de inteligencia artificial o machine learning, suelen ser de pago por uso, pero podría resultarle mejor que comprar una licencia de un software propietario.