Name: Big data CSV parser plugin<br>Level: Intermediate<br>Possible mentor: ?<br>Possible second mentor: ?<br><br>Description<br><br>With the advent of inexpensive DNA microarray technology, big data is now available to many small and medium laboratories which performs statistical analysis based in microarray experiments. Most of the times the data produced by genotyping services is delivered in CSV format, as it represents a currently cross-platform &quot;standard&quot; which is easily readable, and still used in hundreds of business applications. In Smalltalk we have several CSV parsers but the performance is far from being competitive with libraries implemented in other languages. The goal of this project is to measure time execution and build a plugin to access CSV data in a fast and competitive way.<br>
<br>Technical Details<br>Currently exists several open source projects which implements C functions to access CSV data. The challenge of this project is to learn tools like VMMaker and Interpreter Plugin classes to develop a Squeak/Pharo internal or external plugin.<br>
<br>Benefits to the Student<br>The student will learn about interfacing highly efficient libraries to Smalltalk.<br><br>Benefits to the Community<br>The Smalltalk community will gain a winning library for a extremely common task like dealing with CSV files.<br>
<br><br>Name: HDF5 support (<a href="http://www.hdfgroup.org/HDF5/">http://www.hdfgroup.org/HDF5/</a>)<br>Level: Intermediate<br>Possible mentor: ?<br>Possible second mentor: ?<br><br>Description<br><br>Hierarchical Data File 5 is a new (1998) format capable of storing large and complex amount of data, and it is used in Gravitational and Plasma Physics, Earth Science research, Weather Services, Software Engineering, Biomedical Informatics, etc. As new data adquisition hardware is providing bigger datasets (for example, sequencing data) the need to query and access metadata, partial and full datasets in an efficient way (parallel I/O) is more important. In this format data are stored in a hierarchical format similar to the UNIX file system, and the data model supports a rich variety of data types and data space organizations. Currently exists APIs and wrappers for Java, .NET, Python, C and FORTRAN.<br>
<br>The goal of this project is to build a wrapper to enable to access HDF5 data in Smalltalk. This binding could open Smalltalk to a lot of science domains and users in which currently pure object technology is unknown.<br>
<br>Technical Details<br>The student will need to learn details about the HDF format as data sets and composite data types.<br><br>Benefits to the Student<br>The student would learn about efficient data systems, implement an API, and experiment with large scientific data in Smalltalk.<br>
<br>Benefits to the Community<br>The Smalltalk community will attract more users by keeping in touch with big data analytics, by providing access to an efficient data format used currently in research and business.<br><br>
<div class="gmail_quote">2012/3/5 Janko Mivšek <span dir="ltr">&lt;<a href="mailto:janko.mivsek@eranova.si">janko.mivsek@eranova.si</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hernán and Karl, can you or someone else develop your ideas a bit<br>
furher, by answering the questions:<br>
<br>
  description<br>
  technical details<br>
  benefif for student<br>
  benefit for community<br>
<br>
while potential mentor can be choosen later<br>
<br>
Thanks!<br>
Janko<br>
<br>
Dne 02. 03. 2012 21:38, piše karl ramberg:<br>
<div class="HOEnZb"><div class="h5">&gt; Make web browser plugin of Squeak work better on all platforms.<br>
&gt; Get Etoys image to run on CogVM.<br>
&gt;<br>
&gt; Karl<br>
&gt;<br>
&gt;<br>
&gt; On Fri, Mar 2, 2012 at 9:36 PM, karl ramberg &lt;<a href="mailto:karlramberg@gmail.com">karlramberg@gmail.com</a>&gt; wrote:<br>
&gt;&gt; Port OpenQwaq video to Etoys<br>
&gt;&gt;<br>
&gt;&gt; Karl<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On Fri, Mar 2, 2012 at 9:17 PM, Hernán Morales Durand<br>
&gt;&gt; &lt;<a href="mailto:hernan.morales@gmail.com">hernan.morales@gmail.com</a>&gt; wrote:<br>
&gt;&gt;&gt; To dream is easy:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; -HDF5 (<a href="http://www.hdfgroup.org/HDF5/" target="_blank">http://www.hdfgroup.org/HDF5/</a>) support like PyTables or h5py for<br>
&gt;&gt;&gt; Python<br>
&gt;&gt;&gt; -Information Retrieval/Full Text Search package like Lucene<br>
&gt;&gt;&gt; (<a href="http://lucene.apache.org/" target="_blank">http://lucene.apache.org/</a>)<br>
&gt;&gt;&gt; -A binding to R or SAS or SPSS<br>
&gt;&gt;&gt; -Better or more semantic web support (see<br>
&gt;&gt;&gt; <a href="http://en.wikipedia.org/wiki/Web_Services_Resource_Framework#Implementations" target="_blank">http://en.wikipedia.org/wiki/Web_Services_Resource_Framework#Implementations</a>)<br>
&gt;&gt;&gt; -An omnibrowser for OWL ontologies<br>
&gt;&gt;&gt; -CSS template system<br>
&gt;&gt;&gt; -Support of a Distributed Hash Table protocol like Pastry<br>
&gt;&gt;&gt; (<a href="http://www.freepastry.org/" target="_blank">http://www.freepastry.org/</a>)<br>
&gt;&gt;&gt; -Workflow system with designer and plug-in architecture (see<br>
&gt;&gt;&gt; <a href="http://www.taverna.org.uk/" target="_blank">http://www.taverna.org.uk/</a>)<br>
&gt;&gt;&gt; -Big data CSV parser plugin<br>
&gt;&gt;&gt; -Plugin for fast approximate search in strings<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; cheers,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; 2012/3/2 Janko Mivšek &lt;<a href="mailto:janko.mivsek@eranova.si">janko.mivsek@eranova.si</a>&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Hi everyone,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; 7 days to deadline for ideas of this year GSoC! Please think about what<br>
&gt;&gt;&gt;&gt; would be a nice project for students to work and that way join our<br>
&gt;&gt;&gt;&gt; community. And yes, students are welcome to propose projects too!<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Let we &quot;recycle&quot; past project ideas too! Please review them and propose<br>
&gt;&gt;&gt;&gt; those still valuable. Or change the proposal to suit better. Here they<br>
&gt;&gt;&gt;&gt; are: <a href="http://gsoc2010.esug.org/ideas" target="_blank">http://gsoc2010.esug.org/ideas</a> .<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Let me and Carla post GSoC related stuff only on Pharo, Squeak and VWNC<br>
&gt;&gt;&gt;&gt; mailing lists while for other let someone forward those mails there<br>
&gt;&gt;&gt;&gt; please. It is just too hard to post on 10+ mailing lists, you know...<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Past GSoC mentors please join the debate on special Smalltalk GSoC<br>
&gt;&gt;&gt;&gt; mentors list: <a href="http://groups.google.com/group/smalltalk-gsoc-mentors" target="_blank">http://groups.google.com/group/smalltalk-gsoc-mentors</a>. If<br>
&gt;&gt;&gt;&gt; you want to be mentor this year you are welcome to join that list too.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Best regards<br>
&gt;&gt;&gt;&gt; Janko<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; S, Janko Mivšek piše:<br>
&gt;&gt;&gt;&gt;&gt; Dear Smalltalkers,<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Let we apply this year again for the Google Summer of Code, which as you<br>
&gt;&gt;&gt;&gt;&gt; know is a Google&#39;s stipendium program for students to encourage them<br>
&gt;&gt;&gt;&gt;&gt; working on open-source projects [1].<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Ok, our first step as community is to collect ideas for possible<br>
&gt;&gt;&gt;&gt;&gt; projects and to apply to the GSoC as an organization. Deadline is next<br>
&gt;&gt;&gt;&gt;&gt; Friday, so please hurry on with ideas. Just put them as reply to this<br>
&gt;&gt;&gt;&gt;&gt; email or to admins directly and we will put them on our website [2].<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Your project idea should be written as answers to these questions:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;   Name<br>
&gt;&gt;&gt;&gt;&gt;   Level (Beginner, Intermediate, Advanced)<br>
&gt;&gt;&gt;&gt;&gt;   Possible mentor<br>
&gt;&gt;&gt;&gt;&gt;   Possible second mentor<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;   Description<br>
&gt;&gt;&gt;&gt;&gt;   Technical Details<br>
&gt;&gt;&gt;&gt;&gt;   Benefits to the Student<br>
&gt;&gt;&gt;&gt;&gt;   Benefits to the Community<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; See how such ideas look like in past: <a href="http://gsoc2010.esug.org/ideas" target="_blank">http://gsoc2010.esug.org/ideas</a>.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Waiting for your ideas<br>
&gt;&gt;&gt;&gt;&gt; Carla and Janko, your GSoC Admin team<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; [1] <a href="http://www.google-melange.com/gsoc/homepage/google/gsoc2012" target="_blank">http://www.google-melange.com/gsoc/homepage/google/gsoc2012</a><br>
&gt;&gt;&gt;&gt;&gt; [2] <a href="http://gsoc2012.esug.org" target="_blank">http://gsoc2012.esug.org</a><br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt; --<br>
</div></div><div class="im HOEnZb">&gt;&gt;&gt; Hernán Morales<br>
&gt;&gt;&gt; Information Technology Manager,<br>
&gt;&gt;&gt; Institute of Veterinary Genetics.<br>
&gt;&gt;&gt; National Scientific and Technical Research Council (CONICET).<br>
&gt;&gt;&gt; La Plata (1900), Buenos Aires, Argentina.<br>
&gt;&gt;&gt; Telephone: +54 (0221) 421-1799.<br>
&gt;&gt;&gt; Internal: 422<br>
&gt;&gt;&gt; Fax: 425-7980 or 421-1799.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;<br>
&gt;<br>
<br>
</div><div class="HOEnZb"><div class="h5">--<br>
Janko Mivšek<br>
Smalltalk GSoC Admin Team<br>
<a href="http://gsoc2012.esug.org" target="_blank">http://gsoc2012.esug.org</a><br>
<br>
</div></div></blockquote></div><br><br>