Risorse online

L'Università per Stranieri di Siena ha creato numerose banche dati tramite i propri progetti di ricerca.

  • il LIPS - Lessico Italiano Parlato da Stranieri raccoglie le trascrizioni di circa 2000 testi tratti dall’archivio delle prove d’esame orale della CILS - Certificazione di Italiano come Lingua Straniera dell’Università per Stranieri di Siena, dal livello A1 al livello C2. Attualmente, il corpus LIPS comprende circa 100 ore di parlato, che, una volta trascritto, ha superato le 700.000 occorrenze di forme di unità lessicali. Si tratta pertanto del più ampio corpus di apprendimento ad oggi esistente per l’italiano L2 su cui sono state svolte prevalentemente analisi di natura lessicale. Il corpus è stato sottoposto a lemmatizzazione tramite l’applicazione di un annotatore grammaticale di tipo stocastico (Tree Tagger di Schmid), disponibile on line. Dopo aver lemmatizzato l’intero corpus LIPS sono state estratte le liste di frequenza e di uso sia per il corpus globale, sia per i diversi sottocorpora che è stato possibile creare in base al livello di competenza delle prove, alla sede d’esame di svolgimento dell'esame, al genere testuale cui appartiene ciascuna prova.
    Il corpus è disponibile on line all'indirizzo http://www.parlaritaliano.it
  • l’ADIL2 - Archivio Digitale di Italiano L2 è un corpus di testi orali e scritti prodotti da apprendenti di italiano L2 presso il Centro linguistico dell’Università per stranieri di Siena. È formato da 1168 unità testuali prodotte da 1126 informanti per complessive 432.606 forme. Comprende testi scritti trasversali, testi orali trasversali, testi orali longitudinali. I testi orali corrispondono a oltre 37 ore di registrazione. La banca dati è stata realizzata nell’ambito della linea di ricerca Le interlingue di apprendimento a base non italianadell’Osservatorio Linguistico Permanente dell'Italiano diffuso fra stranieri e delle lingue immigrate in Italia istituito dal MIUR presso l’Università per stranieri di Siena. Il DVD che consente di consultare i testi ed effettuare ricerche sul corpus è allegato al volume a c. di M. Palermo, Percorsi e strategie di apprendimento dell'italiano lingua seconda: sondaggi su ADIL2, Perugia, Guerra, 2009.
    Scarica la descrizione del corpus e le istruzioni per la ricerca.
  • il CEOD - Corpus Epistolare Ottocentesco Digitale comprende circa 1300 lettere, quasi tutte inedite, che costituiscono nel loro insieme un importante documento della lingua scritta d’uso medio del tempo. La ricerca è stata ideata nell'ambito del programma PRIN 2001 "Tradizioni e testi. Edizioni, studi e strumenti per la Biblioteca Italiana Digitale" dalle unità di Siena Stranieri (coordinatore Massimo Palermo) e di Cassino (coordinatori Giuseppe Antonelli e Carla Chiummo). Successivamente il corpus è stato ampliato grazie al PRIN 2005 "Archivio Italiano Tradizione Epistolare in Rete", al quale hanno partecipato, oltre a Siena Stranieri e a Cassino, le unità di ricerca di Milano (coordinatrice Silvia Morgana) e di Roma "La Sapienza" (coordinatore Ugo Vignuzzi). Gli epistolari sono pubblicati con criteri coerentemente conservativi, pensati per restituire al lettore non solo la veste linguistica e grafica di questi unici testimoni autografi, ma anche – per quanto possibile – la materialità del testo, che aveva un ruolo non trascurabile nella pragmatica della comunicazione a distanza. Sui testi, sottoposti a indicizzazione contenutistica e marcatura per alcuni fenomeni rilevanti del lessico e della testualità, è possibile operare ricerche di varia natura. Il corpus è consultabile all’indirizzo ceod.unistrasi.it.