For information about Language Resources (Dictionaries, Grammars, etc): Spanish Language Resources
For information about Linguistics in general: Linguistics LibGuide
_____________________________________
Thanks to my colleagues, specially Jesús Alonso, University of New York, Albany
SciELO is a bibliographic database, digital library, and cooperative electronic publishing model of open access journals.A database covering a large collection of scientific journals of Latin America, the Caribbean countries and Spain. The full-text content is in English, Portuguese and/or Spanish. It contains more than 1,500 scientific journals from disciplines in the health and life sciences, social sciences, and the humanities. It offers free and universal access, and full-text format.
Conceived as a electronic virtual library, SciELO is a multinational effort to provide open access to scientific research journals produced in Latin America, the Caribbean, and Spain. Especially conceived to meet the scientific communication needs of developing countries, particularly Latin America and the Caribbean countries, it provides an efficient way to assure universal visibility and accessibility to their scientific literature, contributing to overcome the phenomena known as "lost science". Recently South Africa has joined this initiative and SciELO now also covers topics related to Africa
The Online catalog of University of Virginia Library
WorldCat is a union catalog that itemizes the collections of 72,000 libraries in 170 countries and territories that participate in the Online Computer Library Center (OCLC) global cooperative.
CRL primary purpose is to collect research materials not targeted by North American research institutions. The Center collects heavily in the following materials: archival materials, newspapers and periodicals (foreign & domestic, specialized), foreign doctoral dissertations, U.S. state documents, US and foreign academic publications. University of Virginia is a full member, which allows UVA patrons to borrow CRL material via interlibrary loan for extended periods
Our library classifies all material according to the Library of Congress classification system. Here we include a guide for Linguistics to browse our collection either in person or electronically.
Subclass P: Philology. Linguistics
P1-1091 |
Philology. Linguistics |
P1-85 |
General |
P87-96 |
Communication. Mass media |
P94.7 |
Interpersonal communication |
P95-95.6 |
Oral communication. Speech |
P98-98.5 |
Computational linguistics. Natural language processing |
P99-99.4 |
Semiotics. Signs and symbols |
P99.5-99.6 |
Nonverbal communication |
P101-410 |
Language. Linguistic theory. Comparative grammar |
P118-118.75 |
Language acquisition |
P121-149 |
Science of language (Linguistics) |
P201-299 |
Comparative grammar |
P301-301.5 |
Style. Composition. Rhetoric |
P302-302.87 |
Discourse analysis |
P306-310 |
Translating and interpreting |
P321-324.5 |
Etymology |
P325-325.5 |
Semantics |
P326-326.5 |
Lexicology |
P327-327.5 |
Lexicography |
P375-381 |
Linguistic geography |
P501-769 |
Indo-European (Indo-Germanic) philology |
P901-1091 |
Extinct ancient or medieval languages |
This is a small selection of books in our collection. It is a sample to indicate how to search in the catalog of our library, Virgo.
____________________________________________________________________________________________;
Diachronic Spanish Corpora Online :
"En lingüística, se llama corpus a un conjunto formado por miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos de millones de formas. Son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.
Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico". {Real Academia Española]
El Corpus Diacrónico del Español (CORDE) es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1974, en que limita con el Corpus de Referencia del Español Actual (CREA)
The Diachronic Corpus of Spanish is a data bank that provides a structured set of texts for lexicographic and grammatical research dating from the beginning of the Spanish language until 1974. It includes almost 300 million lexical forms. It is divided into two main groups: fiction and non-fiction texts. Created by Real Academia Española.
Search Tips;
- use the asterics (*) to replace a string of characters. Example: "llor*" will retrieve all the forms of the verb "llorar".
- use the question mark (?) to replace a single character.
Example.: fa?er will retrieve "fazer", "faser", etc.
- use the operators Y, O, NO and DIST/ to combine search terms. Example: "merec* o mereç* o merez* o meres?e"
CREA cuenta, en su última versión (3.2, junio de 2008), con algo más de ciento sesenta millones de formas. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004. Los textos escritos, seleccionados tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, obtenidos, en su mayor parte, de la radio y la televisión.
En marzo de 2021 se ha publicado la versión 0.3 del CREA anotado. En ella es posible la búsqueda por formas, lemas y categorías gramaticales.
La primera versión del CREA anotado, la 0.1, publicada el 18 de noviembre de 2015, cuenta con 111 220 documentos que suman más de 126 millones de formas, procedentes de textos escritos o producidos entre 1975 y 2000 en todos los países hispánicos.
Se ha aplicado al CREA el sistema de codificación y anotación desarrollado para CORPES: la versión anotada de CREA que ahora se publica permite la consulta por lemas, formas y categorías gramaticales. El motor de búsqueda soporta la consulta en tiempo real sin necesidad de establecer restricciones de formas o lemas.
Por lo que respecta al bloque de ficción (novelas, relatos, obras de teatro) las formas del CREA anotado sobrepasan los 29 millones, mientras que las contenidas en textos de libros de no ficción y prensa (ciencias sociales, salud, política, artes, tecnología…) se acercan a los 97 millones.
Los textos procedentes de libros suponen algo más de 68 millones de formas; la prensa está representada con unos 56 millones. Dos millones más provienen de materiales de tipo misceláneo (propaganda, folletos, exámenes...).
Cronológicamente, el mayor peso recae en el segmento más moderno, 1995-2000, con más de 54 millones de formas. Casi 26 millones corresponden a los años 1990-1994, más de 22 millones al segmento 1985-1989, cerca de 18 millones representan a 1980-1984 y, finalmente, casi 10 millones corresponden a 1975-1979.
Es un corpus de referencia, iniciativa de la Real Academia Española y de la Asociación de Academias de la Lengua Española (ASALE), que aún está en construcción. Contiene textos escritos y orales, procedentes de hispanohablantes, recogidos entre 2001 y 2012. Pretende ser una continuación de CREA y CORDE. Los textos han sido extraídos de libros y prensa online, impresos y de canales de información audiovisual.
Los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.
Descripción del sistema de codificación
The corpora from Corpus del Español provide billions of words of recent data from 21 Spanish-speaking countries,
and they allow researchers, students, and teachers to gain insight into Spanish in ways that are not possible from
any other resource.
Description and comparisons with other corpora
Created by Mark Davies. Funded by the US National Endowment for the Humanities (2001-2002, 2015-2017).
In 2015, the HSMS began working on the Old Spanish Textual Archive (OSTA), a lemmatized and morphologically tagged linguistic corpus of about 35,000,000 words, based on more than 400 semi-palaeographic transcriptions of medieval texts written in Spanish, Asturian, Leonese, Navarro-Aragonese and Aragonese carried out by the collaborators of the HSMS.
Created by Francisco Gago Jover and Javier Pueyo Mena
The origins of OSTA date back to 1978 when John J. Nitti, one of the editors of the Dictionary of the Old Spanish Language (DOSL) and co-founder of the Hispanic Seminary of Medieval Studies (HSMS), describes in an article titled "Computers and the Old Spanish Dictionary ” a long-term project: ... read more
Searchable, full-text collection of ethnographic and other texts on cultures and societies around the world.
Ethnologue: Languages of the World is a comprehensive reference work cataloging all of the world’s known living languages. Since 1951, the Ethnologue has been an active research project involving hundreds of linguists and other researchers around the world. It is widely regarded to be the most comprehensive source of information of its kind.
El Nuevo diccionario histórico del español (NDHE) busca presentar de un modo organizado la evolución del léxico español a lo largo del tiempo. Su objetivo fundamental consiste en ofrecer a los filólogos y al público en general, aquella información relevante sobre la historia de las palabras que les permita interpretar los textos del pasado. Para ello se dará cuenta del cambio que han experimentado las palabras en su significado e incluso de los usos lingüísticos accidentales de una época determinada.
El Corpus del Nuevo diccionario histórico (CDH) consta de 409 103 465 registros, que se distribuyen en tres capas de consulta:
- Corpus nuclear del NDHE, que cuenta con más de 62 millones de ocurrencias, de las cuales 38 pertenecen a textos españoles y más de 24 millones a obras americanas. También se contabilizan más de 8 000 signos de puntuación. Los textos que conforman el corpus (en buena medida, comunes al CORDE y al CREA) se han sometido a un proceso semiautomático de anotación lingüística (operación llevada a cabo por el Departamento de Tecnología de la Real Academia Española), lematización que constituye un punto de partida para el manejo de los datos en el trabajo lexicográfico. Posteriormente, en la Fundación Lapesa se desarrolló una interfaz de consulta para el CDH, aplicación que permite realizar una variada gama de consultas, motivo por el que se ha utilizado para la presentación de otros corpus de la Academia.
- S. XII-1975. Conjunto de textos enmarcados entre el siglo XII y 1975, formado por una selección de obras procedentes del CORDE (Corpus diacrónico del español) de la Real Academia Española (con un total de 223 042 266 formas). Estas obras poseen una preanoanotación morfosintáctica, realizada con herramientas de software libre en el marco del proyecto del NDHE.
- 1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de referencia del español actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 123 794 031 registros).
El Diccionario histórico de la lengua española (1933-1936) supone la confluencia entre la tradición del Diccionario de Autoridades y el sistema de trabajo de la lexicografía histórica que se practicaba en Europa desde el siglo XIX. En pocos años, a pesar de la escasez de materiales y de la dudosa fiabilidad de algunos de ellos, se publicaron los dos tomos de este diccionario (de la A a la Ce). Los ejemplos que se contienen en estos volúmenes fueron decisivos para la confección de otras obras y facilitaron el paso adelante que supuso el Diccionario histórico de la lengua española de 1960-1996.
En el año 1946 se crea el Seminario de Lexicografía de la Real Academia Española para emprender la redacción de un diccionario histórico del español, acorde con los métodos de la moderna lexicografía, representada por el Oxford English Dictionary. En 1951 se publica una muestra. Entre 1960 y 1996 se publicaron los fascículos de las palabras comprendidas entre a-apasanca y b-bajoca. Con el fin de facilitar su consulta y la recuperación de sus datos, se proporciona una versión electrónica que va acompañada de una herramienta de búsqueda.
El Fichero general de la Real Academia Española consta de más de diez millones de papeletas, léxicas y lexicográficas, ordenadas alfabéticamente en gavetas que contienen, cada una, unas dos mil cédulas. Este fichero se ha ido formando desde una fecha muy temprana, si bien su período de máxima expansión se sitúa entre 1930 y 1996, años en que la Academia afrontó la redacción del Diccionario histórico en sus dos ediciones. En los últimos años, a instancias de la Fundación Rafael Lapesa, se ha digitalizado el Fichero general, con el objeto de aprovechar esta valiosa información para el Nuevo diccionario histórico del español (NDHE).