From Static Archive to Research-Ready Database

>> 워싱턴 DC의 의회 도서관에서 >> 다음을 우리는 닉 아담스, 사회 학자 및 연구원은이 데이터 과학에 대한 버클리 연구소 그는 사회 과학자가 의회를 사용하는 방법에 대해 이야기 것 데이터 소스로 기록

닉에 오신 것을 환영합니다 >> 닉 아담스 : 안녕하세요, 안녕하세요 의회, 기록 보관, 사서, 언론인, 데이터 바보의 도서관, 사회 과학자 및 디지털 인본주의 동료 나는 매우 여기에 오늘 영광입니다 이 종류 나 같은 사람의 메카로, 나를 위해 정말 흥분됩니다

나는 조직 데이터를 많이하고 수 많은 일을했습니다 여기에서 말하는 것은 정말 영광이다 우리 중 많은 경우, 아카이브 이미지를 연상 오래된 가죽 바인딩 책 [들리지] 달콤한 매운 냄새 펄프 산화, 그들은 흥분을 자극 일부 긴 잃어버린 역사를 발견 것처럼이 묻혀있는 보물이었다 그러나 아카이브에 대한 내 특정 흥분은 약간 다르다 동료 학자들과 마찬가지로, 나는 생각에 실신 옛 세계와 신문이나 정책 트랙을 폭로의, 분, 계약 또는 영수증을 충족 이들은 대부분의 사람들이 던져 문서의 종류입니다 재활용으로, 그러나 우리는 정말 이러한 데이터를 소중히 인간 행동과 같은 때묻지 않은 기록

그들은 우리가 경제적으로했다 사람의 이야기를 정치적, 사회적, 문화적 그래서 내가 먼저 말하고 싶은 모든 사서 및 기록 보관에 감사합니다 사람이 데이터를 사용할 수 있도록 정말 우리가 우리의 일을 수행 할 수 있습니다 그리고 우리는 완전히에 따라 달라집니다 나는 두 손이 할 수 없기 때문에 방법에 따라서, 모두가 나에게 박수를주고 도움이 될 수 있습니다 이 일어날 수 있도록 사람들에게? [박수] 조금 더 크게

괜찮아 어쩌면 내가 어떤 사람들이 생각 될 수 끝나야합니다 내가 필요한 모든 것을 말 할 수있다 하지만 말했듯, 좀 더있다 – 아카이브에 대한 내 사랑은 일반보다 약간 다르다 나는 아카이브 대부분보다 훨씬 더 강력한 될 수 있다고 생각하기 때문에 내 동료 학자 아직 상상, 나는 모두를 보여주고 싶어했다 정도에 당신의 우리는 미래를 가져올 수있는 방법 여기서 아카이브는 더 집중적으로 훨씬 더 자주 그리고 많이 사용된다 우리에게 인간 행동의 많은 깊은 이해를 제공합니다 그래서 지금 중앙 과학자들과 디지털 인본주의는 나는 종류의 십 년간 긴 과정으로 보는 것과의 시작 길을 업데이트하는 우리는 증빙 서류와 함께 작동합니다

우리는 오른쪽에 컴퓨터 함께 읽기 학습하고 있습니다 우리는 이해하고 다르게 읽을 수있는 방법을 신뢰하기 시작하고 그리고 훨씬 더 빨리 우리가 분의 패턴을 찾을 수 있으며,보다 우리는 정말 가까이 독서의 달없이 찾을 수있다 그래서 무리가있다 새 계산 텍스트 분석의 사람들이 사용할 수있는 접근한다 우리는 문법에 의해 [들리지] 문장 수 있습니다 우리는 사람과 장소와 같은 개체 이름 찾을 수 있습니다

우리는 사람들이 문서를 통해 대한 얘기하는지의 주제를 모델링 할 수 있습니다 우리는 개인과 그들이 어떻게 관계의 네트워크를 모델링 할 수 있습니다 우리는 심지어 정말 종류의 일을 할 수 고전 질적 민족 지적인 연구가 컴퓨터의 도움을 같은 접지 이론 훨씬 우리가 지금 할 수 있도록있다, 그러나이 강력한 도구는 매우 다른 방법이 필요 컬렉션을 구성하고 내가 정말 원하는거야 오늘에 대해 이야기합니다 그래서 여기에 우리의 대부분은, 보관의 전통적인 관행을 잘 알고있는 보존, 조직, 유지 보수 및주의 깊은 관리 문서의 보호 및 연구자의 관점에서, 우리는 아카이브를 끌어하고자 할 때, 우리는 도서관 사서에게 문의 누가 우리가 기록을 당겨하는 데 도움이 우리가 봐 문서에서 일반적으로 하나 개의 문서 한 번에 종종 장갑을 착용 또는 유리의 일부 창을 통해 볼

그리고 이러한 아카이브는 정말 도움이됩니다 그들은 우리가 중요한 특정 질문을 할 수 있습니다 특정 문서의 경우 무슨 일이 있었는지 등의 질문에, 그 또는 그녀는 정말 말하거나 그 짓을 한거야? 누가 누구를 지불? 누가는 청구서에 어떤 방법으로 투표? 그러나 이런 종류의 연구는 모두,이 질문은 모든 종류입니다 연구의 법의학 스타일의 우리가 찾고있는 곳 특정 날짜에 특정 세부 사항이 발생에 대한 특정 문서이다 하지만 지금 우리는 정보화의 시대를 입력했습니다 새로운 소식있어? 어떻게 달라? 물론, 어떤 기록 보관 인 또는 사서는 엄지 손가락에 날 원하지 않을 것이다 가장 세와 소중한 기록을 통해 어레이를 적용 초당 40 장에서 컬렉션에 직접 형광펜 색 나는 생각에 주춤처럼의 일부를들을 수 있습니다

그러나 그런 일이 정말 쉽게 디지털 기록을 수행 할 수 있습니다 그래서 연구를 바꿀 것입니다 방법 어떻게 우리가 적응하려고? 신나는 그래서 우리는 너무 빨리 갔습니까? 우리는 과거 갔다 아, 거기 간다 괜찮아

일부 디지털 아카이빙 제품이있다 그래서 그건 정말 앞으로 갈고있다 그래서 미국을 역사에 남기는 사람들의 무리가 언급 한, 연구자들은 수천을 통해 탈지 수있다 디지털 방식을 사용하여 신문 그리고 한참이 이야기 시리즈, 마태 복음 베버의 아카이브는 프로그램이 논의되었다 발휘, 그것은 멀리 해킹 가치있는 결과를 생성하는 것 그는 잘 큐레이터 아카이브라는 것을에서, 그러나이 정말 표준이 아니다 사실, 어떤 정상적인 것은 상당히 다르다 엘리자베스 Lorang이 시리즈에서 그녀의 대화 중에 언급 한 바와 같이, 그들의 사용에 응답자에 의해 인용 된 가장 눈에 띄는 과제 중 하나 디지털 컬렉션의 효율적으로 검색 할 수 없다는이었다 수집 자료를 통해,이 정말 일반적입니다

당신에게 예를 제공하기 위해, 정부 출판 사무소 – GPO를 웹 사이트는을 설명 정말 인상적 지분을 많이 가지고 우리 정부의 활동, 의회 기록, 청문회, 투표의 모든 종류의, 이러한 데이터는 민주주의 정말 필수적이다 미국을 유지하는 GPO의 임무에 알렸다 데이터는 정말 가치가있다 그들은 중요한 것 그들은 대단한 대중을 완전히 사용할 수있어 그들은 이상적인 종류도 디지털화있어 기계 읽을 수있는 형식의 그러나, 그들은이 상태를 사용하여 조회는 매우 어려운 것 예술 텍스트 분석 기술의 난 그냥 논의 된 것과

내가 당신에게 그것이 어떻게 생겼는지의 감각을 줄 수 있습니다 여기에 GPO의 웹 사이트입니다 내 의회 사람을 다루는 방법을 이해하고 싶어한다면 과학으로, 나는 특정 대회에 갈 수 있습니다 나는 집 청문회에 갈 수 있습니다 나는 과학 기술위원회를 찾을 수 그리고 나는 모든 마지막위원회 청문회의 텍스트를 읽고 시도 할 수 내 의회 사람이 무엇을하고 있었는지에 따라 할 수 있습니다

그래서 우리는 우리가 뷰어에서 읽을 파일을 선택 이 경우 웹 브라우저에서, 우리는 그것을 건드리지 않고 볼, 없이에 낙서하지 않고, 그것을 라벨 우리는이 별도의 문서에서 우리의 메모를합니다 이 텍스트는 완전히 디지털 임에도 불구하고, 많은 방법에 따라서 우리는 여전히 장갑을 착용하고 있습니다 우리는 여전히 유리의 창 뒤에서 문서에서 찾고 있습니다 이제 명확하게하기 위해, 나는이 문제의 상태 믿지 않는다 기록 보관은 보호를 통해 어떻게 든이기 때문에 또는 무관하거나 고약한 어쩌면 당신의 일부입니다

하지만이 링크를 매우 잘 조직 된 세트입니다 그 정보를 찾는 사람을위한 완벽한 의미가 있습니다 특정 심리에 대해 그리고 우리는 우리의 디지털 기록이 방법을 조직, 우리는 우리의 실제 기록을 정리하는 것과 같은 방식으로 이 시스템은 기존의 연구에 매우 합리적이기 때문에 및 기록 보관의 기본 작업 때문에 편법 보존 및 출판 우리는 클릭 클릭 클릭하지 않으 그래서 경우 각각의 파일을 다운로드, 사회 과학자는 무엇을 원하는가? 나는이 워싱턴의 질문 알고있다 모든 자금의 대화, 모든 정책 대화 사회 과학자는 무엇을 원하는가? 나는 꿈을 꿀 수 있습니다

나는 꿈을 꿀 수 있습니다 글쎄, 우리는 잘 구성되어 데이터를합니다 그게 우리가 원하는거야 그리고 종류의를 낳는 순간에 슬라이드를해야합니다 그러나 나를 그냥 몇 가지 예를 통해 당신에게 감각을 제공 할 수 있습니다

아마도 우리는 모든 자료를보고 싶다 또는 의회 기록에 어떤 아카이브이 될 수있다, 우리는 남성 또는 여성에 의해 작성된 모든 자료를보고 싶다 또는이 사람들 또는 지역 모든 인스턴스 우리는 [들리지 특히 문구있어 주간 상업 및 발언의 날짜있다 누가 그걸 말했어? 우리가 의회 기록을 찾는다면 지구는 그들이 나타냅니다 특정 명사를 설명하기 위해 정렬 화에도 형용사 베테랑, 교사, 의사 나 아이처럼 이 사람들은 어떻게 설명? 아마도 내가 의회 구성원의 편안함을 평가하려면 과학 과정

그래서 검색의 일종을하고 싶은, 이 여기에 조금의 의사 코드입니다 나는 모든 인스턴스를 찾을 수 있는지보고 싶어 사람들이 단어 가설을 말하거나 위조 경우, 상관 관계, 원인, 통계적 유의성 나는 것을 발견하면, 나는 아이디어와 함께 표시 연설을보고 싶어 스피커의 스피커의 식별, 것 그들이과 관련있는 자 등 – 그건 정말 좋은 것입니다, 나는 종류의 비교할 수있을 것 전체 의회 기록에 걸쳐 사람들은 어떻게 이야기 과학에 대한 그러나 우리가 지금 무엇을 정말 아니다 즉, 정부의 출판 사무실에서 단지 수는 없습니다 질문의 그 종류의 메타 데이터 모두에 파고 그 텍스트 자체의 내용이 지금 정말 불가능합니다 그래서 우리는 모든 과학 청문회의 모든 텍스트를 검색 할 수 없습니다

우리는 쉽게 비록 특정 연설과 스피커를 식별 할 수 독자로서, 나는 그 문서를 읽을 경우, 회원 존스가 말을 할 때와 멤버 스미스가 말을 할 때 나는 알고있다 그리고 나는 즉시 파티 식별을 알 수 없다 사람이 정말 상식 임에도 불구하고 이 물건은 실제로 바로 데이터에 연결되어 있지 않습니다 연구원으로 나는 그것을 쿼리 할 때 그래서 사회 과학자는 GPO 같은 아카이브에 무엇을해야합니까? 글쎄, 대답은보고 너무 열심히 때문에 많이하지 않습니다 모든 데이터를 하나의 문서를 한 번에 또는 모든 기술을 배울 통해 를 소집하는 방법을 알아낼 당신이 그것을하는 방법을 검색 할 수 있도록 당신이 그것을 검색 할 그러나 나는 오늘 여기 있어요 – 그 중 하나 [들리지] 이야기입니다

우리는 한숨과 우리의 머리를 누르고 멀리 걸을 필요가 없습니다 나는 그것을 바꿀 수 있도록하려고 노력에 대해 이야기 왔어요 – 국회 의사당 쿼리 프로젝트 그래서 몇 년 전, 나는 작업 계산 텍스트 분석을 설립 UC 버클리 그룹 그리고 그 그룹의 언급의 핵심 [들리지는이었다 얼마나 낚시를하는 연구자를 가르 칠하기, 하지만 어떻게 고래 연구 팀을 가르 칠 수 있습니다 당신이 알 수 있도록 어떤 해양 포유 동물은 단지 입지되지 않았습니다

하지만 어떻게 구성하는 연구 팀을 가르치는 – 청소 과정을 취득하는 데 필요한 작업의 엄청난 양의 작업을 수행하는 방법, 분석, 해석하고 대규모 텍스트 아카이브에보고한다 이제 우리는 훌륭하신 연구소와 협력하고 및 사회 과학 연구 협의회 우리는 사무실에 데이터를 게시 정부를 변환 할 수 있도록 의회는 최대 무엇의 queriable 기록으로, 뿐만 아니라 우리는 사람이하는 방법을 보여주는 튜토리얼을 만들 수 있도록 자신의 디지털 컬렉션이 작업을 수행합니다 난 그냥 몇 가지를 인식 할 여기 내 동료의 나는 조금 더 말을 빨리하기 전에 프로젝트에 대한 그리고 당신의이 슬라이드에 가입 할 수있다 우리는 나중에 얘기하자

그래서 여기 사진에서 프로젝트이다 우리가해야 할 겁니다 우선 우리는 모든 데이터를 수집하기 위하여려고하고있다 한 장소에 모든 링크를 통해 모든 문서 그리고 다음, 우리는 찾아 텍스트에 구조를 라벨링하고 있습니다 그래서 어쩌면 우리는 특정 언어 행위 또는 이벤트를 찾고 또는 위치 또는 특별 그룹, 우리는 그 구조를 추가 할 수 있습니다 XML을 통해 주석을 통해 텍스트 그리고 우리가 이미 기존의 구조를 가지고 새로 만든 구조, 그리고로 연결 – 우리를 가능하게 외부 데이터 소스 – 질문에 대답하는 강력한 쿼리를 사용하도록 설정하는 것이 우리는 심지어 전에 물어 수 없었다

그래서 내가 조금에 대해 잘 구조화 연구 준비 데이터를 가정 해 봅시다 즉,이 프로젝트의 하드 제품 데이터베이스를 작성하는 것, 및 기록을 위해, 우리는 지금 잘 조사 준비 구조화해야하는지 데이터는 것 같습니다 우선, 그것은 디지털 텍스트해야한다 컴퓨터가 검색 할 수 있도록 (듯이)는 기계 판독해야한다 다른 토큰을위한 다양한 서로 다른 문서간에 비교합니다 그것은 그 토큰 검색을뿐만 아니라 세트에 걸쳐 queriable해야한다 연구자가 정의한 문서

그들은 애리조나에 이르기까지 모든 것을 원하거나 그들은 모든 것을 싶다면 십년에서, 바로 그 볼 수 있어야합니다 그들이 이동할 때이 정말 중요하고 많은 사람입니다 디지털 아카이브로 그리고 그들은 시도 그것이 공개, 그들은이 실수를 그것은 원래의 구조를 유지하기 위해 매우 중요 및 문서의 서식 그래서 여기 ProQuest에 땡거야 나는 누군가가 너무 화가 될 것 생각하지 않습니다

ProQuest는이 의회 기록을 소요하고, 그들은 그것을 제거 모든 공백의 모든 새로운 라인 문자 우리를 도와 단락 나누기, 이러한 소호 읽기 문서 및 오, 이해를 통해,이 그냥 테이블 내용의하거나 그들이 가고있는 부분이다 일부 prematter을 수행하는,하지만 그들은 정말 이야기하지 않을 청문회에 대해 아직 그것은 원래의 구조를 유지하는 것이 중요합니다 원래 저자는 부분을 추적하는 데 사용 텍스트의 개념 작품의 어떤 종류를하고 있습니다 그리고 가능한 한, 우리는 몇 가지 보충에 추가 할 텍스트에서 검색 주석, 물건 내가 말했듯이, 등 그리고 마지막으로 언어 행위 또는 스피커 또는 위치를 찾고, 우리는 다른 데이터에 데이터를 링크 할 수 있도록하려면 즉, 동일한 목적을 설명한다 그래서 청각 문서가 의회 회원 스미스에 대해 이야기 할 것입니다, 하지만 의회 회원 스미스에 대해 내가 아는 많이있다 그녀의 나이와 그녀의 지역에 대해 알려줍니다 다른 데이터베이스에서, 인구와 그녀의 지구 인구 통계, 이는 실제로 그녀는 행동이야 방식에 영향을 미칠 수 있습니다 이 모든에 따라서, 우리는 단지 queriable 데이터베이스를 작성하지 않는, 그러나 거대한 학습 기회 누군가를 위해 여기있다 즉, 디지털 아카이브를 가지고 좀 더 접근 할 수 있도록하고 싶어 연구자와 대중의 더 큰 관객들에게

그래서 우리는 단계 방법에 의해 단계의 종류를 생성 할거야 튜토리얼 노트북으로 안내합니다 우리는 우리가 쓸 수 Jupyter 노트북을 사용할 것 일반 영어로 무엇을 우리는 바로 옆 셀로하고있는 그 실행 코드를 실행합니다 프로그래밍의 약간 두려워하는 사람 당신의 모든 사람들을 위해 이렇게 아이디어는 당신이이 일을하는 과정을 단계별로 수행하는 것입니다 그래서 상 하나, 함께 데이터를 수집, 두 번째 단계, 발견 그리고 구조가 다음 3 단계를 추가 다른 유용한 데이터에 연결 상 하나에,이 조금 파고, 함께 모든 데이터를 가지고, 이것은 단지 얻기 위해 노력하고있다 포인팅 클릭하고 천 번을 다운로드 주변

그래서 우리는 실제로이 작업을 수행하기 위해 컴퓨터를 훈련 할 수 또는 우리가 어떻게 할 수있는 컴퓨터를 말하는 사람들을 훈련 할 수 있습니다 그래서 우리는 정규 표현식을 사용하는이 노트북에있는 사람들을 돌려됩니다 사용하려면 [들리지] 그들은 웹 사이트에 검색 할 수 있도록 (듯이) 대신 [들리지]와 같은 웹 브라우저 자동화 도구 모든 포인팅을하고 자신을 클릭의, 당신은 컴퓨터가 당신을 위해 그것을 할 수 있습니다 상 두 곳으로 이동하려고했던 정말 당해 기술의 현재 상태에서, 이는 과학 공예의 일종이다 텍스트의 구조를 찾는 것은 – 그것은 다시 작업이 많이 걸립니다 앞뒤로 텍스트, 이론적으로 중요한 것입니다 알고 거기 찾기 위해 노력하고 컴퓨터를 사용하고 있는지 당신이 덩어리를 밖으로에 그 구조를 찾을 수 있도록, 그것을 레이블을 이전 없었다 곳과 구조를 추가 할 수 있습니다 그래서 우리는 정규 표현식의 가장 기본적인 통해 사람들을 어떻게 XML을 사용하여, 우리는 그들에게 텍스트 분석 기술의 일부를 표시합니다 나는이 이야기의 상단에 대해 이야기하는 것이, 우리는 심지어 텍스트라는 크라우드 소싱 주석 소프트웨어를 사용하고 [들리지 또한 생성하는 기술이다 훌륭하신 연구소

이 모든 것들이 우리가 인간을 얻을 수 있도록 그리고 컴퓨터는 함께 텍스트에서 그 구조를 찾기 위해 노력 그리고 순서대로 정말 효율적으로이 작업을 수행하는 프로그래밍 스크립트를 사용하여, 당신은 필요 슈퍼 어렵지 않다 기본적인 프로그래밍 구조를 알고 배울 수 있지만, 우리는 그것을 가르 칠 수 있습니다 마지막으로 3 단계, 단계에서 세 가지 데이터의 모든 연결에 관한 것입니다 그래서, 관련 데이터 소스를 식별하는 것 효과적으로 데이터베이스를 구조화 그래서 당신은 연구 커뮤니티의 쿼리를 기대하고 있다는 당신은 또한 데이터 스토리지에 중복을 줄일 수 있습니다 바로 내 앞에 말한 바울은 정말 종류의이을 설정합니다

우리는 SQL 관계형 데이터베이스를 사용할 수있는 경우, 우리는 이런 종류의 일부를 통해 훨씬 더 빠르게 계산할 수 있습니다 의 다층 구조화 된 텍스트 그래서 난 그냥 준비 연구 얻을 모두 물어보고 싶은, 정말 닫습니다 우리는 11 월에이 밖으로의 일부를 밀어됩니다, 우리는 바라고있어 사람들이 우리에게 피드백을 제공하고 저희에게 알려 것 당신의 단계처럼 하나의 자습서가 큰했다 귀하의 단계는이 튜토리얼은 매우 혼란했다 당신은 드로잉 보드로 다시 이동해야합니다 우리는 정말 의회 도서관에서 참여를 찾고 어떤 라이브러리 또는 아카이브 또는 연구자들은 관심이있는 사람입니다 이에에서 받고, 그들이 나를 차단하면 나도 몰라, 하지만 그들이 나를 차단 보인다

아, 여기 우리는 간다 네 당신은 이러한 노력에 동참하고 싶습니다 그래서 만약 또는 여기에, 함께 따라 몇 가지 링크가 있습니다 내가 당신을 보여 거라고 나는 전체 프로젝트 수 있다면 대중에게 완전히 열려 있습니다 당신은 호스팅 열린 사회 프레임 워크에 갈 수 열기 과학 센터에 의해 당신은 볼 수 있습니다 우리의 프로젝트와 함께하십시오

당신이 이동하려는 경우, 당신은 실제로 우리의 [들리지] 페이지로 이동 할 수 있습니다 그냥 풀 요청을하고 시작합니다 먼저 저희에게 연락 주시기하지만 즉, 흥미 진진한 것 어쩌면 우리는 당신을 이끌 수 있습니다 순간에 가장 시급한의 작업에 하지만 난 정말이 방에있는 모든 사람들이하고있는 모든 일을 주셔서 감사합니다 난 정말이 종류에 점점 기대하고 미래의 푸른 하늘 공간 당신이 할 수있는 그래서 우리를 도와 고마워요

[박수] >> 이것은 의회 도서관의 프리젠 테이션이었다 locgov에서 우리를 방문하십시오