Differential Privacy for Growing Databases

>> 안녕하세요 모두 환영합니다

Rachel Cummings를 호스트하는 것은 대단한 기쁨입니다 레이첼 교수 산업 공학과 Department와 Georgia Tech 그녀는 차별 개인 정보 보호 정책, 게임 이론 및 둘 사이의 연결 그녀는 여러 상을받은 과제 [들리지 않음] 졸업생, 휄로우 십상, 변덕스러운 박사 학위 상, [들리지 않음] 그래서, 그녀는 우리에게 증가하는 데이터베이스에 대한 차등 개인 정보 보호

>> 고맙습니다 고마워 나는 여기에있어 매우 기쁩니다 나는 이것이 매우 우연한 환경이라고 들었다 그러니 자유롭게 들어가서 질문을 많이하십시오

이해하는 것이 더 중요하다 내가 모든 슬라이드를 다 보았다 나는 연설처럼 가벼운 사람도있다 장애가있어서 잠깐 멈 추면 나 내 말을하는 동안 나는 공상에 불과하다는 것을 약속한다 그래서 저는 다음과 같은 공동 작업에 대해 이야기 할 것입니다

일부 동료 및 공동 작업자 사라 크리 블은 전 조지아 공대 대학원생이었던 교수진 리치몬드 대학교 (University of Richmond) 그리고 조지아 공과 대학원생 인 캐비닛 타워 오늘 얘기하고있을거야 프라이버시 보장을 어떻게 확장 할 수 있습니까? 우리의 데이터베이스가 성장하고있는 경우 시간이 지남에 따라 변한다 그게 무슨 뜻이야? 그래서 옛날, 데이터 과학은 데이터를 한 번 수집하고 당신은 그것을 분석 한 다음 집에 돌아가 세상이 끝납니다

그래서이 감각 같은 것들처럼 보이는, 10 년마다 새로운 데이터를 얻습니다 어쩌면 우편으로 발송 된 설문 조사와 설문 조사를 처음 만들어야했습니다 우편으로 보내고 기다려라 응답을 되찾기 위해 3 개월, 또는 당신이 아주 공상 인 경우에, 어쩌면 콜센터가 있었고 기차를 좋아해야만했습니다 이 사람들은 전화하고 매우 구체적인 질문을하고 데이터를 수집하고, 당신은 그것을 결국 분석합니다

현대의 데이터 과학은 매우 다른 것처럼 보입니다 온라인에서 발생하며 항상 바뀌고 있습니다 우리는 지금 다음과 같은 일을하고 있습니다 모든 사람의 건강 정보를 수집하고 그들의 트윗과 그들의 사회적 행동을 온라인으로, 그리고지도, 그래서 우리는 지금 같이해야 해 증가하는 데이터베이스의 지속적인 분석, 시간이 지남에 따라 더 많은 데이터를 수집하기 때문입니다

우리는 또한 우리가 기다릴 때까지 기다릴 수 없다 세계의 모든 트윗을 축적하고 그런 다음 트렌드를 결정하고, 하지만 사실 나는 당신은 항상 현재 데이터베이스에서 현재 트윗과 현재 트렌드 따라서 새로운 분석 도구가 필요합니다 데이터베이스 증가의 경우 그러나이 예에서, 매우 민감한 데이터이기도합니다 그리고 이것은 당신의 건강 정보입니다, 이것이 당신의 사회적 데이터입니다

및 귀하의 GPS 데이터, 그래서 우리는 어떤 종류의 프라이버시 보장이 필요합니다 우리는 이제 훨씬 더 민감한, 사람들에 관한 훨씬 더 많은 개인 정보 그래서, 약간의 배경, 차등 프라이버시는 2006 년 바이트 작업에서 정의 좋은 지멘스 스미스, 비공식적으로 한 사람의 데이터가 가질 수있는 최대 금액 ~의 출력을 변경하다 일부 계산은 매우 큰 데이터베이스에서 수행됩니다 공식적으로이 말은, "그래서, 알고리즘 M, N 개의 튜플 유형의 맵 "을 N 명의 다른 사람들로부터 수집 된 데이터로서, 임의의 범위는 매개 변수화 된 엡실론 차등 개인 이웃하는 모든 데이터베이스의 경우, 한 사람의 데이터를 제외하고는 동일합니다

거의 똑같은 것을 출력하다 이 두 이웃 한 데이터베이스에 대략, 나는 우리가 확률은 출력 아무것도 S, 내가 S를 생산할 확률은 곱셈 적으로 닫히다 이것을 엡실론 요인으로 옮긴다 그래서, 그림에서 이렇게 보입니다 블루 데이타베이스가 있습니다

저기에 파란 곡선이 생겨요 그리고 나는 사람을 바꿀거야 t_i로부터 t_i 소수까지의 데이터, 대신 빨간 커브를 얻으려고합니다 그래서,이 것들은 가깝습니다 그래서 나는 사람의 데이터의 영향을 제한 할 수 있습니다

그래서 저는 정말로, 귀하가 귀하의 데이터를 제공했거나 귀하가 제공하지 않은 경우, 네가 진실하거나 거짓말을한다면 나는 똑같은 것을 배울거야 어쨌든 너의 부분까지 내 데이터 세트는 아주 작은 효과가 있습니다 내가 오늘 하루의 끝에 배우는 것에 그래서이 집합 S를 다음과 같이 생각하십시오 모든 나쁜 결과의 수집, 어쩌면 이것은 내가 갈 것 같아

우리의 건강 데이터를 분석하여 보험료 결정 및 결정 흡연과 같은 폐암이 발생합니다 당신의 보험료 같은 말처럼 같은 확률로 상승 할 것입니다 T가 아닌 경우 데이터를 공유하면됩니다 그래서 이것을 콜렉션과 같이 생각하십시오

모두 나쁜 결과를 낳을 수 있습니다 이 데이터를 분석 한 결과로 발생합니다 말하면, 그런 일이 일어날 것입니다 어쨌든 거의 같은 확률로, 그래서 저는 여러분의 데이터에 정말로 의지하지 않고 있습니다 또한 최악의 보증처럼 매우 강하다

최악의 경우입니다 이웃하는 모든 데이터베이스 쌍, 가능한 모든 나쁜 결과의 모든 수집에 대해, 그래서 이것은 매우 강합니다 지금까지 질문 있니? 괜찮아 몇 가지가 있습니다 멋진 속성 차등 개인 정보 보호로서 바람직한 알고리즘 설계 도구

먼저, 후 처리에 강합니다 그래서 제가 차등 개인 알고리즘 M을 가지고 있다면, 그런 다음 다른 기능을 적용합니다 포스트 프로세스는 여전히 가질 것입니다 동일한 차등 프라이버시 보증, 그래서 이것은 실제로 적도 없다고 말합니다 내 차등 개인 알고리즘의 출력을 받아, 구석에 가고, 정말로 열심히 생각하고, 몇 가지 추가 계산을 실행하십시오

그것은 내 데이터를 리버스 엔지니어링합니다 그래서, 나는 적수가 없다고 약속하고 있습니다 이 프라이버시 보장을 깨뜨릴 수 있습니다 따라서 요구 사항이 없습니다 적의 계산 능력에 관해서, 오히려 이것이 같은 정보 이론적 보증

그것은 또한 적응력있게 잘 구성됩니다 그래서,이 말은 내가 K 다른 사설 메커니즘 및 그들은 각각 엡실론입니다 차별적으로 사적인 것입니다 그렇다면 내가이 모든 K를 구성한다면, 그렇다면 나는 엡실론을 더할 수있다 내 마지막 프라이버시 보장

그래서, 정말로 내가 뛰고 싶다면 다른 엡실론 무리 동일한 데이터에 대한 차등 개인용 계산, 엡실론은 단지 더할 것입니다 이 고급 버전이 있습니다 나는 오늘을 포함하지 않을 것이다 예를 들면, 이 M_i를 적응 적으로 선택하면 여전히 유효하지만, M_1을 처음 실행하고 그 다음에 결정할 M_2가 다음에 실행될 것이고, 이것은 여전히 ​​유지됩니다 여기 나도 마찬가지야

네가 가지고있는 곳의 이완 여기에 추가 델타 용어가 있습니다 부가적인 여유와 같이, 그래서 저는이 곱셈 적 매개 변수 Epsilon을가집니다 그리고 내가 델타 추가 여유분을 가지고 있다고 나는 오늘 그것에 대해 이야기하지 않을 것이다 그러나있을 것이다

몇몇은에있는 짧은 언급을 좋아한다 엡실론 델타 버전처럼 이것에 대해 지나가고, 그래서 엡실론 델타 (Epsilon Delta) 여기에 첨가제 델타 용어가 있습니다 따라서 고급 버전의 컴포지션 버전이 있습니다 Epsilons는 단지 합계하지 않고 사실 그것은 Epsilons의 L_2 규범처럼 보입니다 그래서 훨씬 더 좋은 구성을 얻을 수 있습니다

네가해야하는 엡실론에서 델타에서 추가 손실과 같습니다 그래서, 당신은 이것보다 더 잘할 수 있습니다 하지만 이것은 가장 단순한 버전과 같습니다 괜찮아 따라서 차등 개인 정보 보호가 왜 중요한지로 돌아갑니다

그래서 우리는이 매개 변수화 된 개인 정보 개념을 가지고 있기 때문에 나는 정보의 극단 사이를 부드럽게 움직일 수있다 나는 더 이상 가질 필요가 없다 데이터를 제공하거나 아니지만 나는 실제로 좋아할 수있다 얼마나 많은 정보가 있는지 계량해라 내 엡실론으로 새어 나오다

이 특정 계산을 내 데이터 집합에서 수행하면됩니다 우리는 그것들이 이러한 구성 보증의 후 처리 네가 원하면 차등 개인 알고리즘을 디자인하면 ~에 대해 추론해야한다 이것들은 매우 간단한 서브 루틴을 좋아한다 비공개로 설정하면 엡실론을 더할 수 있습니다

당신의 더 큰 더 복잡한 알고리즘 전체에서 그것은 실제로 그리고 이론적으로 사용되고 있습니다 그것은 여기에서 사용되고 있습니다 초대해 주셔서 고마워요 그래서 실제로 사용되고 있습니다

애플, 구글, 마이크로 소프트, 우버와이 인구 조사국 우리는 이제 풍부한 배경을 가지고 있습니다 둘 다 비공개 인 개별 알고리즘을 차별화합니다 유용성을 보장해야합니다 그래서 그것은 위대해 보인다

문제는 거의 모든 것입니다 그 작업은 정적 데이터베이스에서 작동합니다 그래서 우리는 정적 데이터베이스를위한 훌륭한 도구를 가지고 있습니다 우리는 성장하는 데이터베이스에는 거의 아무 것도 없습니다 이전의 연구는 오직 우리가 세는 것을 허용했습니다

비트 스트림에서 그리고 우리가 개인적으로 할 수있는 전부입니다 그래서 오늘 우리는 할 것입니다 점점 더 많은 데이터베이스에 개인적으로 더 많은 것들이 있습니다 먼저 우리는 응답을위한 매우 구체적인 도구를 참조하십시오 적응 형 선형 쿼리는 개인 복제 가중치 알고리즘을 기반으로합니다

그리고 우리는 왜 그것이 단지 증가하는 데이터베이스 케이스로 자연스럽게 확장됩니다 개선 방법을 보여 드리겠습니다 그것을 작동하게하고 우리가 이야기 할 것입니다 훨씬 더 일반적인 목적의 결과와 우리가 할 수있는 방법 기존의 정확성과 사생활 보호 정적 인 경우 보장 성장하는 환경으로 마지막으로, 이것은 첫 번째 논문입니다 이 주제에 관해서는 다른 유형의 성장 분석 할 것이고 그래서 나는 더 많이 이야기 할 것이다

이 작품으로 제기 된 질문에 대한 끝 내가 어디로 뛰어 들까? 시원한 좋아, 첫 번째 부분은 증가하는 데이터베이스를위한 개인용 곱셈 가중치 기하 급수적으로 대답하는 훌륭한 알고리즘입니다 많은 적응 적으로 선택된 쿼리들 그것은 매우 강력한 도구입니다

자연스럽게 성장하는 데이터베이스로 확장되지는 않습니다 그 예선의 슬라이드 하나만 먼저 따라서이 부분에 대해서는 우리 데이터베이스를 다음과 같이 저장하게 될 것입니다 히스토그램을 사용하여 데이터베이스를 벡터로 생각하면, 여기서 Ith 항목은 데이터 유형 I 인 데이터베이스의 항목 그래서 총 N 개의 데이터 유형이 있습니다 얼마나 많은 수의 각 유형을 보았습니까? 예를 들어 이것이 바이너리 데이터라면, 나는 당신이 질병이 있는지 없는지 세고 싶습니다

두 가지 유형이 있으며 더하기 또는 마이너스이고 그게 다야 그러면 이것은 튜플이 될 것입니다 어쩌면 얼마나 많은 사람들이 그들은 각각의 나이이며 그래서 이것은 내가 관대하다면 아마도 120 일 걸릴거야 그런 것들 그래서, 우리는이 경우에 대해 생각할 것입니다

그냥 선형 쿼리에 응답 각 쿼리의 위치 또한 벡터로 기술되어야하며 각 유형의 데이터 X_I에 가중치를 지정하십시오 우리는이 가중치가 한정되어 있다고 가정합니다 0과 1 사이 우리를 따라갈 중요한 것 대화는 실제 가치있는 쿼리의 민감도입니다 어느 쪽이 될 것인가? 그 쿼리 f의 최대 변화, 만약 내가 한 사람의 데이터를 바꿀 수 있다면

그래서 나는 무엇을 말할 것인가? 이웃하는 모든 데이터베이스에 대한 최악의 경우, 이 함수의 값을 얼마만큼 변경할 수 있습니까? 이러한 쿼리 클래스에 대해서는 델타 f는 1 사이즈 이상이어야한다 n 크기의 데이터베이스에 대해 n 마지막으로 우리는 알고리즘을 원합니다 정확하고 우리의 정확성 개념 이 알파 – 베타 정확도입니다 알고리즘 M, 알파 베타가 정확해질 것입니다

쿼리 클래스 F와 관련하여 모든 종류의 선형 쿼리를 생각해보십시오 그렇다면 모든 데이터베이스 f에 대해, 나는 매우 정확하게 대답 해 줄 것이다 모든 쿼리에 대한 내 알고리즘 그 확률이 ​​높은 클래스 >> 선형 쿼리 정의 네가 정규화하지 않은 것처럼 보이지만 당신처럼 감성적으로 보입니다 그래서 당신은? >> 그래, 그녀가 정상화하고있어

>> 네 나는 정상화 중이다 >> 네, 그게 어디 있니? >> 네, 그리고 여기에서 그것이 정규화되는 사실이 중요합니다 그래서, 네, 고마워요 네

>> 알았어 >> 이것은 약간의 악보 표기법입니다 여기이게 내가 할 수있는 상상이다 이 검색어를에 적용 내 메커니즘에 의해 산출 된 출력 그 표기법의 용이함을 위해서 저에게 허락하신 것 같이 괜찮아

여기 PMW 알고리즘이 있습니다 2010 년 하드 로즈 블룸 (Hard Roth bloom) 지수 적으로 많은 답변 적응 적으로 선택된 선형 질의 공개 히스토그램 Y를 유지하여 작동합니다 따라서 모든 정보가 포함되어 있습니다 알고리즘의 각 지점에서 지금까지 알고있는 것입니다

따라서 이러한 새로운 쿼리가 도착할 것입니다 온라인 및 알고리즘을 먼저 결정할 예정이다, 내 Y는 지금까지 꽤 예쁘다 답변을 잘 제공함 이 질의와 대답이 '예'인 경우, 그러면 그것은 쉽다는 것을 말할 수 있습니다 그냥 y의 f를 출력하고 나는 가지고 있지 않다 내 실제 데이터베이스 X를 만져야합니다

그렇지 않다면 f를 "Hard"로 분류하고 무엇을 출력 할 것인가? f에 대한 대답은 Y를 적절히 업데이트 할 것입니다 여기에서 중요한 아이디어는 중요한 개인 정보 유실 하드 쿼리는 이러한 것들 때문에, 난 정말 내 대답을 확인해야합니다 내 대답은 진정한 데이터베이스에 가까이 있습니다 그래서 나는별로 정보를 사용하지 않고있다 내 데이터베이스와이 작업 공간에 대해 잘 보여 주며, 시간이 갈수록, 이 Y는 X에 수렴 할 것이므로 나는 시간이 지남에 따라 하드 쿼리가 점점 줄어들고 있습니다

그러므로 전반적으로 사생활 침해는 거의 발생하지 않습니다 그림에서는 이것이 작동하는 방법입니다 나는 공공 히스토그램 y를 가지고있다 그것이 시작된다고 말하다 제복을 입은 다음 질의를 얻으려고합니다

예를 들어 이것은 내 검색어 f_1입니다 여기에는이 f_1에 해당하는 벡터가 있습니다 그리고이 쿼리를 통해 예측하는 것을 상상해보십시오 따라서 Y 값은 X 값보다 큽니다 그래서 이것은 다음과 같이 분류 될 것입니다

어려운 질문을 한 다음 이 벡터에 따라 다운 가중치 y 프라임을 씁니다 예를 들어, 1과 2에 대한 나의 손실이 너무 크기 때문에, 나는 체중을 줄이려고합니다 데이터의 종류, 여기서 한두 명은 그들이 더 낮고 그 다음에 가기를 희망합니다 정상화하고 더 많은 체중을 4로 밀어냅니다 어려운 질문에 대해서는 그 반대가 될 수 있습니다

내 f_1 모양이 어쩌면 이것과 나는 예측의 밑에 우리 그 때 동일한 곱셈 가중치 업데이트를 수행하려고합니다 내 공공 ​​히스토그램 Y를 조정하십시오 이 알고리즘은 시간이 지나면 볼 수 있다면 하드 쿼리 다음이 업데이트를 수행합니다 보장은 정적 알고리즘이 다음과 같습니다 데이터베이스, 쿼리 클래스, 프라이버시 파라미터, 정확도 파라미터, 및 크기 데이터베이스 및 그것은 엡실론 차등 개인, K 쿼리와이 알파에 대해서도 정확합니다

주목할 중요한 점은 이 1/3의 힘은 그것이 무엇이 일어나고 있기 때문입니다 우리의 연장선을 바꾸기 위해서 – 오, 사실 지금 생각해 봅니다 네? >> Alpha 표기법이 정확합니다 >> 알파는 첨가제입니다 네

나는 이미 그걸했다 괜찮아 네 그것은에 의존 잘 말하는이 잠재적 인 논쟁 결국 내 Y는 내 X 수렴하려고 그래서 이러한 것들은 아주 가깝게 될 것입니다 그래서 나는이 엔트로피가 느리게 시작한다는 것을 보여 주어야합니다

빨리 그걸 내려 간다 더 많은 어려운 질문에 답하고 아래에 또한 한정되어 있습니다 그래서 그것은 표준적인 잠재적 인 논쟁입니다 그래서 고정 된 데이터베이스의 경우에는 다음과 같이 보입니다 대부분의 로그 n에서 시작합니다

그건 그렇고 알고리즘은 Y를 초기화하는 것과 같은 것을 초기화합니다 육군 제복 히스토그램을 통해 시작합니다 로그 n 여기서 우리는 또한 할 수있다 의 함수로 계량화하다 학습 속도는 얼마나 빨리 이 잠재적 인 감소는 모든 HARD 질의 이 용어 알파는 네 개가 넘었습니다

최적의 학습 속도를 아래에 0으로 묶여있다 그래서 큰 데이터베이스가 커지면 어떻게됩니까? 아직도 이런 것들이 남아 있습니까? 오, 끔찍한 좋아 이 경우, 우리는 알파 제곱에 대해 최대 네 개의 로그 N 하드 쿼리를 누른 다음 그냥 같은 구성, 나는 그 다음을 보증 할 수있다

내 엡실론 손실은 작아 질 것입니다 >> 개인 정보 보호 상실의 측면에서, 이 정리는 그 대신에 N 엡실론 사생활 손실, 당신은 로그 N 엡실론 개인 정보 손실만을 얻고 있습니까? >> 네 네 >>이 N은 데이터 유니버스의 크기입니다 그러나 당신이 이것 같이 보는 경우에, 알파 제곱 용어와 같습니다

>> 거기에 로그 K가 있습니다 >> 네, 네 네, 좋아요 >> 그럼 실제로 할 수있어, 알았어 네

>> 경쟁 법칙은 당신에게 줄 것입니다 K 엡실론하지만 이제는 로그 K를 말하고 있습니다 >> 네, 그렇습니다 그래서 이것이 당신이 기하 급수적으로 대답 할 수있게하는 이유입니다 한 번 알파가 1을 명중하기 때문에 많은 질문, 그러면 당신은 더 이상 사실을 배우지 못합니다

그래서 나는 이제 대답 할 수 있습니다 – 그래서 나는 이제 K를 가질 수 있습니다 내 N에서 지수와 같다 내 정확성 손실이 너무 커지기 전에 네 이것의 핵심은 네가 실제로 대답하지 않기 때문에 모두가 당신은 그들 중 소수만 대답하는 것을 좋아합니다 >> 사실, 그것은 데이터 알고리즘의 곱셈 비율

네 좋아요,이 모든 것이 고정적으로 작동합니다 데이터베이스는 매우 강력합니다 이것은 놀라운 알고리즘이지만 작동하지 않습니다 더 많은 데이터가 도착하도록 허용하는 경우 그래서 우리는이 부분을 가지고 있습니다

이 그림을위한 크기 N의 우리 데이터베이스 새로운 데이터가 도착했다고 가정 해 봅시다 음, 내 엔트로피가 추가되면서 다시 돌아갈 수 있습니다 더 많은 항목과 그게 중요한 문제가 될거야 우리는 여전히 그것이 내려갈 것이라는 것을 보여줄 수 있습니다

이 어려운 질문에 대한 상당한 금액 그리고 그것은 여전히 ​​아래에 묶여 있었고, 그러나이 변화의 크기는 정말 큰 문제가 될 수 있습니다 실제로 이것은 이렇게 보일 수 있습니다 따라서 데이터베이스가 두 배로 커지면, 당신은이 로그 N을 알파 성장 이상으로 가질 수 있습니다 어느정도 공정 할거야? >> 우리가 말하는거야 그냥 이전의 정리를 확인하십시오

그래서 결국, 하드 쿼리가 거의 없으므로 공개 데이터베이스가 개인 데이터베이스를 공개했습니다 그래서 모든 비밀은 나간다 더 이상의 비밀은 여전히 ​​존재하지 않습니다 >> 그게 그걸 보는 한 방법입니다 그것을 보는 다른 방법은 내가 데이터베이스를 찾았습니다

이것은 동일한 통계적 특성을 공유한다 내 원래 데이터베이스로, 그러나 정확하게 동일 할 수도 그렇지 않을 수도 있습니다 그래서 관심있는 쿼리 클래스의 모든 쿼리에 응답하십시오 나도 그래 동일한 데이터베이스임을 보장하지 않습니다

>> 당신은 질의, 정적 질의 클래스 부드러워 질 것입니다 경쟁사와 다를 수 있습니다 네 >> 엔트로피는 다음과 같습니다 엑스

엔트로피가 더 작다 데이터베이스가 실제로 매우 높습니다 상대적 엔트로피는 더 작고 그들은 매우 유사합니다 네 그래서, 사실 어떤 시점에서, 일단 당신이 많은 하드 쿼리를 했어

정적 데이터베이스에서 응답 한 그러면 당신은 말할 수 있습니다 "나는 더 이상 이것을 실행할 필요조차 없다 그러나 나는 높은 확률로 그것을 안다 공개 히스토그램과 같은 이유가 모든 질문에 대답하는 것이 좋을지도 모른다 내가 수업 시간에 맞습니까? " 그래서 나는 그것을 본격적인 데이터로 게시 할 수 있습니다

그러면 마치 후 처리와 같습니다 그래서 그것은 마치 합계 차별화 된 출력의 사후 처리 개인용 알고리즘 다음으로 아직도 차별화 된 사적 자체를 좋아합니다 >> 또는 실제로 [들리지 않음] >> 그래, 맞아 이 성장이 실제로 얼마나 커질 수 있습니까? 그래서 나쁜 일입니다

그것은 일종의, 예? >> 그렇다면이 성장 모델은 무엇입니까? 항목 배치가 오래되었거나 좋아? >> 네, 좋은 질문입니다 그래서 여기, 우리는 말하고있다 쿼리가 도착할 것입니다 온라인과 데이터 포인트가 온라인으로 도착할 수 있습니다 여기서, 우리는 여기에 정말로 나쁜 상황을 보여주고 있습니다

내가 어디에서 잔뜩 사용하고 싶은지 내 하드 쿼리 및 새로운 데이터가 한꺼번에 도착하면, 그리고 나서 나에게 모든 것을 가져다 줄거야 더 어려운 것들 이전과 같은 장소로 돌아가십시오 엔트로피가 더 높기 때문에 이전보다, 심지어이 알파 용어 때문에 이것은 당신이 좋아할 수 있다는 것을 의미합니다 무제한의 HARD 질의

그래서 더 이상 만들 수 없습니다 그들이 가지고 있기 때문에 같은 주장 이 제한된 하드 쿼리 예산, 어떤 시점에서 나는 끝내야 할 것입니다 나는 정확하다고 말할 수 있습니다 그래서 정말로 생각해보세요 네

예 >> 왜냐하면 당신은 단지 추가하는 것을 보았 기 때문입니다 내가 곱셈을 허용하면 문제가되어서는 안됩니다 >> 예에 따라 – >> 좋아요

엡실론 곱셈기 당 하나, 나는 무엇이든을 좋아한다 당신이 말하기 때문에, 어떤 시점에서, 너무 많이 넣으면 히스토그램이 완전히 바뀔 수 있습니다 네 >> 기본적으로 다시 시작할 수 있습니다 >> 그래, 그래

그래서 무슨 일이 일어나는가? 마치 출발점과 같은 것이 상상 인 것 같습니다 중간에 우리가 상상해보십시오 이런 모든 공간의 프로젝트 2D 평면과 같은 데이터베이스를 사용할 수 있습니다 그래서 나는 중간에 시작했다 균일 한 분포이지만 여기에있는 것처럼 실제 축이 있습니다

그래서 저는 천천히 여기로 이사 할 것입니다 많은 하드 쿼리 및 어떤 적들은 극적으로 변화 할 수있다 내 축은 여기 있습니다 그래서 저는 많은 사람들처럼해야 할 것입니다 더 많은 하드 쿼리 더 처음에는 그곳에 가기가 힘들었습니다

그래서 이것은 일종의 갈망이 될 수 있습니다 기본적으로 영원히 앞뒤로 그래서 우리는 그것을 고쳐 쓴다 사실, 정말로 새로운 데이터를 얻 자마자, 나는 제복에 더 가까워지기 위해 제 몸무게를 재검사 할 것입니다 이 예제에서와 같이, 여기에있는 대신에, 그리고 x를 여기로 가져 가라

나는 엄청난 수의 하드 쿼리를 가져야한다 내 데이터베이스가 크게 성장 했나요? 나는 자동으로 뒤로 이동하고 싶다 센터 또는 클로즈 샵으로 그런 다음 HARD 쿼리를 통해 이동을 시작하십시오 우리가 말하기를, 나는 내 현재 y와 난 다시 정상화거야

내가 n 포인트를 가지고 있다고 상상해보십시오 새로운 것이고 그 다음에 나는 말할 것입니다 그러면 지금 정상화 된 것을 읽을 것입니다 내 오래된 y 사이 볼록 조합 및 균일 분포 이것은 엔트로피의 잠재 성장과 같은 경계선입니다

그래서 우린 다시 좋다 그래서 주요 결과 이것을 PMWG와 같이하는 것으로, 여기서 G는 성장을위한 것이다 정말로 PMW와 정확히 똑같은 것, 우리는 우리가받는대로 바로이 업데이트를합니다 새로운 데이터 항목 및 업데이트가 데이터의 내용에 의존하며, 그들은 그렇게함으로써 개인 정보 보호 상실을 초래하지 않습니다 죄송합니다

이 N이 뭐지? >> 그것은 데이터 우주의 크기입니다 >> n은 무엇입니까? >> 그것은 시작 데이터베이스의 크기입니다 그래서 나는 그것이 엡실론 일 수 있다고 말한다 차등 개인 알파 – 베타 정확 이 알파의 경우, 매 시간 T마다, 고정 된 쿼리 예산을 갖기 전에, K 질문에만 대답 할 수있었습니다

하지만 이제는이 일을 시작할 수 있습니다 시간이 지남에 따라 기하 급수적으로 증가하고 있습니다 따라서 데이터베이스가 커짐에 따라, 나는 이제 더 많은 질문에 기하 급수적으로 대답 할 수있다 도착한 새로운 데이터를 활용합니다 또한 점심 손실이 없습니다

정적 인 경우와 비교하여 정확도가 높습니다 우리는 인쇄하기에는 너무 추한 상수를 가지고 있습니다 따라서 일정한 손실이 있습니다 그러나 점근 적으로, 괜찮습니다 이 논문에서 우리는 이것을 엡실론 델타 차이 사생활 보호 이 강한 구성을 통해, 사실 우리가 할 수 있음을 보장한다

우리의 사생활에서 약간의 작은 손실로 알파를 향상시킵니다 >> 그래서 당신이 만드는 다른 것은 공개 히스토그램은 무엇에 대해 완전히 변하지 않는다 새로운 데이터는 응답하는 사람이 있기 때문입니다 HARD 쿼리 또는 민감도가 제한되는 항목 >> 네 >> 알았어

네 실제로 업데이트가 중요합니다 당신이 본다면 데이터에 의존하지 않습니다 데이터를 업데이트 한 다음 업데이트 방법을 결정했습니다 네

>> 이제 개인 정보 보호 예산에 반영하십시오 >> 알았어 네 >> 명확한 질문 그래서 적어도 알고리즘 설명, 그것의 유일한 원천처럼 보였다

쿼리 스트림에서 무작위가 유입되고, 나는오고있는 질의의 종류를 의미한다 알고리즘에 알고리즘은 결정적입니다 >> 네 나는 거기에 조금 거짓말을했다

>> 알았어 >> 사실, 나는 어디에서 지적 할께 그러나 그것은 큰 포획입니다 >> 아니, 거짓말 했어, 그걸 보여줄 수있어 그래서 여기에 노이즈를 추가하는 방법이있을 것입니다

그것은 당신이 시끄러운 대답을 제공한다는 것입니다 힘든 경우 쿼리로 내가 거짓말 한 부분 당신이 실제로 결정할 프라이버시 보존 방식 쿼리가 쉽거나 빠를 것입니다 그래서 무작위로해야합니다 그래서 당신은 몇 가지 법률 때문에 당신이 말하는 몇 가지 질문이 있습니다 "그들은 쉽다"그리고 당신은 방금 격렬하게 잘못된 대답처럼 출판하십시오

그러나 그것은 낮은 확률의 사건입니다 또한 우리는 질의가있을 때가 될 것입니다 네 말이 맞아 당신은 당신의 하드를 태워 버릴거야 검색어 예산이 잘못되었습니다

그러나 다시 낮은 확률의 사건입니다 >> 우리는 거짓말을하지 않았고 단지 소음을 추가했습니다 >> 거기 있네 차별적 인 사적 진리였습니다 그걸 우리 대통령에게 전하십시오

괜찮아 다음 슬라이드 괜찮아 그래서, 그게 내가 가진 전부 였어 계속 진행하기 전에 이에 대한 질문이 있습니까? >> 30 플러스이지만 그 이상입니다

이것과이 K 지수 뿌리를 곱하면, 그리고 이것은 당신이 여분을 잃는 것입니까? >> 그건 우리가 얻는 것, 여분의 것입니다 예, 손실은 실제로 그대로입니다 일정하고 당신은 얻는다 더 많은 쿼리와 트릭에 대답 할 수있는 능력 >> the-로 돌아갈 수 있습니까? >> 네

>> 알았어 >> 원래 결과? >> 네 >>이 케이 둘 다 없었어? 이것은 상수가 아닙니다 그래서 K에서 K 제곱근 또는? >> 지수는 사실입니다

네 >> 나는 일정한 K가 분명히 있음을 의미합니다, 그렇죠? 네 나는 상수가 있다고 생각한다 >> 작습니다 >> 네, 여덟 개 정도 같아요

그렇게 합리적인 네 >> 당신의 결과는 무엇입니까? >> 내 결과는 – >> 시력이 있니? 네 괜찮아

>> 그래서 T는 무엇입니까? >> T는 무엇입니까? >> 자본금 T >> 네, 모든 시간 동안 T >> 타임 스탬프에서 K를 루틴에 넣습니다 >> 네 여기이 끝은 오해의 소지가 있습니다

우리가 이것을 조정하고있어 이 K가 일종의 통합이기 때문에 여기에 몇 가지 다른 것들이있어서 끝은 실제로 동일하게 튀어 나올 것입니다 그러나 그것은 오도 된 것처럼 보인다 그래서, 사실 이것은 말합니다, 이제 모든 타임 스탬프 T와 같을 수 있습니다 >> 그래서 인스턴스화하고 싶다면 이 정적 데이터베이스 T로 무엇을 설정해야합니까? 힘든 시간

>> 그러면 T equals를 설정하면됩니다 N을 한 번 실행하면 완료됩니다 여기에서 우리는 시작하려고합니다 더 많은 데이터베이스의 시간 N은 크기 N입니다 >> 알 겠어

네 >> 엡실론 – 델타가 아닌가? >> 맞아 우리는 다른 버전을 가지고있다 그것은 엡실론 델타입니다 사실, 알고리즘은 동일합니다

그러나 그것의 분석은 이 다른 구성 정리 >> 개선에 대한 관계 당신이 그것을 풀 때 얻을 엡실론 – 델타처럼 더 나은 개인 정보 손실이 있습니까? >> 나는 그것이 뭔가라고 생각한다 이 K가 제곱근 K가되는 것과 같습니다 당신은 더 약한 프라이버시 보장을하고 상수를가집니다

>> 데이터베이스가 어떻게 커지고 있는지 수량화되는 곳은 어디입니까? >> 나는 그것이 그녀가 의미하는 것입니다 네 그래서, 내가 매 시간마다 하나의 새로운 데이터 포인트가 있으므로 시간 T에, 크기가 T 인 데이터베이스가 있습니다 >> 네가 말할 때마다, 네 T 광장 >> 그래서 T와 K를 루트 10에 비교합니다

맞습니다 >> 그래서, 당신은 잃게됩니다 나는 그들의 결과를 의미한다 K가 T와 같이 T의 힘을 가졌지 만, T에서 지수 함수가되지만 T의 제곱근을 잃어 버린다 그래서 그들이 가질 수있는 것보다 더 적습니다

>> 나는 그들이 고정 된 상수 T를 가졌다는 것을 의미한다 >> 좋아 네 미안 해요 고정 상수가 있습니다

>> 아직도 변함이 없지만 잃어 버리는 것, Morris 결과처럼, 나는 Ke를 생각할 수있다 그러나 당신은 힘을 제곱으로 잃습니다 왜냐하면 그들은 기하 급수적 인 질문에 대답 할 수 있기 때문입니다 >> 같은 데이터베이스 크기 네

>> 같은 크기, N >> 네가 말하는거야, 우린 그걸 알아야 해 그래서, 그것은 1 퍼센트의 오류로, 당신은 기하 급수적으로 만들어진 쿼리에 대답 할 수 있습니다 >> 네, 맞는 말이군요 네 그럼, 가져 가자

나는 두 부분으로 나눌 수 있기 때문에 오프라인으로 이야기 해 봅시다 시원한 이제는 좀 더 일반적인 것들에 대해서 이야기 해 봅시다 우리가 우리는이 강력한 개인 알고리즘을 확장 할 수 있습니다 그러나 나는 단지 더 많은 것을하기를 원할지도 모른다

적응 선형 쿼리에 응답하십시오 그래서,이 부분에서, 우리는 일반적인 틀에 대해서 이야기 할 것입니다 할 수있는 동적 설정을 정적 설정으로 줄입니다 그래서 저는 정말로 그것을 블랙 박스로 가져갈 것이라고 말하고 있습니다 일부는 정확한 정확한 정적 알고리즘 그리고 그들은 그것을 다음과 같이 사용하고 싶습니다

서브 루틴의 경우 동일한 문제를 해결하기위한 데이터베이스가 증가하고 있습니다 그래서 여기에 쉬운 K가 있습니다 어쩌면 나는 N 개의 데이터 포인트와 같을 것이다 도착한 다음 K 개의 쿼리가 있습니다 도착하고 대답하고 싶다

이 데이터베이스에서이 K 개의 쿼리 그렇다면 내가 언제해야하는지 쉽게 알 수 있습니다 내 정적 알고리즘을 실행, 새 데이터가 충분 해지고 충분한 새로운 쿼리 및 그걸에 연결하려고합니다 내가 좋아하는 알고리즘을 찾아 다시 실행하십시오 큰

그러나 이것이 실제로 데이터 증가가 어떻게 보이는지는 아닙니다 데이터가 도착했을 수도 있습니다 이 아주 폭발적인 방법 아마도 당신은 쿼리와 비슷할 것입니다 그것은 어느 시점에서와 같은 것인가? 다시 실행 내 정적 알고리즘처럼 보인다 내 데이터베이스를 어떻게 키울 수 있는지, 내 검색어가 온라인에 도착합니다

나는 시간 T에 다시 말할 것이다 크기 T의 데이터베이스를 생각해 보겠습니다 각 시간 단계에 도착하는 하나의 새로운 지점을 좋아하십시오 그래서, 내 T는 셀 것입니다 내 시간과 내 데이터베이스의 크기

따라서 이것은 이전과 같은 정확도 정의입니다 하지만 이제는 다소 이상한 점을 정의 할 필요가 있습니다 그것은 모든 분석에서 중요 할 것입니다 PG 블랙 박스와 그는 정말로 내가 분해하는 것처럼 갈거야 내 무언가에 대한 알파 보증 베타 엡실론과 N에서 어떤 힘 p와 그러면 쓰레기가 앞으로 나올거야

나는 이것을 다음과 같이 생각한다 일부는 문제 별 매개 변수와 같습니다 어쩌면 그것은 나의 데이터와 같은 차원 일 것입니다 어쩌면 내 상수일지도 몰라 어쩌면 당신이 convexity 매개 변수를 아는 것 같습니다

그러나 정면처럼 사물처럼 단단해질 것입니다 당사의 정확성 보장은 이 힘 P에 그래서 그것이 왜 우리가 그것을 꺼내는 것이 중요합니다 PG 블랙 박스가 보이면, 생각 나는 파티션을 싫어한다 내 알파는 베타에 의존하는 것으로, 엡실론과 N 그리고 그리고 나서 우리 문제와 같은 특정 매개 변수가 있습니다

이것을 좀더 구체적으로하기 위해서, 내가 너에게 일반 결과 나는 너에게 보여줄거야 PG 블랙 박스와 당신이 할 수있는 방법 이 블랙 박스 알고리즘의 실행을 다시 스케줄한다 데이터 증가의 기능을합니다 그래서 우리는 작은 DB 알고리즘을 가지고 있습니다 Blum이 Roth에게 2008 년 차등 개인 알고리즘 합성 데이터를 만들기위한 것입니다

그래서, 데이터베이스 X를 취합니다 크기 N 그리고 우리는 데이터를 가진다; 유니버설 캐피털 N 및 질의 클래스 F, 그리고 그것은 단지 크기의 데이터베이스 Y를 생성하려고합니다 내 쿼리 클래스의 로그에 따라 다릅니다 내 원하는 알파 제곱 이상 Y를 바이어스 방향으로 샘플링하려고합니다

밀접하게 연결할 수있는 데이터베이스 내 진실 된 데이터베이스를 내 쿼리 클래스 F 그래서, 이것을 비 적응 버전처럼 생각하십시오 BMW 알고리즘의 내 모든 것을 미리 지정하는 법 그들이 어떻게 앞을 내야하는지 제가 궁금해하는 쿼리 클래스가 마음에 드십니까? 그리고 나서 나는 출판하려고합니다

나에게주는 몇 가지 y 대략 정답으로 그것에 대한 높은 확률 여기 SmallDB 정리가 있습니다 Epsilon은 개인, 이 알파에 대해 알파, 베타 정확합니다 이것은 꽤 추한, 이제 이것을 RPD 블랙 박스로 분해 해 봅시다 그래서, P는 우리의 힘입니다

그래서 우리는 가지고 있습니다 베타를 통해 로그인 엡실론은 온통 3 분의 1의 힘으로 제곱되었습니다 그래서 내 능력은 1/3이다 그리고 나서 나는이 다른 것들을 가지고있다 상수는이 큐브 루트까지 64가됩니다

그래서 저는 힘이 있습니다 P, 그럼 내가 가지고있어 내 문제에 달려있는 다른 것들 따라서 PG는 이러한 매개 변수에 대해 블랙 박스를 사용합니다 자, 우리가 이것을 어떻게 재실행 할지를 보자

내 데이터베이스가 커지면서 여러 번 그래서 정말로, 나는 단지에 갈거야 서로 다른 시간에 동일한 정적 알고리즘을 재실행하고, 때때로, t_i는 같음 하나의 감마에 힘을 곱하기 감마가 1 미만인 경우 n 나는 매번 데이터베이스를 만들 예정이며, y_i 여기 무슨 일 이니? 나 그냥 갈거야

나는 지수 적으로 알고리즘의 실행을 지연시키는 것처럼, 마일 황홀 알고리즘, 및 해당 경계 베타 또는 감마는 저 지수의 기초를 알려줍니다 그래서 감마가 하나 인 경우, 내 데이터베이스가 크기에 따라 커질 때마다 마찬가지입니다 엔 만약 그것이 0이라면, 그렇다면 그것은 선형 성장입니다 하나는 기하 급수적 인 성장입니다

그래서이 감마는 일종의 곡이 될 수 있습니다 내가 얼마나 빨리 원하니? 내 성장의 함수로이 알고리즘을 다시 실행 하시겠습니까? 그래서, 저는 이것을 생성 된 알파 스트림처럼 가지고 있습니다, y_i, 그리고 나는 그 데이터베이스를 사용하여 도착할 때까지 도착한 모든 검색어 다음에 Smalldb를 다시 실행합니다 어서 괜찮아 열쇠가 필요해

이 지수 적 지연 감마의 최적 튜닝 따라서 이렇게하면 우리는 증가하는 데이터베이스 환경에서 작업 할 수 있습니다 그리고 상황은 기본적으로 이전과 동일합니다 하지만 지금은이 5 분의 1을 대신 가지고 있습니다 전에 1/3 힘의

그래서 이것은 구체적인 예입니다 누가 진짜보고 싶어? 시원한 아무도 예 Booo

괜찮아 응? 문을 잠그세요 괜찮아 여기 모든 것이 있습니다 나는 너를 각 단계를 거치며 걷고 싶다

하지만 핵심 아이디어는 PG 블랙 박스를 사용하려고합니다 나는 그것을 다시 기하 급수적으로 간격을 둔 시간 확실한 보증을받을거야 이 손실, 하나의 힘에 2 플러스 1을 더한 것 정적 설정에서의 동일한 문제에 비해 전에, 나는이 PG 블랙 박스를 가지고 있었기 때문에, 그래서 권력에 G를 곱한 것이 었습니다

p와 나는 나의 정확성의 힘에서 방금 잃었다 그게 전부 야 괜찮아 그래서,이 모든 것들이 무엇을 의미합니까? 그래서 감마는 제 지수의 밑 부분입니다 데이터 증가와 무관 한 노드, 그래서 이것은 시간이 지남에 따라 고정되어 있습니다

이것은 지수와 얼마나 자주 나는지의 지연입니다 고정 개인 정확한 고정 알고리즘에 의해 재실행해야합니다 엡실론 스, 우리는 각 단계에서 그들을 조정하여 우리의 구성은 우리에게 우리의 전반적인 엡실론 보장까지 그래서 우리는 원하는 엡실론을 가지고 있습니다 이 모든 시간을 합하면, 이것은 단지 엡실론으로 수렴하려고합니다

각 시간에 알파, t_i는 이것이 될 것입니다 이것은 단지 정확성 보장입니다 정적 알고리즘이 있습니다 PG 블랙 박스가 있다면, 이 알파는 시간에 알고리즘을 실행하면 자연스럽게 발생합니다 t_i, 나는하고 싶다

내 베타 테스트 때와 똑같은 일이야 각 라운드에서이 독립적 인 실패 확률을 갖는다 나는 단지 Theta가 일부 전체 데이터에 수렴하기를 원한다 내가 노조를 탈 수 있도록 그들의 실패 가능성에 묶여있다 일어나고있는 일이 많지만, 실제로는 매우 간단합니다

고정 된 정적 알고리즘을 사용하고 있습니다 나는 그것을 단지 재방송 할 예정이다 적절한 시간 내 데이터 증가 측면에서 간격을두고 있습니다 이 논문의 일부 확장은 우리가 이 엡실론 델타는 개인용 버전을 차별화합니다 그래서 여기에서도 다시이 정확도가 향상되었습니다

약간 약한 프라이버시 보장 비용 우리는 또한 다른 알고리즘을 제공합니다 지금과 같은 정신으로 시간이 지남에 따라 향상되는 정확성 보증 그래서, 이것은 내 알파가 단지 일정한 것이 아니라고 말합니다 하지만 사실, 내 정확성이 가고 있습니다

데이터베이스가 커지면 완벽하게 접근하십시오 그래서, 이것은 당신이 생각하는 사람을 충당합니다 귀하의 데이터에 대한 문제는 IED에서 샘플링됩니다 당신이 가진대로 당신은 기대합니다 그것은 임의로 큰 표본이고, 그러면 당신은 임의로 잘해야합니다

그래서,이 개념은 그 종류의 문제 이 알파 T가 시작됩니다 고정 정확도 보장보다 약한, 그러나 그것은 한 번 더 강해진다 데이터베이스는 대략 사각형 크기입니다 우리는 또한이 알고리즘을 어떻게 적용 할까를 확장한다

경험적 위험 최소화 큰 샘플을 가지고 있다면, 그러면 더 잘해야합니다 내가 몇시에 끝내야 할까? >> 1:30 >> 알았어 좋아, 그럼, 나는 결과를 여기에 진술 할 것이다 나는 ERM 배경을 부여하지 않을 것이다

그래서, 이것이 멋진 것이 무엇인지 안다면, 그렇지 않으면 30 초 동안 낮잠을 잘 수 있습니다 >> 그래서, 왜 이런 상을 좋아합니까? 높은 수준의 직감 이전 결과, >> 이거? >> 다른 하나 그 정리는 당신처럼 말입니다 >> 이거 네

네 >> 왜냐하면, 나는 그것을 사용한다 >> 그럼, 테이크 아웃은, 그게 정말로 손실과 연장의 정확성입니까? 정적 인 알고리즘 성장하는 경우는이 힘에 달려 있습니다 그래서 이것은 당신이 얻는 유일한 손실과 같습니다 그것은 단지에 달려있다

당신이 시작하는 원래의 알파 이것은 또한 영원히 계속 될 수 있습니다 따라서 데이터베이스가 지속적으로 성장하는 한, 이에 대한 쿼리에 계속해서 응답 할 수 있습니다 그리고 당신은 여전히 ​​같은 것을 유지할 수 있습니다 – >> 왜냐하면 내가 이해하는 방식으로 귀하의 알고리즘은 실행중인 것입니다 당신이 다룬 블랙 박스 특정 선택된 간격으로, 맞습니까? 감마를 수정하면 이러한 간격 정반대입니다

어쩌면 기하 급수적으로 커지는 크기 같아요 네 >> 그럼 너 그냥 갈거야? 그것에 작곡을 적용하는 것, 그것에 경쟁을가한다 그렇지 않습니까? >> 그래, 그래, 그래 정적 알고리즘은 높은 확률을 끌어 올린다

나는 대략 정확할 것이다 그리고 노동 조합에 가입 할 수만 있다면 그 높은 확률의 사건들을 영원히 그럼 당신은 여전히 ​​높은 확률의 동일한 사건을 가질 것입니다 모든 검색어에 대해 올바른 결과를 얻을 수 있습니다 더 많은 데이터를 계속 누적하면 영원히 >> 물론 괜찮아

>> 그래, 그래, 그리고 또한 우리가 알고 있다고 가정합니다 이 알고리즘이 어떻게 작동하는지에 대해서는 아무것도 없습니다 그들은 그것에 대해 구체적인 것을 알 필요가 없습니다 나는 단지 저에게 무언가를 전해 주겠다고 말했습니다 정확하고 사적이며, 그리고 붐, 그것은 지금 정적 설정에서 작동합니다

네 >> 데이터베이스가 커지고 축소되는 경우에는 어떻게해야합니까? 현재 제거중인 데이터 요소가있는 경우, 이것은 현실 세계의 제약과 같다 우리가 가끔 보는 거 맞지? 유연한가? 10 데이터 포인트를 얻었지만 3 점을 잃는 것처럼 >> 어쩌면 당신은 그녀가 그녀의 말을 끝내게 할 수 있습니다 네 >> 미안해

네 하지만 그건 실제로 아주 좋은 질문이며 두 개의 슬라이드에서 나는 공개 질문에 대해 이야기 할 것입니다 그게 바로, 진짜야 우리는 이것이 하나의 매우 구체적인 유형의 성장, 하지만 다른 유형이 많이 있습니다 발생할 수있는 변경 사항 >> 방해해서 죄송합니다

네 확실한 괜찮아 어쨌든, 이것은 기술 슬라이드처럼 마지막입니다 그래서 나는 일종의 것들을 정리해 놓을 것입니다

그래서,이 알고리즘을 적용하기 위해 시간이 지남에 따라 정확성 보증이 향상됩니다 경험적 위험에 대해 알아 봅시다 그래서, 여기에 우리는 엡실론 델타 차등 개인 정보 보호 의미있는 구성을 얻는다 그래서, 만약 당신이 높은 확률로 D 차원 샘플 모든 시간 T, 당신은 분류자를 출력 할 것입니다 이것은 과도한 경험적 위험이 있습니다

그리고 그것을 에 대한 엡실론 (Epsilon) 차등 프라이버시, 이게 우리 블랙 박스 야 우리가 이것을 적용하기 때문에 우리가 사용하는 우리는 매번이 작업을 재실행합니다 그래서 D와 beta에 대한 우리의 의존성은 같습니다 델타 때문에 약간의 손실이 있다면 우리가 어떻게 아래쪽에 있었는지, 우리는 그들의 T와 비교 된 루트 T와 같습니다 그것은 유일한 손실과 같습니다

그래서, 만약 당신이 원하면 여기서 내가 개인적으로 성장하는 데이터베이스에있어,이 작품 좋아하는 정적 ERM 알고리즘을 선택하십시오 이 환경에서도 작동합니다 물론 T가 커지면 그러면 당신은 아주 잘할 것입니다 이 논문에서 우리는 또한 네가 가진다면 더 강한 경계 손실 함수에 대한 더 많은 가정은, 강하게 볼록하다면 잘 할 수 있습니다

괜찮아 그래서, 열린 질문과 나는 그것이 정말로 실제로 있다고 생각한다 이것이 중요하기 때문에 하나의 매우 특별한 유형의 성장, 하지만 다른 실용적인 유형의 성장을 지적했습니다 내가 생각할 수있는 다양한 질문이 여기있다 이 것은 기본적으로 완전히 열려 있습니다

당신이 가진다면 어떻게 더 잘할 수 있습니까? 데이터에 대한 추가 가정? 그래서 여기에 우리가 가정했습니다 최악의 경우의 적대적인 데이터 증가, 어쩌면 데이터 포인트가 잘 샘플링 된 것일 수 있습니다 그러면 더 잘 할 수 있어야합니다 얼마나 좋아 졌니? 나는 모른다 어쩌면 그들은 IID로 꽤 안정적이지 않을 수도 있습니다

하지만 그들은 일부는 부드럽게 변화하는 분포 그래서, 과거에 배웠던 것들은 여전히 ​​있습니다 대체로 정확하고 당신은 그들을 조금 적응시키고 싶을지도 모른다 이러한 부드러운 변화를 수용하기 위해 어떻게해야합니까? 모르겠다 너는 또한 할 수도있다

언제 가지고 있는지 알아 내라 이는 데이터의 극적인 변화를 좋아합니다 그래서, 나 자신과, Sara Kreeble, 예진 메이, 토라 레이, Ron Sing, 여기서 우리는 차별화 된 개인 변경점 탐지를 수행하십시오 "나는 신원을 밝히고 싶다 와우, 내가 지금보고있는 샘플들

극적으로 다른 나는 과거에 본 것들을 " 그래서, 이런 종류의 쌍은 이것과 잘 어울립니다 그것이 부드럽게 변하지 않는다고 말하면서, 그러나 그것은 한때 그리고 극적으로 변하고 있습니다 AB 테스트와 같은 일을하고 싶을 수도 있습니다 귀하의 포인트가 온라인으로 도착함에 따라, 너는 개인적으로 말하기를 원한다

"나는 내 치료법과 B 치료법은 동일하거나 그렇지 않습니다 " 다른 많은 유형과도 비슷합니다 발생할 수있는 성장의 예를 들어, 그는 소리와 같은 변화를 원할 수 있습니다 휘젓다거나 될 수있는 데이터 포인트 삭제되거나 삭제 된 것처럼, 이 글에서이 모든 것이 설명되지는 않았지만, 그러나 그것은 매우 실제적이고 매우 실제적인 타입이다 우리가 보는 변화의 유형

수평 적 세타 성장의 경우도 있습니다 데이터를 행렬로 보는 것이 좋습니다 나는 한 사람 한 사람 한 명씩 어떻게 달아나? 어쩌면, 나는 새로운 행을 모으는 것과 같은 것이 아니라, 이 신문에서와 같이,하지만 나는 같은 사람들에 대한 새로운 칼럼들을 축적합니다 그것은 또한 여기에 설명되지 않습니다, 그러나 매우 실제적이고 매우 실용적인 것도 있습니다 그래서 나는이 질문들이 완전히 열리고 아주 중요하다

비공개로하는 방법에 대한 조건 그게 다야, 고마워 >> 그럼, 너희들이 원하는 경우 더 많은 질문을 할 수있을거야 또한 레이첼은 금요일까지 여기에 있습니다 그렇다면 너는 나에게 전화를하고 싶다

나에게 이메일을 쏴라 나는 무엇인가를 세울 것이다 쪽으로 더 많은 질문이 있습니까? >> 우리는 아래 경계를 알고 있습니다 증가하는 데이터베이스는 기본적으로 전체 데이터보다 어렵습니다

>> 실제로 가지고 있지 않습니다 이 특별한 경우에, 그게이 사건이 크게 다른 점이야 이 두 가지 경우에서 이 질문은 각 쿼리의 이러한 민감성으로 이어집니다 크기, 가치의 존재, 하나는 데이터베이스 크기 이상입니다

따라서, 더 크고 더 큰 데이터베이스를 얻으면, 각 개인의 데이터 요소는 중요하지 않으며, 그래서, 당신은 자연스럽게 더 큰 데이터베이스에서 더 많은 쿼리에 응답하십시오 그래서, 어떤 의미에서 그것은 정말로 이 모든 결과의 핵심은 우리가 말하고있는 것입니다 "데이터가 커지는 한 검색어가 도착하는 것보다 빠릅니다 그렇다면 당신은 영원히 괜찮습니다 "That's- >> 데이터와 비교할 수 있습니까? 이것은 영원히 가지 않는다는 것입니다

네 >> 정적 크기 데이터베이스와 비교할 때 – >> 오, 그래 그렇다면 당신은 모든 것을 갖지 못한 것입니다 처음 엔 뭐가 들었 니? 네 네

그래 물론 >> 이러한 보증은 당신이 그 사건에서 얻는 것 >> 네 >> 질문은 그들이해야 할 일입니까? >> 그들은 그래야합니다 왜냐하면 당신이 기다릴 거라면 모든 것이 도착할 때까지 당신은 단지 질의에 대답 할 것입니다

그때 너는 단지 갈거야 오, 안돼 네 >> 나는 대답 할 것이다 맞습니다

온라인으로 대답합니다 문제는, >>에 비교 네 비교했다 >> 그래, 네가 기다릴 때까지

당신이 모든 것이 도착할 때까지 그 끝 그러면 모든 쿼리에 대해 대답 할 수 있습니다 귀하의 개인 정보 보호 예산이 너보다 훨씬 더 낮아질거야 이 질문에 많은 답변을해야했다 중간에 그리고 마지막에

자연스러운 프라이버시 정확도 교환이 있습니다 더 많은 질문을하는 방법 대답과 당신이 태우는 더 많은 사생활 보호 예산, 필연적으로 귀하의 정확성 보상하기 위해 더 나쁘다 그래서, 당신은이 많은 것들을 보았습니다 >> 처음에는 당신이 좋아요 쿼리의 민감도도 더 큽니다

마치 한 명만있는 것처럼, 물론 대답을 원한다면 변화가 훨씬 더 커졌습니다 그래서, 처음에 그것은 급격히 상승했습니다 네 예 글쎄, 첫 번째 당신이 가질 때까지 기다리는 것이 가장 좋습니다

세계의 모든 데이터와 너는 다만 그때 질문에 응답한다 물론 분석가로서 쓸모가 없다 그 동안 정보를 원하기 때문입니다 그래서 이것은 말하고 있습니다 "당신은 네가 그렇게해도 나쁘지 않다

계속해서 질의에 응답 할 수있다 그 사이에 그 끝에 " >>이 모델은 다음과 매우 유사합니다 동적 알고리즘, 정확히 거기 네

네 많은 사생활 보호 공간에있는 것들 그들은 "동적"이라는 용어를 사용합니다 즉, 쿼리가 온라인에 도착했습니다 그래서, 적응 적으로 도착하는 것과 같습니다 고정 된 데이터베이스에 대한 쿼리와 다소간의 첫 번째 작업입니다

동적으로 변경되는 데이터베이스를 고려합니다 >> 또 다른 일은 좋을 것입니다 그냥 두 번째 요점이라고 생각합니다 실제로는 솔루션 변경 내가 그들을 정렬 할 것인가? 내 액션, Instagram이 몇 번이나 변경됩니까? >> 네 네

>> 그래서, 우리는 그 측면에서 양을 측정 할 수 있습니다 네 네 >> 그것은 두 번째 요점입니다 >> 그래서,이 논문에서 방금 말한 변화가 언제 일어 났는지 알아 내려면 그러나이 결과와 결합하지는 않습니다

나는 또한 그것이 열려 있다고 생각한다 "그래서, 이제 나는 다른 데이터를 가지고 있고 나는 이 알고리즘을 다시 실행하게됩니다 " 얼마나 많은 양을 정량화하는 것 같아요 끝났어 이 사건은 이러한 모든 질문에 묶여 있습니다